Home
Téléchargez le manuscrit (au format pdf)
Contents
1. SUJ SN P O SUJ SN OBJ SN SUJ SN SUJ SN OBJ SINF SUJ SN OBJ PropSub SUJ SN REF ref1 SUJ SN DE OBJ SP lt de SINF gt SUJ SN A OBJ SP lt a SN gt SUJ SN OBJ SN A OBJ SP lt a SN gt SUJ SN A OBJ SP lt a SINF gt SUJ SN DE OBJ SP lt de SN gt SUJ SN ATTS SA SUJ SN REF ref1 DE OBJ SP lt de SN gt SUJ SN ATTS SN SUJ SN REF ref1 A OBJ SP lt a SN gt SUJ SN P OBJ SP lt sur SN gt BJ SP lt dans SN gt BJ SP lt a SN gt DE OBJ SP lt de SINF gt BJ SP lt de SINF gt BJ SP lt SINF gt refl A OBJ SP lt SINF gt BJ SP lt dans SN gt SN DE OBJ SP lt de SINF gt OU OU OU OU NNN Un Ur Ur NANA O O O Un O NNN NNN NNANNANANANANNNNNNN NH REF refl P OBJ SP lt sur SN gt DE OBJ SP lt de SN gt BJ SP lt sur SN gt efl P OBJ SP lt dans SN gt BJ SP lt en SN gt BJ SP lt avec SN gt BJ SP lt comme SN gt SUJ SN A O SUJ SN ATTS SINF SUJ SN REF refl DE O SUJ SN OBJ SN A O SUJ SN REF SUJ SN OBJ SINF OBJ SN SUJ SN OBJ SN P O SUJ SN P OBJ SP lt avec SN gt SUJ SN OBJ SUJ SN SUJ SN OBJ SN ATTO SA SUJ SN P OBJ SP lt par SINF gt SUJ SN OBJ SN SUJ SN OBJ SN P O SUJ SN REF Y SUJ SN OBJ SN P 0 SUJ SN P OBJ SP lt pour SN gt SUJ SN P OBJ SP lt en SN gt
2. 10 Lio DT Dit Pie 11 OS nara in 12 Bd o dE mu a a A ee D de 13 a 15 te SOS Se Oh Soak Sob waste eS ae Se ee 16 esse na ees 17 ope thar a Sade 18 CR 18 SHIGE eee 19 6 CONCLUSION VERS L ACQUISITION AUTOMATIQUE DE SCHEMAS 2 ee 22 3 LES RESSOURCES EXISTANTES POUR LE FRANCAIS 23 Shae eee ea See ee ae E 24 3 2 LES RESSOURCES DERIVEES DU LEXIQUE GRAMMAIRE SYNLEX re a RE Re eee ye e 28 R20 O 4 Saya a eee a ed eee ere et rh 28 8 2 2 IG LOX o Sd ites tet ih gas Be BRE ee RRL Bd 28 Sede gee a a a ease 30 34 LE LEE aos 3 i ee Soha Pee ER PERE a SS 33 3 5 D AUTRES DICTIONNAIRES LECTRONIQUES POUR LE FRANCAIS 35 iii 3 5 1 Le dictionnaire syntaxique des Verbes Fran ais 35 85 2 LexValll e be a o ner ei Eure one 35 3 5 3 Tr sor de la Langue Fran aise informatis TIR D UN CORPUS ARBOR 4 de was ee GRE on RR e 36 3 7 CONCLUSION 38 SOUS CAT GORISATION 4 1 M THODES D VALUATION DE RESSOURCES LEXICALES 41 4 1 1 Evaluation intrins que et valuation extrins que AT 4 1 2 Evaluation intrins que valuation quantitative 42 4 1 3 Evaluation intrins que valuation qualitative 43 44 _ Discussion ss 4 es ca ses su sa dame ist ss es 43 4 2 SCHEMA GLOBAL POUR L ACQUISITION AUTOMATIQUE DE SCHE M
3. TABLE F3 The effect of verb frequency on performance 5 However it is worth noting that co is not a useless feature As table F 3 shows when 150 or fewer occurrences are available for a verb co outperforms all the other features in French compensating for data sparseness 152 F2 Article publi dans les actes de la conf rence CoLing en 2010 Qualitative evaluation We conducted qualitative analysis of the clusters for French focusing on those created using SPEC with F17 and F3 Verbs in the gold standard classes 29 2 36 1 37 3 37 7 and 47 3 Table F 1 performed particularly well with the majority of member verbs found in the same cluster These verbs are ideal for clustering because they have distinctive syntactic semantic characteristics For example verbs in 29 2 CHARACTERIZE class e g concevoir consid rer d peindre not only have a very specific mea ning but they also take high frequency SCFs involving the preposition comme Eng as which is not typical to many other classes Interestingly Levin classes 29 2 36 1 37 3 and 37 7 were among the best performing classes also in the English supervised verb classification experiment of Sun et al which employed the English version of our gold standard because these classes have distinctive characteristics also in English The benefit of sophisticated features which integrate also semantic SP in formation F17 is particularly evident f
4. xxx Entr e 03739 6135 occurrences fr quence relative 75 4 Verbe accompagner 8142 occurrences 2 ssc SSC SUJ SN OBJ SN S quences Syntex 0192 anasynt d226258p6_4 14 Lemmes t tes de l argument 0 il 477 0 08 groupe 36 0 01 d l gation 21 0 00 sauce 4 0 00 Lemmes t tes de l argument 1 le 1699 0 27 mouvement 68 0 01 pr sident 52 0 01 0 beignet 1 0 00 5 Le format de LEXSCHEM utilis pour ces entr es est le format normal voir section 6 4 2 pour un d tail des diff rents formats disponibles pour LEXSCHEM 91 Chapitre 6 Utilisation et valuation des m thodes d acquisition automatique de SSC xxx Entr e 01629 2007 occurrences fr quence relative 24 6 Verbe accompagner 8142 occurrences 2 ssc SSC SUJ SN REF refl DE OBJ SP lt de SN gt S quences Syntex 0295 anasynt d374460p4_1 63 Lemmes t tes de 1 argument 0 elle 212 0 10 r duction 20 0 01 inactivit 1 0 00 Lemmes t tes de l argument 1 se 2007 1 00 Lemmes t tes de l argument 2 augmentation 31 0 02 r forme 16 0 01 restructuration 10 0 00 chant 1 0 00 Un certain nombre de constructions r pertori es dans les ressources pr sent es au chapitre 3 manquent dans LEXSCHEM C est notamment le cas des sch mas pr sents dans TREELEX et DICOVALENCE qui correspondent aux constructions suivantes extraites du corpus LM10
5. casser briser fracasser Ces verbes proches d un point de vue s mantique ont galement une proximit syntaxique Ces verbes acceptent les m mes SSC et ont des al ternances communes Dans l exemple bien connu suivant les sch mas pr dicatifs ne suffisent pas pour classifier correctement les verbes hit et break Fillmore 1967 1a The boy broke the window with a ball 1b The boy hit the window with a ball Les verbes hit et break partagent la m me construction dans les deux cas the boy est sujet agent the window est objet patient et a ball est objet avec la pr position with instrument Or break traduit un changement d tat de la fen tre alors que ce n est pas le cas pour hit qui traduit simplement un contact sans changement d tat et ces verbes appartiennent donc plut t des classes distinctes Ce qui permet de distinguer les verbes de changement d tat comme break des verbes de contact comme hit c est le fait que les premiers ac ceptent l alternance causative inchoative alors que les seconds ne l acceptent pas 2a The window broke 2b The window hit Voici quelques exemples de verbes appartenant a ces deux classes break shatter bend fold crack hit slap strike bump stroke La classification verbale a donn lieu 4 de nombreux travaux Levin 2006 Ces classifications s mantiques et syntaxiques ont de nombreux int r ts tant applicatifs que th oriques D un poin
6. 20 verbes et leurs fr quences dans le corpus LM10 verbes identifi s l aide de l tiquette donn e par TREETAGGER on peut donc envisager un usage des informations acquises par ASSCi dans des analyses en profondeur Temps de traitement pour le corpus LM10 Le temps de calcul observ sur une machine r cente pour le traitement du corpus LM1o est d environ 30 heures pour l extracteur de pr sch mas Il est plus raisonnable pour les deux autres modules un peu plus d une heure pour le constructeur de sch mas et moins de 2 minutes pour le filtrage Le temps de calcul lev de l extracteur est principalement d la taille des fichiers trait s 9 3 gigaoctets pour le corpus LM10 analys par SYNTEX Il peut tre consid rablement r duit en ne conservant pas certaines informa tions volumineuses comme la liste des identifiants des analyses phrases du corpus ou les lemmes t tes des arguments Pr sentation du lexique L utilisation d ASSCi avec les r glages d crits dans la section pr c dente a permis d acqu rir le lexique LEXSCHEM Apr s le filtrage des 173 870 couples verbe sch ma candidat issus du constructeur LEXSCHEM contient 7 239 couples verbe SSC r partis sur 3 123 lemmes verbaux et 88 SSC diff rents la liste des SSC pr sents dans LEx SCHEM est donn e en annexe E Environ 96 des entr es sont donc filtr es par le troisi me module Cette proportion tr s importante d entr es filtr es peut
7. Chaque ligne repr sente l tiquetage correspondant un mot de la phrase La colonne de gauche fournit les tiquettes morpho syntaxiques produites par TREETAGGER tandis que la colonne de droite fournit les lemmes correspondant aux l ments Par exemple aime est annot VER pres aimer il s agit d un verbe VER au pr sent pres dont le lemme est aimer et il est un pronom personnel dont le lemme est il PRO PER i1 Discussion L un des avantages de TREETAGGER outre sa robustesse et son efficacit est son ouverture il est possible d ajouter des traitements en amont par exemple faire sa place le d coupage en unit s de traitement tokenisa tion Ainsi des r gles et des lexiques de reconnaissance des unit s syn taxiques complexes e g locutions pr positionnelles ont t ajout s pour SyNTEX Bourigault et al 2005 Il est galement possible d int grer dans la cha ne de traitement des r gles de tokenisation et de pr tiquetage sp ci fiques au corpus analyser ce qui est fondamental lorsque l tiqueteur doit traiter des donn es non standard codes de produits nomenclature d l ments chimiques etc L analyseur syntaxique a enfin la possibilit de faire des retours en arri re sur l tiquetage et de modifier les tiquettes attribu es par TREETAGGER Pour toutes ces raisons TREETAGGER est un outil pertinent pour l tique tage morphosyntaxique du fran ais dans le cadre de notre trav
8. Extraction automatique de cadres de sous cat gorisation ver bale pour le fran ais partir d un corpus arbor Dans Actes de la 14 me Conf rence sur le traitement automatique des langues naturelles TALN Tou louse June 2007 Anna Kups Adjectives in treelex Dans S Wierzcho et K Trojanowski M Klopotek A Przepi rkowski diteur Proceedings of the 16th Interna tional Conference Intelligent Information Systems pages 287 296 Zakopane Poland 2008 Academic Publishing House EXIT Anna Kup et Anne Abeill Growing treelex Dans A Gelbukh diteur Proceedings of the 9th International Conference CICLing 2008 pages 28 39 Haifa Israel 2008a Lecture Notes in Computational Linguistics no 4919 Anna Kup et Anne Abeill Treelex A subcategorisation lexicon for french verbs Dans Proceedings of the First International Conference on Global Inter operability for Language Resources Hong Kong 2008b Eric Laporte Mots et niveau lexical Dans Jean Marie Pierrel diteur Ing nierie des langues pages 25 49 Herm s 2000 Christian Lecl re The lexicon grammar of french verbs a syntactic data base Linguistic Informatics State of the Art and the Future pages 29 45 2005 Lilian Lee On the effectiveness of the skew divergence for statistical lan guage analysis Dans Proceedings of the Workshop on Artificial Intelligence and Statistics Key west Florida 2001 Alessandro Lenci Barbara McGilli
9. La figure est un extrait de la table 32H du Lexique Grammaire Chaque colonne de la table repr sente des propri t s que peuvent prendre les verbes relevant de cette table notamment les constructions syntaxiques possibles Chaque ligne correspond un verbe Les plus et les moins dans les cases permettent de savoir si tel verbe accepte telle propri t P Le Lexique Grammaire est g n ralement pr sent comme un lexique syntaxique Toutefois lorsqu on observe les tables on remarque que cer tains arguments sont d crits par des traits plus s mantiques par exemple Nhum signifie que l argument est g n ralement un humain Les informa tions cod es dans les tables du Lexique Grammaire ne se limitent donc pas la syntaxe et concernent galement des propri t s proches des restrictions de s lection Les colonnes qui concernent ces propri t s ont un format du type NO Nhum Par exemple les phrases suivantes permettent d illustrer une partie des informations cod es dans la table 32H pour le verbe accompagner za Le poireau accompagne Luc 1b L a est accompagn e par Max 1 La table 32H contient le verbe accompagner que nous utiliserons pour illustrer les dic tionnaires tout au long de ce chapitre 2 Certaines colonnes sont plac es gauche de l entr e Elles contiennent des informations concernant les l ments habituellement situ s gauche du verbe restrictions de s lection sur le sujet se fig
10. un seul groupe hard clustering Bien que cette approche ne permette pas de traiter la polys mie nous l avons tout de m me choisie pour la facilit de l interpr tation qu elle offref Les distributions ont t compar es avec trois mesures de similarit diff rentes la divergence de Kullback Leibler n Xe Dxi xlly xi log E1 i 1 i la divergence de Jensen Shannon 1 1 Dys x ly 5 Dx x M 5Dxx y IM F2 o 1 M gt x y F3 2 1 Puisque le lexique non filtr constitue l entr e du processus le nombre des SSC utilis s d passe celui des SSC dans LEXSCHEM 2 Une classification des verbes incorporant les probl mes de polys mie serait videm ment souhaitable mais ceci reste un probl me ouvert pour le traitement des langues Sur le plan pratique un travail manuel reste n cessaire si l on souhaite obtenir un r sultat tout fait fiable Voir Kipper et al pour une exp rience en ce sens montrant les avantages d une approche mixte automatique puis manuelle 140 F1 2 F1 Extrait de l article publi dans la revue TAL en 2010 et la divergence oblique skew divergence Da x ly Dex rllay 1 a x F4 L inconv nient de la divergence de Kullback Leibler est de prendre une va leur ind finie lorsque la probabilit y i est 0 Aussi une m thode de lissage simple a t elle t appliqu e aux donn es si la fr quence de cooccurrence du SSC ave
11. Pierre accompagne son fromage de vin Une fois cuit le pinon est servi chaud et s accompagne avec le reste de la sauce tomate Ces SSC sont pr sents dans les sorties du constructeur de SSC candidats mais ils sont trop peu fr quents pour appara tre apr s filtrage CT SUJ SN OBJ SN DE OBJ SP lt de SN gt 147 occurrences SUJ SN REF refl P OBJ SP lt avec SN gt 4 occurrences Ces deux constructions apparaissent presque exclusivement dans un contexte culinaire peu fr quent dans le corpus LM10 Elles sont donc cras es par les milliers d occurrences des deux sch mas principaux d accompagner Il faut nuancer l absence de ces sch mas par l usage qui doit tre fait des syst mes d acquisition automatique ces derniers n ont pas vocation a concurrencer les dictionnaires construits 4 la main sur la langue g n rale mais adapter une ressource pour un corpus ou un do maine donn Voici les entr es du verbe acheter dans LEXSCHEM xxx Entr e 00615 705 occurrences fr quence relative 11 9 Verbe acheter 5914 occurrences 3 ssc SSC SUJ SN OBJ SN A OBJ SP lt SN gt S quences Syntex 0100 anasynt d685792p5_3 72 Lemmes t tes de l argument 0 il 108 0 15 Chine 3 0 00 Lemmes t tes de l argument 1 le 53 0 07 action 14 0 02 Lemmes t tes de l argument 2 lui 85 0 12 Japon 17 0 02 xxx Entr e 06495 1301 occurrences fr
12. immigrer soma vas ee eR 6 6 Extrait du fichier d valuation vii viii LISTE DES TABLEAUX 2 1 Liste non exhaustive des principaux r les th matiques 14 3 1 Synth se pour le Lexique Grammaire 28 3 2 Synth se pour SynLex et LGLex nu ee ie ee a 29 3 3 Paradigmes valenciels utilis s dans DicoValence source ma ee er 51 arate es 32 Sipe nd Bote eee 32 3 6 Synthese pour le Leff nanana 34 pea 36 Chew Lee Oe De eee Oe eS eg 38 issue de Brent s993 4 2 Synth se des m thodes d acquisition automatique de SSC pr sent es les correspondent a des donn es non dispo nibles pour Korhonen 2006 il s agit des chiffres pour le 4 3 Synth se des m thodes d acquisition automatique de SSC 5 1 Exemple d annotation par TREETAGGER la colonne de gauche fournit l tiquette morphosyntaxique tandis que la colonne de droite est le lemme du mot la liste des tiquettes utilis es par TREETAGGER pour le fran ais est donn e en annexe A 6 2 Nombre de verbes par nombre de SSC 6 3 Entr es de LEXSCHEM pour les verbes travailler et d bouler apr s filtrage ix 6 4 Comparaison de LEXSCHEM avec d autres lexiques de sous cat gorisation pour le fran ais les chiffres entre parenth ses ne sont pas des chiffres communiqu s par les auteurs ils r sultent de nos calculs DICOVAL DICOVALENCE
13. 10 Valletta Malta may 2010 European Language Resources Association ELRA Daniel Gildea et Daniel Jurafsky Automatic labeling of semantic roles Com putational Linguistics 28 3 245 288 2002 Genevieve Gorrell Acquiring subcategorisation from textual corpora M Phil thesis University of Cambridge UK 1999 Ralph Grishman Catherine Macleod et Adam Meyers Comlex Syntax Building a Computational Lexicon Dans Proceedings of the International Conference on Computational Linguistics pages 268 272 Kyoto Japan 1994 Gaston Gross Les expressions fig es en fran ais noms compos s et autres locu tions Ophrys Paris 1996 Maurice Gross M thodes en syntaxe Hermann Paris 1975 Maurice Gross Les bases empiriques de la notion de pr dicat s mantique Langages 63 7 52 1981 Maurice Gross Les limites de la phrase fig e Langages 90 7 22 1988 Maurice Gross Constructing lexicon grammars Computational Approaches to the Lexicon pages 213 263 1994 Maurice Gross La fonction s mantique des verbes supports Travaux de linguistique 37 25 46 1998 Jeffrey S Gruber Studies in lexical relations PhD thesis MIT 1965 162 Bibliographie Xiwu Han Tiejun Zhao Haoliang Qi et Hao Yu Subcategorization acqui sition and evaluation for chinese verbs Dans Proceedings of the 2oth inter national conference on Computational Linguistics CoLing page 723 Morris town NJ USA 2004 Associat
14. Discussion La normalisation ordonnancement des compl ments suppression des compl ments pr positionnels non argumentaux ou des compl ments dou blons effectu e lors de l tape de construction des sch mas est discutable En effet le dosage entre normalisation et perte d informations est d licat Il est cependant ais de faire des modifications dans le programme pour d sactiver l un ou l autre de ces traitements De plus on sait que les compl ments modifieurs ont plus tendance tre d pla ables et on pourrait utiliser l ordre des compl ments pour diff rencier arguments et modifieurs N anmoins une normalisation de l ordre des SSC permet d viter l clatement de constructions tr s proches un tel clatement serait nocif pour le filtrage Un bon compromis serait de garder tous les ordres observ s en corpus dans un champ s par du SSC ce qui permettrait de normaliser le SSC sans perte d informations Filtre des sch mas non pertinents Description du module Tous les syst mes d acquisition n cessitent une phase de filtrage la fin du processus d acquisition En effet les sch mas candidats extraits par le constructeur sont bruit s car ils sont parfois construits partir d tiquetages ou d analyses syntaxiques incorrects Il se peut galement qu une r gle de construction produise des SSC incorrects cause d une g n ralisation ou d une normalisation trop importante Enfin la pr sence de modi
15. La m thode de s lection d hypoth ses utilis e est un filtrage bas sur le test binomial 1985 Ce test permet de d terminer si un verbe appara t suffisamment fr quemment avec un SSC pour qu on associe ce SSC ce verbe 49 Chapitre 4 Les m thodes d acquisition automatique de sch mas de sous cat gorisation 4 3 2 En comparant les SSC acquis par leur syst me avec des sch mas associ s manuellement 33 verbes choisis au hasard parmi les 300 verbes les plus courants du corpus les auteurs obtiennent une pr cision globale de 86 83 si on exclut les sch mas REST qui correspondent toutes les construc tions qui ne font pas partie des 6 sch mas reconnus par le syst me Cette premi re tude a permis de poser des bases pour l acquisition au tomatique de SSC Elle a aussi mis en exergue les difficult s inh rentes la t che comme la difficult traiter des erreurs et trouver un quilibre entre la pr cision et le rappel Des les d buts de l acquisition automatique de SSC on remarque que les mod les statistiques utilis s ne suffisent pas traiter des erreurs dont la typologie est tr s vari e Ces difficult s conduisent faire des choix sur les informations que le syst me cherche d tecter et ignorer certains ph nom nes de la langue pour obtenir une pr cision et un temps de calcul satisfaisants plut t que d augmenter la couverture en faisant chuter la pr cision Par exemple Brent fa
16. lt verbe gt lt schema gt lt SUJ SN OBJ SN gt lt schema gt lt nb_occ gt 6135 lt nb_occ gt lt rel_freq gt 0 754 lt rel_freq gt lt sequences gt 0100 anasynt d684217p3_5 38 0100 anasynt d687293p5 4119 0100 anasynt d683973p3_3 39 lt sequences gt lt nb_args gt 2 lt nb_args gt lt argument0 gt UNKNOWN al 527 0 08 477 0 08 qui lt argument0 gt lt argument1 gt le 1699 0 27 66 0 01 lt argument1 gt lt entree gt lt entree id 00239 gt lt verbe nb_occ 8142 nb_ssc 2 gt ACCOMPAGNER accompagner lt verbe gt lt schema gt lt SUJ SN REF ref1 DE OBJ SP lt de SN gt gt lt schema gt lt nb_occ gt 2007 lt nb_occ gt lt rel_freq gt 0 246 lt rel_freq gt lt sequences gt 0100 anasynt d686200p4_17 48 0100 anasynt d686690p5_6 16 0100 anasynt d686339p4_30 3 lt sequences gt lt nb_args gt 3 lt nb_args gt lt argument0 gt UNKNOWN mouvement 68 0 01 il elle 212 0 10 215 0 11 134 384 0 06 exposition 108 0 05 lt argument0 gt lt argument1 gt se 2007 1 00 lt argument1 gt lt argument2 gt baisse 38 0 02 augmentation 31 0 02 r duction 28 0 01 lt argument2 gt lt entree gt lt lexschem gt 135 LISTE DES SSC DE LEXSCHEM Sch ma de sous cat gorisation Nombre d occurrences dans le corpus LM10
17. n gation etc 3 Nous avons vu dans le premier chapitre que certains l ments non humains comme par exemple les organisations pouvaient parfois prendre le trait humain du fait de la m to nymie 24 3 1 Le Lexique Grammaire N1 tre V n NO V Nhum sur ce point NO tre V n gt Dm U lt ENT gt z z lt E gt abandonner J f La chance abandonne Max abasourdir i i abattre abattre accabler Le t moignage accable l accus accolader accompagner faccoster accrocher accrocher f J Les gu rilleros ont accroch les soldats dans le d fil acheter Max a achet un d put 25 FIGURE 3 1 Extrait de la table 32H du Lexique Grammaire Chapitre 3 Les ressources existantes pour le fran ais 1c Max accompagne L a sur ce point Le l intersection des colonnes gris es N1 est Vpp W indique que le verbe accompagner accepte la forme passive phrase 1b De plus le dans la premi re colonne de la table signifie que ce verbe n accepte qu un No sujet de la phrase simple humain 1a tandis que le dans la colonne NO V Nhum sur ce point indique qu il n accepte pas cette forme exemple 1c peu pr s 5 000 verbes simples graphiquement diff rents ont t exa min s pour le fran ais et donnent lieu environ 15 000 entr es an sens lexicographique r parties dans 60 tables Lecl re 2005
18. sch ma c est la proc dure d extraction de cat gorie syntaxique qui est charg e d extraire le lemme t te du compl ment tape c de l algorithme Cette information n est pas utilis e dans le processus d acquisition modules constructeur et filtre Cependant il est int ressant d avoir ce type de don n es dans le lexique pour donner la possibilit aux utilisateurs du lexique d exploiter ces informations ou pour enrichir le lexique avec des restrictions de s lection par exemple Apr s que tous les compl ments du verbe ont t trait s l extracteur constitue le pr SSC en agglom rant ces compl ments voir algorithmel 1 La liste de compl ments obtenus c est a dire le pr sch ma est non ordonn e cette tape du processus d acquisition Si la phrase est la forme passive cette information est incluse dans le pr sch ma de sous cat gorisation par l extracteur Ainsi il sera ensuite pos sible d impl menter une proc dure de d passivation pour traiter la phrase ou de marquer le verbe comme passivable dans le lexique Discussion Nous venons de le montrer les relations et cat gories morpho syntaxiques font l objet de traitements par ce premier module Dans une premi re impl mentation d ASSCi ce traitement tait effectu par le constructeur et l extracteur r cup rait les informations issues de l analyse SYNTEX des compl ments en effectuant peu de parcours dans l analyse La deuxi me
19. tout essentiel le choix de l ordre d ex cution des modules SYNTEX repose fondamentalement sur des r gles et des proc dures d ap prentissage endog ne m me si des informations lexicales ponctuelles sont utilis es en fonction des besoins En effet SYNTEX n utilise pas de lexique de sous cat gorisation il dis pose simplement de quelques listes par exemple des listes de couples verbe pr position auxquels sont associ s des probabilit s acquises a partir d un grand corpus pour faciliter le traitement des locutions pr positionnelles Les interconnexions qui peuvent exister entre divers arguments de la structure argumentale par exemple le fait que le verbe n accepte pas telle pr position en l absence d un compl ment d objet nominal ne sont donc pas prises en compte par SYNTEX ce qui justifie l utilisation de cet analyseur pour l acqui sition de SSC Arguments et modifieurs sont rattach s au verbe sans qu il soit fait de distinction entre eux Une meilleure prise en compte de la sous cat gorisation par SYNTEX permettrait d am liorer les performances de l ana lyseur en consid rant l int gralit de la structure argumentale et plus seule ment des relations locales Exemple Par exemple pour la s quence Les fameuses erreurs de Sartre il les lui reproche autant que ses adversaires mais il les lui reproche au nom du Sartre 6 Nous l avons voqu au chapitre pr c dent l acquisition de
20. En effet les verbes d une m me classe partageant d apr s Levin les m mes alternances on peut attri buer un verbe rare l ensemble des SSC rep r s pour un verbe moins rare de la m me classe s mantique back off estimates pour plus de d tail voir la section 4 4 et l article de Korhonen 2000 Leur exploitation est toutefois li mit e l heure actuelle en raison de leur faible disponibilit pour la plupart des langues L int r t de ces classes est donc manifeste pour les recherches th oriques comme pour les recherches appliqu es Il est aussi possible d inf rer de ce type de recherche une ressource a la VerbNet oti les verbes sont as sembl s en classes syntaxico s mantiques rang es hi rarchiquement Il a t montr qu une approche automatique du type de celles que nous pr sentons dans ce chapitre constitue une base int ressante pour produire des classes pertinentes et peut notamment enrichir un travail manuel co teux fetal 2008 TRAVAUX ANT RIEURS Des travaux r cents font tat d approches vari es de classification au tomatique Schulte im Walde S aghdha et Copestake 2008 Suzuki et Fukumoto Viachos et al L int r t de la classification automatique est d une part de faciliter la t che fastidieuse de cr ation de ressources linguistiques par le biais d une acquisition automatique de propri t s lexicales d autre part les ressources lexicales structur es sont pl
21. Re he dr E a de Ro ri 137 F1 2 Evaluation sa ss osa be ee Pe issus ss 139 FH Rs Ma ed as A A A de RE RE FAR ee 142 F2 1 Introduction eie soe we ua sue une sa peu 142 F2 2 French Verb Classes and the Gold Standard 143 F 2 3 Verb Clustering 145 F204 F atur sh ss Lu eee RL Whee eee Se 146 F 2 5 Clustering methods 146 F 2 6 Experimental evaluation 147 F27 Evaluation sos 2 4 47 4 as dass ee ee 148 F2 8 Discussion and Conclusion G LISTE DES PUBLICATIONS LI ES LA TH SE BIBLIOGRAPHIE vi LISTE DES FIGURES 2 1 Stemma pour la phrase Google a achet YouTube 9 3 1 Extrait de la table 32H du Lexique Grammaire 25 3 2 Entr e de LGLex pour le verbe accompagner 29 icoValence ESS NE ees e ad 31 3 4 Entr es du Lefff correspondant au verbe accompagner 34 3 5 Entr es de TreeLex pour le verbe accompagner 37 Sch ma global des m thodes d acquisition automatique de 4 1 a ogee 74 5 1 Architecture g n rale d ASSCi ou bee bk ov we a 57 5 2 Analyse syntaxique en constituants 60 5 3 Analyse syntaxique en d pendances 61 5 4 Exemple d annotation par Syntex 63 5 5 Repr sentation de l annotation par Syntex P 0OBJ SP lt en SN gt
22. SUJ 29 PRI DET 33 ADJ 35 35 ADJ 34 Det le le 37 NomMS roquentin Roquentin 38 DET 37 130 DET 38 EP 30 LISTE DES PREPOSITIONS ISSUES DE PREPLEX Nous donnons ici la liste des pr positions argumentales issues de PRE PLEX c est dire l ensemble des pr positions susceptibles d introduire un argument autour du verbe puis la liste des pr positions non argumentales voir nttp loriatal loria fr Resources PrepLex txt pour la liste compl te des locutions non argumentales Pr positions argumentales x a de apres avec chez comme contre dans depuis derri re devant en entre Pr positions non argumentales avant confer durant hormis malgr outre sauf versus voila par sur parmi pour sans selon sous suivant vers a travers a partir de au sujet de au travers de circa d s except hors moyennant pass sit t via vu vis vis de face le long de du c t de au dessus de au devant de autour de envers en faveur de aupr s de jusqu d avec concernant dixit s jusque nonobstant pendant touchant voici 131 ENTREES DE LEXSCHEM POUR LE VERBE accompagner DANS LES DIFFERENTS FORMATS DISPONIBLES Les deux entr es du verbe accompagner sont pr sent es dans les formats disponibles pour LEXSCHEM format standard et format XML Pour une meilleure lisibilit les listes des identifia
23. SUJ SN OBJ SN P 0 SUJ SN OBJ SN P 0 SUJ SN REF refl OBJ SN SUJ SN P OBJ SP lt par SN gt 2597802 1621286 1008112 444432 405430 229668 226368 161980 136260 131627 76086 55921 47221 41675 38800 37829 29399 28900 25190 22503 19560 15152 14888 12416 11577 11523 10111 9631 9564 9525 8638 8498 7916 6828 6819 6053 5974 5621 137 Annexe E Liste des SSC de LexSchem ANA NNANN NNN NA NANA NA NANA NAN NN NN NN NANA NANA NNN NAN NN NN NNA NANA NNANNANANANNN iN ANA NNNNNNN NAN NA NANA NANA NNN NNN NAN NA NANA OU O Un NAN NN NN NNANANANANANANANANANNN A Cy SE er Ed CG RE on Ce En CC Er AN Cyt Cyr ey A Sy HOt Rey Cg Cu En Ey Hey Cy ey Ga Gr Cy Gye ey Sy Cy r Cy Cy Ey Ey HCY Cy Cr AE AA A A A 222224 Z Z VTOUWVTUOWDA NDAD gt U DW Z Z U PA U Z 2 22 2 P P 2a P Z P Z zZ O ZZZ R 22 2 O 2222224 ZZZ Z Z Z O O DU D OO A U V V W W Z r INF Z O 2 D UWO R EF refl ATTO SA OBJ SP lt comme SN gt BJ SN P OBJ SP lt pour SINF gt OBJ SP lt SN gt DE OBJ SP lt de SN gt EF refl P OBJ SP lt par SN gt EF ref1 OBJ PropSub OBJ SP lt contre SN gt EF refl P OBJ SP lt en SN gt BJ SN P OBJ SP lt pour SN gt E OBJ SP lt de4 OBJ SP lt pour SINF gt FSN gt P OBJ SP lt pour SINF gt E OBJ SP lt de4 BJ SN P
24. es issues d ASSCi 111 PRODUCTION DE CLASSES DE VERBES SUR LA BASE DE LEUR COMPORTEMENT SYNTAXIQUE le chapitre pr c dent a montr que les lexiques acquis automatiquement comportent une part non n gligeable d erreurs Il est n anmoins pos sible d utiliser les informations pr sentes dans ces lexiques dans des ap plications de traitement automatique des langues ou pour acqu rir d autres ressources Nous nous sommes particuli rement int ress la production de classes de verbes De telles classes fournissent une base solide la constitu tion de ressources telles que WORDNET ou VERBNET qui ont de nombreuses applications Nous avons r alis deux exp riences de production automatique de classes verbales partir de LEXSCHEM Ces exp riences ont t r alis es dans le cadre de collaborations Nous pr sentons tout d abord la probl matique et l tat de l art du domaine avant de pr senter les deux exp riences de pro duction de classes verbales et leur valuation Le chapitre se termine par une discussion sur les r sultats obtenus 113 Chapitre 7 Production de classes de verbes sur la base de leur comportement syntaxique 7 1 PROBL MATIQUE Les classes lexicales visent regrouper des ensembles de mots parta geant des comportements syntaxiques et ou s mantiques similaires Nous nous int ressons en particulier aux classes de verbes Par exemple on peut consid rer la classe de verbes suivante
25. extraite Apr s la phase d extraction un pr SSC est associ chaque occurrence de verbe conjugu de chaque phrase du corpus Nous avons fait le choix de ne pas acqu rir de SSC partir des verbes l infinitif En effet ces verbes apparaissent le plus souvent dans des phrases plus complexes et l analyse effectu e par SYNTEX est alors plus incertaine Ce choix ne pose pas de pro bl me dans la mesure o on fournit au syst me une quantit de donn es suffisante voir section 6 1 1 Impl mentation Pour chaque phrase du corpus analys par SYNTEX l algorithme voir al gorithme 1 rep re les verbes conjugu s dont le nombre d occurrences en corpus est sup rieur un seuil fix 30 occurrences pour permettre les calculs statistiques lors du filtrage et qui n ont pas t rejet s lors du pr 14 L utilisation d un script a au pr alable permis de r pertorier tous les verbes pr sents dans le corpus et leurs nombres d occurrences 69 Chapitre 5 Description du syst me d acquisition de SSC pour le fran ais traitement voir section 5 3 Il parcourt ensuite les d pendances syntaxiques de chacun de ces verbes et cherche leur fonction syntaxique et leur cat gorie L extracteur en d duit ensuite le pr sch ma de sous cat gorisation correspondant Algorithme 1 Extracteur de pr sch mas de sous cat gorisation Entr es Corpus analys par SYNTEX Sorties Liste des patrons de sou
26. mantique profonde de la phrase il est plus difficile de d placer son cousin dans la phrase Il a envoy une lettre son cousin 22c et 22d N anmoins dans cet exemple le crit re d effacement ne permet pas de caract riser le compl ment son cousin la phrase 22b est correcte Il faut toutefois souligner que les crit res cit s plus haut ne font pas l ob jet d un consensus fort En outre il n existe pas de crit re linguistique suffi samment discriminant pour diff rencier coup s r quel que soit le contexte arguments et modifieurs 11 Chapitre 2 Description du verbe pour l laboration de lexiques Nous reviendrons sur ce probl me dans la section 2 3 3 Sch ma de sous cat gorisation La sous cat gorisation est le ph nom ne syntaxique qui d note la tendance des pr dicats imposer leur entourage des configurations syn taxiques particuli res Ces configurations sont repr sent es par des sch mas ou cadres de sous cat gorisation Dans cette th se nous pr f rerons le terme de sous cat gorisation celui de valence parfois utilis pour d crire le nombre d arguments d un pr dicat De plus nous utilisons le concept de sous cat gorisation uniquement pour caract riser des ph nom nes syn taxiques Or dans certains travaux cette notion est utilis e pour d crire aussi bien des ph nom nes syntaxiques que s mantiques par exemple dans ihonen 2002 Les sch mas de sou
27. me cat gorie de verbes et donc gard pour le processus d acquisition Le tableau 5 2 pr sente le nombre de verbes class s dans chacune des cat gories par le programme et les r sultats du traitement apr s le jugement des verbes par l annotateur humain Parmi les 981 verbes soumis un jugement 456 verbes sont jug s cor rects par l observateur Ils s ajoutent donc aux 5369 verbes gard s par le programme en premier lieu L acquisition se fera donc sur 5825 verbes Au final pr s de la moiti des mots annot s verbes dans le corpus sont rejet s par ce traitement Voici quelques exemples de ces mots mal annot s rejet s par l algorithme ou suite un jugement humain senner senna 1 00 somnambuler somnambule 1 00 alper alpes 0 75 alpa 0 25 caserner caserne 0 78 casernaient 0 11 casernes 0 11 Suite ce processus on obtient une liste des verbes sur lesquels ASSCi peut tre utilis Si cette approche permet d viter l acquisition de SSC pour des mots qui ne sont pas des verbes elle ne permet pas de traiter finement l ensemble des cas d erreurs de ce type Il existe notamment un certain nombre de lemmes verbaux courants dont une seule forme pose probl me Par exemple un cer tain nombre des occurrences du verbe marcher sont issues du mot Marchais 67 Chapitre 5 Description du syst me d acquisition de SSC pour le fran ais 5 4 5 4 1 Georges Marchais L acquisition de S
28. objet d une valuation approfondie Il est n anmoins possible de reprendre cette tude pour acqu rir des SSC de noms et ou d ajectifs pr didatifs l aide d ASSCi Ces informations pourront constituer une base int ressante pour la cr ation d un lexique de sous cat gorisation de ces pr dicats pour le fran ais DES OUTILS POUR LE PARAM TRAGE DES LEXIQUES Les informations utiles dans les lexiques de sous cat gorisation peuvent varier selon les besoins ou les applications vis es les applications de TAL reposent en majorit sur un lexique le plus exact possible mais le calcul de classes de comportement lexico s mantiques peut profiter de la version non filtr e ou peu filtr e limination des entr es tr s peu fr quentes et ven tuellement de connaissances sur le contenu lexical des arguments du verbe comme nous le montrerons dans le chapitre 7 La facult des syst mes d ac quisition automatique s adapter ces besoins est l un de leurs principaux avantages sur la constitution manuelle ou semi manuelle de ressources Afin de favoriser l utilisation de LEXSCHEM nous avons donc d velopp des outils que nous avons rendu disponibles pour la communaut En par ticulier il nous semble important de permettre aux utilisateurs potentiels d adapter la ressource des besoins vari s Cette section pr sente ces outils d velopp s autour d ASSCi et de LEx SCHEM un programme de filtrage du lexique un
29. permettra de nous concentrer sur les diff rences entre les travaux pr sent s ensuite Le sch ma 4 1 donne un apercu du modele global d crit dans cette section 4 2 1 tape 1 identification des verbes en corpus L acquisition de SSC verbaux n cessite tout d abord d identifier les verbes du corpus avant le d veloppement de lemmatiseurs efficaces cette 46 4 2 Sch ma global pour l acquisition automatique de sch mas de sous cat gorisation tape n tait pas triviale et les strat gies de rep rage utilis es pouvaient va rier Par exemple dans la phrase suivante le systeme d acquisition doit rep rer les verbes affirmer et acheter Tout d abord j affirme que la De Beers n a jamais achet de diamants l Unita Deux verbes ont t rep r s dans cette phrase affirmer et acheter On re marque d j une premi re difficult pour un syst me automatique rep rer le verbe acheter alors que le verbe est conjugu au pass compos et qu une forme n gative provoque l insertion du mot jamais entre les deux compo santes de la forme verbale a achet Une fois les verbes identifi s le syst me peut passer la deuxi me tape 4 2 2 tape 2 identification des compl ments Il faut ensuite identifier localement les compl ments du verbe c est dire r aliser une analyse syntaxique de surface au moins partielle La m thode et les informations retenues fonctions syntaxiques cat gori
30. que tous les verbes d une m me classe partageaient un certain nombre de constructions similaires fondamentales Les classes de la r f rence sont donc caract ris es par un composant s mantique ainsi que par au moins une struc ture syntaxique en commun Nous avons enfin v rifi la validit de ces classes en ayant recours au Lexique Grammaire et nous avons pu constater qu en g n ral les verbes d une m me classe se situent dans la m me table du LG a quelques exceptions pr s ce qui montre le besoin d une comparaison en profondeur des approches et des ressources comparaison qui sort du cadre de cet article mais que nous menons en parall le Pour pouvoir valuer l extensibilit et la robustesse de la m thode des verbes de fr quences diff rentes ont t inclus dans l exp rimentation La cardinalit des classes varie entre 8 et 17 Les r sultats ont t valu s par rapport la r f rence selon quatre mesures La difficult de la tache de classification d pend du nombre de classes Pour une classification m classes la valeur basse baseline de l exactitude accuracy est de 1 m soit 0 0625 dans notre cas Mesure de distance Card APP mPURITY ACC F measure KL 6 0 13 0 48 0 30 0 36 KL 5 0 13 0 51 0 27 0 35 JS 4 0 21 0 60 0 28 0 39 JS 5 0 18 0 54 0 30 0 38 skew 4 0 22 0 62 0 27 0 37 skew 5 0 18 0 55 0 29 0 37 skew 9 0 16 0 47 0
31. quence relative 22 0 Verbe acheter 5914 occurrences 3 ssc SSC SUJ SN S quences Syntex 1099 anasynt d671009p2_3 20 Lemmes t tes de 1 argument 0 mus e 9 0 01 pays 7 0 01 92 6 1 3 6 1 Acquisition d un lexique de sous cat gorisation large couverture pour le francais xxx Entr e 03561 3908 occurrences fr quence relative 66 1 Verbe acheter 5914 occurrences 3 ssc SSC SUJ SN OBJ SN S quences Syntex 0500 anasynt d708862p3_7 2 Lemmes t tes de l argument 0 elle 171 0 04 pays 19 0 00 Lemmes t tes de l argument 1 le 272 0 07 livre 71 0 02 Les SSC SUJ SN OBJ SN A OBJ SP lt SN gt entr e 00615 et SUJ SN OBJ SN entr e 03561 sont valides Voici quelques phrases du corpus a partir desquelles ces entr es ont t acquises Le propri taire qui il l a achet e tait astrologue et lui a vendue bas prix parce que les chiffres taient favorables SUJ SN OBJ SN A OBJ SP lt a SN gt Et les investisseurs qui les ont r cemment achet es pourraient en profiter SUJ SN OBJ SN Toutefois en ce qui concerne le SSC SUJ SN OBJ SN A OBJ SP lt a SN gt il peut galement s agir de phrases o le compl ment en est un modifieur A la sortie du mus e il ach te un laissez passer pour un an L entr e 06495 sch ma SUJ SN est quant elle essentiellement due a des erreurs d analyse syntaxique Q
32. ser Gross 1988 En effet il est possible de faire le choix de classer chacune des phrases pr c dentes dans une entr e distincte casser sa pipe casser la baraque casser sa tirelire et casser les pieds peuvent former des entr es lexicales distinctes et avoir chacune leurs sch mas pr dicatifs Mais on peut gale ment consid rer que ces expressions rel vent de la forme transitive du verbe casser et constituent simplement des cas particuliers de l emploi transitif Il en est de m me pour les 4 phrases qui concernent le verbe faire Ici encore une analyse s mantique profonde est n cessaire pour distin guer les diff rents cas de figure et prendre les meilleures d cisions Cepen dant les choix effectu s lors de cette analyse varient selon l observateur et les besoins varient selon l utilisation qui sera faite de la ressource certaines applications ont besoin d un traitement fin des expressions fig es et verbes supports alors que dans d autres cas ce traitement n est pas n cessaire 21 Chapitre 2 Description du verbe pour l laboration de lexiques 2 6 CONCLUSION VERS L ACQUISITION AUTOMATIQUE DE SCHE MAS PR DICATIFS Nous avons pr sent diff rents types d informations susceptibles de d crire la structure argumentale des verbes en fran ais Nous avons galement soulign les difficult s que l on rencontre lorsqu on tente de faire l inventaire des sch mas pr dicatifs d une langue
33. tudi e ou ventuellement l application vis e ces sch mas peuvent contenir diverses informations sur le pr dicat et ses arguments lVarit du pr dicat c est dire son nombre d arguments par exemple 3 pour le pr dicat acheter dans 6 le type fonctions et ou cat gories syntaxiques des arguments par exemple sujet ou syntagme nominal pour Julie dans 6 le r le th matique des arguments par exemple agent pour Julie dans 6 des restrictions de s lection sur les arguments par exemple humain pour Julie dans 6 les alternances qu accepte le pr dicat par exemple l effacement d 1 argument Marc dans 6 Ces diff rentes propri t s seront pr sent es plus en d tail tout au long de ce chapitre hormis l arit qui ne n cessite pas d explications suppl mentaires Toutefois la distinction argument modifieur n tant pas triviale la notion d arit ne peut pas non plus tre triviale Le sch ma pr dicatif est donc un objet g om trie variable L examen plus d taill de chacune de ses composantes potentielles est un pr alable pour pouvoir d terminer ce dont nous avons besoin dans nos sch mas et ce qui est plus accessoire selon le contexte scientifique et ou applicatif dans lequel nous nous pla ons 2 3 LES DIFF RENTES COMPOSANTES DES SCHEMAS PR DICATIFS Nous venons de le voir la structure argumentale d un pr dicat peut tre d crite a diff
34. 0 00 ES Ey Laces 3 3 3 3 3 La vari t des formes rencontr es confirme le statut de verbe de marcher Le programme trie ensuite les verbes dans 3 cat gories selon la fr quence relative de leur forme la plus fr quente les verbes dont la fr quence de la forme la plus fr quente est sup rieure a 0 99 sont exclus du processus d acquisition les verbes dont la fr quence de la forme la plus fr quente est comprise entre 0 7 et 0 99 sont jug s par un observateur humain 66 5 3 Validation des verbes Verbes rejet s 5049 Verbes soumis 981 a un jugement manuel Verbes gard s 5369 Total 11399 Verbes rejet s 5049 Verbes jug s incorrects 525 par l observateur Total rejet s 5574 Verbes jug s corrects 456 par l observateur Verbes gard s 5369 Total gard s 5825 TABLE 5 2 R sultats du rep rage des verbes incorrects dans le corpus des 10 ans du Monde en nombre de lemmes les verbes dont la fr quence de la forme la plus fr quente est inf rieure 0 7 sont gard s Ces seuils ont t choisis de fa on empirique suite l observation des verbes et de leurs formes L objectif est de pouvoir choisir rapidement et facilement les verbes qui seront retenus pour l acquisition Dans notre exemple la forme la plus fr quente de marcher est marche et sa fr quence relative est 0 32 il est donc class dans la 3
35. 35 0 40 Les groupes de verbes r sultants ont t compar s la r f rence d une part par la mesure Adjusted Pairwise Precision qui calcule la pr cision des groupes en prenant les verbes d une m me classe deux deux puis en comparant la sortie du syst me avec la r f rence pour v rifier s ils appartiennent bien la m me classe dans les deux cas et en prenant en compte la cardinalit afin de p naliser les petits groupes de verbes i paires correctes dans _c j _ cj 1 RO IC L paires _dans_c CES E5 D autre part il est possible d associer les groupes de verbes r sultant de la classification non supervis e aux classes de la r f rence en tablissant la corres pondance selon la classe s mantique pr dominante l int rieur du groupe Cela nous permet de calculer la puret modifi e modified purity puret moyenne des classes et l exactitude pond r e de classes weighted class accuracy rap pel pond r en fonction de la taille des classes dans la r f rence Korhonen et al 2008 Lors du calcul de la puret modifi e les l ments qui n appar tiennent pas la classe pr dominante ainsi que les singletons sont consid r s comme des erreurs Yn seoaeni ki 22 prevalent Ki mPurity C Mprevalentl Sa prevaten 1 F 6 L exactitude pond r e des classes peut tre consid r e comme une mesure de rappel pour chaque classe de la r f re
36. Chaque entr e est d finie par l ensemble des propri t s syntaxiques v rifi es dans une table particuli re Une entr e correspond donc une ligne dans une des tables ce qui signifie qu une m me entr e peut donner lieu plusieurs constructions la forme canonique et ses transformations Un verbe au niveau morphologique a autant d entr es qu il a d usages qui ont t consid r s comme distincts Ces entr es peuvent appara tre dans des tables distinctes ou dans la m me table 2005 Par exemple il y a des entr es pour r aliser dans les tables 6 et 32A 2a Luc a r alis qu il avait oubli le pain table 6 2b Georges Stein a r alis un tableau intitul Paris Le Pont du Car rousel P table 32A Dans d autres cas les deux usages ont la m me forme canonique et font donc partie de la m me table 2 lignes distinctes pour le m me verbe 3a Le bureau communique avec le salon table 35S 3b Jacques communique avec L a table 35S Les unit s polylexicales qui fonctionnent comme des pr dicats dans une phrase simple sont aussi d crites et sont appel es expressions fig es Les d veloppeurs du Lexique Grammaire ont fait le choix de coder de mani re assez fine certaines constructions Par exemple la table 32R3 re groupe les constructions transitives r siduelles et r v le parfois une classifi cation surprenante qui peut se r v ler mal adapt e un usage automatique 2000
37. ET acquisition automatique avec validation manuelle d informations syntaxiques correction et ajout manuel ou guid par des techniques automatiques Sagot et de La Clergerie 2000 ajout d informations contenues dans d autres ressources notamment le Lexique Grammaire et DicoValence et Sagot 008 Sagot et Tolone 2009 Des classes de verbes partageant les m mes sch mas ont t construites semi automatiquement et ont t valid es manuellement Les sch mas ont ensuite t projet s sur l ensemble des verbes partageant la m me classe Le lexique comprend dans sa version actuelle 6 825 lemmes verbaux La figure est un extrait du Lefff relatif aux informations de sous cat gorisation pour le verbe accompagner Le SSC de la troisi me en tr e pr sent e ci dessus est lt Suj cln sn Obj clalser cisn Loc y loc sn gt Il s agit d un sch ma trois compl ments dont le pre mier est le sujet qui peut tre clitique nominal ou syntagme nominal le deuxi me est l objet qui peut tre un clitique accusatif un se r cursif ou un syntagme nominal et un compl ment locatif le pronom y ou syntagme nominal locatif Cette entr e correspond l entr e 990 de DicoValence dont l exemple est ils l ont accompagn sa maison Le tableau 3 6 synth tise les informations disponibles propos du Lefff Le Lefff est de plus en plus un lexique constitu par la fusion de diction naires existants L
38. a cette difficult le seuil pour ces sch mas pronominaux est de 0 22 Nous avons galement mis des seuils sur le nombre d occurrences des verbes et des SSC En effet le filtrage sur la fr quence relative ne permet pas d viter qu un verbe tr s peu pr sent en corpus produise des entr es erron es Par exemple le verbe ondoyer a 10 occurrences dans le corpus et il produit apr s filtrage 7 SSC dont la plupart n apparaissent qu une ou deux fois Le sch ma SUJ SN P OBJ SP lt avec SN gt appara t une seule fois Or la phrase qui a produit cette entr e est La Danse d Anitra ondoie avec sensualit Sa fr quence relative 0 100 est sup rieure au seuil en rai son du faible nombre d occurrences de ondoyer Cependant le compl ment P OBJ SP lt avec SN gt est manifestement un modifieur et l entr e devrait tre filtr e La mise en place d un seuil de 30 sur le nombre d occurrences du verbe et de 10 sur le nombre d occurrences du sch ma permet d viter ce probl me Un grand nombre d erreurs est li a la probl matique de la distinction ar gument modifieur Comme dans la plupart des travaux existants Carroll 1997 Gardent 2009 nous comptons sur le fait que les SSC compre nant des modifieurs sont moins fr quents en corpus que les SSC comprenant uniquement des arguments L un des r les de l tape de filtrage est donc de rejeter les sch mas incluant des modifieurs Toutefois l information perdue e
39. ainsi qu Eric Laporte qui me fait l honneur de pr sider le jury Merci aussi Jacques Blanc Talon et Antoine Rozenknop d avoir accept de faire partie du jury Je souhaite galement remercier la Direction G n rale de l Armement et le Centre National de la Recherche Scientifique qui ont financ cette th se Je tiens par ailleurs remercier Didier Bourigault pour m avoir permis d utiliser son logiciel Syntex et pour sa r activit lorsque j avais besoin d in formations Merci galement tous les chercheurs avec qui j ai pu collaborer sur diff rents projets Mon travail a grandement b n fici de mes changes avec Kata Gabor Anna Korhonen Takuya Nakamura Lin Sun Stavroula Voyatzi et les participants au projet CroTAL D un point de vue plus personnel je veux remercier mes amis et ma famille qui ont t d un grand soutien Merci tout particuli rement mes parents qui m ont fait confiance dans mes choix ainsi qu Annette et Ber trand pour leur enthousiasme Bertrand et Laurent ont donn de leur temps pour relire ma th se avec rigueur je leur en suis tr s reconnaissant Merci enfin H lo se pour sa pr sence son optimisme et son soutien ii TABLE DES MATIERES TABLE DES MATI RES iii LISTE DES FIGURES vii ISTE DES TABLEAUX ix LISTE DES ABR VIATIONS xi 1 1 DOMAINE ET MOTIVATIONS a e EE E ae ee a r oo rest RARO ha ON 2 3 1 Exemple introductifl
40. alisations possibles des arguments TREELEX ne mentionne qu une seule construction non pronominale SUJ SN OBJ SN 12 Entr es 18280 18290 18300 18305 et 18310 de DICOVALENCE 13 Entr es 4_114 et 32H_153 de LGLEX 102 6 2 Evaluation de LexSchem SSC Exemple SUJ SN 0BJ SN Ces gentils faux b n voles confondaient la chose et son slogan SUJ SN REF ref1 Si les oiseaux avaient la t l il y a longtemps que leurs chants se confondraient SUJ SN OBJ SN P OBJ SP lt avec SN gt Un chasseur a t tu par erreur par un compa gnon qui l a confondu avec un sanglier SUJ SN REF refl P OBJ SP lt avec SN gt Le roi est le patron du makhzen mais il ne se confond pas avec lui TABLE 6 7 SSC correspondants au verbe confondre dans LEXSCHEM Dans ce cas pr cis les donn es de LEXSCHEM pourraient compl ter cer tains des lexiques examin s ci dessus Pour d autres cas moins favorables les autres ressources seraient mieux arm es Un travail reste donc n cessaire pour combiner les ressources et les diverses informations disponibles Ceci est particuli rement vrai des formes pronominales il est rapidement n ces saire de quitter le cadre purement syntaxique pour d terminer leur valeur s mantique r fl chi r ciproque passif pseudo se etc Seul un travail manuel peut fournir des informations fines ce niveau une strat gie pos sible est l
41. and English SPEC F3 The effect of verb frequency on performance LISTE DES ABREVIATIONS ACL Association for Computational Linguistics conf rence A OBJ Objet indirect r gi par ATTO Attribut de l objet ATTS Attribut du sujet ANR Agence Nationale de la Recherche ASSCi Syst me d Acquisition de Sch mas de Sous Cat gorisation informatis e Auto Automatique BNC British National Corpus CoLing Computional Linguistics conf rence DE OBJ Objet indirect r gi par de DGA Direction G n rale de l Armement EASy valuation des Analyseurs Syntaxiques HPSG Head driven Phrase Structure Grammar LADL Laboratoire d Automatique Documentaire et Linguistique de Paris 7 Lefff Lexique des Formes Fl chies du Fran ais LFG Lexical Functional Grammars LM10 Corpus des 10 ans du journal Le Monde LREC Language Resources and Evaluation Conference conf rence MNCut Multiway Normalized Cut Nb Nombre OALD Oxford Advanced Learner s Dictionary OBJ Objet direct PCFG Probabilistic Context Free Grammar PHP PHP Hypertext Preprocessor P OBJ Objet indirect r gi par une autre pr position que et de PropSub Proposition subordonn e RASP Robust Accurate Statistical Parsing REF Forme pronominale refl Pronom SA Syntagme adjectival SINF Syntagme infinitif SN Syntagme nominal xi SP Syntagme pr positionnel SSC Sch ma de sous cat gorisation SUJ Sujet SQL Structured Query Language TAL Traitement Auto
42. apports des approches pr sent es ci dessus sont consid rables par rapport la m thode de Brent L utilisation d une tape de segmentation en syntagmes chunking permet de mieux exploiter les informations contenues dans le corpus en produisant un plus grand nombre d hypoth ses en amont de l tape de filtrage De plus ces techniques ont permis de s attaquer des problemes importants en acquisition automatique comme la distinction argument modifieur et l extraction d informations de fr quence des SSC N anmoins ces m thodes ne permettent pas encore d acqu rir des SSC a une large chelle et se limitent au mieux quelques dizaines de sch mas ACQUISITION DE SSC A LARGE ECHELLE Le d veloppement d outils de TAL comme les tiqueteurs morpho syntaxiques ou les analyseurs syntaxiques plus complets et la disponibilit de corpus de taille plus cons quente ont permis d envisager l acquisition de SSC a une plus large chelle C est notamment le cas des travaux men s a Cambridge depuis le milieu des ann es 90 Briscoe et Carroll Korho 2007 51 Chapitre 4 Les m thodes d acquisition automatique de sch mas de sous cat gorisation Le syst me d acquisition de Briscoe et Carroll 1997 r alise les traite ments correspondant aux quatre tapes de l acquisition sur les phrases du corpus d entr el 1 Identification des verbes en corpus Un tiqueteur tiquette la phrase en parties du discours et un lemma
43. avons vu qu elles ne sont pas comparables m me si des similarit s existent TREELEX est issu d un corpus annot le corpus arbor de Paris 7 et DICOVALENCE est le fruit d un travail manuel pour une pr sentation plus d taill e de ces deux lexiques voir le chapitre 3 Les deux lexiques reposent donc directement ou indirectement sur un important travail de description linguistique pr alable ce qui permet de s assurer de l exactitude des sch mas pr sents dans ces ressources dans la grande majorit des cas Cepen dant cela ne garantit pas que ces lexiques soient complets particuli rement pour TREELEX qui a t acquis a partir d un corpus journalistique de taille limit e Il faut par ailleurs noter que DICOVALENCE est structur autour de la no tion d entr e lexicale chaque entr e refl te une distinction de sens comme dans un dictionnaire usuel pour distinguer les sens diff rents d un m me 95 Chapitre 6 Utilisation et valuation des m thodes d acquisition automatique de SSC verbe un champ fournit la traduction du verbe en anglais Par contre TREE Lex fournit des listes de SSC pour un m me lemme verbal a plat c est a dire que les constructions sont directement associ es un lemme verbal et non a une unit lexicale refl tant les distinctions de sens De ce point de vue LEXSCHEM est proche de TREELEX l absence d entr es lexicales en tant que telles est certes une limite p
44. binomial et d associer les verbes des SSC parmi une liste pr d finie de 19 sch mas Cette m thode a permis d acqu rir un dictionnaire de pr s de 5000 entr es pour plus de 3000 verbes mais qui ne comprend pas d infor mations sur la fr quence des arguments dans le corpus Contrairement aux travaux pr sent s pr c demment cette m thode cherche acqu rir des SSC contenant des compl ments pr positionnels Manning est donc confront au probl me de la distinction argument modifieur Son analyseur de surface ne faisant pas de distinction entre arguments et modifieurs la solution choisie est de chercher liminer les sch mas lors de l tape de filtrage Il est en effet difficile d int grer les crit res d finis par les linguistes au sein de syst mes de traitement automatique et on peut faire l hypoth se que les sch mas contenant des modifieurs seront moins fr quents en corpus que ceux qui n en contiennent pas en raison du caract re optionnel des modi fieurs voir section 2 3 2 Depuis plus de quinze ans la solution choisie par Manning reste la principale r ponse apport e au probl me de la distinction argument modifieur dans les syst mes d acquisition automatique Pour valuer ce systeme Manning a s lectionn au hasard 40 verbes parmi 2 000 verbes courants La comparaison des SSC acquis avec les sch mas pr sents dans le dictionnaire OALD donne un taux de pr cision de 90 et un rappel de 43 Les
45. d ASSCi autres techniques de filtrage la loi binomiale souvent utilis e binomial hy pothesis testing Brent et la log vraisemblance binomial log likelihood ratio Gorrell 1999 Comme nous l avons vu dans la section 4 4 le maximum de vraisemblance donne les meilleurs r sultats C est pourquoi nous avons d cid d utiliser cette m thode Pour chacune des entr es du lexique non filtr sa fr quence relative est compar e un seuil d termin par les exp riences d talonnage d crites plus bas Si la fr quence relative est sup rieure au seuil l entr e est retenue dans le lexique de sortie sinon l entr e est rejet e La valeur du seuil utilis dans le filtre est de 0 06 Afin d am liorer cette m thode nous avons d termin des seuils diff renci s pour les SSC ne contenant qu un sujet et les sch mas avec un mar queur de forme pronominale En effet lorsque le rattachement d un l ment de la phrase un autre est incertain l impl mentation de SYNTEX privil gie de ne pas lier les l ments Certaines phrases complexes incises etc produisent des analyses erron es et le sch ma r sultant de cette analyse est souvent SUJ SN Le seuil utilis pour ce sch ma est donc fix 0 09 par le processus d talonnage Par ailleurs les diff rents types de compl ments pronominaux sont difficiles distinguer comme nous l avons montr dans le chapitre 2 Pour r duire les erreurs li es
46. de valider ou d invalider hors contexte les nouveaux SSC propos s par LEx SCHEM pour chaque verbe Un travail manuel de validation est alors n ces saire Les entr es absentes de LEXSCHEM mais pr sentes dans la ressource de comparaison posent un probl me encore plus d licat l entr e n a t elle pas t rep r e cause d erreurs d analyse ou est elle juste absente du journal Le Monde comme c est le cas pour les constructions du verbe accompagner pr sent es plus haut Au del de quelques investigations manuelles pour des verbes particuliers il est difficile d tre cat gorique quant au silence de la ressource R sultats et discussion Les SSC des 1 583 verbes communs aux 3 ressources ont t compar s Le tableau 6 5 montre les r sultats obtenus Pr cisons toutefois que le probl me de transformation de format de DICOVALENCE vers DICOVALENCE EASY pro voque probablement une surestimation de la nouveaut de LEXSCHEM par rapport DicoVALENCE EASy Ce probl me de transformation de format peut aussi avoir un effet plut t positif cette fois sur le recouvrement entre LExSCHEM et DICOVALENCE L investigation manuelle est donc tr s impor tante pour tudier ce biais On ne remarque pas de diff rence significative au niveau du recouvre ment entre les deux ressources de r f rence TREELEX et DICOVALENCE EASY La seule diff rence remarquable concerne les nouveaux SSC plus nombreux quand on compare LEXSCHEM avec
47. de LGExtract 2010 LGExtract est un outil qui g n re un lexique par tir des tables du Lexique Grammaire en les laguant de propri t s qui sont difficilement utilisables l tat actuel de l analyse syn taxique automatique Le r sultat est disponible sous la licence LGPL LR http infolingu univ mlv fr DonneesLinguistiques Lexiques Grammaires Visualisation html La figure 5 2 repr sente l entr e de LGLex correspondant au verbe accom pagner La premiere ligne de l entr e ID V_32H_8 donne l identifiant de la table dont est tir e l entr e cette entr e reprend les informations contenues dans la ligne 8 de la table 32H du Lexique Grammaire c est a dire l entr e du Lexique Grammaire correspondant accompagner dans la table 32H voir section 5 1 La deuxi me ligne pr sente des informations lexicales sur le verbe alors que la troisi me ligne donne les informations d taill es sur les arguments Les constructions possibles du verbe sont donn es par la ligne all constructions Ici le verbe accompagner peut prendre les construc tions NO V N1 forme canonique Max accompagne L a et Nl est Vpp W construction passive introduite par la pr position par L a est accompagn e par Max Le dernier champ de l entr e est un exemple qui illustre l entr e ici Max accompagne L a LGLex est galement disponible au format Lefff LGLex Lefffffl E Tolone 2009 SynLex et LGLex ont rendu les informations
48. de leur longueur i e leur nombre de compl ments ce qui per met d assurer que les sch mas dont la fr quence relative est augment e par des sch mas r duits sont trait s apr s ceux susceptibles d augmenter cette fr quence Par exemple la phrase Jean boit un caf la terrasse permet d identifier un SSC o le groupe pr positionnel introduit par est un compl ment potentiel mais comme la fr quence de ce SSC est inf rieure au seuil on peut r duire le sch ma pour identifier ici un emploi transitif SUJ SN OBJ SN du verbe boire Enfin ce module recalcule galement les fr quences relatives des entr es en fonction du nombre d occurrences des verbes r sultant du filtrage En effet le rejet de sch mas r duit le nombre d occurrences des verbes et la somme des fr quences relatives d un verbe doit tre gale 1 Pour l en tr e pr sent e ci dessus sch ma SUJ SN OBJ SN A OBJ SP lt SN gt pour le verbe reprocher la fr quence relative finale est de 0 256 talonnage du filtre La qualit du filtrage et in fine de l acquisition d pend des seuils uti lis s Nous avons donc d fini un protocole pour choisir les seuils les plus efficaces pour le filtrage des SSC candidats Nous avons d velopp un script qui permet de calculer la proximit des entr es acquises par notre syst me avec TREELEX en fonction du seuil avec lequel il est filtr Si TREELEX ne peut pas tre utilis comme un gold standa
49. de leurs comportements syntaxiques SSC donne des classes coh rentes au niveau s mantique quand on les compare a un gold standard De plus ces tudes valident l utilisation de SSC acquis automatiquement dans un cadre applicatif malgr le caract re imparfait de la ressource La disponibilit d informations issues du corpus fr quences des entr es t tes lexicales est m me un atout pour des travaux de ce type Les deux exp riences ont galement permis de v rifier l hypoth se qu une technique de classification utilis e sur une langue donn e peut tre utilis e sur une autre langue a condition de prendre en compte les sp cifici t s de la langue vis e par exemple pour le fran ais les verbes pronominaux et la diversit des compl ments pr positionnels 119 Chapitre 7 Production de classes de verbes sur la base de leur comportement syntaxique 7 5 Nous avons r alis deux exp riences distinctes afin de pouvoir comparer les r sultats obtenus en fonction de la m thode utilis e et des informations exploit es L hypoth se de la compl mentarit des r sultats obtenus se v ri fie en partie Les deux techniques de classification utilis es sont distinctes et produisent des r sultats diff rents Le choix de la technique de classification a des implications directes sur les classes obtenues la premi re exp rience Messiant et al fournit des classes de taille fixe c est dire que toutes les c
50. differences in language specific data sets and sizes direct compari son of the actual performance figures for English and French is not possible When considering the general level of performance our best performance for French 65 4 F is clearly lower than the best performance for English in the experiment of 2009 However it compares favourably to the performance of other state of the art even supervised systems for En glish verb classification Joanis et al 2008 Vlachos et al 2009 This is impressive considering that we experimented with a fully unsupervised method originally developed for another language Our experiment suggests that when aiming to improve performance fur ther employing larger data is critical Most recent experiments on English have employed bigger test and data sets and unlike us some of them have only considered the predominant senses of medium high frequency verbs 2009 As seen in subsection F 2 7 such differences in data can have significant impact on performance However parser and feature extraction performance can also play a big role in overall accuracy and should therefore be investigated further When Sun et evaluated their basic SCF feature equivalent to F1 using the same corpus data and gold standard but an older version of the parser and the SCF extraction system the F dropped dramatically from 57 8 to 38 3 The relatively low performance of basic LP features in French suggests
51. dispara tre les listes de s quences SYNTEX et des t tes argumentales du fichier de r sultat ces informations rendent le fichier moins lisible et sont parfois inutiles Le format XML permet d adapter ais ment les lexiques acquis par ASSCi dans des formats standard comme le format EASY ou encore le format LMFP3 Proposition de nouveaux sch mas Comme nous l avons vu dans la section l observation de notre lexique a r v l qu un grand nombre de SSC corrects mais absents 19 La version du lexique non filtr disponible ne contient pas les listes des s quences SYNTEX et des t tes argumentales correspondant l entr e la taille du fichier contenant ces informations est trop importante pour qu il soit facilement t l chargeable 20 Le script de transformation et des versions de LEXSCHEM aux diff rents formats lexschem html 21 Le suffixe noseqs est ajout la fin du nom des fichiers ne contenant par les s quences SYNTEX et le suffixe noargs la fin du nom des fichiers ne contenant pas les t tes argumentales 22 Un format proche d EASy a d ailleurs t utilis pour comparer LEXSCHEM TREELEX 23 Lexical Markup Framework http www lexicalmarkupframework org 109 Chapitre 6 Utilisation et valuation des m thodes d acquisition automatique de SSC de LEXSCHEM s av raient tre des formes r duites de sch mas pr sents dans LExSCHEM Il s agit souvent de compl ments qui peuvent s eff
52. disponibles dans le Lexique Grammaire plus ais ment exploitables par les applications de traitement au tomatique des langues Toutefois ces deux ressources n ont pas encore at teint la couverture du Lexique Grammaire et une certaine perte d informa tions a t conc d e lors de leur acquisition Le tableau 5 2 fait la synthese de ces deux ressources lexicales 8 http infolingu univ mlv fr DonneesLinguistiques Lexiques Grammaires Visualisation html 9 le Lefif est presente a la section 3 4 29 Chapitre 3 Les ressources existantes pour le fran ais 3 3 Ressource SynLex LGLex M thode de d veloppement partir du LG partir du LG Nombre de verbes 5 244 5694 Utilisabilit en TAL Exploitable Exploitable TABLE 3 2 Synth se pour SynLex et LGLex DICOVALENCE DicoValence van den Eynde et Mertens est un dictionnaire syn taxique construit manuellement dans le cadre m thodologique de l Ap proche Pronominale 1978 Il s agit du successeur du lexique PROTON dictionnaire de valence des verbes fran ais comprenant 8 600 entr es pour 3 700 infinitifs r alis pendant la p riode 1986 1992 eg eenoog Le lexique et un manuel d taill sont disponibles en ligne DicoValence r pertorie les sch mas de sous cat gorisation appel s cadres valenciels dans DicoValence de 3 738 verbes simples du fran ais r partis en 8 313 entr es c est dire couples verbe s
53. double logarithmique dans la figure 6 1 Cette distribution est de type zip fien c est dire qu il y a beaucoup de verbes tr s peu fr quents quelques 1 Ce ph nom ne est d des erreurs de segmentation 2 L chelle logarithmique permet de mieux repr senter une gamme plus tendue de va leurs ici par exemple le nombre d occurrences des verbes varie de 1 plus de 3 5 millions 86 6 1 Acquisition d un lexique de sous cat gorisation large couverture pour le fran ais log10 nb verbes N m 0 gt 0 gt 0 5 gt l gt 1 5 gt 2 gt 25 gt 3 gt 35 gt 4 gt 45 gt 5 gt 55 gt 6 gt 6 5 log10 nb occurrences FIGURE 6 1 Repr sentation log log de la distribution des verbes du corpus LM10 occurrences et tr s peu de verbes tr s fr quents plus d un million d occur rences dans le corpus Le tableau 6 1 donne le nombre d occurrences dans le corpus LM10 de 20 verbes R glages Nous avons utilis le syst me ASSCi sur le corpus LM10 pour acqu rir un lexique de sous cat gorisation verbale L acquisition de LEXSCHEM a t r alis e l aide de la version d ASSCi pr sent e dans le chapitre 5 Les seuils utilis s pour le filtrage du lexique sont donc ceux d termin s par l talonnage pr sent a la section 5 4 3 0 10 pour les sch mas intransitifs 0 22 pour les formes pronominales 0 06 pour tous les autres SSC Rappelons galement que seuls l
54. en prenant en compte les pr positions utilis es au sein des compl ments pr positionnels VCONJS SUJ SN OBJ SN OBJ SP lt a SN gt 0 35 Les six jeux de param tres suivants prennent en compte le contexte lexi cal des verbes Les colocations sont extraites partir des fen tres gauche et droite du verbe en ignorant les mots vides F4 F6 FS les contextes de 4 6 et 8 mots La position du mot est ignor e avantage a 4 mots F5 F7 F9 idem que F4 F6 et F8 avec un enregistrement de la position relative du mot gauche droite avantage laboratoire 6 mots Les quatre jeux de param tres suivants utilisent les pr f rences lexicales Ip des verbes dans certaines positions argumentales lemmes t tes F10 LP PREP les pr positions accept es par le verbe et leur fr quence 1 F11 Lp susj le type et la fr quence des noms dans la relation sujet il 0 09 on 0 04 il donne on donne etc F12 Lr 10BJ le type et la fr quence des noms dans les relations objet et objet indirect nom 0 03 coup 0 03 pour la relation objet donner un nom donner un coup etc et lui 0 20 gouvernement 0 01 pour la relation objet indirect lui donner donner au gouvernement etc F13 LP ALL la combinaison des caract ristiques F10 F11 et F12 Les deux derniers jeux de param tres combinent les SSC avec
55. est un objet 4 Marc est un objet pr positionnel de cat gorie syntagme pr positionnel Cet exemple assez trivial masque le probl me de la distinction argu ment modifieur dont nous avons parl plus haut section 2 3 2 et qui consti tue la principale difficult lorsqu on travaille sur la sous cat gorisation ver 3 La signification des abr viations utilis es dans les SSC est donn e dans le tableau 5 3 chapitre 5 12 2 3 Les diff rentes composantes des sch mas pr dicatifs bale En effet certains compl ments pr sents en surface sont des modi fieurs et ils ne devraient pas figurer dans le SSC 10 Barack Obama sy sn est devenu Pr sident des Etats Unis op SN le 4 novembre 2008 movrmur SUJ SN OBJ SN 11 Le pape su sn rencontrera les victimes op sy Malte movirteur SUJ SN OBJ SN Dans ces 2 phrases le 4 novembre 2008 et Malte sont des modifieurs et ils sont par cons quent exclus des SSC N anmoins il arrive qu il ne soit pas si simple de d terminer si un com pl ment est un argument ou un modifieur 12a Pierre syy sn S est rendu Lille p og spray par l autoroute A1 SUJ SN P OBJ SP P OBJ SP par ou SUJ SN P OBJ SP 13a Les actions sy sn ont baiss de 10 la semaine derniere moprrreur SUJ SN P OBJ SP de ou SUJ SN Il n existe pas de th orie qui permette de d terminer coup s r si par l au to
56. fausses par une valuation classique par la mesure de la pr cision et du rappel Ceci montre selon nous la capacit de notre syst me et plus g n ralement des m thodes automatiques assister le linguiste lors de l laboration d un lexique ou lorsqu il souhaite compl ter des ressources existantes valuation qualitative Une analyse qualitative des ressources obtenues par acquisition automa tique est indispensable En effet la comparaison de LEXSCHEM d autres ressources ne donne qu un aper u partiel de la qualit du lexique du fait du caract re complexe de la nouveaut un sch ma nouveau dans LEx SCHEM peut tre d une erreur ou au contraire tre un sch ma absent des autres ressources mais valide pour la t che vis e sur ce probl me voir les sections 4 1 et 6 2 1 Nous avons donc effectu une analyse manuelle de la couverture et de la nouveaut obtenues lors de la comparaison de LEXSCHEM avec TREELEX et DICOVALENCE EASY Nous nous penchons ensuite sur le cas des constructions pronominales Enfin les analyses manuelles de LEXSCHEM 9 Il faut toutefois noter que c est dessein que DICOVALENCE et TREELEX ne sont pas exhaustifs les concepteurs de DICOVALENCE ont par exemple volontairement limit leur lexique aux 3 500 verbes les plus fr quents du fran ais Il n emp che que les applications de traitement des langues exigent des dictionnaires aussi complets et pr cis que possible et dans ce
57. features is performed via parameterization Thus we use the Jensen Shannon divergence JSD to construct the similarity matrix The JSD between two fea ture vectors v and v0 is djgq v 0 D o0 m 3D v m where D is the Kullback Leibler divergence and m is the average of the v and v The similarity matrix W is constructed where W exp djsa v 0 In SPEC the similarities Wj are viewed as the connection weight ij of a graph G over V The similarity matrix W is thus the adjacency matrix for G The degree of a vertex i is dj EG Wij A cut between two partitions A and A is defined to be Cut A A Ymca nea Wmn The similarity matrix W is normalized into a stochastic matrix P P DIW F 9 The degree matrix D is a diagonal matrix where D dj It was shown by that if P has the K leading eigenvectors that are piecewise constantP with respect to a partition I and their eigenvalues are not zero then 1 minimizes the multiway normalized cut MNCut MIN E Lk can Pin can be interpreted as the transition probability between vertices m n The criterion can thus be expressed as MNCut 1 EX 1 P e IklIk 2001 which is the sum of transition probabilities across different clus ters This criterion finds the partition where the random walks are most likely to happen within the same cluster In practice the leading eigenvectors of P are not piecewise constant But we can extract the partition by find
58. impl mentation des modules qui mettait en place notam ment un traitement plus labor des conjonctions de coordination ou des syntagmes pr positionnels a caus la migration de ces traitements vers l extracteur L objectif vis tait d viter de devoir acc der l analyse SYNTEX apr s la phase d extraction En effet des acc s l analyse de l ensemble de la phrase sont n cessaires pour traiter certaines constructions conjonctions de coordination syntagmes pr positionnels etc voir infra Ce choix s est av r probl matique car il implique un retour au d but de la cha ne de traitements lorsqu un changement doit intervenir dans l algorithme en raison de la d tection d un bug ou de l ajout d une nouvelle fonctionnalit par exemple Il faut alors extraire de nouveau les pr sch mas pour l ensemble du cor pus Or les temps de calcul de l extracteur sont longs car c est le corpus tout entier qui est trait cette tape De plus l augmentation du nombre de verbes trait s par exemple en abaissant le seuil d occurrences pour les verbes trait s augmente beaucoup le temps d ex cution de l extracteur Les r gles utilis es par l extracteur peuvent tre am lior es On pourrait en effet effectuer un traitement encore plus fin des conjonctions de coor dination des pronoms ou des adverbes N anmoins le parti pris de notre approche est de favoriser un traitement en largeur un traitement en p
59. in agreement with our results from this larger unsupervised experiment with French These experiments further support the linguistic hypothesis that Levin style classification can be cross linguistically applicable or overlapping Levin 1993 A clustering technique such as the one presented here could be used as a helpful tool to investigate this hypothesis further and to find out whether classifications are similar across a wider range of more diverse languages From the NLP perspective the fact that an unsupervised technique developed for one language can be applied to another language without substantial changes in the methodology means that automatic techniques can be used to hypothesise useful Levin style classes in a cost effective manner Kipper et al 2008 This in turn can facilitate the creation of VerbNets for new languages 155 LISTE DES PUBLICATIONS LIEES A LA THESE ARTICLES DE REVUE C dric Messiant Kata G bor et Thierry Poibeau Acquisition de connais sances lexicales a partir de corpus la sous cat gorisation verbale en frangais Traitement Automatique des Langues 2010 C dric Messiant et Thierry Poibeau Automatic Lexical Acquisition from Corpora some Limitations and some Tentative Solutions Cahiers du Cen tal num ro sp cial eLexicography in the 21st Century New Challenges New Applications Presses Universitaires de Louvain 2010 COMMUNICATIONS INTERNATIONALES AVEC ACTES Lin Sun Th
60. insertions comme Il commande ensuite sur Internet des pi ces d tach es qui donneront une arme parfaitement inutilisable qui produit le sch ma erron SUJ SN soit verbe intransitif Il arrive galement que des pronoms ne soient pas rattach s au verbe par l analyseur Par exemple la phrase Tu couches ou je te vire produit le sch ma SUJ SN intransitif pour le verbe virer Nous avons partiellement r pondu ce probl me en mettant un seuil plus lev 103 Chapitre 6 Utilisation et valuation des m thodes d acquisition automatique de SSC 6 2 3 6 3 6 3 1 pour le SSC SUJ SN fr quemment produit cause de ces erreurs d ana lyse Bien videmment cette strat gie n est pas toujours suffisante Un dernier ensemble d erreurs est li au syst me d acquisition lui m me Certains SSC sont incorrects parce qu ils contiennent des modifieurs Par exemple le sch ma SUJ SN_P OBJ SP lt dans SN gt est tr s pr sent en corpus pour le verbe dormir mais le compl ment introduit par la pr po sition dans correspond toujours un compl ment circonstanciel de lieu Il dort dans son lit La distinction argument modifieur reste donc difficile quand on se fonde uniquement sur des indices de surface Notons toutefois que ce type d erreurs et plus g n ralement la pr sence r guli re de certains types de modifieurs est utile pour le calcul de classes syntaxico s mantique de verbes voir ch
61. les pr f rences lexicales et des restrictions de s lection F14 F16 idem que F1 F3 avec une prise en compte des pr f rences lexi cales VCONJS SUJ SN il 0 09 on 0 04 OBJ SN nom 0 03 coup 0 03 OBJ SP lt SN lui 0 20 gouvernement 0 01 gt 0 35 3 extrait du corpus LM10 118 7 4 7 4 Discussion F17 F3 combin e avec des restrictions de s lection sur les arguments 40 restrictions de s lection ont t acquises automatiquement par classifi cation non supervis e sur les t tes lexicales Le gold standard utilis pour l valuation est le m me que celui que nous avons utilis dans l exp rience 1 section 7 3 1 Une premi re exp rience a t r alis e en se limitant aux 116 verbes qui apparaissent au moins 150 fois dans le corpus en raison de la taille critique n cessaire pour la classification automatique Les jeux de param tres F1 F3 donnent des r sultats significa tivement meilleurs que la baseline Parmi ces jeux de param tres F3 donne les meilleurs r sultats et sera utilis e comme base pour F14 F17 Les jeux de param tres qui exploitent les colocations F4 F9 et celle qui exploite les pr f rences lexicales sur tous les arguments F13 obtiennent de meilleures performances que celles qui utilisent les SSC mais c est la combinaison des SSC et des pr f rences lexicales F14 F16 voire des restrictions de s lection F17 qui semble t
62. lexique De plus l exp rience est assez peu reproductible pour des langues de sp cialit tant donn les contraintes li es a l tablissement de corpus arbor s de taille suffisante pour divers domaines Le principal avantage des m thodes d acquisition partir de corpus ar bor s est qu elles s appuient sur des donn es peu bruit es ce qui permet d obtenir des r sultats plut t satisfaisants en termes de pr cision En outre la distinction argument modifieur est sp cifi e dans les annotations du cor pus par exemple dans TreeLex il existe une fonction MOD pour les modi fieurs Le probl me de la distinction argument modifieur n a donc pas la m me ampleur pour les syst mes d acquisition partir de corpus arbor que pour les syst mes d acquisition automatique partir de corpus brut Ce travail pr alable garantit donc la qualit des annotations contenues dans le lexique et donc des informations acquises partir de ces annota tions Cependant m me si l on peut aussi parler d acquisition dans ce cas il s agit en fait d une approche tr s diff rente des exp riences d acquisition automatique partir de corpus brut Les corpus arbor s sont excessivement rares la m thode est donc peu portable et ne permet pas de traiter du cor pus tout venant En effet les corpus arbor s sont des corpus annot s la main ou au moins dont l analyse syntaxique a t valid e manuellement Toute nouvelle tude de
63. n cessaires a l acquisi tion 58 5 2 5 2 1 5 2 Pr traitements Rep rage des mots mal annot s verbes dans le corpus Liste de verbes TreeTagger Lemmatiseur ASSCi et tiqueteur morpho syntaxique Extracteur Constructeur Filtre des Syntex de de SSC SSC non pr SSC candidats pertinents Analyseur syntaxique Lexique FIGURE 5 1 Architecture g n rale d ASSCi PRE TRAITEMENTS Les deux premi res tapes de la tache d acquisition consistent a identi fier les verbes et leurs compl ments dans le corpus Ces taches peuvent tre grandement facilit es par la lemmatisation l analyse morpho syntaxique et l analyse syntaxique de surface du corpus Au regard des outils disponibles pour le fran ais et des performances de ceux ci nous avons retenu l analy seur syntaxique SYNTEX Cet analyseur repose sur les annotations de l analy seur morpho syntaxique TREETAGGER Cette section pr sente ces deux outils Lemmatisation et tiquetage morpho syntaxique TreeTagger La lemmatisation et l tiquetage morpho syntaxique sont pr alablement r alis s par TREETAGGER Schmid 1994 Description TREETAGGER est un outil de lemmatisation et d annotation en parties du discours Il a t utilis pour tiqueter des textes en allemand anglais fran ais italien n erlandais espagnol bulgare russe grec portugais et chinois De plus il est adaptabl
64. outils et ou de corpus a permis d augmenter la couverture de ces syst mes progressivement pour tendre vers l exhaustivit 48 4 3 1 4 3 Les premiers travaux d acquisition automatique de SSC NP only SN seul greet them tensed clause PropSub hope he ll attend infinitive hope to attend NP amp clause SN et PropSub tell him he s a fool NP amp infinitive SN et SINF want him to attend NP amp NP SN et SN tell him the story TABLE 4 1 Liste des SSC reconnus par le syst me Lerner cette liste est issue de 1993 Jeter les bases de l acquisition automatique de SSC partir de cor pus La premi re tude d acquisition automatique de SSC partir de corpus dont il est fait tat dans la litt rature est celle de Michael R Brent 1991 1993 Le but de cette tude est d explorer l acquisition d informations lexicales sur la syntaxe des verbes a partir d un corpus brut et d une analyse de surface tr s partielle Le syst me d velopp par Brent appell Lerner d tecte six SSC simples a partir d un corpus de 2 6 millions de mots voir tableau 4 1 Pour reconnaitre ces diff rents sch mas dans le corpus Lerner repose sur des indices morpho syntaxiques locaux plut t que sur une analyse syn taxique complete En effet les applications d analyse syntaxique taient l poque peu efficaces et co teuses en ressources Le syst me de Brent re pose sur
65. qualit de la ressource l aide d outils math ma tiques et l valuation qualitative qui se consacre une valuation plus fine des r sultats obtenus Ces deux types d valuation sont d taill es plus loin sections et 4 1 3 Evaluation extrins que L valuation extrins que d une ressource consiste montrer qu une res source am liore les performances des applications qui en feront usage Pour ce faire on compare les r sultats obtenus pour une t che donn e avec et sans l exploitation de la ressource Par exemple pour ce qui concerne un lexique de sous cat gorisation on peut consid rer une t che d analyse syntaxique et comparer les performances obtenues pour un m me syst me dans le cas o il n utilise pas de ressource et dans le cas o il utilise le lexique que nous cherchons valuer on peut aussi comparer les performances lorsque le syst me utilise une autre ressource Ce type d valuation n est pas facile mettre en oeuvre Il suppose en ef fet de disposer d un syst me susceptible d exploiter les informations dispo nibles dans la ressource valu e En outre il suppose que l on ait un moyen fiable d valuer les performances de ce syst me ce qui peut reposer la ques tion du gold standard cf section 4 1 2 43 Chapitre 4 Les m thodes d acquisition automatique de sch mas de sous cat gorisation 4 1 2 Il est parfois plus important de mesurer l apport d une ressource par
66. rents niveaux Apr s un bref exemple introductif et un pr a lable sur la distinction argument modifieur nous pr sentons les concepts fr quemment utilis s pour caract riser la structure argumentale des pr di cats sch mas de sous cat gorisation grilles th matiques et restrictions de s lection 2 3 1 Exemple introductif Consid rons les phrases suivantes ga Jean donne un livre Marie 9b Jean donne Marie un livre qu il a lu r cemment 9c Jean le lui a donn od Un livre est donn Marie par Jean 10 2 3 2 2 3 Les diff rentes composantes des sch mas pr dicatifs On remarque que l ordre des l ments de la phrase ou r alisation de surface est diff rent pour chacune des phrases bien que ces phrases ex priment le m me proc s Par ailleurs la relation syntaxique entre les arguments et le pr dicat reste inchang e hormis dans le cas 9d forme passive Dans la phrase 9d un livre est le sujet du verbe alors qu il est compl ment d objet dans les phrases ga gb et 9c Cependant le r le des l ments du point de vue du sens reste inchang dans chacune des phrases Jean donne le livre tandis que Marie le re oit Dans chacun des cas le livre est l objet que Jean donne a Marie m me lorsqu il se trouve en position sujet phrase 9d Sch matiquement la grille th matique repr sente la part s mantique du sch ma pr dicatif alors que son sch ma
67. repr sentent ces classes que disent elles sur la langue CONCLUSION Nous avons r alis deux exp riences de classification verbale partir des sorties d ASSCi Ces travaux ont permis de montrer que les informa tions acquises par notre syst me permettent d obtenir des classes verbales coh rentes s mantiquement Ces r sultats soulignent donc l int r t de l ac quisition automatique d informations lexicales partir de corpus En ef fet les exp riences pr sent es ici n auraient pas pu tre r alis es avec des lexiques construits manuellement m me id aux c est dire id alement complets et robustes ce qui n est pas le cas des dictionnaires de l tat de l art Dans le cadre d exp riences de ce type la plus value apport e par les techniques d acquisition automatique en particulier celles des informations de fr quence des SSC et de lemmes t tes est remarquable 120 8 2 CONCLUSION RAPPEL DES ENJEUX Dans l introduction de cette th se nous avions identifi trois enjeux importants concernant l acquisition automatique d informations lexicales partir de corpus 1 L tude des techniques d acquisition automatique large couverture pour le fran ais peu tudi es jusqu alors 2 La validation de ces m thodes et de leur apport par rapport aux res sources construites suite un travail manuel tant sur le domaine g n ral que sur un domaine de sp cialit 3 L exploration
68. rience qui montre l adaptabilit des m thodes d acquisition et par la pr sentation d outils pour le param trage des ressources Le dernier chapitre Production de classes de verbes sur la base de leur comportement syntaxique pr sente deux exp riences de classification au tomatique de verbes r alis es partir du lexique pr sent dans le chapitre 5 Ces exp riences visent montrer comment la syntaxe peut servir de marche pied l acquisition d informations s mantiques DESCRIPTION DU VERBE POUR L LABORATION DE LEXIQUES ES informations lexicales c est a dire les informations se rapportant aux mots et leur propri t s ont pris une importance consid rable pour le traitement automatique des langues ces derni res ann es Il est en effet primordial pour les syst mes d extraction d information Surdeanu et al ou d analyse syntaxique de conna tre la fa on dont se combinent les mots au niveau s mantique et au niveau syntaxique Dans le cadre de cette th se nous nous int ressons en particulier aux pr dicats et la mani re dont ils se combinent avec leurs arguments Ces informations sont d crites par des sch mas pr dicatifs Nous d finissons la notion d entr e lexicale avant d introduire les no tions de pr dicat et de structure argumentale Nous d finissons ensuite le concept de sch ma pr dicatif et ses diff rentes notions li es sch ma de sous cat gorisation grille th matique et restrict
69. s d effectuer en s rie les traitements n cessaires qui correspondent grosso modo aux tapes d crites au d but de ce chapitre 52 4 4 Acquisition de SSC a large chelle les taux d erreurs cit s ci dessus Briscoe et Carroll Carroll et al 1998 Depuis ce premier article la m thode a fait l objet de nombreuses am liorations jusqu tr s r cemment Anna compare trois m thodes de filtrage diff rentes pour ce syst me d acquisition la loi binomiale souvent utilis e bi nomial hypothesis testing Brent 1993 la log vraisemblance binomial log likelihood ratio Gorrell 1999 et le maximum de vraisemblance maximum likelihood estimates La technique consiste appliquer un seuil sur les fr quences relatives des SSC d termin empiriquement l aide d un jeu de test La m thode peut tre am lior e en utilisant des seuils diff renci s en fonction des sch mas valu s par exemple en r duisant le seuil pour des constructions relativement rares en corpus mais s res ou en l augmen tant pour des constructions fr quentes mais rarement correctes comme celles contenant certains modifieurs C est la m thode de maximum de vraisem blance qui donne de meilleurs r sultats sur 14 verbes et qui a t retenue par Korhonen Selon l auteur cel s explique par la distribution zipfienne des SSC et la faible corr lation entre les distributions conditionnelles et in conditionnelles N anmoins
70. se confondent des entr es erron es en raison d une erreur d annotation ou d analyse syntaxique des entr es mal filtr es et des entr es contenant un modifieur et on sait qu il est parfois difficile m me pour un observateur humain de distinguer les arguments des modifieurs Pour toutes ces raisons la pr cision le rappel et la F mesure nous semblent trop grossi res pour l valuation d une ressource comme LEXSCHEM Lorsqu on acquiert une nouvelle ressource on cherche mesurer la fois son recouvrement avec les ressources existantes et la nouveaut qu elle apporte par rapport ces ressources cette nouveaut peut tre notamment due au corpus utilis pour l acquisition ou des lacunes dans les ressources existantes La nouveaut est le nombre d entr es acquises automatique ment et qui peuvent compl ter une ressource existante Habituellement cette nouveaut est trait e comme un d ficit de pr cision de la ressource valu e Or si les entr es nouvelles contiennent une part d entr es incorrectes elles contiennent galement des entr es certes absentes de la ressource r f rence mais correspondant un usage dans la langue autrement dit ce n est pas parce qu une entr e n tait pas dans la ressource de r f rence qu elle est fausse c est pr cis ment cette nouveaut qui fait tout l int r t des m thodes automatiques Il s agira dans un deuxi me temps de mesurer la qualit des sch mas qu
71. surprendre au premier abord Elle s explique pourtant assez simple ment 88 6 1 Acquisition d un lexique de sous cat gorisation large couverture pour le fran ais Nb de SSC Nb de verbes Proportion Exemples de verbes 1 626 20 0 ternuer miroiter jubiler 2 1385 44 3 accompagner trier retrouver 3 729 23 3 ouvrir acheter plaire 4 278 8 9 mordre n gocier obliger 5 88 2 8 inviter jeter manquer 6 15 0 5 varier conseiller demander 7 2 0 1 travailler d bouler TABLE 6 2 Nombre de verbes par nombre de SSC travailler d bouler SUJ SN SUJ SN SUJ SN OBJ SN SUJ SN OBJ SN SUJ SN A OBJ SP lt a SN gt SUJ SN A OBJ SP lt a SN gt SUJ SN P OBJ SP lt avec SN gt SUJ SN P OBJ SP lt en SN gt SUJ SN P OBJ SP lt sur SN gt SUJ SN P OBJ SP lt sur SN gt SUJ SN P OBJ SP lt dans SN gt SUJ SN P OBJ SP lt dans SN gt SUJ SN P OBJ SP lt pour SN gt SUJ SN DE OBJ SP lt de SN gt TABLE 6 3 Entr es de LexSCHEM pour les verbes travailler et d bouler apres filtrage le nombre de verbes trait s passe de 4 632 3 123 Un tiers des verbes et donc toutes les entr es qui leur sont associ es sont donc suppri m s du lexique final en raison d un trop faible nombre d occurrences moins de 30 le seuil sur le nombre d occurrences des SSC toutes les entr es avec moins de 10 occurrenc
72. thode permet donc de compl ter facilement le lexique afin d am liorer sa couverture Le programme peut galement servir de socle pour une validation du lexique ou proposer d autres r gles pour compl ter LEXSCHEM par exemple en proposant d ajouter les entr es qui ont t obser v es dans le corpus mais dont la fr quence relative est l g rement inf rieure au seuil Vheure actuelle nous n avons malheureusement pas pu mesurer l ap port de cette m thode de compl tion du lexique N anmoins si la validation manuelle des entr es propos es est co teuse elle garantit une am lioration de la ressource CONCLUSION Nous avons pr sent l acquisition d un lexique de sous cat gorisation large couverture pour les verbes fran ais L valuation de ce lexique a per mis de montrer ses limites et de tenter de r pondre aux erreurs les plus fr quentes Nous avons ensuite effectu une deuxi me exp rience pour me surer l apport des m thodes d acquisition automatique dans le cadre d une langue sp cialis e Enfin nous avons pr sent des outils d velopp s pour faciliter l acc s et l utilisation de ce lexique par la communaut Une autre mani re de mesurer l int r t des m thodes d acquisition au tomatique de ressources est d utiliser les lexiques acquis dans un cadre ap plicatif Le prochain chapitre pr sente des exp riences de classification au tomatique de verbes r alis es partir des donn
73. verbes noms et adjectifs dans un format lectronique avec description syst matique 975 94 Lecl re 2005 Le Lexique Grammaire est une th orie et une pratique de la descrip tion exhaustive des langues inspir e de la th orie transformationnelle et distributionnelle de Zellig S 1976 La description du fran ais a d abord t men e au Laboratoire d Automatique Documentaire et Linguis tique LADL par une quipe de linguistes et d informaticiens dirig e par Maurice Gross depuis la fin des ann es 1960 et continue d tre maintenue et enrichie par l quipe informatique linguistique de l Institut Gaspard Monge de l Universit Paris Est Marne la Vall e Le Lexique Grammaire est un dictionnaire syntaxique constitu d un en semble de matrices binaires appel es tables Chaque table regroupe les l ments pr dicatifs verbes adjectifs noms qui partagent la m me construc tion type Cette construction est une structure de phrase simple c est dire canonique sans transformation qui d finit la table Une phrase simple est d finie par le nombre et la nature morpho syntaxique et s mantique des arguments Chaque table comprend galement un ensemble de propri t s distributionnelles transformationnelles et s mantiques que v rifient ou non les l ments pr dicatifs qui figurent en en t tes des lignes Les signes et marquent le fait qu une propri t est v rifi e ou non par un pr dicat
74. 0 04 0 14 0 22 0 559 0 646 0 616 0 06 0 09 0 22 0 584 0 651 0 629 0 06 0 10 0 22 0 591 0 646 0 628 0 07 0 10 0 22 0 601 0 635 0 624 0 08 0 10 0 19 0 605 0 632 0 623 0 09 0 10 0 19 0 612 0 625 0 621 0 10 0 11 0 25 0 633 0 605 0 613 0 12 0 18 0 30 0 686 0 555 0 590 TABLE 5 5 R sultats obtenus pour quelques combinaisons de seuils lors de l talonnage d informations erron es afin d am liorer la pr cision et le fait de garder un maximum d informations correctes afin de maintenir un bon taux de rappel En effet il se peut que des entr es peu fr quentes dans le corpus et donc rejet es par le filtre soient correctes tout comme il est possible que des entr es fr quentes en corpus soient incorrectes par exemple en raison de la pr sence de modifieurs Les gains de performances acquis en optimi sant le r glage des techniques de filtrage sont relativement faibles Au del d un certain seuil seul l ajout d informations ext rieures croisement avec des lexiques existants lissage des SSC etc permet une am lioration significative des r sultats Korhonen et al 2006 D autres techniques de filtrage test binomial etc pourraient tre ex plor es afin de v rifier si l quivalence relative des m thodes observ e dans Korhonen et al se v rifie pour le fran ais Toutefois on a pu voir au chapitre 4 que le test binomial avait d j t utilis pour l acquisition de SSC pour le fran ais sa
75. 00 graphiquement diff rents Utilisabilit en TAL Difficilement exploitable format peu adapt Divers R partition des verbes dans des tables qui regroupent les verbes comportement syntaxique proche TABLE 3 1 Synth se pour le Lexique Grammaire Grammaire plus exploitables par des applications de traitement automatique des langues la section 3 2 pr sente ces travaux Le tableau fait la synthese des informations disponibles pour le Lexique Grammaire Le Lexique Grammaire est l une des ressources les plus compl tes pour la description syntaxique du francais La caract risation des verbes et de leurs arguments est fine et la construction manuelle des tables garantit une certaine qualit N anmoins l exploitation des tables par des applications de TAL n est pas directement possible m me si nous verrons que des travaux sont en cours pour favoriser l exploitation des informations contenues dans les tables par des systemes automatiques LES RESSOURCES DERIVEES DU LEXIQUE GRAMMAIRE SYN LEX ET LGLEx Le Lexique Grammaire est l une des ressources les plus importantes exis tantes pour le fran ais Son principal d faut est que ce dictionnaire n a pas t concu pour tre utilis par des applications de TAL Des tudes r centes ont tent de pallier ce probl me en proposant des m thodes de transforma tion du format du Lexique Grammaire Synlex SynLex Gardent et al est un lexique de sous cat gor
76. 005 Diarmuid O S aghdha et Ann Copestake Semantic Classification with Dis tributional Kernels Dans Proceedings of COLING pages 649 656 2008 Martha Palmer Daniel Gildea et Paul Kingsbury The proposition bank An annotated corpus of semantic roles Computational Linguistics 3 1 71 106 2005 Thierry Poibeau et C dric Messiant Do We Still Need Gold Standard for Evaluation Dans Proceedings of the Language Resources and Evaluation Conference LREC Marrakech 2008 Carl Pollard et Ivan A Sag Information based syntax and semantics Fun damentals CLSI Lecture Notes 13 1 1987 Judita Preiss Ted Briscoe et Anna Korhonen A system for large scale ac quisition of verbal nominal and adjectival subcategorization frames from corpora Dans Proceedings of the Meeting of the Association for Computational Linguistics pages 912 918 Prague 2007 James Pustejovsky The generative lexicon The MIT Press Cambridge 1995 Philip Resnik Selectional preference and sense disambiguation Dans Pro ceedings of the SIGLEX Workshop on Tagging Text with Lexical Semantics Why What and How pages 52 57 Washington DC 1997 Benoit Sagot Analyse automatique du francais lexiques formalismes analyseurs PhD thesis Universit Paris VII 2006 166 Bibliographie Benoit Sagot The lefff a freely available accurate and large coverage lexicon for french Dans Proceedings of LREC 2010 La Valette Malte 2010 Benoit S
77. 006 Stephen Clark et David J Weir Class based probability estimation using a semantic hierarchy Computational Linguistics 28 2 187 206 2002 Lionel Cl ment Benoit Sagot et Bernard Lang Morphology Based Automa tic Acquisition of Large coverage Lexica Dans Proceedings of the Language Resources and Evaluation Conference LREC pages 1841 1844 may 2004 Matthieu Constant et Elsa Tolone A Generic Tool to Generate a Lexicon for nlp from Lexicon Grammar Tables Dans Michele De Gioia diteur Actes du 27e Colloque international sur le lexique et la grammaire L Aquila 10 13 septembre 2008 Seconde partie Aracne 2010 160 Bibliographie Ann Copestake The Representation of Lexical Semantic Information PhD thesis University of Sussex 1992 Alan D Cruse Lexical semantics Cambridge University Press Cambridge 1986 Hoa Trang Dang Investigations into the Role of Lexical Semantics in Word Sense Disambiguation PhD thesis CIS University of Pennsylvania 2004 Laurence Danlos Les lexiques en traitement automatique du langage na turel Dans Proceedings of the 3rd meeting on Langage Industry Grossetto 1988 Laurence Danlos et Benoit Sagot Constructions pronominales dans dicova lence et le lexique grammaire int gration dans le lefff Dans Actes du Colloque Lexique et Grammaire L Aquila Italie 2008 Tim Van de Cruys et Bego a Villada Moir n Lexico semantic multiword expression extraction Dans Pe
78. 0BJ FSN gt P OBJ SP lt en SN gt SP lt depuis SN gt OBJ SP lt parn ni SN gt OBJ SP lt autour de SN gt OBJ SP lt entret SN gt BJ SN P OBJ SP lt par SN gt EF refl P OBJ SP lt avectSN gt OBJ SP lt depuis SN gt EF refl P OBU SP lt contre SN gt EF refl P OBJ SP lt vers SN gt OBJ SP lt vers SN gt OBJ SP lt devant SN gt OBJ SP lt en faveur de SN gt OBJ SP lt chez SN gt EF refl P OBJ SP lt pour SN gt BJ SN P OBJ SP lt vers SN gt A OBJ SP lt SN gt P OBJ SP lt pour SINF gt P OBJ SP lt selon SN gt EF refl P OBJ SP lt devant SN gt P OBJ SP lt sous SN gt P OBJ SP lt apr s SN gt BJ SN P OBJ SP lt contret SN gt EF refl P OBJ SP lt autour de SN gt EF ref1 P OBJ SP lt derri re SN gt EF refl P OBJ SP lt pour SINF gt EF refl P OBJ SP lt entre SN gt OBJ SP lt pour SINF gt P OBJ SP lt sur SN gt EF refl A OBJ SP lt SN gt DE OBJ SP lt de SN gt 0BJ SN N P OBJ SP lt a_travers SN gt N A OBJ SP lt SN gt P OBJ SP lt dans SN gt BJ SN P OBJ SP lt jusqu a SN gt BJ SN P OBJ SP lt entre SN gt E OBJ SP lt de SN gt P OBJ SP lt entre SN gt BJ SN A OBJ SP lt a SN gt DE OBJ SP lt de SINF gt OBJ SP lt au dessus de SN gt OBJ SP lt du c t de SN gt BJ SN P OBJ SP lt contre SN gt P OBJ SP lt en SN g
79. 1995 have reported that the mapping is only partial and many to many due to fine grained nature of classes based on synonymy Kipper Schuler 2005 Shi et Mihalcea 2005 Abend et al 2008 Only few studies have been conducted on Levin style classification for lan guages other than English In their experiment involving 59 verbs and three classes Merlo et al 2002 applied a supervised approach developed for En 144 F 2 2 F2 Article publi dans les actes de la conf rence CoLing en 2010 glish to Italian obtaining high accuracy 86 3 In another experiment with 60 verbs and three classes they showed that features extracted from Chinese translations of English verbs can improve English classification These results are promising but those from a later experiment by Ferrer 2004 are not Fer rer applied a clustering approach developed for English to Spanish and eva luated it against the manual classification of V zquez et al 2000 constructed using criteria similar but not identical to Levin s This experiment involving 514 verbs and 31 classes produced results only slightly better than the random baseline In this paper we investigate the cross linguistic potential of Levin style classification further In past years verb classification techniques in parti cular unsupervised ones have improved considerably making investigations for a new language more feasible We take a recent ve
80. 2009 Association for Computational Linguistics Claire Blanche Benveniste Jos Deulofeu Jean St fanini et Karel van den Eynde Pronom et syntaxe L approche pronominale et son application au fran ais SELAF Paris 1984 Jean Paul Boons Alain Guillet et Christian Lecr re La structure des phrases simples en fran ais Droz Gen ve 1976 Andr e Borillo Remarques sur les verbes sym triques du fran ais Langue fran aise 11 17 31 1971 Didier Bourigault Un analyseur syntaxique op rationnel SYNTEX Habilita tion Diriger des Recherches Universit Toulouse 2 Toulouse 2007 159 Bibliographie Didier Bourigault Marie Paule Jacques C cile Fabre C cile Fr rot et Syl wia Ozdowska Syntex analyseur syntaxique de corpus Dans Actes des 12 mes journ es sur le Traitement Automatique des Langues Naturelles Dour dan 2005 Michael R Brent Automatic acquisition of subcategorization frames from untagged text Dans Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics ACL pages 209 214 Berkeley CA 1991 Michael R Brent From grammar to lexicon Unsupervised learning of lexi cal syntax Computational Linguistics 19 203 222 1993 Joan Bresnan et Annie Zaenen Deep unaccusativity in lfg Dans K Dzi wirek diteur Grammatical Relations A Cross Theoretical Perspective Center for the Study of Language and Information Stanford University 1990 Chris Brew
81. 5 Chapitre 6 Utilisation et valuation des m thodes d acquisition automatique de SSC Nb de verbes Nb de SSC Nb d entr es LS LM10 3123 88 7239 LS LM10 uniquement 1952 19 4794 LS LM1o et LS EuroParl 1171 69 2445 LS EuroParl uniquement o 5 258 LS EuroParl 1171 74 2703 TABLE 6 8 Comparaison de LEXSCHEM EUROPARL avec LEXSCHEM LM10 nombre de constructions bien qu elles ressortissent la langue g n rale n en sont pas moins remarquables dans le corpus EUROPARL Ainsi enchai ner se construit fr quemment avec les pr positions avec ou sur Ceci est bien videmment d au contexte du Parlement europ en fait de longues s ries de d bats et de discussions J enchainerai imm diatement sur le th me voqu par M Ilgenfritz celui des r gions frontali res J enchainerai ensuite avec le rapport Purvis Dans le corpus LM10 encha ner est le plus souvent utilis au style direct Il n y a rien de plus excitant que de faire une pi ce encha ne Martin Gousset ou Elles encha nent Non l amnistie alors que cet emploi est quasi inexistant dans le corpus EUROPARL Dans les deux corpus le sens concret de s enchainer est quasi absent On constate galement l apparition de nouveaux SSC et de familles s mantiques associ es au contexte particulier du corpus EUROPARL Ainsi les constructions de voter avec les pr positions pour contre ou la locut
82. 5 4 Exemple d annotation par Syntex PPS A A il les lui reproche au nom du Sartre qu FIGURE 5 5 Repr sentation de l annotation par Syntex A LD il aime et qui lui ressemble l homme seul le Roquentin DET 1 ADJ 2 PREP 6 NOMPREP 7 SUJ 9 OBJ 10 PREP 11 DET 14 SUJ 18 OBJ 19 PREP 20 PREP 22 NOMPREP 23 COMP 26 SUJ 25 OBJ 34 SUJ 29 PREP 30 DET 33 ADJ 35 DET 37 Mm A 65 Chapitre 5 Description du syst me d acquisition de SSC pour le fran ais 5 3 VALIDATION DES VERBES Nos premi res exp riences ont r v l un nombre important d erreurs produites par une annotation incorrecte de certains verbes par TREETAGGER Ces erreurs sont loin d tre anecdotiques car elles peuvent conduire des verbes dont l ensemble des SSC sont incorrects Par exemple le nom propre Luis est tr s fr quemment annot verbe et lemmatis en luire par TREETAGGER Mais ces erreurs ne se limitent pas aux noms propres et aux sigles Certains mots communs posent probl me par exemple le mot ac tions est souvent annot verbe acter L analyse syntaxique qui r sulte de ces annotations est alors incorrecte Les entr es associ es ces faux verbes peuvent tre totalement fausses tant donn la fr quence des erreurs observ es et leur incidence sur le lexique final il nous a sembl n cessaire de leur r server un traitement par ticulier Le rep rage
83. AS DE SOUS CAT GORISATION 44 4 2 1 tape 1 identification des verbes en corpus 4 2 2 Etape 2 identification des compl ments 4 2 3 Etape 3 association entre ces constructions locales et des sch mas de sous cat gorisation 45 2 4 Etape 4 correction d erreurs 46 46 de corpus is fie al Fe SE a eB e de 47 4 3 2 Mieux exploiter les corpus en les tiquetant a priori 48 UTE 49 4 5 TRAVAUX D ACQUISITION POUR LE FRANCAIS 52 a ao o ER 53 55 A 50 A 57 57 a 60 5 3 VALIDATION DES VERBES 64 AS 66 5 4 1 Extracteur de pr sch mas de sous cat gorisation 66 5 4 2 Constructeur de sch mas de sous cat gorisation candidats 72 5 4 3 Filtre des sch mas non pertinents 75 A te Boe ee he eae le bos woe See E 80 6 UTILISATION ET EVALUATION DES METHODES D ACQUISITION y 7 83 6 1 ACQUISITION D UN LEXIQUE DE SOUS CATEGORISATION A LARGE aa 84 ENV ANGERS EEE es 84 6 1 2 Pr sentation du lexique 86 6 1 Une interface web de consultation du lexique 6 2 EVALUATION DE LEXSCHEMI 6 2 1 Evaluation quantitative comparaison avec d autres ressources iv 6 2 2 Evaluation qualitative 97 6 2 3 Conclusion sur l valuation 102 6 3 ADAPTABILIT
84. Ainsi pour un verbe tr s courant comme travailler le Lexique Grammaire dispose de 15 emplois diff rents dont quatre appar tiennent la table 32R3 Les quatre emplois du verbe travailler class s dans 32R3 sont distingu s par leurs objets directs lexicaux 4a Max travaille la balle 4b Max travaille son texte 4c Max travaille cette discipline 4d Max travaille l opinion publique 4 La notion d entr e dans le Lexique Grammaire est donc diff rente de celle utilis e pour la plupart des autres lexiques lectroniques 5 Exemple tir de Wikip dia http fr wikipedia org wiki Pont_du_ Carrousel 26 3 1 Le Lexique Grammaire Le sens du verbe travailler est diff rent dans chacun de ces cas on ne peut pas substituer le m me ensemble de synonymes au verbe travailler et la traduction du verbe vers une langue cible d pend souvent de la s man tique du compl ment Cependant les crit res syntaxiques qui diff rencient ces quatre cas sont minces il s agit dans les quatre cas d une construction transitive simple Ces exemples sont a la fronti re des expressions libres expressions fig es et la n cessit d une telle finesse de distinction en plusieurs emplois d une construction transitive d pend de l utilisation qui sera faite du lexique L utilisation de classes s mantiques de noms sur les arguments ou de restrictions de s lection plus fines permettrait des g n ra lisations plus proche
85. Ces difficult s se r v lent encore plus pr gnantes dans une perspective d acquisition automatique de ces informations C est pourquoi il est n ces saire de faire des choix quant au type d information dont nous souhaitons disposer en priorit dans notre ressource lexicale Nous nous concentrons donc sur l acquisition de sch mas de sous cat gorisation qui semble tre un bon point de d part pour l acquisition de sch mas pr dicatifs au sens plus large c est dire contenant des grilles th matiques et ou des restrictions de s lection Avant de d terminer les contours des sch mas de sous cat gorisation que nous souhaitons acqu rir il faut r aliser un tat de l art des ressources existantes et des m thodes d acquisition automatique de sch mas de sous cat gorisation 22 LES RESSOURCES EXISTANTES POUR LE FRANCAIS No avons pr sent dans le premier chapitre la description lexicogra phique du verbe qui sert de base a la constitution de dictionnaires On distingue trois types de ressources lexicales les dictionnaires pa pier destination des humains les dictionnaires informatis s version informatis e des dictionnaires papier destination des humains mais qui peuvent parfois tre exploit s par des machines et les dictionnaires lec troniques vis e informatique Dans ces derniers la description doit tre explicite toutes les informations contenues dans ces dictionnaires sont ex ploitables
86. E DES M THODES D ACQUISITION AUTOMATIQUE 102 6 3 1 Acquisition de SSC de verbes pour une langue de sp cialit 102 6 3 2 Acquisition de SSC de pr dicats non verbaux 105 6 4 DES OUTILS POUR LE PARAMETRAGE DES LEXIQUES 106 6 4 1 Filtrage dulexique o noo 106 6 4 2 Formats disponibles pour le lexique 107 6 4 3 Proposition de nouveaux sch mas 107 ve eae Beene Be ee ee Ee eh ere De as 109 PORTEMENT SYNTAXIQUE 111 7 1 PROBL MATIQUE 112 72 TRAVAUX ANT RIEURS 422 LIN SERS desde ELS 113 7 3 DEUX EXPERIENCES POUR L ACQUISITION DE CLASSES S MAN See eee DES A ee ee oe 114 7 3 1 Exp rience 1 classification par regroupement ascendant one Bee Bae ee E Seldon a ene 115 7 3 2 Exp rience 2 classification par regroupement spectral 115 7 4 DISCUSSION o o eee e 117 7 5 CONCLUSION as re abe a he Bee ara AAA 6 AA 118 8 CONCLUSION 119 pg ee ee ee en eee ete qe ee 119 8 2 CONTRIBUTION LIU LIL YY ak 6 ea a See 119 0 3 PERSPECTIVES pop woe A ata ob a A 121 A LISTE DES TIQUETTES DE TREETAGGER POUR LE FRANCAIS 125 B EXEMPLE D ANALYSE SYNTAXIQUE AU FORMAT DE SYNTEX 127 C LISTE DES PREPOSITIONS ISSUES DE PREPLEX 129 D ENTREES DE LEXSCHEM POUR LE VERBE Accompagner DANS LES DIFFERENTS FORMATS DISPONIBLES 131 LISTE DES SSC DE LEXSCHEM 135 F ARTICLES PORTANT SUR L ACQUISITION DE CLASSES VERBALES 137 137
87. English experiments 150 F2 Article publi dans les actes de la conf rence CoLing en 2010 had shown that due to the Zipfian nature of SCF distributions 150 corpus occurrences are typically needed to obtain a sufficient number of frames for clustering Sun et al 2008 Table F 2 shows F measure results for all the features The 4th column of the table shows for comparison the results Sun et Korhonen obtained for English when they used the same features than us clustered them using SPEC and evaluated them against the English version of our gold standard also using F measuref As expected SPEC the 2nd column outperforms K MEANS the 3rd co lumn throughout the feature set Looking at the basic SCF features F1 F3 we can see that they perform significantly better than the BL method F3 performs the best among the three features both in French 50 6 F and in English 63 3 F We therefore use F3 as the SCF feature in F14 F17 the same was done for English In French most CO features F4 F9 outperform SCF features The best result is obtained with F7 55 1 F This is clearly better than the best SCF result 50 6 F3 This result is interesting since SCFs correspond better than Cos with features used in manual Levin classification Also SCFs perform considerably better than Cos in the English experiment we only have the result for F4 available but it is considerably lower than the result for F3 However earlier Engli
88. J SN OBJ SN A OBJ SP lt SN gt Toute fois un SSC qui contient deux compl ments r gis par la m me pr po sition mais dont la cat gorie du lemme t te est diff rente comme par exemple SUJ SN A OBJ SP lt a SN gt A OBJ SP lt SINF gt ne sera 17 Ce classement a galement son importance pour l impl mentation de la r duction des SSC l tape de filtrage voir section 5 4 3 18 nttp loriatal loria fr Resources html 5 4 3 5 4 Description des modules d ASSCi pas modifi puisque les deux compl ments en A OBJ SP lt a SN gt et A OBJ SP lt SINF gt ne sont pas strictement similaires Apr s la normalisation et la constitution des SSC le constructeur de SSC calcule le nombre d occurrences de chaque couple verbe sch ma et sa fr quence relative La fr quence relative d un couple est calcul e en faisant le rapport entre le nombre d occurrences du couple verbe sch ma en corpus et le nombre d occurrences du verbe verbe ssc freq_rel verbe ssc zerbe Par exemple la fr quence relative de l entr e correspondant au verbe reprocher et au sch ma SUJ SN OBJ SN A OBJ SP lt SN gt est 0 218 Ce chiffre signifie que pr s de 22 des construc tions du verbe reprocher dans notre corpus produisent le sch ma SUJ SN OBJ SN A OBJ SP lt SN gt La somme des fr quences rela tives des entr es correspondant un m me verbe est donc gale 1
89. Kokkinakis Lear ning Automatic Acquisition of Subcategorization Frames Using Bayesian Inference and Support Vector Machines Data Mining IEEE International Conference on 0 623 2001 Svetoslav Marinov Automatic Extraction of Subcategorization Frames for Bulgarian Dans Proceedings of the Ninth ESSLLI Student Session Edinburgh 2004 Diana McCarthy Lexical Acquisition at the Syntax Semantics Interface Diathesis Alternations PhD Thesis University of Sussex 2001 Marina Meila The multicut lemma Rapport technique University of Wa shington 2001 Marina Meila et Jianbo Shi A random walks view of spectral segmentation Dans AISTATS 2001 Igor Mel cuk Verbes supports sans peine Lingvisticae Investigationes 27 2 203 217 2004 Paola Merlo Suzanne Stevenson Vivian Tsang et Gianluca Allaria A mul tilingual paradigm for automatic verb classification Dans Proceedings of ACL 2002 Piet Mertens Restrictions de s lection et r alisations syntagmatiques dans dicovalence conversion vers un format utilisable en tal Dans Actes de la 17 me Conf rence sur le traitement automatique des langues naturelles TALN Montreal Canada juillet 2010 C dric Messiant Anna Korhonen et Thierry Poibeau LexSchem A Large Subcategorization Lexicon for French Verbs Dans Proceedings of the Lan guage Resources and Evaluation Conference LREC Marrakech 2008 C dric Messiant A Subcategorization Acquisition System for Fre
90. SC pour le verbe marcher est donc en partie issue de contextes erronn s N anmoins le nombre total d occur rences de ce verbe dans le corpus plus de 4000 permet de s assurer que ces contextes n auront pas une influence trop importante sur les entr es de marcher dans les SSC acquis DESCRIPTION DES MODULES D ASSCI ASSCi est un syst me d acquisition automatique de sch mas de sous cat gorisation pour l acquisition de SSC pour les verbes frangais Cette section pr sente les trois modules qui le composent l extracteur de pr sch mas de sous cat gorisation le constructeur de sch mas candidats et le filtre de sch mas non pertinents Pour chacun de ces modules nous d crivons son r le dans le processus d acquisition nous donnons un aper u du processus d acquisition pour l exemple utilis aux sections 5 2 1 et nous d taillons l impl mentation de ce module et nous discutons bri ve ment son fonctionnement Extracteur de pr sch mas de sous cat gorisation Le premier module extrait des pr sch mas de sous cat gorisation pr SSC associ s chacun une occurrence d un verbe dans le corpus par tir des sorties de l analyseur syntaxique Les pr sch mas comprennent les informations concernant le verbe et ses compl ments relations et tiquettes dont le deuxi me module a besoin pour former les SSC Par exemple pour la phrase Les fameuses erreurs de Sartre il les lui reproc
91. SSC partir d un analyseur tr s lexicalis pose la question de la diff renciation entre ce qui est acquis par le syst me et les lexiques dont dispose l analyseur syntaxique 63 Chapitre 5 Description du syst me d acquisition de SSC pour le fran ais qu il aime et qui lui ressemble l homme seul le Roquentin SYNTEX produit l analyse fournie dans la figure 5 4 La figure 5 5 donne une repr sentation de l annotation de la s quence il les lui reproche au nom du Sartre qu il aime et qui lui ressemble l homme seul le Roquentin par SYNTEX Chaque ligne contient les informations relatives un l ment de la phrase La premi re colonne repr sente le rang identifiant de l l ment La deuxi me colonne est le lemme tandis que la troisi me colonne contient la cat gorie morpho syntaxique issue de l annotation par TREETAGGER Les deux derni res colonnes sont le s recteur s f et le s r gi s de l l ment pour chaque recteur et r gi SYNTEX fournit sa relation l l ment et son rang Par exemple l analyse produite pour la deuxi me occurrence du verbe reprocher 21 reprocher VCONJS SUJ 18 OBJ 19 PREP 20 PREP 22 L l ment de rang 21 de la phrase est le verbe cat gorie VCONJS verbe conjugu singulier reproche dont le lemme est reprocher Cet l ment n a pas de recteur Les r gis de reprocher sont l l ment de rang 18 sujet il l objet de rang 19
92. TREELEX qu avec DICOVALENCE EASY Ceci s explique probablement par le plus grand nombre de SSC dans Dico VALENCE donc la meilleure couverture de cette ressource TREELEX a t ac quis sur un corpus de taille moyenne 1 million de mots qui ne contient qu un sous ensemble des SSC caract ristiques du fran ais Notons gale ment que la nouveaut estim e pour DICOVALENCE EASY est probablement surestim e tant donn les probl mes d alignement voqu s plus haut Une part non n gligeable des SSC des ressources de r f rence n est pas retrouv e par notre m thode Ceci est d la strat gie de filtrage qui limine les SSC les moins fr quents Il s agit d un biais assez fr quent des techniques statistiques qu il est difficile de corriger au niveau du filtrage lui m me des techniques de filtrage plus sophistiqu es n ont pas montr d am lioration 98 6 2 2 6 2 Evaluation de LexSchem significative Korhonen et al 2000 On s aper oit en revanche lors de l ana lyse manuelle qu un nombre non n gligeable de SSC manquants pourrait tre inf r a partir des SSC effectivement rep r s une bonne partie des SSC manquants sont en fait des formes r duites de SSC complexes du fait du caract re optionnel dans les r alisations de surface de la plupart des argu ments Ainsi le systeme a inf r que le verbe donner pouvait tre employ avec deux compl ments Les anticolonialistes de ce bord la donn
93. UNIVERSIT PARIS NORD INSTITUT GALILEE LABORATOIRE D INFORMATIQUE DE PARIS NORD THESE pr sent e et soutenue publiquement en vue d obtenir le grade de Docteur sp cialit informatique par C DRIC MESSIANT ACQUISITION AUTOMATIQUE DE SCHEMAS DE SOUS CATEGORISATION A PARTIR DE CORPUS BRUTS Th se soutenue le 5 novembre 2010 devant le jury compos de M RIC LAPORTE Universit Paris Est Marne la Vall e Pr sident Mme Norta BEL Universitat Pompeu Fabra Rapporteur ALEXIS NASR Universit de la M diterran e Rapporteur M JACQUES BLANC TALON DGA Examinateur M ANTOINE ROZENKNoP Universit Paris Nord Examinateur M e ADELINE NAZARENKO Universit Paris Nord Directeur M THIERRY POIBEAU CNRS Co directeur Alice REMERCIEMENTS Je tiens tout d abord remercier Adeline Nazarenko et Thierry Poibeau pour leur aide leur coute et leurs pr cieux conseils tout au long de ces quatre ann es Leur exp rience et leur disponibilit ont permis 4 ma th se de se d rouler dans les meilleures conditions possibles Je remercie aussi les chercheurs de l quipe RCLN et plus g n ralement l ensemble des membres du LIPN pour leur accueil Merci particuli rement tous ceux qui m ont accompagn dans mon apprentissage de la recherche et de l enseignement leurs remarques et conseils ont t tr s formateurs De plus je remercie Nuria Bel et Alexis Nasr les rapporteurs de cette th se
94. VerbNet Style Classification Dans Proceedings of CoLing 2010 Mihai Surdeanu Sanda M Harabagiu John Williams et Paul Aarseth Using predicate argument structures for information extraction Dans ACL pages 8 15 2003 Yoshimi Suzuki et Fumiyo Fukumoto Classifying Japanese Polysemous Verbs based on Fuzzy C means Clustering Dans Proceedings of TextGraphs 4 pages 32 40 2009 Robert Swier et Suzanne Stevenson Unsupervised Semantic Role Labelling Dans Proceedings of EMNLP 2004 Lucien Tesni re El ments de Syntaxe structurale Klincksieck Paris 1959 168 Bibliographie Akira Ushioda David A Evans Ted Gibson et Alex Waibel The automatic acquisition of frequencies of verb subcategorization frames from tagged corpora Dans Proceedings of the SIGLEX ACL Workshop on the Acquisition of Lexical Knowledge from Text pages 95 106 Columbus Ohio 1993 Karel van den Eynde et Claire Blanche Benveniste Syntaxe et m canismes descriptifs pr sentation de l approche pronominale Cahiers de Lexicologie 32 3 27 1978 Karel van den Eynde et Piet Mertens La valence l approche pronominale et son application au lexique verbal French Language Studies 13 1 63 104 2003 Karel van den Eynde et Piet Mertens Le dictionnaire de valence Dicovalence manuel d utilisation Manuscript Leuven 2006 Gloria Vazquez Ana Fernandez Irene Castell n et M Antonia Marti Cla sificaci n verbal Alternancias de di tesi
95. a et Shi 2001 Le nombre de classes est d termin automatiquement en utilisant la technique propos e par Zelnik Manor et Perona 2004 Le d tail de l impl mentation est d crit dans l article fourni en annexe F Ce qui nous semble important ici c est que la vari t des informations disponibles dans LEXSCHEM a permis d utiliser diff rents jeux de param tres pour le regroupement Un grand nombre des informations utilis es ne sont pas disponibles dans les ressources construites la main ce qui montre l int r t des ressources acquises automatiquement pour cette tache 2 Cette r f rence a t constitu e l aide des classes de Levin et du Lexique Grammaire 117 Chapitre 7 Production de classes de verbes sur la base de leur comportement syntaxique Les jeux de param tres utilis s sont d taill s ci dessous A simple titre d illustration et pour rendre les donn es plus concr tes nous donnons les informations exploit es pour le verbe donner partir de la phrase Si on donnait l avantage un laboratoire francais Plet des informations contenues dans LEXSCHEM F1 les SSC sans distinction des pr positions et leurs fr quences relatives SUJ SN OBJ SN OBJ SP lt prep SN gt 0 35 F2 idem que F1 avec une prise en compte de l tiquette morpho syntaxique du verbe pour distinguer le temps verbal VCONJS SUJ SN OBJ SN OBJ SP lt prep SN gt 0 35 F3 idem que F2 mais
96. a fusion de sources de connaissances compl mentaires c est par exemple la strat gie pr sent e pour compl ter le Lefff sur cet aspect et Tolone 2009 Typologie des erreurs observ es dans LexSchem L valuation manuelle d crite ci dessus a galement permis de d gager les causes d erreurs les plus fr quentes dans LEXSCHEM et d envisager des solutions dans le syst me d acquisition pour viter ces erreurs Nous avons choisi d utiliser le couple TREETAGGER SYNTEX pour l analyse syntaxique car ces outils taient les plus performants lorsque cette tude a t lanc e au moins sur les corpus de presse cf section 5 2 Ces outils sont cependant l origine de certaines erreurs d analyse Certaines erreurs dues au TREETAGGER ont t corrig es par le module de validation des verbes voir section 5 3 On a ainsi pu diminuer drastiquement la proportion de noms tiquet s comme verbe 5 574 verbes douteux rejet s Par exemple le nom du pilote de formule un Senna n est plus reconnu comme une forme du verbe senner et le somnanbule comme une forme du verbe somnanbuler Pour l analyse syntaxique SYNTEX a une strat gie prudente si l analy seur ne trouve pas d indice suffisamment fiable pour le rattachement d un compl ment celui ci peut tre laiss libre c est dire qu il flotte et qu il n est rattach aucun l ment de la phrase 2005 C est notamment le cas dans certaines phrases comprenant des
97. acer en surface tout en restant pr sents dans la structure argu mentale profonde Par exemple pour le verbe alerter LEXSCHEM r pertorie le SSC SUJ SN OBJ SN P OBJ SP lt sur SN gt mais pas SUJ SN P OBJ SP lt sur SN gt Or cette construction peut appara tre dans certains contextes Le panneau de forme triangulaire alerte sur le dan ger L objet est ici sous entendu mais il est int ressant de disposer de ce sch ma pour la lexicalisation d un analyseur syntaxique par exemple Nous avons donc d velopp un script qui permet de compl ter un lexique existant en inf rant automatiquement des SSC Ces sch mas sont produits en r duisant les SSC pr sents dans le lexique d origine c est a dire en supprimant un de leurs arguments Par exemple si le verbe d penser accepte le sch ma SUJ SN OBJ SN P OBJ SP lt pour SN gt mais pas le sch ma SUJ SN P 0BJ SP lt pour SN gt on peut sup poser qu un effacement de l objet est possible et la construction SUJ SN P OBJ SP lt pour SN gt peut tre propos e au validateur qui d termine sa pertinence Si le SSC est valid il est ajout au lexique Pour chaque verbe du lexique ou chacun des verbes choisis au pr alable par l utilisateur le script parcourt ses SSC et tente de les r duire Pour ce faire il teste les sch mas produits en retirant l un des arguments non sujet du SSC Si ce SSC n est pas d j pr sent dans LEXSCHEM il est propos un v
98. ad j se moyen D_ 1000 M 1 DVex elle m a demand d accompagner le plat de beaucoup de l gumes accompagner v er std 100 s Lemma v lt Suj cln sn Objde en de sn gt pron cat v Sactif D_ 1040 DVex une ruption volcanique s accompagne t elle d un tremblement de terre accompagner v er std 100 Lemma v lt Suj clnisn 0Obj clalser c sn ser fl 0bj y sn gt cat v Sactif passif ppp_ employ comme _ ad D__1020 M_1 DVex un petit orchestre accompagnait le chanteur FIGURE 3 4 Entr es du Lefff correspondant au verbe accompagner 35 Chapitre 3 Les ressources existantes pour le fran ais 3 5 2 3 5 3 verbes manuellement construite par ces deux linguistes dont les principes sont proches de ceux du Lexique Grammaire On compte dans ce diction naire 12 130 verbes et 25 610 entr es chaque entr e correspond a un couple verbe sch ma de sous cat gorisation La ressource est disponible sur le site internet du laboratoire MoDyCol Toutefois le dictionnaire est difficilement exploitable en l tat par des applications de TAL notamment en raison de son format LexValf Le projet LexValf d velopp l Universit de Provence a comme objec tif la construction d un dictionnaire de valence verbale pour le fran ais Gala et Valli 2005 Salkoff et Valli 2005 A chaque entr e sont associ s un ensemble de restrictions lexicales et grammaticales et des indices
99. adjectifs et de noms La m thode permet alors de distinguer 168 sch mas verbaux 37 sch mas ad verbiaux et 31 sch mas nominaux Preiss et al 2007 Les travaux pr sent s jusqu ici concernent l anglais mais l acquisition au tomatique de SSC a fait l objet d tudes sur d autres langues Le sch ma glo bal pr sent au d but de ce chapitre n est pas li une langue particuli re et la plupart des travaux pr sent s ici s en inspirent largement D autres tra vaux s inspirent en grande partie du sch ma global et des travaux men s Cambridge et ont adapt ce sch ma pour de nombreuses langues l alle RnB e hongos Saree a Vitalien ETSI Lenci et al le a Sg aaa 2008 le ly O 2001 le ure catan et al et al 2007 le Ta Han et al et al 2004 ou le bengal Boreas Banerjee g Toutefois les Re des langues imposent le ht de nouveaux syst mes contrairement par exemple cer tains outils d apprentissage automatique qui peuvent tre utilis s sur diff rentes langues moyennant quelques l gers r glages Par exemple un sys t me consacr l acquisition en fran ais ne saurait ignorer le probl me des constructions pronominales TRAVAUX D ACQUISITION POUR LE FRANCAIS Nous pr sentons ici deux tudes concernant l acquisition automatique de SSC pour le francais A notre connaissance il n existe pas d autres travaux de ce type pour la langue frangaise Paula Chesley et Susanne Salmon Alt pr se
100. agot Lionel Cl ment Eric de La Clergerie et Pierre Boullier The lefff 2 syntactic lexicon for French architecture acquisition use Dans Pro ceedings of the Language Resources and Evaluation Conference LREC Genua Italy 2006 Benoit Sagot et Laurence Danlos Am liorer un lexique syntaxique l aide des tables du lexique grammaire Dans Actes du colloque DLTAF 2006 Des cription Linguistique pour le Traitement Automatique du Francais du congr s de l ACFAS Montr al Canada 2006 Benoit Sagot et Eric de La Clergerie Error mining in parsing results Dans Proceedings of ACL CoLing 06 pages 329 336 Sydney Australie 2006 Benoit Sagot et Elsa Tolone Int grer les tables du lexique grammaire un analyseur syntaxique robuste grande chelle Dans Actes de la 16 me Conf rence sur le traitement automatique des langues naturelles TALN Senlis France 2009 Beno t Sagot et Darja Fiser Construction d un wordnet libre du fran ais partir de ressources multilingues Dans Actes de la 15 me Conf rence sur le traitement automatique des langues naturelles TALN Avignon France 2008 Patrick Saint Dizier Verb semantic classes based on alternations and wordnet like criteria Dans Patrick Saint Dizier diteur Predicative Forms in Natural language and lexical Knowledge Bases pages 247 279 Kluwer Aca demic 1998 Morris Salkoff Analyse syntaxique du francais Grammaire en chaine John Benjamins Amster
101. aient une di mension morale leur choix ou un compl ment d objet direct seul 1 donne l alerte Le syst me peut assez s rement proposer dans ce type de cas la construction avec un compl ment d objet indirect seul I faut donner au de nier du culte surtout si quelques exemples ont t trouv s en corpus Il est donc possible d am liorer la couverture en introduisant un processus de ce type en post traitement afin de r duire le nombre de SSC manquants Une tude pr liminaire de ce type est pr sent e la section 6 4 3 On arrive alors une couverture plus satisfaisante de LEXSCHEM par rapport aux ressources existantes Le tableau montre galement l apport possible de LEXSCHEM par rapport aux deux ressources de r f rence sans prise en compte du post traitement que nous venons d voquer Les r sultats doivent tre compl t s par une analyse manuelle des SSC obtenus afin de v rifier la pertinence des nouveaux sch mas trouv s et la qualit des ressources de r f rence par rapport a notre tache Nous avons effectu en collaboration une valua tion manuelle sur 150 verbes voir section 6 2 2 Cette valuation a r v l que 109 nouvelles entr es valides pouvaient tre ajout s TREELEX et 33 DICOVALENCE EASYy Plus de la moiti des entr es nouvelles propos es pour ces 150 verbes ont t valid es par les annotateurs alors que ces en tr es auraient t purement et simplement consid r es comme
102. ail par Michel G n reux ftp ftp ims uni stuttgart de pub corpora french chunker par linux 3 1 bin gz es fichiers de param trage de TREETAGGER en fran ais sont fournis par Achim Stein http www uni stuttgart de lingrom stein forschung resource html http www ims uni stuttgart de schmid french tagset html 60 5 2 Pr traitements DET ART le ADJ fameux NOM NOM erreur VER pper PRP de NOM Sartre PUN PRO PER il PRO PER lalle PRO PER lui VER subp reprocher ADV autant KON que DET POS son NOM adversaire PUN A KON mais PRO PER il PRO PER la le PRO PER lui VER subp reprocher PRP det au NOM nom PRP det du NOM Sartre PRO REL que PRO PER il VER pres aimer PUN P KON et PRO REL qui PRO PER lui VER pres ressembler PUN 7 DET ART le NOM homme ADJ seul PUN DET ART le NOM roquentin SENT TABLE 5 1 Exemple d annotation par TREETAGGER la colonne de gauche fournit l ti quette morphosyntaxique tandis que la colonne de droite est le lemme du mot la liste des tiquettes utilis es par TREETAGGER pour le francais est donn e en annexe A 61 Chapitre 5 Description du syst me d acquisition de SSC pour le fran ais 5 2 2 P A SN sv SN V SN Det SN Il lui reproche ses erreurs FIGURE 5 2 Analyse syntaxique en constituants Analyse syntaxiqu
103. aillir frissonner palpiter gr siller trembloter palpiter 51 3 2 RUN voyager aller se promener errer circuler se d placer courir bouger naviguer passer TABLE F1 A Levin style gold standard for French 146 E2 3 F2 Article publi dans les actes de la conf rence CoLing en 2010 were identified for all of them abattre accabler briser d primer consterner an antir puiser ext nuer craser ennuyer reinter inonder The majority of these verbs take similar SCFs and diathesis alternations e g Cette affaire crase Marie de chagrin Marie est cras e par le chagrin Le chagrin crase Marie However stimuler stimulate and menacer threaten do not and they were therefore removed 40 of translations were discarded from classes after step 2 was applied The final version of the gold standard shown in table F 1 includes 171 verbs in 16 classes Each class is named according to the original Levin class The smallest class 30 3 includes 7 verbs and the largest 37 3 16 The average number of verbs per class is 10 7 Verb Clustering We performed an experiment where we took a French corpus and a SCF lexicon automatically extracted from that corpus using French NLP technology extracted from these resources a range of features lexical syntactic and semantic a representative sample of those employed in recent English experiments Joanis et al 2008 S ag
104. alidateur humain qui choisit de l ajouter ou non au lexique Par exemple un nouveau sch ma est propos au validateur pour le verbe d penser Ajouter SUJ SN P 0BJ SP lt pour SN gt au lexique pour le verbe d penser ce SSC a t inf r partir du sch ma SUJ SN OBJ SN P OBJ SP lt pour SN gt qui est pr sent dans le lexique Si le validateur r pond oui en s appuyant par exemple sur la phrase il a d pens pour 300 euros en une soir e le SSC est ajout au lexique L entr e d penser SUJ SN P OBJ SP lt pour SN gt a t ajout e au lexique l issue du processus on obtient une nouvelle version du lexique com prenant les ajouts valid s N anmoins le lexique produit est appauvri dans le sens o les informations relatives aux entr es nombre d occurrences fr quence relative t tes des arguments etc n existent pas pour les sch mas ajout s Le nouveau lexique est donc une suite de couples verbes sch mas Par exemple le verbe encourager est caract ris par les entr es suivantes dans le nouveau lexique l ast risque marque l entr e ajout e gr ce au pro gramme de proposition de nouveaux sch mas d penser SUJ SN d penser SUJ SN OBJ SN d penser SUJ SN OBJ SN P OBJ SP lt pour SINF gt d penser SUJ SN OBJ SN P OBJ SP lt pour SN gt d penser SUJ SN P OBJ SP lt pourtSN gt 110 6 5 Conclusion Cette m
105. alit estonienne notamment un s jour minimal de deux ans dans la R publique et une connaissance acceptable de la langue estonienne al Le document qui totalise avec m ticulosit les innombrables statuts d trangers tablit que 123 413 trangers ont d finitivement immigr en France en 1991 soit 8 000 de plus que l ann e pr c dente 6 6 N annoins cat gories peu pr s gales 116 161 trangers dont 22 4 d Europ ens ont immigr en France de fa on permanente en 1993 alors qu ils taient 135 372 en 1992 et 115 796 en 1990 6 5 R sultats affich s dans l interface pour l entr e SUJ SN P OBJ SP lt en SN gt immigrer 94 6 2 1 6 2 Evaluation de LexSchem EVALUATION DE LEXSCHEM L valuation des ressources est un enjeu important qui permet de mettre en vidence les limites de ces ressources afin de pouvoir les am liorer Les diff rentes m thodes d valuation ont t pr sent es la section 4 1 La qualit des ressources acquises par les syst mes automatiques fait l objet de critiques Premi rement ces lexiques sont incomplets c est dire que les informations qu ils contiennent sont souvent moins riches que celles pr sentes dans les lexiques construits la main Deuxi mement les informa tions acquises sont en partie erron es pour diff rentes raisons imperfection de l annotation morphosyntaxique ou de l analyse syntaxique erreurs lors d
106. alternations called dia thesis alternations Such classes can be identified across the entire lexicon and interestingly they may also apply across languages since the basic meaning components they are comprised of are said to be cross linguistically applicable 1990 Offering a powerful tool for generalization abstraction and prediction VerbNet classes have been used to support many important NLP tasks in cluding e g computational lexicography parsing word sense disambiguation semantic role labeling information extraction question answering and ma chine translation Swier et Stevenson 2004 Dang 2004 Shi et Mihalcea 2005 Abend et al 2008 Zapirain et al 2008 However to date their real world exploitation has been limited because for most languages no Levin style clas sification is available Although manual classification is an option it can be extremely costly Kipper et al 2008 In recent years a variety of automatic approaches have been proposed which could be used to learn novel classifications in a cost effective manner Schulte im Walde 2006 Joanis et al 2008 Li et Brew However most work on Levin type classifica tion has focussed on English Large scale research on other languages such as German and Japanese has focussed on semantic classification Although there are similarities between the two classification systems studies comparing the overlap between VerbNet and WordNet Miller
107. apitre p voire pour le rattachement de compl ments fr quents au verbe par des analyseurs syntaxiques Conclusion sur l valuation L valuation tant quantitative que qualitative de LEXSCHEM a montr ce que l acquisition automatique d informations de sous cat gorisation verbale pouvait apporter aux ressources existantes Elle a galement montr les li mites des ressources acquises automatiquement lorsqu on les compare des ressources construites ou valid es la main et portant sur la langue g n rale La prochaine section explore les possibilit s offertes par les syst mes d acquisition automatique lorsque l objectif est de d velopper une ressource pour une langue plus sp cialis e ADAPTABILIT DES M THODES D ACQUISITION AUTOMA TIQUE L un des principaux avantages des m thodes d acquisition automatique de ressources lexicales est leur adaptabilit c est dire leur facult ac qu rir des ressources diff rentes en fonction des r glages ou des corpus uti lis s Nous montrons ici que la m thode d acquisition pr sent e dans le cha pitre 5 peut tre utilis e pour acqu rir des ressources sur un corpus sp cialis Nous abordons galement la possibilit d adapter notre m thode pour acqu rir des SSC de pr dicats non verbaux Acquisition de SSC de verbes pour une langue de sp cialit Les ressources sp cialis es sont importantes pour am liorer la qualit des sys
108. appel mesure la proportion d entr es retrouv es par le syst me Il est mesur en faisant le rapport entre le nombre de vrais positifs et la somme entre le nombre de vrais positifs et le nombre de vrais n gatifs c est a dire d entr es pr sentes dans la r f rence mais pas dans la ressource valu e VP Rappel vv La F mesure est une mesure de la qualit globale du syst me c est dire de l quilibre entre la pr cision et le rappel Elle est mesur e par la formule suivante pa 2x Precision Rappel Precision Rappel Dans certains travaux une autre mesure de rappel est calcul e Le token recall est la proportion de vrais positifs parmi tous les exemples d un corpus annot la main Cette mesure permet d valuer la m thode pour elle m me et non la ressource acquise par son utilisation sur un corpus particulier En effet lorsque l on compare une ressource acquise automatiquement une r f rence des entr es peuvent tre absentes de la ressource acquise car elles sont absentes ou peu pr sentes dans le corpus d acquisition Dans ce cas ce n est pas la m thode d acquisition qui produit des erreurs Le score de rappel est diminu par de tels cas alors que le token recall permet d viter ce biais 4 1 3 4 1 4 4 1 M thodes d valuation de ressources lexicales Ces quatre mesures sont utilis es pour mesurer les performances de tous les travaux d acquisition automatique de ressour
109. aque verbe peut tre d crit gr ce un noyau s mantique d une part et un ensemble de composants s mantiques d autre part Tan dis que le noyau est toujours sp cifique l unit lexicale les composants s mantiques sont communs tous les verbes d un m me groupe s man tique Les alternances syntaxiques leur tour sont li es ces composants les verbes qui appartiennent un m me groupe s mantique i e qui par tagent les m mes composants de sens participent aux m mes alternances syntaxiques Il existe d j de nombreux dictionnaires large couverture pour le fran ais cf chapitre 3 et il est vident que les m thodes automatiques n auront ni la richesse ni la pr cision du r sultat d un travail minutieux men par une quipe de linguistes En revanche il est ais de montrer que les mots l exemple du verbe essaimer dans le journal Le Monde ont des comporte ments variables en fonction du contexte d usage et donc du corpus tudi Il para t aujourd hui quasiment inconcevable de rep rer ces comportements sp cifiques par une analyse manuelle Partant de ce constat les m thodes automatiques ont connu un certain succ s car les techniques mises au point permettent 1 de compl ter des lexiques existants en mettant le doigt sur des constructions nouvelles ou ab sentes des dictionnaires 2 d obtenir des informations sur la productivit des diff rentes constructions et 3 d inf re
110. ardt le g n ral Jean Claude Thomann sera remplac par le g n ral Louis Le Mi re qui commande actuellement 1 tat major de forces num ro un cr Besancon Doubs i en 1999 pour contr ler l quivalent de trois quatre brigades D autre part le g n ral Henri Poncet qui commande la division multinationale de 1 OTAN Mitrovica dans le nord du Kosovo doit c der sa place au a n ral Pierre de Saaui de Sannes l actuel YI Quand un des personnages aurait command une bi re au bar il aurait fallu que le barman parisien soit finnois aussi FIGURE 6 4 R sultats affich s dans l interface pour l entr e commander SUJ SN OBJ SN A OBJ SP lt SN gt INTERFACE LEXSCHEM SUJ SN P OBJ SP lt EN SN gt FIGURE Choisir un verbe IMMIGRER immigrer hd Voir les informations Afficher les analyses de syntex VERSE SCHEMA DE NomBre FREQUENCE SOUS CAT GORISATION D OCCURENCES RELATIVE si SUJ SN P IMMIGRER immigrer OBJ SP lt en SN gt 16 0 314 46 000 ressortissants de 1 ex URSS ont immigr en Isra l en 1998 contre 54 000 1 ann e pr c dente a indiqu un rapport officiel publi mardi En revanche les centaines de milliers de Russes Bi lorusses et Ukrainiens qui ont immigr en Estonie pendant la p riode de russification et d occupation sovi tique environ 37 de la population actuelle devront remplir certaines conditions pour obtenir la nation
111. arguments Impl mentation L algorithme 2 pr sente les op rations effectu es par le constructeur pour passer d une liste de pr SSC une liste de SSC globaux Algorithme 2 Constructeur de sch mas candidats Entr es Liste des pr sch mas de sous cat gorisation Sorties Liste de SSC non filtr e pour Chaque pr sch ma de sous cat gorisation faire Ordonne les compl ments Exclut les compl ments r gis par des pr positions non sous cat gorisables et les compl ments doublons Cr e un nouveau SSC ou ajoute une occurrence au SSC s il existe fin pour Chaque sch ma de sous cat gorisation faire Calcule la fr quence relative du SSC fin Afin de pouvoir g n raliser les pr SSC en SSC il faut ordonner la liste des compl ments Consid rons par exemple les phrases suivantes a Lucas donne un livre Martine b Lucas lui donne un livre c A qui Lucas a t il donn un livre Ces phrases diff rent par leur structure de surface mais rendent compte du m me comportement syntaxique profond Il est donc sou haitable qu elles produisent le m me SSC Les sch mas produits par ces trois phrases a partir des pr sch mas diff rent en raison de l ordre des compl ments dans la phrase SUJ SN OBJ SN A OBJ SP lt a SN gt pour a SUJ SN A OBJ SP lt SN gt OBJ SN pour b et A OBJ SP lt SN gt SUJ SN OBJ SN pour c En ordonnant ces sch mas on obtient un SSC uniqu
112. as de consensus sur le nombre ou la nature 13 Chapitre 2 Description du verbe pour l laboration de lexiques R le Exemple agent Sacha lance la balle patient Marie attrape la gomme th me J ach te un disque Marie exp rienceur L on admire Paul but Je vous appelle propos de l annonce source Ce vacarme vient de l appartement du dessus destination Il va Paris ce week end lieu Le chat est assis sur le livre instrument Le cuisinier fait sauter ses l gumes avec un wok moyen Nicolas a fait rire Marie en lui racontant une blague TABLE 2 1 Liste non exhaustive des principaux r les th matiques des r les th matiques ackendoff 1997 On peut n anmoins pr senter une liste non exhaustive des r les th matiques les plus fr quemment retenus voir tableau 2 1 Une grille th matique est simplement une liste de r les th matiques pour un pr dicat donn Voici quelques exemples de grilles Lancer agent patient Zo acenr a lanc la balle rarrenr Donner agent theme but Jean acenr donne le crayon yime LUC sur Acheter agent theme source Le Br sil 1cewr a achet des Rafales r mr a la France source Aimer exp rienceur patient Il sxpgrrenceur aime sa femme rarmenr Lancer prend donc deux arguments dont l un est agent le lanceur et l autre patient le lanc Pour le verbe acheter les trois arguments sont agent t
113. aux applications de TAL Or le d veloppement du domaine du traitement automatique des langues a rendu de plus en plus n cessaire la disponibilit de lexiques utilisables par les machines Les travaux en TAL concernent souvent des sous domaines ou des cor pus de sp cialit Ils n cessitent donc des ressources adapt es a ces do maines L adaptation la main des ressources existantes un domaine particulier requiert un travail long et fastidieux alors qu un syst me d ac quisition automatique a partir de corpus brut pourra facilement s adapter moyennant la disponibilit d un corpus pour le domaine et des modifica tions mineures du syst me voir la section pour plus de d tails sur ce su jet De plus les applications de traitement automatique des langues peuvent tirer profit d informations souvent absentes des dictionnaires construits a la main mais qui peuvent tre extraites partir de corpus par exemple la fr quence des entr es ou les t tes lexicales des arguments Enfin les moyens techniques performances des ordinateurs disponibilit des corpus outils de traitement automatique de la langue etc ont permis d envisager l ac quisition automatique de lexiques a partir de textes Pour toutes ces raisons les chercheurs en TAL ont tent d acqu rir au tomatiquement des informations lexicales 4 partir de corpus bruts depuis le d but des ann es 1990 Depuis de nombreuses exp riences d acquisitio
114. be acheter peut tre un humain mais pas un animal sauf dans certains contextes particuliers ou un objet inanim comme en t moignent les exemples 15a 15b et 15c 15a Jean ach te un livre la librairie 15b Le lapin a achet une carotte 15c La table a achet une chaise La phrase 15b n est correcte que dans un contexte o le lapin a une appa rence ou un comportement humain Remarquons galement que la m to nymie permet une organisation comme par exemple une entreprise de prendre le trait humain 15d Google a achet YouTube pour 1 65 milliards de dollars Le plus souvent on repr sente les restrictions de s lection en utilisant un trait par exemple humain ou hum qui symbolise une caract ristique s mantique de l argument On fait pr c der ce trait d un plus ou d un moins pour signaler si l argument est caract ris par ce trait ou son oppos Par exemple hum signifie que l argument est humain et hum qu il est non humain Il est n cessaire de distinguer les restrictions de s lection des pr f rences lexicales Les pr f rences lexicales sont l ensemble des t tes lexicales appa raissant dans une position donn e par exemple en position sujet ou objet 15 Chapitre 2 Description du verbe pour l laboration de lexiques 2 4 En traitement automatique le terme de restriction de s lection est parfois utilis pour parler de g n ralisations sur les t tes l
115. bjectif l acquisition de ce type de ressources Gardent et Lorenzo et qui a d but juste apr s ce travail de doctorat d montre bien l mergence et l importance de cette probl matique pour la langue fran aise 2 Il existe peu d tudes approfondies sur l utilisabilit des syst mes d ac quisition automatique de SSC L un des moyens de tester leur utilisabi lit est de valider les apports des ressources acquises par rapport aux ressources existantes en particulier celles qui sont construites par un travail manuel Il s agit donc d utiliser les m thodes d acquisition tant sur un corpus le plus g n ral possible que sur des corpus plus sp cialis s et de comparer les informations acquises aux ressources exis tantes Les m thodes d acquisition automatique sont int ressantes si elles permettent d obtenir des informations nouvelles qui repr sentent bien des usages de la langue 3 Il s agit enfin de d terminer dans quelle mesure il est possible d inf rer des informations s mantiques partir de donn es syntaxiques et de v rifier l hypoth se d une interface entre syntaxe et s mantique vo qu e plus haut Les SSC acquis partir de corpus peuvent constituer une base pour l acquisition de classes s mantiques Cette th se va tenter de r pondre ces enjeux en d veloppant l un des premiers syst mes d acquisition automatique de SSC large couverture pour le francais L acquisition d un lexique
116. c le verbe dans le corpus gale z ro cette valeur sera remplac e par 0 0001 donnant une estimation approximative de la fr quence relative 0 0001 V o f V est la fr quence observ e du verbe La divergence de Jensen Shannon ainsi que la divergence oblique sont des variantes fond es sur la di vergence de Kullback Leibler qui vitent le probl me des valeurs ind finies par approximation de la valeur de la divergence de Kullback Leibler La divergence de Jensen Shannon est la seule mesure sym trique pour les autres mesures le minimum de la distance a t consid r pour chaque paire de verbes com par s La divergence oblique est une variante pond r e de la divergence de Kullback Leibler propos e par 2001 La pond ration se fait par le pa ram tre libre a dont la valeur optimale est proche de 1 nous l avons fix e 0 99 Aucune pr supposition concernant le nombre et la cardinalit des groupes de verbes n a t incorpor e dans l algorithme Ainsi le point d arr t du pro cessus de classification d pend de deux param tres la distance maximale entre les centres des deux groupes tre unifi s et la cardinalit des groupes Ce double param trage permet d viter l effet de cha ne c est dire le ph no m ne d absorption de beaucoup de verbes par quelques groupes tr s nombreux Des exp rimentations ont t conduites avec des param tres diff rents et les valeurs optimales de la di
117. c ou sans informations s mantiques Ces exp rimentations montrent que des distinctions syntaxiques plus d taill es ainsi que la prise en compte des modifieurs augmentent la pr cision de la classification la fr quence d appa rition de certains modifieurs peut aider identifier des classes Toutefois selon 2000 l ajout d informations sur les restrictions de s lection conduit un probl me de manque de donn es data sparseness et la baisse de performance pour Schulte im Walde de meilleurs r sultats sont obtenus sur des espaces de traits limit s la sp ci fication syntaxique l inverse d autres ont essay d enrichir l espace de traits de mani re efficace par le biais d informations s mantiques ou lexicales Nous comparons dans nos exp riences les r sultats obtenus en utilisant diverses caract ristiques SSC avec ou sans la diff renciation des pr positions SSC avec les t tes lexicales etc ce qui permettra de d limiter quelles sons les informations fournir au syst me pour obtenir les meilleurs r sultats notre connaissance la seule tentative pour tablir une classification automatique des verbes fran ais est d crite par Falk 2008 Cette tude s ap puie sur trois lexiques de sous cat gorisation pour comparer le compor tement syntaxique des verbes La particularit de l approche est de partir de ressources manuelles VOLEM le LEXIQUE GRAMMAIRE et DICOVALENCE ce qui permet d utilise
118. cadre les m thodes semi automatiques peuvent se r v ler pr cieuses 99 Chapitre 6 Utilisation et valuation des m thodes d acquisition automatique de SSC nous ont permis de mettre en vidence une typologie des erreurs rencontr es dans notre ressource Analyse manuelle de la couverture et de la nouveaut Les entr es de 150 verbes vari s choisis en fonction de leur fr quence de leur g n ricit et du nombre de SSC qui leur est associ ont t valu s par deux annotateurs ind pendamment afin de mieux mesurer la qualit de LexScHem Nous avons g n r un fichier XML comprenant les SSC pour 150 verbes parmi les 1 583 verbes utilis s lors de la comparaison de LEXSCHEM avec les deux autres lexiques section 6 2 1 Pour chacun de ces verbes nous avons regroup les entr es apparaissant dans LEXSCHEM TREELEX ou DICOVALENCE EASY Chaque entr e est caract ris e par sa pr sence ou son absence dans LEXSCHEM d une part dans TREELEX ou DICOVALENCE EASY d autre part ainsi que par 5 exemples tir s du corpus Le Monde dans le cas o l entr e est pr sente dans LEXSCHEM De plus afin d viter les er reurs dues la transformation de format un retour DICOVALENCE est r alis de mani re syst matique lorsque certaines entr es videntes sont ab sentes de DICOVALENCE EASY ou que des entr es fausses sont pr sentes dans DICOVALENCE EASY L valuation des entr es se fait grace aux balises lt hum
119. cat de la phrase mais servent de support a un nom pr dicatif ou a un adjectif pr dicatif qui remplit ce r le C sar conduit une attaque contre un fort Le verbe conduire n est pas le pr dicat de la phrase une attaque remplit ce r le Une solution possible est de coder l expression conduire une attaque directement dans le lexique Les expressions fig es sont des suites de mots qui n admettent que des transformations mineures articles temps des verbes insertions d adjectifs Gross 975 1996 Il a pris le taureau par les cornes L expression prendre le taureau par les cornes a un sens abstrait et l inser tion d un nouveau syntagme dans l expression fait perdre ce sens abstrait l expression Il a pris le taureau de son p re par les cornes Les exemples suivants donnent un aper u de la vari t des cas existants pour les verbes casser expressions semi fig es et faire verbe support et expressions fig es Il a cass sa pipe Ils ont cass la baraque hier soir Il a cass sa tirelire pour te faire ce cadeau Il me casse les pieds avec ses histoires Google a fait l acquisition de YouTube verbe support Arena a fait l annonce du licenciement de 93 personnes verbe support Le parquet a fait appel de la d cision du tribunal expression fig e Les pr tres font voeu de chastet expression fig e Les verbes supports et les expressions fig es sont des cas difficiles clas
120. ce plus fin concernant la force du lien entre le nom compl ment et le verbe permettrait sans doute de rep rer au moins partiellement les expressions fig es et de les carter du processus d acqui sition en s inspirant des travaux de Fabre et Bourigault sauf qu il s agit ici de mod liser le continuum entre compl ments libres et expres sion fig es ou bien encore de ceux de de Cruys et Moir6n 2007 Faute de temps ce processus n a pu tre mis en place dans la th se mais constitue une perspective ce travail On voit ici tout ce que le processus de filtrage a d imparfait il faudrait liminer les SSC qui ont des compl ments fr quents qui sont en fait des modifieurs ou qui forment des expressions fig es l inverse des sch mas valides sont cart s car trop rares N anmoins les exp riences pr c dentes sur d autres langues avec des techniques similaires l ont bien montr ce type d analyse est efficace pour acqu rir des donn es en largeur pour un nouveau domaine ou une nouvelle langue Comme nous le montrons dans les pages suivantes il est alors possible d acqu rir de nouvelles donn es de compl ter des lexiques existants voire de cr er rapidement de nouveaux lexiques moyennant une analyse et une r vision manuelle Le tableau met en parall le les chiffres de LEXSCHEM avec ceux d autres lexiques de sous cat gorisation pour le fran ais Il est toutefois d licat de comparer c
121. ces lexicales Pourtant elles ne sont pas toujours pertinentes pour valuer des syst mes d acquisition qui n ont pas l ambition de concurrencer les dictionnaires acquis manuellement En outre nous devons nous interroger sur le statut du gold standard avant d aller plus loin En effet il est difficile d obtenir une ressource r f rence qui soit parfaitement adapt e l valuation Premi rement les ressources construites manuellement ne sont pas tou jours adapt es un traitement automatis par exemple m me le Lexique Grammaire destin tre utilis de mani re automatique fait l objet de tentatives de normalisation pour le rendre plus utilisable par les syst mes de traitement automatique 2010 Deuxi mement ces ressources requi rent parfois des transformations de for mats co teuses et ou susceptibles d induire des erreurs c est notamment le cas de DicoValence Troisi mement certaines ressources ne sont pas tota lement disponibles Enfin les informations disponibles dans ces ressources ne sont pas toujours celles que l on souhaite valuer dans les ressources acquises automatiquement par exemple les dictionnaires lectroniques dis posent tr s rarement d informations sur la fr quence des entr es Le meilleur moyen de constituer une ressource r f rence est alors de fusionner diff rents lexiques N anmoins l h t rog n it des th ories et des formats qui sous tendent les lexiques construits man
122. ch ma Les sch mas comprennent le nombre et la nature des compl ments valen ciels du verbe avec leur fonction syntaxique De plus le dictionnaire fournit certaines restrictions s lectionnelles certaines formes de r alisation prono minales phrastiques des termes la possibilit d employer le SSC la forme passive et ventuellement des liens avec d autres cadres du verbe Contrairement aux lexiques qui se veulent ind pendants des th ories linguistiques DicoValence s appuie sur l Approche Pronominale 1978 Cette approche repose sur l hypoth se que les pronoms r v lent des diff rences au sein de constructions de surface en apparence comparables Ainsi je donne un livre Jean se pronominalise en je lui donne un livre et non en je donne un livre lui tandis que je pense Marie se pronominalise en je pense elle et non en je lui pense d o la dif f rence de statut entre les compl ments en r v l e par leurs propri t s de pronominalisation De plus les pronoms constituent des l ments de r f rence minimale ils forment un ensemble ferm ce qui permet de limi ter le nombre de combinaisons possibles sur lesquelles porter un jugement pour tablir la valence d un pr dicat Ainsi la repr sentation des informations de sous cat gorisation dans Di coValence a les propri t s suivantes Pour chaque place de valence ou paradigme le dictionnaire pr cise le paradig
123. cquisition automatiques des outils ont en fin t d velopp s pour param trer la ressource obtenue et la rendre plus efficace en fonction de la t che vis e 85 Chapitre 6 Utilisation et valuation des m thodes d acquisition automatique de SSC 6 1 6 1 1 ACQUISITION D UN LEXIQUE DE SOUS CATEGORISATION A LARGE COUVERTURE POUR LE FRAN AIS Nous avons r alis une exp rience d acquisition automatique d un lexique de sous cat gorisation pour le fran ais La ressource obtenue par cette exp rience s appelle LEXSCHEM Cette section pr sente tout d abord le corpus utilis pour acqu rir notre lexique Nous d taillons ensuite les r glages utilis s dans ASSCi pour l acquisition de LEXSCHEM La section se conclut par une pr sentation du lexique et de l interface qui permet de le consulter en ligne Mat riel et m thode Corpus utilis Les informations acquises lors d une exp rience d acquisition automa tique de SSC d pendent directement du corpus utilis Le choix de ce cor pus est donc crucial et d termine la qualit et l exhaustivit de la ressource acquise Le choix du corpus d pend aussi de l utilisation qui sera faite de la ressource domaine vis nombre de verbes concern s etc Nous avons choisi d utiliser le corpus journalistique LM10 Ce corpus est constitu des articles de 10 ann es 1991 2000 du journal Le Monde Il s agissait du plus gros corpus disponible et homog ne quant son
124. dam 1979 Morris Salkoff et Andr Valli A dictionary of french verbal complementa tion Dans Actes de Language and Technology Conference Human Language and Technologies as a Challenge for Computer Science and Linguistics In me mory of M Gross and A Zampolli Poznan Poland 2005 Anoop Sarkar et Daniel Zeman Automatic extraction of subcategoriza tion frames for czech Dans Proceedings of the 18th International Conference on Computational Linguistics COLING pages 691 697 Saarbr cken Ger many 2000 Helmut Schmid Probabilistic Part of Speech Tagging Using Decision Trees Dans International Conference on New Methods in Language Processing Man chester UK 1994 Sabine Schulte im Walde Clustering verbs semantically according to their alternation behaviour Dans Proceedings of COLING Saarbr cken 2000 Sabine Schulte im Walde A Subcategorisation Lexicon for German Verbs induced from a Lexicalised PCFG Dans Proceedings of the 3rd Conference on Language Resources and Evaluation volume IV pages 1351 1357 Las Palmas de Gran Canaria Spain 2002 167 Bibliographie Sabine Schulte im Walde Experiments on the automatic induction of german semantic verb classes Computational Linguistics 32 2 159 194 2006 Sabine Schulte im Walde The induction of verb frames and verb classes from corpora Dans Corpus Linguistics An International Handbook Berlin 2009 Mouton de Gruyter Sabine Schulte im Walde et Chris Bre
125. de ces erreurs en surface dynamiquement lors de l ac quisition automatique a t envisag mais il est complexe mettre en oeuvre tant donn la variabilit des contextes provoquant ces erreurs La solution retenue est une analyse a priori des verbes nous avons cherch r p rer les mots tiquet s verbe alors que la majorit de leurs occurrences ne correspondent pas un verbe avant le traitement par ASSCi Notre m thode consiste calculer le nombre d occurrences et la fr quence relative de chaque forme apr s normalisation en minuscules de chaque verbe dans le corpus plus une ou deux formes pr dominent pour un m me mot moins ce mot a de chances d tre un verbe Par exemple toutes les occurrences du verbe suturer dans le corpus des 10 ans du journal Le Monde voir section 6 1 1 sont issues de la forme fl chie suture suturer suture 1 00 Dans la majorit des cas la forme fl chie suture correspond au nom suture et a t mal analys e par TREETAGGER Par contre pour le verbe marcher nous obtenons narcher marche 0 32 marchais 0 25 marchent 0 19 narchait 0 10 marchaient 0 03 marchera 0 03 archons 0 02 marcherait 0 01 marchez 0 01 archa 0 01 marcheront 0 01 marches 0 00 arch rent 0 00 marchions 0 00 marcheraient 0 00 archerons 0 00 marcherai 0 00 marchiez 0 00 archerais 0 00 march t 0 00 marcherez 0 00 narcheras 0 00 marchai
126. de l interface syntaxe s mantique notamment travers l acquisition de classes verbales partir du lexique acquis Nous nous sommes int ress s en particulier aux sch mas de sous cat gorisation de verbes qui constituent un bon point de d part pour l acqui sition d autres informations lexicales et dont les applications sont vari es analyse syntaxique classification verbale etc CONTRIBUTION Pour r pondre ces enjeux nous avons montr dans cette th se l int r t de l acquisition automatique d informations lexicales partir de corpus bruts Nous avons en particulier montr qu il tait possible d acqu rir auto matiquement des informations de sous cat gorisation verbale pour le fran ais et explor des pistes d utilisation des sch mas de sous cat gorisation obtenus Pour cela nous avons d velopp un syst me d acquisition automatique de SSC partir de corpus brut pour le fran ais utilis ce syst me pour acqu rir un lexique de sous cat gorisation large couverture pour le fran ais appel LEXSCHEM valu les informations acquises tant quantitativement que qualitati vement montr que l utilisation d ASSCi sur un corpus marqu par un domaine l gislatif europ en donnait des r sultats sensiblement diff rents propos des outils pour faciliter l utilisation de telles ressources r alis deux exp riences de classification automatique d
127. de sous cat gorisation concerne plu t t sa syntaxe Avant de pr senter plus en d tail ces notions ainsi que celle de restriction de s lection il est n cessaire de revenir sur la distinction argu ment modifieur Distinction argument modifieur Classiquement on diff rencie les arguments des modifieurs par le carac t re obligatoire des arguments au niveau de la structure s mantique pro fonde 1975 Les modifieurs ne font pas partie de la structure argumentale Ils sont donc facultatifs plus facilement d placables etc De nombreux travaux ont essay de d gager les crit res linguistiques permettant de distinguer les arguments des modifieurs lard et Sag 1987 Miller 1997 fait l inventaire des principaux crit res utili s s obligatoire vs facultatif degr de s lection par le verbe th matisation etc Les exemples suivants montrent la pertinence des crit res d effacement et de d placement du compl ment pour diff rencier arguments 22 et mo difieurs 21 21a L abb Pierre est mort en 2007 21b L abb Pierre est mort 21c En 2007 l abb Pierre est mort 22a Il a envoy une lettre son cousin 22b Il a envoy une lettre 22c A son cousin il a envoy une lettre 22d Il a envoy son cousin une lettre Si on peut sans probl me supprimer 21b ou d placer 21c le compl ment en 2007 dans la phrase L abb Pierre est mort en 2007 sans bouleverser la structure s
128. de sous cat gorisation permettra d valuer l utilisabilit de ce syst me et de v rifier les rapports entre syntaxe et s mantique PLAN DE LA TH SE Dans le premier chapitre Description du verbe pour l laboration de lexiques nous proposons une description du verbe pour l laboration de lexiques Apr s avoir pr sent la notion d entr e lexicale nous nous pen chons sur les notions de pr dicat et de structure argumentale Nous d cri vons ensuite les diff rentes composantes des sch mas pr dicatifs sch ma de sous cat gorisation grille th matique et restrictions de s lection avant de revenir sur la notion d alternance Enfin nous voyons les difficult s qui rendent les contours des sch mas pr dicatifs flous Le deuxi me chapitre Etat de l art des ressources existantes pour le fran ais fait un tat de l art des principaux dictionnaires lectroniques exis tants pour d crire le verbe en fran ais qu ils aient t construits manuelle ment semi automatiquement ou partir de corpus arbor s 5 http atoll inria fr passage 4 1 3 Plan de la th se Le chapitre 3 Les m thodes d acquisition automatique de sch mas de sous cat gorisation pr sente les m thodes d acquisition automatique de sch mas de sous cat gorisation a partir de corpus bruts Nous d crivons tout d abord les m thodes d valuation de ces syst mes en distinguant l valua tion intrins que de l valuation ex
129. e d autres langues moyennant la disponibilit d un lexique et d un corpus annot Dans un premier temps TREETAGGER segmente le texte en phrases et les phrases en motsf Ensuite l tiquetage morpho syntaxique permet d asso cier une tiquette morpho syntaxique chaque mot TREETAGGER estime 1 http www ims uni stuttgart de projekte corplex TreeTagger Les fichiers de configuration de TREETAGGER pour le fran ais ont t d velopp s par Achim Stein et Michel G n reux 2 Le fichier de param trage du segmenteur pour le francais a t fourni 59 Chapitre 5 Description du syst me d acquisition de SSC pour le fran ais la probabilit pour chaque mot de porter diff rentes tiquettes possibles en utilisant des lexiques et le contexte du mot c est a dire les mots proches de lui dans le corpusP Enfin un lemme est associ chaque mot du texte lemmatisation Exemple Tout au long de ce chapitre nous allons suivre le processus d acquisition l aide d un exemple Consid rons la phrase Les fameuses erreurs de Sartre il les lui reproche autant que ses adversaires mais il les lui reproche au nom du Sartre qu il aime et qui lui ressemble l homme seul le Roquentin Pour cette phrase TREETAGGER produit l annotation repr sent e dans le tableau La liste compl te des tiquettes utilis es par TREETAGGER pour l annotation du fran ais est disponible sur le site de V tiqueteur
130. e SUJ SN OBJ SN A OBJ SP lt a SN gt en traitant ces trois phrases 75 Chapitre 5 Description du syst me d acquisition de SSC pour le fran ais Les l ments des SSC sont donc ordonn s selon leur fonction dans l ordre suivant sujet forme pronominale tiquette REF objet groupe pr positionnel gouvern par groupe pr positionnel gouvern par de autres groupes pr positionnels attribut du sujet attribut de l objet Cette nor malisation permet de s affranchir des r alisations de surface En effet les phrases contenant des pronoms des inversions ou des extrapositions n ont pas une structure canonique et l on souhaite s abstraire de ces variations de surface Les compl ments gouvern s par une pr position ne pouvant r gir un argument sont ensuite supprim s La liste de ces pr positions est issue du lexique PREPLEx un lexique de pr positions du francais Fort et Guillaume 2007 Dans PrEPLEx les pr positions sont class es en diff rentes cat gories L une de ces cat gories permet de distinguer les pr positions argumentales des pr positions non argumentales La liste des pr positions argumentales issue de PREPLEX est donn e en annexe Pour chaque compl ment pr positionnel le constructeur cherche dans la liste de pr positions argumentales si la pr position qui le r git est suscep tible de porter la sous cat gorisation ou non Dans le cas o la pr position est non argu
131. e pose cependant un probl me pour l valuation de la ressource En effet comme nous le verrons au chapitre 6 il devient alors difficile de compa rer la ressource avec des ressources o la distinction argument modifieur est g n ralement forte Formes pronominales L utilisation des formes pronominales est un ph nom ne massif en fran ais qui concerne de nombreux verbes et qui est souvent mal trait par les lexiques Il est donc important de s interroger sur la fa on de traiter les formes pronominales dans un lexique de sch mas pr dicatifs En effet la m me forme de surface se verbe peut rendre compte de comportements tr s vari s Voici les diff rents cas possibles d utilisation de la forme pronominale 5 There are some very clear arguments normally subjects and objects and some very clear adjuncts of time and outer location but also a lot of stuff in the middle Things in this middle ground are often classified back and forth as arguments or adjuncts depending on the theoretical needs and convenience of the author 6 Rather than maintaining a categorical argument adjunct distinction and having to make in out decisions about such cases we might instead try to represent subcategoriza tion information as a probability distribution over argument frames with different verbal dependents expected to occur with a verb with a certain probability 19 Chapitre 2 Description du verbe pour l labora
132. e 7 ont permis de v rifier cette hypoth se Elles ont aussi montr que les classes obtenues avaient une port e s mantique et procurent une base pour l tude de l interface syntaxe s mantique N anmoins par manque de temps une tude approfondie des liens entre syntaxe et s man tique n a pas pu tre men e L utilisation de LEXSCHEM dans une application d extraction d informa tion ou un analyseur syntaxique reste faire L valuation de l apport de la ressource l application n est pas ais e et une telle tude d passe le cadre de cette th se PERSPECTIVES La th se r pond donc bien aux enjeux importants que nous avons identi fi s N anmoins les contraintes de temps et de moyens ne nous ont pas per 123 Chapitre 8 Conclusion mis d explorer en profondeur certains aspects Nous proposons ici quelques unes de ces pistes Tout d abord il est possible d am liorer la m thode d acquisition Les am liorations les plus naturelles concernent la technique de filtrage em ploy e l instar de ce qui a t fait pour l anglais 2000 une comparaison de diff rentes techniques pourrait tre r alis e Le test binomial a d j t utilis pour le fran ais et a donn des r sultats proches des n tres Il serait galement int ressant d essayer d utiliser des techniques de filtrage tout a fait in dites pour cette t che Maintenant que l on dispose de classes de verbes une exp rience de com
133. e de surface Syntex Le corpus d acquisition est ensuite analys par SYNTEX analyseur syn taxique en d pendances d velopp par Didier BourigaultP Bourigault et al 2007 Description SYNTEX est un analyseur syntaxique en d pendances dont l objectif est de traiter des corpus de grande taille compos s de phrases du fran ais cou rant L analyse en d pendances s oppose l analyse en constituants un analyseur en constituants constitue des groupes correspondant des unit s syntaxiques groupe verbal etc tandis qu un analyseur en d pendances re lie les diff rents mots de la phrase entre eux partir d un l ment racine en g n ral le verbe Les sch mas 5 2 et 5 3 repr sentent respectivement les analyses en constituants et en d pendances de la phrase Il lui reproche ses erreurs Les stemmas de Tesni re sont une repr sentation possible de l analyse en d pendances voir la figure dans la section 2 2 pour un exemple de stemma L analyse en d pendances a l avantage d tre plus ind pendante des th ories linguistiques que l analyse en constituants Pour d crire les relations entre les mots dans une analyse en d pendances on utilise les concepts de recteur ou gouverneur et de r gi ou de d pen dant Par exemple dans l arbre reproche est le recteur de il lui et erreurs et ses est r gi par erreurs Il y a une quivalence faible entre ces deux types d analyse On peut en g n ral pas
134. e est charg e de chercher les fonctions syntaxiques pour chacun des d pendants du verbe tape a de l algorithme 1 Les fonctions reconnues par l extracteur sont donn es dans le tableau 5 3 Consid rons par exemple l analyse de SYNTEX correspondant la propo sition il les lui reproche au nom du Sartre qu il aime tableau 5 4 Le verbe reprocher a quatre r gis il 18 dont la relation au verbe est SUJ les 19 dont la relation au verbe est OBJ lui 20 dont la relation au verbe est PREP au nom du 22 dont la relation au verbe est PREP Dans la plupart des cas la fonction recherch e par l extracteur corres pond la relation de SyNTEx dans notre exemple il est sujet de reprocher et les est son objet N anmoins il existe trois exceptions notables 70 5 4 Description des modules d ASSCi 18 il Pro SUJ 21 19 le Pro OBJ 21 20 lui Pro PREP 21 21 reprocher VCONJS SUJ 18 OBJ 19 PREP 20 PREP 22 22 au nom de Prep PREP 21 NOMPREP 23 23 Sartre NomPrXXInc NOMPREP 22 24 que CSub COMP 26 25 il Pro SUJ 26 26 aimer VCONJS COMP 24 SUJ 25 OBJ 34 TABLE 5 4 Analyse de SYNTEX correspondant la proposition il les lui reproche au nom du Sartre qu il aime si le verbe est un auxiliaire l algorithme recommence le traitement sur le verbe conjugu Par exemple dans la phrase Pierre est venu Lille hier le verbe pour
135. e format du lexique le rend exploitable par des applica tions de TAL une tude a montr qu il pouvait tre utilis par un analyseur syntaxique Sagot et Tolone 2009 D AUTRES DICTIONNAIRES LECTRONIQUES POUR LE FRAN CAIS Nous pr sentons d sormais plus succintement des dictionnaires syn taxiques qui ne sont pas disponibles ou qui sont plus difficilement utilisables que les lexiques pr sent s jusqu ici Le dictionnaire syntaxique des Verbes Fran ais Le dictionnaire syntaxique des Verbes Fran ais cr par Dubois Charlier 1997 est une classification s mantico syntaxique des 34 3 5 D autres dictionnaires lectroniques pour le fran ais accompagner v er std 100 Lemma v lt Suj cln sinf sn Obj cla sn gt cat v sactif spassif sppp_employ _comme_adj D__1030 L__1 M__1 DVex les v nements forts de la jeunesse vous accompagnent jusqu a la mort accompagner v er std 100 Lemma v lt Suj cln sn 0bj cla sn gt cat v actif passif ppp_employ _comme_adj se_moyen D__1010 L__1 M__1 DVex une sauce piquante accompagne tous les plats accompagner v er std 100 Lemma v lt Suj cln sn Obj cla ser c sn Loc y loc sn gt cat v Sactif spassif sppp_employ _comme_adj D__990 L_1 1 DVex ils l ont accompagn a sa maison accompagner v er std 100 Lemma v lt Suj clnisn 0Obj clalsn Objde en de sn gt cat v Sactif passif ppp_ employ comme _
136. e plus haut 101 Chapitre 6 Utilisation et valuation des m thodes d acquisition automatique de SSC n est pas pr sent dans TreeLex pour le verbe d tacher Pourtant cette en tr e est pr sente dans LEXSCHEM et est v rifi e par des exemples tir s du corpus comme Enfin l Albanie se d tacha son tour de la Chine devenue par la force des choses son alli e Cette exp rience montre aussi que DICOVALENCE est un lexique assez complet LExScHEM lui apporte peu d entr es nouvelles et correctes entre 30 et 45 Parmi ces entr es on trouve le SSC SUJ SN A OBJ SP lt a SN gt pour le verbe virer qui correspond bien a des usages corrects dans Le Monde une thique qui vire l impuissance il a vir au scepticisme s il vire au bleu marine c est la catastrophe L absence de cet emploi assez courant montre l incompl tude des ressources construites manuellement m me lorsque celles ci ont une bonne couverture Parmi les entr es pr sentes dans LEXSCHEM mais ab sentes des deux autres ressources on trouve notamment la construction SUJ SN OBJ SN A OBJ SP lt SN gt pour le verbe imprimer Si on peut penser au premier abord que ce sch ma correspond des expressions fig es comme dans l exemple Bonitzer imprime son tude la marque de ses propres themes f tiches ce West pas toujours le cas dans les exemples extraits du corpus Maitre exigeant il imprima sa passion des cuisiniers aussi diff
137. e que ces formes doivent constituer des entr es lexicales distinctes ou est ce que la forme pronominale constitue simplement un sch ma pr dicatif distinct La r ponse cette question n est pas triviale les constructions subjectives devraient constituer une entr e lexicale tant donn qu il s agit de la seule forme possible pour ces verbes s vanouir vs vanouir ou d une forme dont le sens est totalement distinct de la forme non pronominale s agir vs agir il est plus difficile de d terminer comment int grer les constructions r fl chies r ciproques ou passives dans les lexiques elles sont em ploy es de la m me mani re s mantiquement que l emploi non pro nominal dans certains cas Pierre lance la balle Marie vs Les enfants se lancent la balle et d une mani re diff rente dans d autres cas j ai trouv un stylo vs le stylo se trouve sur le bureau Nous verrons au chapitre 3 que ce probl me complexe est souvent mal pris en compte dans les ressources actuellement disponibles m me dans les lexiques constitu s manuellement par des linguistes 20 2 5 4 2 5 Les contours flous des sch mas pr dicatifs Verbes supports et expressions fig es ou semi fig es La constitution de ressources lexicales se heurte galement a la difficult a d terminer le statut des verbes supports et des expressions fig es ou semi fig es Les verbes supports ne remplissent pas la fonction de pr di
138. e type d information peut permettre de rep rer ult rieurement des classes s mantiques en se fondant sur les familles de verbes partageant les m mes modi 89 Chapitre 6 Utilisation et valuation des m thodes d acquisition automatique de SSC enfin que notre m thode ne rep re pour le verbe travailler aucun cas de com position de compl ments bien que plusieurs compl ments pr positionnels seraient susceptibles d apparaitre ensemble il travaille avec ses coll gues sur un projet En revanche les entr es du verbe d bouler contiennent de nombreuses er reurs La plupart de ces erreurs r sultent du faible nombre d occurrences de ce verbe dans le corpus environ 300 et de constructions non stan dard Ainsi le sch ma SUJ SN OBJ SN est le plus souvent d des er reurs d analyse de SYNTEX en raison de tr s nombreuses inversions du sujet comme dans la phrase Chaque matin d boule la petite charrette de socca o petite charrette est analys comme un compl ment d objet et non comme le sujet Le SSC SUJ SN P OBJ SP lt en SN gt r sulte d expressions fig es ou semi fig es comme d bouler en masse ou d bouler en trombe Il s agit d erreurs dans la mesure ou en trombe et en masse font partie d expres sions fig es et ne constituent pas des compl ments en tant que tels Il serait sans doute possible d aller plus loin en affinant le processus d acquisition Un calcul de cooccurren
139. e verbes par tir de nos donn es et montr que les classes obtenues avaient une por t e s mantique 121 Chapitre 8 Conclusion Depuis le d but des ann es 90 de nombreux travaux d acquisition au tomatique de SSC ont t r alis s en particulier pour l anglais Toutefois en raison de la faible disponibilit de corpus et d analyseurs syntaxiques robustes il existait peu d tudes de ce type sur la langue francaise au mo ment o cette th se a d but Le projet ANR Passage qui r unit plusieurs laboratoires et qui a t lanc au d but 2007 a abouti une tude du m me type que la n tre 2010 ce qui montre l actualit et l importance de cet enjeu Le principal apport de cette th se est la proposition d une m thode d ac quisition automatique de SSC verbaux partir de corpus bruts en fran ais Cette m thode est originale par plusieurs aspects 1 elle concerne le fran ais 2 elle n utilise pas de liste de SSC a priori 3 elle prend en compte le probl me de la distinction argument modifieur et propose des pistes pour y r pondre Un syst me d acquisition de SSC nomm ASSCi a t d velopp partir de cette m thode S il s appuie sur l tiqueteur morphosyntaxique TREETAG GER et sur l analyseur syntaxique SYNTEX la m thode n est pas d pendante de ces outils et peut tre impl ment e pour d autres analyseurs La distinction automatique des arguments et des modifieurs est un
140. e were removed Feature vectors were normalized by the sum of the feature values before clustering Since our clustering algorithms have an element of randomness we repeated clustering multiple times We report the results that minimize the distortion the distance to cluster centroid Evaluation measures We employ the same measures for evaluation as previously employed e g by a nan Kru E The first measure is modi ay purity mPUR a global measure which evaluates the mean precision of clusters Each cluster is associated with its prevalent class The number of verbs in a cluster K that take this class is denoted by Mprevalent K Verbs that do not take it are considered as errors Clusters where Mprevalent K 1 are disregarded as not to introduce a bias towards singletons Ln prevalent k gt 1 prevalent k MELIS a of verbs The second measure is weighted class accuracy ACC the proportion of members of dominant clusters DOM CLUST within all classes c Mee YES verbs in DOM CLUST number of verbs mPUR and ACC can be seen as a measure of precision P and recall R respectively We calculate F measure as the harmonic mean of P and R __2 mPUR ACC mPUR ACC The random baseline BL is calculated as follows BL 1 number of classes Evaluation Quantitative evaluation In our first experiment we evaluated 116 verbs those which appeared in LexSchem the minimum of 150 times We did this because
141. ensant les informations manquantes l aide de classes verbales par la technique propos e par Korhonen back off estimates Nous avons alors valu cette ressource tant quantitativement que qua litativement L valuation quantitative a consist montrer l cart entre LEX SCHEM et des ressources construites manuellement En particulier nous avons montr que LEXSCHEM apporte une certaine nouveaut par rapport TREELEX et DICOVALENCE La comparaison des informations acquises avec les informations conte nues dans les lexiques existants a aussi mis en exergue les avantages et les 122 8 3 8 3 Perspectives limites de chacune des approches et a montr ce que les approches auto matiques apportent l tat de l art Les limites de l acquisition automatique portent principalement sur la quantit d informations erron es acquises en raison d erreurs d analyse ou de filtrage et de la difficult traiter la dis tinction argument modifieur Parmi les apports des techniques d acquisi tion automatique il nous semble que leur adaptabilit est le plus notable et prometteur En effet nous avons montr que les SSC acquis varient en fonction du corpus utilis particuli rement pour les corpus de langue dite sp ciali s e L utilisation d ASSCi sur le corpus EuroParl a permis d acqu rir un lexique de sous cat gorisation sp cialis pour le domaine l gislatif euro p en LEXSCHEM EUROPARL Ce lexi
142. er 2010 8 http talc loria fr Dicovalence Easy html 96 6 2 Evaluation de LexSchem les autres pr positions Ce processus de normalisation est n cessaire par exemple le d tail des pr positions est absent dans TREELEX et n est pas sys t matique dans DICOVALENCE mais provoque un appauvrissement certain des informations contenues dans le lexique Toutefois la phase de validation manuelle pr sent e dans la section suivante permet ensuite de v rifier que les sch mas comprenant des P OBJ concernent les bonnes pr positions Quelles mesures de comparaison des ressources Nous avons expliqu plus haut section les probl mes li s l uti lisation d une ressource r f rence pour l valuation de ressources le biais induit par la th orie sur laquelle repose la ressource la variabilit du trai tement de la distinction argument modifieur dans les lexiques construits la main etc sont autant de facteurs qui relativisent les r sultats obtenus Or les ressources utilis es ici ont t acquises partir de corpus arbor et ou ont subi une transformation de format d licate Nous avons donc fait le choix de ne pas utiliser les mesures habituelles de pr cision rappel et F mesure dans la mesure o elles impliquent que la ressource r f rence utilis e soit suffisamment compl te et pr cise pour repr senter toute la langue De plus ces chiffres masquent souvent l h t rog n it des erreurs
143. erbe DET ART Article DET POS Pronom Possessif ma ta INT Interjection KON Conjonction NAM Nom Propre NOM Nom NUM Num ral PRO Pronom PRO DEM Pronom D monstratif PRO IND Pronom Ind fini PRO PER Pronom Personnel PRO POS Pronom Possessif mien tien PRO REL Pronom Relatif PRP Pr position PRP det Pr position Article au du aux des PUN Ponctuation PUN cit Ponctuation de citation SENT Balise de phrase SYM Symbole VER cond Verbe au conditionnel VER futu Verbe au futur VER impe Verbe l imp ratif VER impf Verbe l imparfait VER infi Verbe infinitif VER pper Verbe au participe pass VER ppre Verbe au participe pr sent VER pres Verbe au pr sent VER simp Verbe au pass simple VER subi Verbe l imparfait du subjonctif VER subp Verbe au pr sent du subjonctif 127 EXEMPLE D ANALYSE SYNTAXIQUE AU FORMAT DE SYNTEX L exemple pr sent ici correspond la s quence Les fameuses erreurs de Sartre il les lui reproche autant que ses adversaires mais il les lui reproche au nom du Sartre qu il aime et qui lui ressemble l homme seul le Roquentin figures et section 5 2 2 Les l ments sont ici pr sent s par ligne dans l analyse renvoy e par SYNTEX les l ments sont s par s par des ta bulations Cet extrait est donn titre indicatif afin d illustrer le format utilis par SYNTEX De
144. erne plus de 4 800 verbes et fournit une moyenne de 6 sch mas par verbe Le lexique n est pas t l char geable librement mais une interface de d monstration lui est consacr e sur le portail du projet TALC Ea syLex est au format EASy ce qui facilite son utilisation dans des applications de traitement automatique des langues CONCLUSION Le tableau 4 2 pr sente une synth se des travaux d acquisition automa tique de SSC partir de corpus pr sent s jusqu ici corpus utilis nombre de verbes trait s et nombre de SSC diff rents obtenus tandis que le tableau 4 3 pr sente les r sultats obtenus par ces diff rents syst mes d acquisition nombre de verbes valu s pr cision rappel et F mesure Apr s avoir fait l tat de l art des m thodes d valuation de ressources lexicales nous avons pr sent dans ce chapitre un sch ma global pour l ac 2 La borne inf rieure correspond aux entr es jug es correctes par les deux valuateurs et la borne sup rieure celles jug es correctes par au moins l un des deux valuateurs 3 L cart entre ces deux bornes d montre la difficult valuer ce type d informations lexicales 4 http talc loria fr 5 Il s agit du Corpus Passage Court CPC http atoll inria fr passage 55 Chapitre 4 Les m thodes d acquisition automatique de sch mas de sous cat gorisation Syst me Corpus Nb verbes Nb SSC Brent 1991 1993 Brown corpu
145. es morpho syntaxiques etc d pendent de l approche et ou de l analyseur Annotons d sormais les compl ments d affirmer entre crochets et ceux d acheter entre parenth ses dans l exemple pr c dent Tout d abord jl affirme que la De Beers n a jamais achet de dia mants l Unita Le verbe affirmer a donc deux compl ments le pronom personnel je lid en j et que la De Beers n a jamais achet de diamants l Unita tandis que acheter prend trois compl ments la De Beers de diamants et l Unita L imbrication des l ments rend difficile l analyse Maintenant que les verbes et leurs compl ments sont identifi s il faut associer cette configuration locale 4 un SSC 4 2 3 Etape 3 association entre ces constructions locales et des sch mas de sous cat gorisation Le verbe et ses compl ments forment une structure argumentale qu il faut associer a un SSC Deux m thodes sont alors possibles Faire correspondre la configuration locale un SSC dans une liste de sch mas existants fournie au syst me Inf rer un SSC partir de la configuration locale La premi re m thode permet de se limiter une liste de sch mas en se fondant sur les lexiques existants ou des th ories syntaxiques Elle a l avan tage de mieux traiter les ambigu t s ou les exceptions pour r duire le nombre de sch mas erron s acquis par le syst me La deuxi me m thode a l avantage d utiliser uniquement le
146. es 4 632 verbes gard s lors de la valida tion des verbes pr sent e la section 5 3 ont t trait s par ASSCi Les verbes mal annot s par TREETAGGER sont donc exclus du processus d acquisition Avant l tape de filtrage ASSCi r pertorie 173 870 entr es diff rentes couples verbe sch ma candidat Ce chiffre t moigne de la quantit et de la vari t des informations pr sentes dans le corpus Si une grande partie de ces entr es sont filtr es il est int ressant de disposer de donn es class es par usage syntaxique des traitements simples sur ces donn es permettent de consulter par exemple les phrases du Monde o tel verbe appara t avec telle pr position Outre le traitement en largeur pr sent dans cette these 3 Des versions interm diaires de LExSCHEM ont t rendues publiques tout au long du travail de th se La version pr sent e dans ce chapitre est la version disponible sur la page web du lexique en juin 2010 http www lipn univ paris13 fr messiant lexschem html 87 Chapitre 6 Utilisation et valuation des m thodes d acquisition automatique de SSC 6 1 2 avoir 3503441 tre 2808658 pouvoir 446981 devoir 352458 faire 236004 venir 113175 permettre 75599 prendre 53724 crire 32457 accompagner 9601 aider 6726 acqu rir 1978 remercier 888 catastropher 274 somnoler 128 nationaliser 70 importuner 29 poireauter 14 braire 3 lobotomiser 1 TABLE 6 1
147. es SSC candidats ne concernent pas une seule occurrence en corpus mais un ensemble d occurrences Le constructeur a aussi pour r le de comp tabiliser le nombre d occurrences de chaque sch ma de sous cat gorisation pour chaque verbe ainsi que de calculer leur fr quence relative c est a dire la fr quence du SSC relativement au verbe Ces informations de fr quence seront par la suite utilis es par le module de filtrage voir section 5 4 3 Lors des traitements du constructeur les sch mas sont normalis s Les compl ments sont ordonn s Les compl ments gouvern s par une pr po sition ne pouvant r gir un argument sont supprim s La liste des pr posi tions concern es est issue du lexique PREPLEX un lexique de pr positions du francais construit en fusionnant les informations contenues dans diff rents lexiques disponibles Fort et Guillaume 2007 Le module supprime ga lement les compl ments doublons des pr SSC On consid re que deux compl ments sont doublons lorsqu ils sont strictement similaires par leur fonction et leur cat gorie En effet la plupart du temps ces doublons sont dus des erreurs d analyse syntaxique et les constructions contenant deux compl ments similaires sont excessivement rares en fran ais Le format des tiquettes utilis es pour d crire les compl ments est le m me que pour l extracteur voir section 5 4 1 tableau 5 3 Exemple Par exemple la phrase Les fameuses e
148. es chiffres tant donn les diff rences entre les lexiques tant du point de vue de leur construction que des informations plus ou moins pr cises pr sentes dans les SSC Par exemple LEXSCHEM DicoVa LENCE LGLEX et le LEFFF pr cisent quelles pr positions sont susceptibles de r gir les compl ments voire dans certains cas quels types de compl ments il existe par exemple dans DICOVALENCE un paradigme locatif alors que ce n est pas le cas pour TREELEX qui ne diff rencie que 3 types de compl ments pr positionnels ceux r gis par ceux r gis par de et les autres Il en est de m me pour la finesse des ressources quant aux diff rents types de constructions pronominales voir chapitre blet section 6 2 2 On observe fieurs voir chapitre 7 Ce point reste n anmoins un inconv nient au niveau de l acquisition de SSC 90 6 1 Acquisition d un lexique de sous cat gorisation large couverture pour le fran ais Lexique LEXSCHEM DICOVAL LEFFF LGLEX TREELEX M thode Auto Manuelle Mixte Semi auto Semi auto Nb de verbes 3123 3738 6825 5694 2000 Nb d entr es 7239 8313 16903 4180 Nb de SSC 88 180 Nb moyen de SSC par verbe 2 3 2 22 2 97 2 09 TABLE 6 4 Comparaison de LEXSCHEM avec d autres lexiques de sous cat gorisation pour le fran ais les chiffres entre parenth ses ne sont pas des chiffres communiqu s par les au teurs ils r sultent de
149. es de cette premi re tape sont bruit es et une tape de filtrage est n cessaire La m thode de filtrage utilis e la deuxi me tape est la distribution binomiale des sch mas Une valuation sur 104 verbes par deux valuateurs a donn un score de pr cision entre 86 8 et 96 4 P Le token recall mesur en examinant quatre phrases extraites al atoirement d un corpus journalistique pour cha cun des verbes est de 54 3 Si cette premi re tude a permis de montrer que l acquisition automatique de SSC partir de corpus brut est possible pour le frangais elle n a t test e qu a une chelle limit e 104 verbes 27 SSC uniques et 176 combinaisons verbe sch ma Une autre tude d acquisition automatique de SSC a partir de corpus a t men e dans le cadre du projet TALC Traitement automatique des langues et des connaissances Gardent 2009 Gardent et Lorenzo 2010 Claire Gardent a men une exp rience portant sur un nombre beaucoup plus important de verbes en partant d un corpus de 170 millions de mots Ce corpus est en suite analys au moyen de l analyseur syntaxique TagParser mis au point par Gil Francopoulo 2005 Le rep rage de r gularit s au ni veau des compl ments du verbe permet d inf rer des SSC pour chaque verbe suivant une strat gie proche de celle de l quipe de Cambridge Le lexique r sultant EasyLex est disponible sur le portail TALC talc loria fr Easylex html Il conc
150. es sont filtr es r duit galement de beaucoup le nombre d entr es avant le filtrage par fr quence relative un nombre tr s important d entr es sont filtr es parce que leur fr quence relative dans le corpus ne d passe pas les seuils La majorit de ces entr es sont des constructions qui contiennent un modifieur ou qui r sultent d erreurs d analyse Nous verrons plus loin que certaines d entre elles sont des usages corrects mais qui n apparaissent pas suf fisamment dans le corpus LM10 pour passer le filtrage Le nombre moyen de SSC par verbe est d environ 2 3 Le nombre de SSC par verbe varie entre 1 et 7 le tableau 6 2 donne la r partition des verbes du corpus en fonction de leur nombre de sch mas On remarque que les verbes qui ont 1 2 ou 3 sch mas repr sentent plus de 90 des verbes du lexique Seuls 0 6 des verbes acceptent 6 ou 7 SSC Les verbes acceptant 7 SSC sont travailler et d bouler Le tableau donne la liste des entr es de ces verbes Les entr es du verbe travailler correspondent bien a des usages de ce verbe travailler sur sa th se travailler dans l informatique etc Tou tefois le compl ment P OBJ SP lt avec SN gt serait s rement consi d r comme tant un modifieur par un annotateur humain dans le SSC SUJ SN P OBJ SP lt avectSN gt travailler avec ses coll gues Cette construction ne figure d ailleurs pas dans DICOVALENCE On remarquera 4 Notons toutefois que c
151. et Sabine Schulte im Walde Spectral clustering for german verbs Dans Proceedings of EMNLP pages 117 124 2002 Ted Briscoe et John Carroll Automatic extraction of subcategorization from corpora Dans Proceedings of the 5th ACL Conference on Applied Natural Lan guage Processing pages 356 363 Washington DC 1997 John Carroll et Ted Briscoe Apportioning development effort in a pro babilistic lr parsing system through evaluation Dans Proceedings of the ACL SIGDAT Conference on Empirical Methods in Natural Language Proces sing pages 92 100 University of Pennsylvania PA 1996 John Carroll Guido Minnen et Ted Briscoe Can subcategorisation proba bilities help a statistical parser Dans Proceedings of the 6th ACL SIGDAT Workshop on Very Large Corpora Montreal Canada 1998 Y Kilicaslan E Uzun H V Agun et E Ucar Automatic Acquisition of Sub categorization Frames for Turkish with Purely Statistical Methods Dans Proceedings of the International Symposium on Innovations in Intelligent Sys tems and Applications INISTA 2007 pages 11 15 Istanbul Turkey 2007 Jinxiu Chen Dong Hong Ji Chew Lim Tan et Zheng Yu Niu Unsupervi sed relation disambiguation using spectral clustering Dans Proceedings of COLING ACL pages 89 96 2006 Paula Chesley et Susanne Salmon Alt Automatic extraction of subcatego rization frames for french Dans Proceedings of the Language Resources and Evaluation Conference LREC Genua Italy 2
152. et les outils qui y sont associ s 83 UTILISATION ET EVALUATION DES METHODES D ACQUISITION AUTOMATIQUE DE SSC B m thodes d acquisition automatique de SSC partir de corpus ont t beaucoup tudi es depuis les ann es go voir chapitre 4 Si l int r t de ces m thodes est indiscutable lorsqu elles sont utilis es pour des langues ne disposant pas de lexiques de sous cat gorisation il semble au premier abord moins pertinent lorsque la langue tudi e dispose d j d un certain nombre de ressources c est notamment le cas du fran ais comme en t moigne l tat de l art dress au chapitrel3 En effet la qualit des ressources acquises auto matiquement n atteint pas encore celle des dictionnaires d velopp s depuis de nombreuses ann es dans les laboratoires et quipes de linguistique Toutefois ces techniques d acquisition sont compl mentaires des res sources d velopp es a la main Elles permettent notamment d acqu rir des probabilit s d emploi des sch mas et sont adaptables elles permettent d ob tenir facilement des informations lexicales sur des sous domaines de la langue Ce chapitre pr sente des exp riences et des outils qui montrent l apport de ces ressources Dans un premier temps nous avons acquis un lexique de sous cat gorisation partir d un corpus journalistique nous avons ensuite valu ce lexique d autres exp riences ont permis de mettre en vidence ladaptabilit des m thodes d a
153. et les propri t s sous jacentes qui les influencent En effet le comportement des mots en contexte est d autant plus surprenant qu il peut varier au cours du temps d un locuteur l autre voire en fonction de la situation ou du corpus consid r Pour prendre un exemple simple le verbe essaimer est r put intransitif mais il est largement employ de mani re transitive dans le journal Le Monde e g Cuba a essaim les effets de son syn cr tisme culturel au gr des modes et des engouements Il n en a pas moins essaim son s jour chinois de proclamations optimistes pour l avenir du pays Ce sont au premier chef ces types de comportements non standard quand on les compare un lexique g n ral qui nous int ressent ici Ce travail de th se porte donc sur l acquisition automatique d informa tions lexicales partir de corpus On s int resse plus particuli rement l analyse du verbe Prenons pour exemple une construction typique du verbe casser Luc arc a cass la vitre arc2 avec un ballon arc3 1 Le Tr sor de la langue francaise informatis enregistre malgr tout quelques emplois transitifs pour essaimer dans la langue litt raire Leur proportion dans Le Monde n en demeure pas moins remarquable Chapitre 1 Introduction De mani re sch matique on peut distinguer les informations suivantes li es au verbe 1 Le nombre et la r alisation syntaxique des arguments Par exe
154. ettes utilis es pour les l ments des SSC sont approximative ment les m mes que celles du corpus arbor de Paris 7 Le tableau 3 7 fait l inventaire des diff rentes fonctions et cat gories reconnues dans TreeLex La figure 3 5 regroupe les informations contenues dans TreeLex pour le verbe accompagner On retrouve les principales constructions du verbe accom pagner illustr es par les phrases suivantes 7a SUJ NP OBJ NP L a accompagne Luc 37 Chapitre 3 Les ressources existantes pour le fran ais accompagner frames 4 all verbs 28 SUJ NP OBJ NP 13 SUJ NP OBJ NP DE OBJ PP 7 SUJ NP DE OBJ PP refl CL 7 SUJ NP P OBJ PP refl CL 1 FIGURE 3 5 Entr es de TreeLex pour le verbe accompagner 7b SUJ NP OBJ NP DE OBJ PP Pierre accompagne son fromage de vin 7c SUJ NP DE OBJ PP refl CL La hausse de l activit s ac compagne d une hausse des valeurs 7d SUJ NP P OBJ PP refl CL Une fois cuit le pinon est servi chaud et s accompagne avec le reste de la sauce tomate R cemment les sch mas de sous cat gorisation des adjectifs pr dicatifs ont t ajout s TreeLex 27 sch mas diff rents pour 271 adjectifs Kups 2008 TreeLex est une ressource disponible pour le francais qui a l avantage d avoir un format assez standard N anmoins la ressource souffre de la taille du corpus d acquisition ce qui a pour cons quence la non exhaustivit du
155. eur Les criteres de d placement et d effacement sont contradictoires et le compl ment a un statut un peu particulier Christopher Manning synth tise de fa on assez clairante cette question Manning 2003 Il y a des arguments tres vidents sujets et objets et des mo difieurs tres vidents de temps ou de lieu mais aussi beaucoup de choses entre ces deux p les Ces choses sont class es tant t comme arguments tant t comme modifieurs selon les besoins th oriques ou les vis es de Vauteur Il existerait donc un continuum entre arguments et modifieurs ce qui permet de mieux repr senter le caract re plus ou moins obligatoire des ar guments des verbes Il faut d sormais trouver un moyen de repr senter ce continuum en termes de SSC La r ponse apport e par Manning est de repr senter la sous cat gorisation comme une distribution de probabilit sur les arguments des sch mas Plut t que de maintenir une distinction cat gorique entre ar guments et modifieurs et d avoir prendre des d cisions binaires propos de tels cas nous devrions plut t essayer de repr senter l information de sous cat gorisation comme une distribution de probabilit sur les arguments o chaque compl ment est cens appara tre avec un verbe donn avec une certaine probabilit f L information contenue dans ces probabilit s est videmment plus riche que la distinction binaire argument modifieur Cette approche probabilist
156. exicales des arguments Les restrictions de s lection sont alors des classes c est a dire des groupes de mots partageant des propri t s s mantiques auxquelles les arguments du pr dicat doivent appartenir Par exemple le sujet du verbe acheter doit appartenir a la classe des humains ou 4 celle des organisations Pour d finir des restrictions de s lection pour un sch ma pr dicatif donn on s appuie sur un inventaire de cat gories s mantiques du type anim vs inanim Le choix de ces cat gories et leur niveau de granularit d pendent du cadre th orique et ou de l application vis e Il est galement possible de d terminer ces cat gories en s appuyant sur une ressource exis tante comme par exemple WorDNET 1998 Worp NET est une base de donn es lexicale hi rarchis e organis en jeux de synonymes appel s synsets Ainsi il est possible d inf rer des restrictions de s lection en s appuyant sur la hi rarchie de la ressource Par exemple dans WorDNET les noms coffee caf et beer bi re ont pour hyperonyme drinkable buvable Or le verbe boire est le plus souvent rencontr avec des mots de la cat gorie buvable comme patient On peut donc d duire de la res source une restriction de s lection trait buvable sur le patient du verbe boire ALTERNANCES Une alternance d signe la relation entre deux r alisations de surface d un m me pr dicat Elles mettent en vidence des nuances de comportement ta
157. fication de r f rence Cependant les mesures de rappel p nalisent plus s rieusement la diff rence structurelle entre le regroupement r sultant et la classification de r f rence no tamment en ce qui concerne le nombre et la cardinalit des groupes La mesure d exactitude montre que la coh rence des groupes baisse avec l augmentation de la cardinalit au dessus de 4 En observant les r sultats nous pouvons no ter que c est souvent l effet de cha ne qui affaiblit la coh rence des groupes de verbes au lieu de r unir des verbes autour d un composant s mantique central ils sont compos s d une s rie de paires avec un lien s mantique qui se modifie constamment par l ajout d un nouvel l ment Par exemple les groupes ci dessous affichent une certaine coh rence s mantique mais la rela tion s mantique est modifi e par rapport la r f rence les crochets indiquent la classification de r f rence groupe resplendir p tiller scintiller vibrer groupe consterner ennuyer d visager rosser groupe bougonner g mir trembler vaciller groupe gr siller geindre trembloter flamboyer groupe consolider renforcer r int grer maintenir Plusieurs am liorations peuvent tre envisag es Une classification supervi s e permettrait de sp cifier les composants s mantiques centraux des classes et ainsi d adapter l espace de traits par filtrage ou pond ration la t che
158. fieurs dans les sch mas g n re galement des erreurs que l on souhaite filtrer 2003 voir chapitre 2 3 2 Le filtre examine donc les SSC candidats issus du constructeur et com pare leurs fr quences relatives un ou plusieurs seuils d termin s par un talonnage automatique du systeme technique de l estimation du maximum de vraissemblance voir infra Si la fr quence du sch ma est sup rieure au 77 Chapitre 5 Description du syst me d acquisition de SSC pour le fran ais seuil il passe le filtre et figurera dans le lexique Dans le cas oti la fr quence du SSC est inf rieure au seuil il est rejet par le module moins qu il soit possible de r duire ce sch ma en supprimant un de ses compl ments pr positionnels et en passant le SSC r sultant au filtre ce traitement est d taill dans l impl mentation La sortie de ce module est une liste d en tr es paires verbe SSC qui constituent le lexique de sous cat gorisation Exemple Par exemple le SSC SUJ SN OBJ SN A OBJ SP lt a SN gt r sultant notamment de la phrase Les fameuses erreurs de Sartre il les lui reproche autant que ses adversaires mais il les lui reproche au nom du Sartre qu il aime et qui lui ressemble l homme seul le Roquentin est soumis au filtrage Sa fr quence relative 0 22 est compar e au seuil si cette fr quence est sup rieure au seuil le sch ma appara tra dans le lexique pour le
159. gt et lt Commentaires gt La balise lt hum gt permet l annotateur de caract ri ser chaque entr e selon un code d fini en amont Ce code permet de caract riser l entr e de LEXSCHEM par rapport aux autres ressources et de retrouver facilement des exemples correspondants chacun des cas Un guide d annotation a t r dig pour garantir la coh rence de l va luation Un code a t d fini afin de caract riser les entr es du fichier dans la balise lt hum gt les entr es de LEXSCHEM jug es inexactes par l annotateur les entr es de LEXSCHEM jug es exactes les entr es pr sentes dans TREELEX ou DICOVALENCE mais absentes de LEXSCHEM qui semblent correctes dans le sens o elles refl tent bien un comportement de sous cat gorisation i e pour lesquelles l annota teur trouve facilement un exemple les entr es pr sentes dans TREELEX ou DICOVALENCE mais absentes de LEXSCHEM qui semblent incorrectes les entr es pr sentes dans TREELEX ou DICOVALENCE mais absentes de LExSCHEM pour lesquelles l annotateur n est pas capable de dire hors contexte si elles sont correctes ou non Une balise de commentaires permet l annotateur de faire des re marques sur l entr e concern e est ce que l entr e correspond bien aux exemples quoi sont dues les erreurs etc Un extrait de l entr e du fichier d valuation correspondant au sch ma SUJ SN OBJ SN A OBJ SP lt SN gt pour le verbe commander est d
160. h me et source Les r les th matiques sont souvent consid r s tre l interface de la syn taxe et de la s mantique un agent est de pr f rence r alis comme un sujet tandis qu un patient est plut t r alis comme un objet direct Les exemples pr c dents montrent bien que s il existe un lien entre fonction syntaxique et grille th matique ce lien n est ni syst matique ni vident remarquons notamment que dans les trois premiers exemples le sujet du verbe est ga lement agent mais dans le cas du verbe aimer il est exp rienceur Enfin rappelons que la notion de grille th matique n est pas fix e et les propri t s utilis es pour caract riser les arguments des pr dicats d pendent de la th orie ou de la ressource consid r e VERBNET et FRAMENET sont des ressources qui r pertorient des informations syntaxiques et s mantiques sur les verbes en anglais sch mas de sous cat gorisation restrictions de s lec tion sur les arguments et r les th matiques VERBNET permet d annoter les relations entre le pr dicat et ses arguments l aide de 23 r les th matiques tandis que la cat gorisation s mantique des arguments dans FRAMENET est plus sp cialis e la ressource fait appel des r les s mantiques qui sont beaucoup plus pr cis que les r les th matiques par exemple pour le verbe acheter les arguments seront acheteur et vendeur et non agent et source 14 2 3 5 2 3 Les diff ren
161. hdha et Co Sun et Korhonen clustered the features using a method which has proved promising in both English and German experiments spectral clustering evaluated the clusters both quantitatively using the gold standard and qualitatively and finally compared the performance of individual features to that re cently obtained for English in order to gain a better understanding of the cross linguistic and language specific properties of verb classification This work is described in the subsequent subsections Data the LexSchem Lexicon We extracted the features for clustering from LexSchem Messiant et al 2008 This large subcategorization lexicon provides SCF frequency information for 3 297 French verbs It was acquired fully automatically from Le Monde newspaper corpus 200M words from the period 1991 2000 using ASSCI a recent subcategorization acquisition system for French Messiant 2008 Systems similar to ASSCI have been used in recent verb classification works Sun et Korhonen 2009 Like these other systems ASSCI takes raw corpus data as input The data is first tagged and lemmatized using the Tree Tagger and then parsed using the Syntex parser 2005 Syntex is a shallow parser which employs a combination of statistics and heuristics to identify grammatical relations GRs in sentences ASSCI considers those GRs where the target verbs occur and constructs scFs from nominal prepositional and ad
162. he autant que ses adversaires mais il les lui reproche au nom du Sartre qu il aime et qui lui ressemble l homme seul le Roquentin l extracteur produit le pr SSC suivant 0100 anasynt d686339p6_2 21 REPROCHER reprocher P OBJ SP lt au nom de SN gt Sartre SUJ SN il OBJ SN le A OBJ SP lt SN gt lui Le pr sch ma est compos de 3 l ments 0100 anasynt d686339p6_2 21 est l identifiant du pr sch ma Il est constitu du nom du fichier dont est issu le pr SSC 0100 anasynt de l identifiant de la phrase dans le fichier d686339p6_2 et de l identifiant du verbe concern dans la phrase 21 La disponibilit de cette information tout au long du processus d acquisition permettra un retour aux donn es et donc une meilleure tra abilit des erreurs dans le lexique final REPROCHER reprocher est le verbe concern par le pr sch ma La suite du pr sch ma correspond aux compl ments du verbe dans la phrase Ici reprocher a quatre compl ments il les lui 12 Les modules d ASSCi sont impl ment s en langage Perl 13 Ce format facilite le classement alphab tique des verbes en cas de caract res accen tu s 68 5 4 Description des modules d ASSCi Fonction Cat gorie SUJ sujet SN syntagme nominal SINF syntagme infinitif REF forme pronominale refl pronom OBJ objet SN syntagme nominal SINF syntagme infinitif PropSub propo
163. ierry Poibeau Anna Korhonen and C dric Messiant Investiga ting the cross linguistic potential of VerbNet style classification In Procee dings of CoLing 2010 C dric Messiant 2008 ASSCI A Subcategorization Frames Acquisition Sys tem for French Verbs In Proceedings of the Association for Computational Lin guistics ACL Student Research Workshop Columbus Ohio pp 55 60 C dric Messiant Anna Korhonen and Thierry Poibeau 2008 LexSchem A Large Subcategorization Lexicon for French Verbs In Proceedings of the Language Resources and Evaluation Conference LREC Marrakech Thierry Poibeau and C dric Messiant 2008 Do we still need gold standard for evaluation In Proceedings of the Language Resources and Evaluation Confe rence LREC Marrakech 157 Annexe G Liste des publications li es la th se COMMUNICATIONS NATIONALES AVEC ACTES C dric Messiant Takuya Nakamura et Stavroula Voyatzi 2009 La compl mentarit des approches manuelle et automatique en acquisition lexicale Dans Actes de la 16 me Conf rence sur le traitement automatique des langues na turelles TALN Senlis C dric Messiant et Thierry Poibeau 2009 Acquisition d informations lexi cales partir de corpus Dans Troisi me colloque international de l Association Fran aise de Linguistique Cognitive AFLICO Nanterre 158 BIBLIOGRAPHIE Anne Abeill Lionel Cl ment et Francois Toussenel Building a treebank for fre
164. iff renci s en fonction des SSC Nous avons donc utilis notre script pour tudier les variations de la proximit de la res source filtr e avec TREELEX en fonction du seuil utilis La figure 5 6 montre le r sultat obtenu La plus haute F5 F mesure avec B 1 5 est obtenue pour un seuil de 0 06 Une deuxi me exp rience a permis de d terminer les seuils les plus per formants en utilisant la m me m thode que pr c demment lorsque l on prend en compte les particularit s des SSC intransitifs ou pronominaux En faisant varier trois seuils seuil par d faut seuil pour les constructions intransitives et seuil pour les constructions pronominales nous avons ta lonn le syst me pour qu il utilise la meilleure combinaison possible de ces seuils Le tableau 5 5 donne un aper u des r sultats obtenus pour quelques combinaisons de seuils l issue de l talonnage les seuils utilis s dans ASSCi sont donc 0 06 par d faut 0 09 pour les constructions intransitives 0 22 pour les constructions pronominales Discussion L tape de filtrage est cruciale pour les syst mes d acquisition automa tique de SSC il faut trouver le meilleur quilibre possible entre le rejet 81 Chapitre 5 Description du syst me d acquisition de SSC pour le fran ais 3 Seuil Seuil Seuil Pr cision Rappel F 1 5 par d faut intransitives pronominales 0 02 0 10 0 10 0 451 0 733 0 615
165. il est difficile de d terminer a partir de quand une nuance de sens forme une entr e lexicale distincte Voici quelques exemples ambig s qui formeront ou non des entr es lexi cales distinctes selon les lexiques 3a Antoine est tomb de haut quand il a appris la nouvelle 3b Jean est tomb de sa chaise 4a Elle a cass le vase de maman 4b Il nous casse souvent les pieds 4c Il a cass sa pipe 5a La balle roule 5b Il roule sa bosse 5c Mon fr re a roul pendant des heures pour arriver ici woe 5d Les chanteurs d autrefois roulaient les r Les phrases 4c et 5b sont des expressions fig es dont le sens est assez loign du sens du verbe seul par exemple casser sa pipe signifie mourir et constitue un sens bien diff rent de casser D autres phrases 3a 4b et 5c par exemple la nuance de sens est moins nette et il est difficile de d terminer si tomber de haut casser les pieds et rouler en voiture constituent des entr es lexicales distinctes de tomber casser et rouler La notion d entr e lexicale est donc une notion riche sur laquelle nous 1 Le TLFI est un lexique en ligne des mots du francais qui sera pr sent plus en d tail dans le chapitre 3 2 2 2 2 Pr dicat et structure argumentale reviendrons lorsque nous voquerons le probl me des contours des sch mas pr dicatifs section 2 5 PR DICAT ET STRUCTURE ARGUMENTALE Nos travaux concerne
166. ils soient nouveaux ou d j mentionn s dans les ressources de r f rence par une analyse qualitative voir section 6 2 2 Cette approche per met de mettre en vidence le r el apport de notre approche par rapport l tat de l art Pour mesurer le recouvrement et la nouveaut de LEXSCHEM par rapport une autre ressource nous avons donc comptabilis le nombre d entr es communes aux deux ressources la proportion de ces entr es par rapport au nombre total d entr es dans le lexique de comparaison recou vrement et le nombre d entr es pr sentes dans LEXSCHEM et non dans la ressource de comparaison indice de la nouveaut 97 Chapitre 6 Utilisation et valuation des m thodes d acquisition automatique de SSC TREELEX DICOVALENCE EASY Nb total d entr es dans la ressource 3570 4282 Nb d entr es communes avec LEXSCHEM 2181 2563 Recouvrement 61 1 59 9 Nb d entr es nouvelles dans LEXSCHEM 1440 1058 TABLE 6 5 Nombre d entr es communes et nouvelles dans LEXSCHEM par rapport aux deux ressources de r f rence pour les 1 583 verbes communs aux 3 ressources card evalNcomp recouvrement card comp o eval est l ensemble des entr es de la ressource valu e et comp celui des entr es de la ressource de comparaison Si les couples verbe SSC qui figurent la fois dans LEXSCHEM et dans les ressources de r f rence sont g n ralement bons il est plus d licat
167. ing and Very Large Corpora pages 216 223 Hong Kong 2000 Anna Korhonen Subcategorization acquisition PhD thesis University of Cam bridge 2002 Anna Korhonen et Ted Briscoe Extended lexical semantic classification of english verbs Dans Dan Moldovan et Roxana Girju diteurs Proceedings of the HLT NAACL 2004 Workshop on Computational Lexical Semantics pages 38 45 Boston Massachusetts USA May 2 May 7 2004 Association for Computational Linguistics Anna Korhonen G Gorrell et D McCarthy Statistical filtering and subca tegorization frame acquisition Dans Proceedings of the Joint SIGDAT Confe rence on Empirical Methods in Natural Language Processing and Very Large Corpora pages 199 205 Hong Kong 2000 163 Bibliographie Anna Korhonen Yuval Krymolowski et Ted Briscoe A large subcategori zation lexicon for natural language processing applications Dans Procee dings of the 5th international conference on Language Resources and Evaluation Genova Italy 2006 Anna Korhonen Yuval Krymolowski et Nigel Collier The choice of features for classification of verbs in biomedical texts Dans Proceedings of the 2008 COLING conference pages 449 456 Manchester 2008 Anna Korhonen Yuval Krymolowski et Zvika Marx Clustering polysemic subcategorization frame distributions semantically Dans Proceedings of the Meeting of the Association for Computational Linguistics ACL pages 64 71 Sapporo 2003 Anna Kup
168. ing and breaking Dans R Jacobs et P Rosenbaum diteurs Readings in English Transformational Grammar pages 120 133 1967 161 Bibliographie Charles J Fillmore The case for case Dans Emmon Bach et Robert T Harms diteurs Universals in linguistic theory pages 1 88 Holt Rinehart and Winston 1968 Karen Fort et Bruno Guillaume PrepLex un lexique des pr positions du fran ais pour l analyse syntaxique Dans Actes de la 14 me Conf rence sur le traitement automatique des langues naturelles TALN Toulouse France 2007 Gilles Francopoulo Tagparser et technolangue easy Dans Actes de l Atelier technolangue TALN o5 Dourdan 2005 Nuria Gala et Andr Valli Building a computational lexicon of verbal syn tactic constructions in french Dans Proceedings of PAPILLON 05 Workshop on Multilingual Lexical Databases Chiang Rai Thailande 2005 Claire Gardent Evaluating an automatically extracted lexicon Dans Procee dings of the 4th Language amp Technology Conference Poznan Poland 2009 Claire Gardent Bruno Guillaume Guy Perrier et Ingrid Falk Extraction d information de sous cat gorisation partir des tables du ladl Dans Actes de Traitement Automatique des Langues Naturelles Louvain Belgique 2006 Claire Gardent et Alejandra Lorenzo Identifying Sources of Weakness in Syntactic Lexicon Extraction Dans Proceedings of the Seventh conference on International Language Resources and Evaluation LREC
169. ing the approximately equal elements in the eigenvectors using a clustering algorithm like K MEANS As the value of K is not known beforehand we use 2004 s method to estimate it This method finds the optimal value by minimizing a cost function based on the eigenvector structure of W 3 The eigenvector v is piecewise constant with respect to I if v i v j Vi j I and k 1 2 K 149 Annexe F Articles portant sur l acquisition de classes verbales F 2 6 Like Brew et Schulte im Walde 2002 we compare SPEC against a K MEANS baseline We used the Matlab implementation with euclidean distance as the distance measure Experimental evaluation Data and pre processing Our initial plan was to experiment with all the 171 verbs in the gold stan dard see Table F 1 However we decided to exclude phrasal verbs e g faire disparaitre and drop one class 40 2 NON VERBAL EXPRESSION which inclu ded reflexive verbs in French e g s amuser se moquer since multiword units would have been challenging for our method Also verbs assigned to several classes due to polysemy were excluded This left us with 147 verbs in 15 classes 10 verbs per class on average The SCF based features F1 F3 and F14 F17 were extracted directly from LexSchem The co F4 F9 and LP features F10 F13 were extracted from the raw and parsed corpus sentences respectively which were used for creating the lexicon Features that only appeared onc
170. ion For example the CHANGE OF STATE class 45 4 includes many antonyms e g weaken vs strenghten Clustering using F17 separates these antonyms so that verbs adoucir att nuer and temp rer appear in one cluster and consolider and renforcer in another Although these verbs share the same alternations their sPs are different For the same reason verbs in LIGHT EMISSION class 43 1 end up in different clusters depending on whether they describe abstract or concrete light emission The opposite effect can be observed when clustering maps together classes which are actually semantically and syntactically related e g 36 1 CORRES POND and 37 7 SPEAK Such classes are distinct in Levin and VerbNet be cause these resources do not to draw links between semantically similar classes belonging to different main classes Cases such as these show the potential of clustering in discovering novel 153 Annexe F Articles portant sur l acquisition de classes verbales E2 8 valuable information in data It is encouraging that we have observed this effect in this first clustering experiment in French Discussion and Conclusion We have seen that when sufficient corpus data is available there is a strong correlation between the types of features which perform the best in English and French Interestingly we have also seen that when the best features are used many individual Levin classes have similar performance in the two languages Due to
171. ion en fa veur de sont sans commune mesure avec ce que l on obtient partir de LM10 o seul pour est assez pr sent pour tre conserv malgr le filtrage Dans le m me ordre d id es le verbe se prononcer peut se construire avec sur mais surtout en faveur de mettre disposition et donner mandat se construisent avec pour l gif rer et s abstenir avec sur etc Tous ces verbes sont remarquables du domaine consid r et esquissent les l ments d un sous langage l gislatif Cette premi re exp rience montre bien l adaptabilit du syst me et sa ca pacit acqu rir des informations sp cifiques selon le corpus utilis N an moins dans le cas du domaine l gislatif les SSC obtenus concernent des verbes sp cifiques qui sont parfois utilis s dans le corpus journalistique LM10 qui relate r guli rement certains d bats parlementaires L acquisition de ressources partir d un corpus dont la sp cialisation est encore plus marqu e un corpus m dical par exemple est donc tout fait envisageable La principale difficult r side dans l adaptation de TREE TAGGER et de SYNTEX au domaine m dical par exemple pour qu ils puissent reconna tre les noms de mol cules Une part de travail manuel est donc n cessaire Toutefois ce travail reste bien moins co teux que la construction d un lexique de sous cat gorisation la main Notons galement qu il est possible d utiliser des r glages plus permis
172. ion for Computational Linguistics Zellig Harris Notes du cours de syntaxe Seuil Paris 1976 Eduard Hovy Mitch Marcus Martha Palmer L Ramshaw et R Weischedel OntoNotes The 90 Solution Dans HLT NAACL 2006 Ray S Jackendoff Semantics and Cognition MIT Press Cambridge MA 1972 Ray S Jackendoff Semantic Structures The MIT Press Cambridge Massa chusetts 1990 Eric Joanis Suzanne Stevenson et David James A general feature space for automatic verb classification Natural Language Engineering 14 3 337 367 2008 J G Kalbfleisch Probability and Statistical Inference Volume 2 Statistical Infe rence Springer Verlag New York 1985 Karin Kipper Anna Korhonen Neville Ryant et Martha Palmer A large scale classification of english verbs Journal of Language Resources and Eva luation 42 1 21 40 2008 Karin Kipper Schuler VerbNet A Broad coverage Comprehensive Verb Lexicon University of Pennsylvania PA 2005 Philipp Koehn Europarl A parallel corpus for statistical machine transla tion Dans MT Summit Phuket Island Thailand 2005 Jean Pierre Koenig et Anthony Davis Semantically transparent linking in hpsg Dans Proceedings of the HPSGo3 Conference pages 222 235 East Lan sing Michigan 2000 Anna Korhonen Using semantically motivated estimates to help subcate gorization acquisition Dans Proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Process
173. ions de s lection Nous pr sentons ensuite les alternances avant de souligner le caract re flou des contours des sch mas pr dicatifs Chapitre 2 Description du verbe pour l laboration de lexiques 2 1 LA NOTION D ENTREE LEXICALE Avant de d finir le pr dicat et les diff rents types d informations lexicales susceptibles de caract riser ses arguments il faut d finir ce que nous enten dons par lexique Un lexique est un ensemble d entr es lexicales auxquelles on associe des propri t s Nous d finissons donc ici la notion d entr e et nous tentons d en d limiter les contours Du point de vue de la lexicographie une entr e lexicale ou lexie est un ensemble syntaxico s mantique distinct C est donc le sens qui permet de distinguer les entr es lexicales et non leur forme d un point de vue mor phologique Par exemple les formes voulait et veux sont caract ris es par une m me entr e lexicale celle qui correspond au verbe vouloir et ses formes fl chies tandis que les deux formes vol dans 2a et 2b correspondent deux en tr es distinctes 1a Il voulait te voir hier 1b Je veux aller l cole 2a 2b 2a Elle a vol 5 euros sa m re 2b J ai vol en deltaplane hier On trouve bien 2 entr es dont l une est transitive pour le mot voler dans le Tr sor de la langue fran aise informatis TLFD N anmoins la notion d entr e lexicale est parfois floue
174. ique et leur situation finan ci re la conjonction de coordination et dont l analyse syntaxique est 52 et CCoordNom OBJ 48 CC 50 CC 54 La cat go rie CCoordNom indique que et relie deux syntagmes nominaux Les relations des d pendants CC 50 et CC 54 permet d en d duire ces syntagmes leur environnement conomique et leur situation financi re La cat gorie de ce compl ment est donc SN Les t tes nominales de ces syntagmes sont toutes les deux incluses dans le pr SSC La partie du pr sch ma qui correspond ce compl ment est donc OBJ SN environnement situation La cat gorie de la conjonction de coordination est CCoord l analyse SYNTEX ne pr cise pas la cat gorie des l ments coordonn s Il faut alors extraire la cat gorie et les t tes nominales des l ments coordon n s Dans le cas o les l ments coordonn s sont de cat gories dif f rentes il est impossible de choisir l tiquette associer l l ment avec les informations dont on dispose Aucun pr SSC n est alors as soci au verbe en cours de traitement pour cette s quence Il en est de m me lorsque les l ments coordonn s sont r gis par des pr positions 72 5 4 Description des modules d ASSCi diff rentes comme par exemple dans la phrase Mais elle diminue en Bourgogne en Champagne Ardenne en Auvergne et dans le Limousin 5 La t te nominale ou infinitive du compl ment est conserv e dans le pr
175. isation ver bale du fran ais cr partir des tables du Lexique Grammaire et com pl t manuellement Le lexique contient 5 244 lemmes verbaux et 538 sch mas de sous cat gorisation qui donnent lieu a 19 127 entr es paires verbe sch mal L objectif est de rendre les informations contenues dans le Lexique Grammaire plus utilisables pour les applications de traitement au tomatique des langues N anmoins SynLex contient uniquement les informations contenues dans les tables du Lexique Grammaire qui taient disponibles en 2006 Syn lex n exploite que la partie des tables disponibles sous licence LGPL LR 7 Il ne faut donc pas confondre ces entr es avec les entr es du Lexique Grammaire 28 3 2 2 3 2 Les ressources d riv es du Lexique Grammaire SynLex et LGLex ID V_32H_8 lexical info locs cat verb verb lemma accompagner aux list prepositions args const pos 0 dist comp cat NP hum true introd prep origin orig NO Nhum introd loc const dist comp cat NP hum true introd prep origin orig N1 Nhum introd loc pos 1 all constructions absolute construction true NO V N1 relative construction N1 est Vpp W construction passif par xample example Max accompagne L a FIGURE 3 2 Entr e de LGLex pour le verbe accompagner LGLex LGLex est un lexique qui a t acquis l aide
176. it le choix de privil gier la pr ci sion la couverture et son syst me reconna t seulement six SSC ignorant les compl ments pr positionnels dont l ambigu t pose de nombreux probl mes tant du point de vue de la distinction argument modifieur que du point de vue de leur rattachement au bon l ment dans la phrase L approche de Brent qui repose sur des r gularit s grammaticales simples n exploite pas une grande quantit d informations contenues dans le corpus Toutefois ces limites s expliquent par la nature exploratoire de cette tude Ce travail pionnier constitue le socle sur lequel vont se baser la plu part des travaux d acquisition automatique de SSC partir de corpus brut Mieux exploiter les corpus en les tiquetant a priori Suite aux travaux de Brent d autres chercheurs Ushioda et al 1993 ont tent d acqu rir des SSC partir de corpus Dans ces travaux les donn es d entr e sont d coup es en syntagmes par un analyseur partiel tats finis en amont de l acquisition proprement parler Ce type d analyse facilite le rep rage du verbe et de ses compl ments Notons que l analyseur syntaxique utilis pour ce type de travaux doit tre non lexicalis ou qu il ne doit en tous cas pas disposer d informations de type SSC En effet l acquisition de SSC sur les sorties d un analyseur lexicalis ne consisterait qu acqu rir des informations en grande partie d j disponibles dans l analyse
177. iv quatre lexiques partir du lexique non filtr 1 un lexique filtr par un seuil sur les fr quences relatives des entr es 2 un lexique cr en lissant les distributions de sch ma par interpo lation lin aire puis en filtrant le r sultat a l aide d un seuil 3 un lexique cr en s lectionnant les SSC pr sents a la fois dans le lexique non filtr et dans les dictionnaires ANLT et ou COMLEX puis en ajoutant au r sultat les SSC dont la fr quence relative d passe un seuil sp cifique pour chaque sch ma 4 un lexique cr en utilisant la m thode pr c dente 3 mais les SSC 53 Chapitre 4 Les m thodes d acquisition automatique de sch mas de sous cat gorisation 4 5 ajout s sont d abord liss s par interpolation lin aire avant d tre filtr s puis ajout s au lexique Les r sultats obtenus via la derni re m thode sont tr s bons 93 de pr cision et 82 de rappel mais n cessitent des dictionnaires construits ma nuellement cette approche n est donc pas totalement automatique ce qui la rend difficilement reproductible par exemple sur une langue de sp cialit Par ailleurs nous souhaitons quant nous viter d utiliser des ressources existantes dans la mesure o nous nous pla ons justement dans un contexte d acquisition Enfin Judita Preiss amp al montrent que ce syst me d acquisition peut galement tre adapt pour l acquisition de SSC d
178. iveau linguistique mais elles restent tr s difficiles ana lyser automatiquement parmi les rares travaux s attaquant directement l analyse des alternances voir McCarthy 2001 Les techniques de d sam bigu sation s mantique sont encore largement insuffisantes pour distinguer finement les verbes polys miques comme commander entre commander un soda et commander Luc de faire ceci Agirre et Edmonds 2007 L analyse des constructions syntaxiques et l tiquetage des r les th ma tiques ont en revanche suscit de tr s nombreuses recherches et n cesssitent des techniques diff rentes L tiquetage des r les th matiques repose g n ralement sur une phase d apprentissage partir d un corpus annot l ana lyseur est ensuite capable d attribuer des r les s mantiques en fonction de CONE LP Brave een ct Cates syntaxiques particuli res sur la see Les les conf rences CoNLLP Stevenson et Carreras 2009 et Moreau et a 2009 pour une ex p rience sur le frangais L acquisition de lexiques syntaxiques est un domaine de recherche plus ancien qui s est d velopp a partir du d but des ann es 1990 Brent 1991 Manning 1993 Ce courant de recherche repose sur l id e que les analy seurs syntaxiques non lexicalis s peuvent produire des donn es relativement structur es de mani re massive en g n ral partir de l analyse de cor pus de plusieurs millions de mots de telle sorte qu il est en
179. jectival phrases and infinitival and subordinate clauses When a verb has no dependency its SCF is considered as intransitive Otherwise ASSCI assumes no pre defined list of SCFs but almost any combination of permitted constructions can appear as a candidate SCF The number of automatically generated SCF types in LexSchem is 336 147 Annexe F Articles portant sur l acquisition de classes verbales Many of the candidate SCFs are noisy due to processing errors and the difficulty of argument adjunct distinction Most SCF systems operate on the basis of the assumption that true arguments occur in argument positions more frequently than adjuncts Many of them also integrate sophisticated filters for removing noise from the system output When LexSchem was evaluated using a relative frequency and heuristics based filter its F measure was 69 which is similar to those of other current SCF systems Messiant et al 2008 However we used the unfiltered version of LexSchem because previous work on English verb classification has showed that information about adjuncts can actually help verb clustering Sun et al 2008 Features Lexical entries in LexSchem provide a variety of material for verb cluste ring including e g statistical information related to the part of speech POS tags SCFs argument heads and adjuncts of verbs Using this material we constructed a range of features for experimentation The first three include ba
180. l hypoth se qu une analyse compl te n est pas n cessaire pour re conna tre les configurations qui correspondent des SSC Cette premi re tude esquisse d j les tapes que nous avons mises en vidence dans la section pr c dente Dans un premier temps les mots susceptibles d tre des verbes sont rep r s dans le corpus principalement en se basant sur le fait que le mot apparait avec et sans le suffixe ing La d tection des SSC utilise une petite grammaire tats finis qui se concentre sur un fragment de la langue anglaise Cette grammaire distingue trois types de compl ments les objets directs les infinitifs et les propositions subordonn es en se basant essentiellement sur des informations de surface du type une s quence qui d bute par that the indique le d but d une proposition subordonn e ou si le mot qui suit un verbe est un nom et qu il n est pas sujet d un autre verbe il a de fortes chances d tre l objet du verbe Dans la phrase I want to tell him that the idea won t fly Lerner utilise le fait que le pronom him ne prend presque jamais de proposition relative pour d terminer que that the est probablement compl ment du verbe De plus une r gle permet au syst me de reconna tre ce compl ment comme tant une proposition subordonn e car il commence par that the C est donc le sch ma NP amp clause SN et proposition subordonn e qui est attribu la phrase
181. lasses obtenues regroupent le m me nombre de verbes tandis que la deuxi me exp rience permet d obtenir des classes de taille variable Si les classes de taille variable rendent mieux compte de la r alit des ph nom nes linguistiques il n y a aucune raison pour que toutes les classes de verbes aient la m me taille elles sont difficiles 4 valider tant donn les fronti res floues qui les d limitent Les classes taille fixe forment des noyaux de classes coh rents qui constituent une base int ressante pour un travail manuel qui permettra de regrouper ou de s parer ces classes afin d obtenir une ressource de qualit optimale Une perspective de ces ex p riences est donc de mixer les deux approches en partant des noyaux de classes taille fixe on peut guider l ajout de verbes via l autre m thode L autre principale diff rence r side dans l utilisation d une grande va ri t de caract ristiques dans la classification par regroupement spectral pr positions types et fr quences des t tes lexicales etc Nous avons mon tr que l utilisation d un grand nombre de caract ristiques permet une am lioration des r sultats condition de disposer de donn es de taille suffisante plusieurs milliers d occurrences par verbe Si l int r t applicatif des classes s mantiques est ind niable ces exp riences induisent galement une r flexion th orique sur la nature des classes obtenues que
182. le et les l ments 20 compl ment pr positionnel lui et 22 compl ment pr positionnel au nom de Discussion Le choix de SYNTEX comme analyseur syntaxique pour notre syst me d acquisition automatique de SSC s explique la fois par ses propri t s ses performances sur les corpus crits et par sa disponibilit Les r sultats de SYNTEX lors de la campagne d valuation EASY Evaluation des Analyseurs SYntaxiques en 2007 montrent que l analyseur obtint alors les meilleurs r sultats en pr cision et en F mesure sur les corpus crits De plus la ro bustesse de SYNTEX garantit son adaptabilit du moins sur les textes qui res pectent les normes syntaxiques de l crit standard La r utilisation de notre syst me d acquisition sur des corpus de domaines particuliers m decine droit etc ne devrait donc pas poser de probl me N anmoins il existe encore une part non n gligeable d erreurs dues des faiblesses de l tiquetage morpho syntaxique ou de l annotation des re lations ce qui est in vitable tant donn l tat de l art La plupart de ces erreurs se r percuteront dans le processus d acquisition des SSC et devront tre trait es ou filtr es au cours du processus Toutefois les erreurs de TREE TAGGER qui concernent le rep rage des verbes doivent tre trait es a priori Le script pr sent la section suivante a pour objectif de r pondre ce pro bl me 7 Il s agit d une repr
183. le filtrage par un seuil rejette tous les SSC peu fr quents dans le corpus alors que dans certains cas des sch mas rares sont tout a fait pertinents Pour rem dier au probl me du filtrage des SSC rares Anna Korhonen propose de compenser des informations absentes ou trop peu pr sentes du corpus l aide de classes de verbes back off estimates Korhonen 2000 En effet il y a une corr lation entre la pr sence d un verbe dans une classe syn taxique ou s mantique et ses constructions syntaxiques Autrement dit les verbes d une m me classe ont des chances de partager les m mes SSC En utilisant les classes de Levin et la classification syntaxique du dictionnaire ANLT les auteurs proposent de lisser les distributions de probabilit s des SSC avant l tape de filtrage Trois m thodes de lissage sont utilis es add one smoothing Katz backing off et interpolation lin aire Elles permettent toutes les trois d augmenter la pr cision et le rappel des SSC obtenus l interpolation lin aire tant la m thode la plus efficace Le lissage des probabilit s de distribution est donc efficace pour r pondre au probl me du manque de donn es pour certains verbes ou sch mas No tons n anmoins qu un certain effort manuel est n cessaire pour utiliser cette m thode a large chelle En 2006 des techniques pour am liorer les r sultats du syst me ont t propos s Korhonen et al 2006 Les auteurs ont d r
184. lequel on cherche a acqu rir un pr SSC est le verbe venir et non tre les adverbes sont exclus des pr sch mas car dans la plupart des cas ils ne sont pas sous cat gorisables c est dire qu il s agit la plupart du temps de modifieurs et que le rep rage automatique des adverbes sous cat goris s est un probleme difficile la relation PREP donne les fonctions A OBJ DE OBJ ou P OBJ en fonction de la pr position t te du compl ment La fonction P 0BJ concerne tous les compl ments pr positionnels r gis par une autre pr position que ou de Dans l exemple utilis dans ce chapitre le compl ment au nom du Sartre qu il aime a pour fonction P OBJ car la relation de au nom du au verbe reprocher est PREP et la pr position t te est au nom de alors que lui a pour fonction A OBJ sa relation au verbe est galement PREP mais la pr position t te est Une proc dure est charg e de g n rer la cat gorie syntaxique du com pl ment ainsi que son lemme t te tapes b et c de l algorithme Nous nous concentrons dans un premier temps sur la cat gorie syntaxique b Le programme utilise essentiellement la cat gorie morpho syntaxique des mots qui composent le compl ment en particulier de sa t te Si certains cas sont simples e g si le compl ment est r gi par un nom il s agit d un syntagme no minal d autres posent des difficult s e g si le gouvernant du compl ment es
185. lider la qualit intrins que des syst mes et leur utilit pour une t che donn e Dans la plupart des cas on value les m thodes d acquisition en mesurant la qualit des informations qu elles acqui rent c est dire des res sources obtenues par l utilisation de ces techniques Les ressources lexicales peuvent tre valu es de plusieurs mani res Nous distinguons tout d abord l valuation intrins que de l valuation extrins que puis l valuation quan titative de l valuation qualitative La section se termine par une discussion sur les limites des diff rentes m thodes d crites Evaluation intrins que et valuation extrins que En ce qui concerne l valuation de ressources Karen Sparck Jones et Julia R Gallier distinguent l valuation intrins que de l valuation extrins que 1996 La premi re consiste valuer la ressource en elle m me tandis que la deuxi me consiste int grer cette ressource dans une application pratique et mesurer son apport cette t che valuation intrins que L valuation intrins que d une ressource cherche montrer si une res source est correcte en elle m me Pour ce faire elle examine les informa tions contenues dans la ressource et value leur qualit soit en les comparant aux informations contenues dans d autres ressources soit par introspection On peut distinguer deux types d valuation intrins que l valuation quantitative qui mesure la
186. mais d autres solutions sont envisageables Nous avons pr sent un mod le pour l acquisition automatique de SSC partir de corpus Il s agit d un sch ma global qui permet d identifier les tapes n cessaires du processus d acquisition mais les syst mes existants ne suivent pas tous ce mod le la lettre par exemple certaines tapes sont parfois omises Nous allons d sormais d velopper un peu plus les m thodes utilis es pour chacune des tapes n cessaires en parcourant chro nologiquement le champ de l acquisition automatique de SSC partir de corpus LES PREMIERS TRAVAUX D ACQUISITION AUTOMATIQUE DE SSC Les analyseurs syntaxiques statistiques taient initialement au d but des ann es 1990 non lexicalis s ce qui nuisait a leurs performances Les concep teurs d analyseurs ont alors remarqu que le rep rage de r gularit s au ni veau des corpus permettait d acqu rir automatiquement des informations de type lexical moindre co t ce qui quivaut un apprentissage endo g ne Depuis avec l am lioration des techniques statistiques et la plus grande disponibilit de ressources lexicales ceci est devenu moins n cessaire mais la recherche a continu dans ce domaine afin de permettre l acquisition de SSC rares ou sp cifiques un domaine C est dans cette perspective que nous nous situons Si les premiers travaux portaient sur un nombre r duit de verbes et de sch mas la disponibilit d
187. mais de mettre l accent sur le fait que les contours de ces sch mas sont difficiles 4 d finir et sujets a d bats Ces fronti res floues posent des probl mes consid rables lorsqu on cherche faire l inventaire des sch mas pr dicatifs pour constituer une res source lexicale Nous tentons ici de donner un aper u de la complexit du concept de sch ma pr dicatif et de ses cueils Polys mie et entr es lexicales Revenons tout d abord sur la difficult 4 constituer des entr es lexicales a partir d une forme polys mique En th orie chaque lexie devrait avoir ses propres sch mas pr dicatifs Par exemple les phrases L avion vole depuis deux heures et Il m a vol ma montre correspondent deux emplois diff rents de la forme voler et correspondent donc chacune un sch ma d un verbe distinct et non deux sch mas distincts d un m me verbe Par exemple les phrases suivantes repr sentent des constructions diff rentes du verbe compter 20a Luc compte jusqu 10 20b Pierre compte venir ton anniversaire 20c Julien compte sur toi 20d H l ne compte sur ses doigts Les phrases 20a et 20d correspondent au sens concret du verbe compter Les phrases 20b et 20c correspondent d autres sens du verbe compter dans 20b compter peut tre remplac par avoir l intention de alors que dans 20c il fait plut t r f rence la confiance accord e quelqu un Cependant nous disp
188. mande d annoter un nouveau corpus la main ce qui est long et co teux Ces m thodes se distinguent donc des travaux d ac quisition automatique partir de corpus brut parce qu elles requi rent un important travail manuel pour constituer le corpus ce qui les rend peu re productibles De plus le format du corpus arbor est rigide et d pend le plus souvent de la th orie qui sous tend son annotation Enfin la taille li mit e des corpus arbor s peut poser des probl mes quant la qualit du 16 Les diff rentes version de TreeLex sont disponibles sur le web http erssab u bordeaux3 fr spip php articlel50 38 3 7 3 7 Conclusion Ressource TreeLex M thode de d veloppement Acquis partir d un corpus arbor Nombre de verbes 2 000 Utilisabilit en TAL Exploitable Divers Corpus arbor de Paris 7 TABLE 3 8 Synth se pour TreeLex rappel obtenue par les m thodes d crites ci dessus il y a naturellement une plus grande probabilit qu une construction soit manquante dans un corpus d un million de mots que dans un corpus de 200 millions de mots La com paraison de notre approche avec TreeLex dans le chapitre 6 2 v rifiera cette intuition Il convient donc de distinguer l acquisition partir de corpus arbor de l acquisition partir de corpus brut l acquisition partir de corpus arbor s permet d obtenir des ressources d une certaine pr cision le plus sou
189. mantiques des verbes et leurs contextes syntaxiques a donn une description syst matis e du ph nom ne en tablissant un lien entre les alternances syntaxiques caract ristiques de certains groupes de verbes et les composants s mantiques qui en sont responsables Dans la pr sente tude nous cherchons d montrer 1 que la classifica tion automatique de verbes fran ais selon leur comportement distributionnel aboutit souvent des classes de verbes s mantiquement li s 2 que les SSC extraits de corpus constituent une repr sentation fiable de la distribution syn taxique des verbes Notre objectif est de mettre en place un algorithme de classification aussi g n ral que possible applicable de nouveaux verbes sous condition d avoir une quantit suffisante d occurrences dans le corpus pour cr er un mod le fiable de leur distribution 139 Annexe F Articles portant sur l acquisition de classes verbales Notre approche est non supervis e c est dire que nous ne fournissons au syst me aucune connaissance autre que les couples verbes SSC issus de LEX SCHEM non filtr avec les informations de fr quence relative qui ont ici une importance cruciale Nous utilisons en entr e une version non filtr e de la res source pour deux raisons le filtrage peut tre lui m me une source d erreurs et plus fondamentalement la pr sence r guli re de modifieurs particuliers avec certains verbes est un crit re tr s pertine
190. matique des Langues TALC Projet Traitement Automatique des Langues et des Connaissances http talc loria fr TALN Traitement Automatique des Langues Naturelles conf rence TLFI Tr sor de la Langue Fran aise Informatis WOLF Wordnet Libre du Francais XML eXtensible Markup Language xii 1 1 INTRODUCTION DOMAINE ET MOTIVATIONS Les informations lexicales c est dire les informations se rapportant aux mots et a leurs propri t s ont pris une importance consid rable pour le trai tement des langues ces derni res ann es Danlosj 1988 Laporte 2000 Il est en effet primordial pour la grammaire d une langue de savoir comment se combinent les mots simples ou compos s sur le plan syntaxique comme sur le plan s mantique La finesse de l analyse repose finalement moins sur des principes syntaxiques g n raux que sur les contraintes propres a chaque l ment lexical 1988 Au sein des th ories lexicalistes comme la grammaire lexicale fonctionnelle LFG ou la grammaire syntagmatique guid e par les t tes HPSG Abeill 1993 de nombreuses recherches ont t faites pour laborer un mod le de lexique plus sophistiqu 2000 De nouvelles th ories visant le d veloppement de lexiques structur s ont alors vu le jour Pustejovsky 1995 Parall lement la disponibilit de corpus lectroniques de grande taille a permis de mener des tudes sur le comportement linguistique des l ments lexicaux
191. me de pronoms qui y est associ c est dire l ensemble des pronoms possibles dans une position argumentale donn e et qui couvre leurs lexicalisations possibles en intension c est dire les formes non pronominales possibles pour cet argument la d limitation d un cadre de valence appel e formulation repose sur la configuration des paradigmes pronominaux mais galement sur les autres propri t s de construction associ es cette configuration forme passive etc 10 http bach arts kuleuven be dicovalence 30 3 3 DicoValence Po correspond grosso modo au sujet de la grammaire scolaire Pi correspond grosso modo l objet direct de la grammaire sco laire P2 correspond grosso modo l objet indirect de la grammaire scolaire les formes non clitiques pr sentent la pr position P3 correspond grosso modo l objet indirect de la grammaire scolaire les formes non clitiques pr sentent la pr position de ou PL paradigme locatif PL_PR pr position s fixe s ou prototypiques du paradigme PL PPL_DEV r alisation du locatif paradigme de pronoms pour une pr position donn e PDL paradigme d locatif PDL_PR pr position s fixe s du paradigme PDL de partir de de puis PM paradigme de mani re PM_PR pr position s fixe s du paradigme PM PMi paradigme de mani re interne mes efforts
192. mentale le compl ment est retir du sch ma Dans l exemple utilis dans ce chapitre le compl ment r gi par la pr position au nom de P 0BJ SP lt au nom de SN gt Sartre est exclu du SSC obtenu en sortie du constructeur SUJ SN OBJ SN A OBJ SP lt a SN gt Cette technique permet d liminer certains compl ments pr positionnels modifieurs vidents des SSC mais est bien s r insuffisant pour r gler le pro bleme de la distinction argument modifieur qui d pend essentiellement du contexte et non de la pr position qui r git le compl ment Le module supprime galement les compl ments doublons des pr SSC On consid re que deux compl ments sont doublons lorsqu ils sont strictement similaires par leur fonction et leur cat gorie Observons par exemple la phrase a Douze millions de t l spectateurs ont suivi en France dimanche 12 d cembre la finale du Championnat du monde de handball f minin qui a oppos l quipe de France la Norv ge Lillehammer Le verbe opposer a ici deux compl ments pr positionnels r gis par la Norv ge et Lillehammer Le SSC construit correspondant cette phrase est SUJ SN OBJ SN A OBJ SP lt a SN gt A OBJ SP lt SN gt qui contient un doublon de compl ments pr positionnels r gis par L un de ces compl ments est retir du SSC ce qui permet de sup primer un modifieur Lillehammer du sch ma Le sch ma r sultant du traitement est donc SU
193. ments cruciaux ne sont pas formalis s explicitement ou pas syst matiquement de nombreuses infini tives introduites par ou de sont justes mentionn es en tant que paradigme P2 ou P3 compl ment introduit par ou de et il faut lire la ligne P2 ou P3 de l entr e pour savoir que le compl ment peut tre une infinitive et des transformations de format d licates sont n cessaires Toutefois de telles transformations peuvent faire baisser la pr cision de la ressource et induire des pertes d informations De plus DicoValence ne contient qu un nombre tr s limit d informations s mantiques sur le verbe et ses arguments LE LEFFF Le Lefff Lexique des Formes Fl chies du Fran ais est un lexique mor phologique et syntaxique large couverture disponible sous licence libre LGPL LR A Gagot et al 2006 Sagot 2010 Les informations morphologiques et syntaxiques contenues dans le Lefff r sultent de divers travaux 12 http alpage inria fr sagot lefff html 33 Chapitre 3 Les ressources existantes pour le fran ais 3 5 3 5 1 Ressource Lefff M thode de d veloppement Mixte Nombre de verbes 6 825 Utilisabilit en TAL Exploitable Divers Fusion de ressources Lexique Grammaire DicoValence TABLE 3 6 Synth se pour le Lefff acquisition automatique avec validation manuelle l aide de tech niques statistiques appliqu es sur des corpus bruts Cl ment et al
194. mme EUROWORDNET ou WOLF Sagot et Fiser 2008 Enfin l exploration des applications directes des sch mas obtenus est un enjeu majeur pour le futur Ces applications vont de la lexicalisation d un analyseur syntaxique avec LEXSCHEM l utilisation des SSC pour l extraction d information L tude de Carroll et al a montr que la lexicalisation d un analyseur syntaxique avec des SSC acquis automatiquement am liore les performances de l analyseur L int gration de structure argumentale dans les syst mes d extraction d information a aussi fait preuve de bons r sultats Surdeanu et al 2003 Cependant nous avons vu que l valuation de l ap port de la ressource est d licate Par exemple il est difficile de distinguer ce qui provient du syst me d extraction de ce qui est issu du lexique Ceci exige donc des protocoles exp rimentaux tr s pr cis et d licats mettre en place l issue de cette tude nous esp rons avoir montr l int r t et l impor tance des m thodes d acquisition automatique de connaissances lexicales pour le TAL Cette th se a explor diff rentes pistes pour le fran ais mais de nombreux travaux seront encore n cessaires pour am liorer les techniques existantes Leur utilisabilit et leur compl mentarit avec les m thodes ma nuelles sont des aspects cruciaux approfondir l avenir 125 LISTE DES ETIQUETTES DE TREE TAGGER POUR LE FRANCAIS ABR Abr viation ADJ Adjectif ADV Adv
195. mple casser peut ici tre consid r comme un verbe trois arguments le premier dans la forme canonique du verbe tant un groupe nominal r alis la gauche du verbe le sujet le deuxi me un groupe nominal la droite du verbe l objet et le troisi me un groupe pr positionnel g n ralement introduit par avec 2 La grille th matique qui caract rise le r le s mantique de chacun des arguments c est dire la relation qu il entretient sur le plan s man tique avec le verbe Ainsi dans l exemple supra l argument 1 Luc joue le r le d agent l argument 2 la vitre est le th me et l argu ment 3 avec un ballon est l instrument Notons qu il n y a pas de consensus sur la nature et la granularit des r les th matiques ni m me sur ce qui constitue la grille th matique Cruse 1986 Jackendoff 1990 Ainsi pour le verbe casser le statut de l instrumental n est pas fix on l a consid r ici comme un argument mais on peut aussi en faire un modifieur suivant le cadre th orique adopt Une alternance d signe la relation entre deux r alisations de surface d un m me pr dicat comme Luc a cass la vitre avec un ballon vs Le ballon a cass la vitre Les alternances ne pr servent pas toujours la grille th matique du verbe cf charger le camion de foin vs charger le foin dans le camion o camion passe de th me a but Les alternances ont t beaucoup tudi es au n
196. n automatique a partir de corpus brut ont t r alis es sur de nombreuses langues anglais allemand tch que grec italien fran ais etc Ce chapitre pr sente les principales exp riences r alis es Pour chacun de ces travaux nous donnons lorsque cela est possible un tableau r capitulatif des r sul tats obtenus Toutefois ces r sultats sont consid rer avec prudence ils peuvent varier consid rablement selon la granularit des informations obte nues ou la langue observ e Apr s avoir donn un aper u des mesures existantes de la performance de ces syst mes nous pr sentons un sch ma global commun la plupart des 41 Chapitre 4 Les m thodes d acquisition automatique de sch mas de sous cat gorisation m thodes d acquisition automatique de SSC partir de corpus Nous faisons ensuite un tat de l art des premiers travaux r alis s dans le domaine au d but des ann es 90 des travaux r alis s ensuite sur une plus large chelle et des travaux d acquisition pour le francais Le chapitre se conclut par une synth se des travaux pr sent s 42 4 1 1 4 1 M thodes d valuation de ressources lexicales METHODES D EVALUATION DE RESSOURCES LEXICALES L acquisition de ressource partir de corpus est videmment indisso ciable des mesures de performance dans la mesure o les m thodes utili s es n acqui rent pas des ressources parfaites L valuation doit permettre de va
197. n dictionnaire lectronique il s agit en fait de la version informatis e d un dictionnaire papier En cons quence la description linguistique n est ni compl tement syst matique ni compl tement formalis e En outre le TLFI comporte des informations syntaxiques limit es qui sont difficilement exploitables dans leur structuration actuelle 13 http www modyco fr index php option com_content amp view article amp id 1756 amp Itemid 19 14 http ww lif univ mrs fr IMG html LEXVALF html 15 Une interface de consultation du lexique en ligne est prot g e par mot de passe 36 3 6 3 6 TreeLex un lexique de sous cat gorisation acquis a partir d un corpus arbor Fonction Cat gories SUJ NP VPinf Ssub VN OBJ NP AP VPinf VN Sint Ssub DE OBJ VPinf PP Ssub VN A OBJ VPinf PP VN P OBJ PP AdP VN NP ATO Srel PP AP NP VPpart VPinf Ssub ATS NP PP AP AdP VPinf Ssub VPpart Sint VN TABLE 3 7 Fonctions et cat gories utilis es dans TreeLex TREELEX UN LEXIQUE DE SOUS CATEGORISATION ACQUIS A PARTIR D UN CORPUS ARBORE Depuis le d but des ann es 2000 une autre approche de constitution de ressources lexicales a t explor e Des travaux d acquisition automatique a partir de corpus arbor s ont t r alis s pour diverses langues Sarkar et Ze 2000 2004 O Donovan et al 2005 Ceux ci reposent sur des corpus arbor s c est dire des c
198. n rejetant ces sch mas peut tre utile et produire d autres SSC Par exemple la phrase Ce RDS s applique d abord comme la CSG aux revenus d activit des salari s et des non salari s produit le SSC SUJ SN REF refl A OBJ SP lt a SN gt P OBJ SP lt comme SN gt pour le verbe appliquer Ce sch ma trop peu fr quent dans le cor pus est rejet par le filtre Pourtant en supprimant le modifieur P OBJ SP lt comme SN gt on obtient un SSC valide SUJ SN REF refl A OBJ SP lt a SN gt 79 Chapitre 5 Description du syst me d acquisition de SSC pour le fran ais Nous avons donc am lior le module en ajoutant un processus de r duction des sch mas contenant un modifieur suppos Plut t que d exclure totalement ces SSC du lexique nous avons mis en place un processus de r duction des sch mas lorsqu un sch ma contenant au moins un compl ment pr positionnel est rejet par le filtrage on essaie de le ramener a un sch ma moins complexe c est dire sous cat gorisant un compl ment pr position nel de moins On esp re ainsi liminer un modifieur et ramener le sch ma un SCC valide pour le verbe sur la base de sa fr quence relative L en tr e r sultante est ensuite consolid e avec le nombre d occurrences du sch ma contenant le modifieur ce qui permet d augmenter la probabilit pour ce SSC de passer l tape de filtrage Les sch mas sont trait s par ordre d croissant
199. n syst me permettant d acqu rir automatique ment ce type d informations L utilisation de ce syst me sur un corpus de tr s grande taille a permis d acqu rir un lexique de sous cat gorisation pour le fran ais L valuation de cette ressource et sa comparaison d autres res sources montre l apport des m thodes automatiques dans la constitution de lexiques Nous montrons par ailleurs l adaptabilit de tels syst mes et leur aptitude acqu rir des ressources sp cialis es rapidement Nous explo rons enfin l utilisation de telles ressources pour l acquisition de classes s mantiques de verbes dans la lign e des travaux de Beth Levin ce qui permet d tudier les liens entre syntaxe et s mantique Mots cl s verbe sous cat gorisation lexique acquisition automatique syntaxe classes s mantiques Title Automatic acquisition of subcategorization frames from raw corpora Abstract This thesis deals with the automatic acquisition of lexical infor mation from corpora We are especially interested in the acquisition of sub categorization frames for French verbs We designed and developed a system to acquire automatically such information Using this system on a very large corpus we produced a subcategorization lexicon for French The evaluation of this resource and its comparison with other resources shows the inter est of of automatic methods for the creation of lexicons We show that the adaptability of such systems a
200. n used to evaluate several recent clustering works that of 2008 It includes 17 fine grained Levin classes Each class has 12 member verbs whose predominant sense ac cording to the WordNet frequency data belongs to that class We evaluated each class in this resource as follows 1 Member verbs were first translated to French Where several relevant translations were identified each of them was considered 2 For each candidate verb SCFs were identified and possible diathesis alter nations were considered using the criteria of Levin 1993 alternations must result in the same or extended verb sense Only verbs sharing dia thesis alternations were kept in the class others were disrecarded For example the gold standard class 31 1 AMUSE includes the following English verbs stimulate threaten shock confuse upset overwhelm scare di sappoint delight exhaust intimidate and frighten Relevant French translations 145 Annexe F Articles portant sur l acquisition de classes verbales Class No Class Verbs 9 1 PUT accrocher d poser mettre placer r partir r in t grer empiler emporter enfermer ins rer ins taller 10 1 REMOVE ter enlever retirer supprimer retrancher d barrasser soustraire d compter liminer 11 1 SEND envoyer lancer transmettre adresser porter ex p dier transporter jeter renvoyer livrer 13 5 1 GET ache
201. nce elle consid re la quantit des verbes appartenant au groupe dominant associ cette classe Par d finition cette quantit ne peut pas d passer la cardinalit maximale des groupes 142 F1 Extrait de l article publi dans la revue TAL en 2010 4 verbes_dans_GRP DOM La F mesure a t calcul e avec des poids gaux pour le rappel et la pr ci sion Acc C _ 2 x mPurity x Acc mPurity Acc F 8 En optimisant les param tres pour la mesure APP les groupes quatre l ments donnent les meilleurs r sultats La pr cision forte semble soutenir le lien suppos entre les propri t s s mantiques et la distribution syntaxique observ e dans le corpus comme dans les exemples suivants groupe errer voyager circuler naviguer groupe dire indiquer affirmer d clarer groupe signaler r v ler montrer annoncer groupe ressentir d finir d signer percevoir groupe rousp ter ronchonner grogner r ler Il est important de noter que cette qualit de la classification 20 des classes sont parfaitement homog nes 43 contiennent 1 verbe incorrect au maximum a t obtenue en utilisant une chaine de traitement enti rement au tomatis e de l analyse de corpus jusqu la construction de l espace de traits pour la classification De plus l espace de traits est concu pour tre aussi g n ral que possible n incorporant aucune connaissance pr alable sur la clas si
202. nch Dans Anne Abeill diteur Treebanks Building and Using Parsed Corpora pages 165 187 Dordrecht 2003 Kluwer Academic Publishers Anne Abeill Les nouvelles syntaxes Armand Colin Paris 1993 Omri Abend Roi Reichart et Ari Rappoport A Supervised Algorithm for Verb Disambiguation into VerbNet Classes Dans Proceedings of CoLing pages 9 16 2008 Steven Abney et Marc Light Hiding a Semantic Class Hierarchy in a Markov Model Dans A Kehler et A Stolcke diteurs Proceedings of ACL Workshop on Unsupervised Learning in Natural Language Processing pages 1 8 College Park Maryland 1999 Eneko Agirre et Philip Edmonds diteurs Word Sense Disambiguation Algo rithms and Applications Springer Berlin 2007 Afra Alishahi et Suzanne Stevenson A cognitive model for the represen tation and acquisition of verb selectional preferences Dans ACL Work shop on Cognitive Aspects of Computational Language Acquisition pages 41 48 Prague Czech Republic 2007 Collin F Baker Charles J Fillmore et John B Lowe The Berkeley FrameNet Project Dans Proceedings of COLING ACL pages 86 90 1998 Mark C Baker Thematic Roles and Syntactic Structure Elements of Grammar pages 73 137 1997 Somnath Banerjee Dipankar Das et Sivaji Bandyopadhyay Bengali verb subcategorization frame acquisition a baseline model Dans Proceedings of the 7th Workshop on Asian Language Resources ALR7 pages 76 83 Mor ristown NJ USA
203. nch Verbs Dans Proceedings of the ACL 08 HLT Student Research Workshop pages 55 60 Columbus Ohio June 2008 Association for Computational Linguis tics 165 Bibliographie C dric Messiant Kata Gabor et Thierry Poibeau Acquisition de connais sances lexicales a partir de corpus la sous cat gorisation verbale en fran ais Traitement Automatique des Langues 2010 C dric Messiant Takuya Nakamura et Stavroula Voyatzi La compl menta rit des approches manuelle et automatique en acquisition lexicale Dans Actes de la 16 me Conf rence sur le traitement automatique des langues natu relles TALN Senlis 2009 George A Miller Wordnet a lexical database for english Communications of the ACM 1995 Philip Miller Compl ments et circonstants distinction syntaxique ou s mantique Dans J C Souesme diteur Actes de l Atelier de Linguistique SAES 1997 Cycnos volume 15 Nice 1997 Erwann Moreau Isabelle Tellier Antonio Balvet Gr goire Laurence Antoine Rozenknop et Thierry Poibeau Annotation fonctionnelle de corpus ar bor s avec des champs al atoires conditionnels Dans Actes de la 16 me Conf rence sur le traitement automatique des langues naturelles TALN Senlis 2009 Ruth O Donovan Michael Burke Aoife Cahill Josef van Genabith et Andy Way Large scale induction and evaluation of lexical resources from the penn ii and penn iii treebanks Computational Linguistics 31 3 329 366 2
204. nd their ability to acquire quickly speciali zed linguistic resources Finally we explore the use of such resources for the acquisition of Levin style semantic verb classes therefore we study the relationship between syntax and semantics Keywords verb subcategorization lexicon automatic acquisition syntax semantic classes
205. nos calculs DICOVAL DICOVALENCE toutefois une certaine proximit de LEXSCHEM avec DICOVALENCE en termes de nombre de verbes et d entr es Le nombre d entr es de LGLEXx est d aux nombreuses exceptions expressions semi fig es verbes supports etc cod es directement dans le lexique voir section 3 1 On remarque aussi la faible couverture de TREELEX qui a t acquis partir d un corpus arbor d un million de mots Le relatif faible nombre de verbes de LEXSCHEM s ex plique par les traitements visant privil gier la qualit de la ressource par rapport sa couverture validation des verbes la sortie de TREETAGGER seuil sur le nombre d occurrence des verbes etc Format des entr es de LexSchem et extrait du lexique Les informations disponibles pour chaque entr e de LEXSCHEM sont l identifiant de l entr e le verbe concern par l entr e le sch ma de sous cat gorisation concern par l entr e le nombre d occurrences de l entr e dans le corpus le nombre d occurrences du verbe dans le corpus le nombre de SSC pour ce verbe la fr quence relative de l entr e les identifiants des s quences de l analyse SYNTEX qui ont produit cette entr e le nombre d arguments du SSC les lemmes t tes de chacun de ses arguments Nous pr sentons ici quelques exemples d entr e du lexiquef Les deux entr es du verbe accompagner dans LEXSCHEM sont
206. ns l ou vrage de r f rence Pronom et syntaxe Blanche Benveniste et al ou a la synth se dans van den Eynde et Mertens 2003 et aux tudes cit es dans ces publications 31 Chapitre 3 Les ressources existantes pour le fran ais VALS accompagner PO P1 PL VTYPES predicator simple VERBS ACCOMPAGNER accompagner NUMS 990 EGS ils l ont accompagn sa maison TR_DUS begeleiden vergezellen meegaan met weg brengen TR_ENS accompany to POS qui je nous elle il ils on celui ci ceux ci P1 qui te vous la le les se r c en Q celui ci ceux ci l un l autre PLS 0 o y la ici l bas RPS passif tre se faire passif FIGURE 3 3 Entr e 990 de DicoValence Id Verbe Cadre Exemple 990 accompagner Po P1 PL ils l ont accompagn sa maison plat de beaucoup de l gumes 1010 accompagner Po P1 une sauce piquante accompagne tous les plats 1020 accompagner Po P1 P2 un petit orchestre accompagnait le chanteur 1030 accompagner Po P1 les v nements forts de la jeunesse vous accompagnent jusqu la mort ment de terre 1000 accompagner PoP1P3 elle m a demand d accompagner le 1040 s accompagner Po P3 une ruption volcanique s accompagne t elle d un tremble TABLE 3 4 Cadres de valence pour le verbe accompagner 32 3 4 3 4 Le Lefff Resso
207. ns que les r sultats obtenus en F Mesure soient tr s diff rents de ceux d ASSCi Messiant 2008 La r duction des sch mas risque de produire des sch mas faux L ex p rience pr sent e au chapitre 6 montrera la diff rence de r sultats entre l acquisition d un lexique en utilisant la r duction de sch mas et le filtrage sans r duction pour v rifier l apport de ce traitement CONCLUSION Nous avons d velopp ASSCi un syst me d acquisition automatique de SSC pour les verbes du fran ais Si ce syst me repose sur le sch ma glo bal des techniques d acquisition pr sent au chapitre 4 il explore des pistes nouvelles ou peu explor es pour l acquisition de SSC Tout d abord un pr traitement simple permet de r duire le bruit en rep rant les verbes mal an not s dans le corpus section 5 3 De plus les SSC sont inf r s directement du corpus et le syst me ne dispose pas d une liste de sch mas ce qui fa cilite l mergence de comportements qui ne sont pas r pertori s dans les ressources existantes section 5 4 2 Enfin nous avons introduit la r duction des SSC rejet s par le filtre par suppression d un compl ment pr position nel afin de mieux prendre en compte la distinction argument modifieur section 5 4 3 ASSCi a permis l acquisition d un lexique de SSC large couverture pour 82 5 5 Conclusion le fran ais appel LEXSCHEM La section suivante pr sente ce lexique son format
208. nt syntaxiques que s mantiques de verbes et permettent une classification plus fine des pr dicats Les phrases de l exemple 9 voir section 2 3 expriment le m me proc s mais ont des r alisations de surface diff rentes ga forme canonique Jean donne un livre Marie gb inversion Jean donne Marie un livre qu il a lu r cemment 9c pronominalisation Jean le lui a donn 9d forme passive Un livre est donn a Marie par Jean Les alternances d crivent des changements dans la r alisation de la structure argumentale d un verbe a partir d une forme canonique ga Ces changements peuvent tre de diff rentes natures d placement d argument comme dans la phrase 9b effacement d argument transformation de syn tagmes pr positionnels en syntagmes nominaux pronominalisation comme dans la phrase 9c etc Les alternances ont t beaucoup tudi es au niveau linguistique 1993 Dans son ouvrage Beth Levin d finit 79 alternances pour l anglais Levin 1993 Le plus souvent il s agit de transformations a partir d une structure argumentale consid r e comme tant la forme ca nonique dans notre exemple la phrase 9a Certaines alternances sont tr s fr quentes tandis que d autres ne concernent qu un nombre tr s limit de verbes 16 2 4 Alternances Par exemple dans l alternance causative inchoat ivef le sujet s efface pour laisser sa place l objet comme dans l e
209. nt les informations lexicales relatives aux pr dicats Le pr dicat est l l ment qui met en relation un ou plusieurs autres l ments d une phrase ou d une proposition Les mani res de repr senter les pr dicats sont multiples Nous nous contentons ici d voquer les travaux de Tesni re o le pr dicat est le noyau sup rieur qui r git les autres l ments de la phrase Chez Tesni re la hi rarchie des connexions entre les l ments de la phrase est repr sent e sous forme d un stemma c est dire d un sch ma liant le pr dicat ses arguments sans pr ciser la relation syntaxique entre eux voir figure 2 1 acheter a Google YouTube FIGURE 2 1 Stemma pour la phrase Google a achet YouTube Un pr dicat peut tre un verbe exemple 6 un nom exemple 7 ou un adjectif exemple 8 Dans le cadre de cette th se nous nous sommes prin cipalement int ress s aux pr dicats verbaux N anmoins pour l essentiel le contenu de ce chapitre s applique tous les types de pr dicats 6 Julie a achet prep un livre Marc 7 L acquisition prep de FlickR par Yahoo 8 Je suis h sitant ppp lui demander de l aide Les l ments de la phrase qui sont mis en relation par le pr dicat forment la structure argumentale de ce pr dicat Nous appellons ces l ments les compl ments du verbel Dans la phrase 6 la structure argumentale est form e par les c
210. nt lexschem html 93 Chapitre 6 Utilisation et valuation des m thodes d acquisition automatique de SSC INTERFACE DE CONSULTATION DU LEXIQUE LEXSCHEM Choisir un verbe COMMANDER commander y Voir OU Choisir un sch ma SUJ SN OB SN A OBJ SP lt a SN gt y Voir FIGURE 6 2 Page d accueil de l interface de consultation de LEXSCHEM INTERFACE LEXSCHEM COMMANDER Choisir un sch ma de sous cat gorisation Voir les informations LI Afficher les analyses de syntex SUJ SN A OB SP lt a SN gt 0 081 SUJ SN 0 282 SUJ SN OBJ SN A OBJ SP lt a SN gt 0 119 US Retour la page de d part SUJ SN OBJ SN 0 517 FIGURE 6 3 Choix du SSC pour le verbe commander dans l interface INTERFACE LEXSCHEM COMMANDER Choisir un sch ma de sous cat gorisation SUJ SN OBJ SN A OBJ SP lt SN gt 0 119 Voir les informations C Afficher les analyses de syntex yi SCH MA DE NOMBRE FR QUENCE JERBE P SOUS CAT GORISATION D OCCURENCES RELATIVE SUJ SN OBJ SN A commander OBU SP lt a SN gt 516 0 119 Six semaines apr s avoir nomm Lionel Jospin premier ministre le chef de l Etat re oit le 10 juillet 1997 le rapport qu il avait Icommand la commission Truche Au poste de num ro deux de la force de 1 OTAN aux ordres ce jour du g n ral allemand Klaus Reinh
211. nt pour le calcul des classes s man tiques Un l ger filtrage est effectu lors de la premi re tape de la classification dans le but de r duire l espace de traits les sch mas qui ont moins de 5 occur rences parmi les verbes classifier sont exclus Le nombre de SSC diff rents la taille de l espace de traits d pend ainsi du vocabulaire verbal utilis dans l exp rimentation Dans le cadre de cette exp rimentation nous avons travaill avec un espace de traits compos de 433 SSCE La repr sentation des verbes correspond leur distribution sur tous les sch mas consid r s dans l exp ri mentation calcul e par estimation du maximum de vraisemblance partir des donn es de LEXSCHEM p t v tvt f v o f v correspond la fr quence du verbe et f v t la fr quence du verbe avec le sch ma Nous avons utilis une m thode de regroupement clustering ascendante hi rarchique Au d but du processus chaque verbe constitue un groupe un seul l ment cluster dans ce qui suit on distingue la notion de groupe c est dire un regroupement obtenu automatiquement de celle de classe correspondant la r f rence labor e manuellement Lors de chaque it ration les deux groupes de verbes les plus similaires sont unifi s Cette m thode pro duit un partitionnement c est dire des groupes disjoints de mani re ce que chaque l ment classifier n appartienne qu
212. ntent une premi re tude exploratoire d extraction automatique de SSC pour le francais Salmon Alt 2006 La m thode d acquisition employ e repose sur le sch ma global d fini au d but de ce chapitre Le syst me prend en entr e les sor ties d un analyseur syntaxique charg de r aliser le rep rage des verbes et des compl ments L acquisition de SSC en elle m me n cessite deux tapes pr filtrage et filtrage L tape de pr filtrage prend en entr e le corpus analys par l analy seur syntaxique VISL et extrait les SSC pour la liste des verbes dont on souhaite acqu rir les SSC Le syst me n inclut pas de liste de SSC a priori les sch mas sont d termin s au cours du processus en fonction de l ana lyse syntaxique Les l ments constituants des SSC sont les objets directs les syntagmes pr positionnels les pr positions sont sp cifi es les propositions 54 4 6 4 6 Conclusion subordonn es les verbes l infinitif les syntagmes adjectivaux et les cli tiques r flexifs Les sujets n apparaissent pas dans les sch mas car les verbes prennent obligatoirement un sujet en francais L analyseur syntaxique utilis ne fait pas de distinction entre arguments et modifieurs Les sch mas ex traits la premi re tape incluent donc arguments et modifieurs l image de Manning 1993 les auteurs font l hypoth se que le filtrage liminera les SSC incorrects comprenant des modifieurs Les sorti
213. ntexte ce qui a entra n de fortes variations dans l valuation entre ces deux cat gories qu il est en fait difficile de distinguer Nous avons donc choisi de les fusionner ici Cette analyse montre qu il manque dans LEXSCHEM environ 40 des entr es pr sentes dans les autres lexiques Ceci est int ressant dans la me sure o une part non n gligeable de ces entr es sont jug es incorrectes ou douteuses par les valuateurs humains Ceci montre que m me des lexiques construits manuellement ou partir de donn es fortement valid es la main ne sont pas parfaits ils peuvent contenir des erreurs ou des constructions si rares qu elles sont jug es douteuses par les valuateurs Le fait que ni DiI COVALENCE ni TREELEX ne comporte d informations sur la productivit des constructions indiqu es ne permet pas de relativiser le poids de construc tions peut tre rares ou sp cialis es Par ailleurs ces r sultats montrent l int r t de l approche automatique pour compl ter des ressources existantes En effet l valuation a r v l plus de 100 entr es valides absentes de TREELEX et environ 40 dans le cas de Dico VALENCE Par exemple le SSC SUJ SN REF refl DE OBJ SP lt de SN gt 11 Chacune de ces entr es provient d au moins une des trois ressources mais certaines d entre elles sont absentes de LEXSCHEM ce qui explique le nombre important d entr es par rapport la moyenne de 2 2 entr es par verbe voqu
214. nts automatique clustering N ayant pas d velopp nous m me ces algorithmes nous avons mis en annexe Fla description des exp riences ainsi men es Nous avons toutefois particip activement la pr paration des 116 7 3 1 7 3 2 7 3 Deux exp riences pour l acquisition de classes s mantiques de verbes donn es afin de rendre ces exp riences possibles L exp rience avec l quipe de Cambridge a ainsi n cessit des donn es vari es incluant les t tes lexi cales des arguments ou non ayant t filtr es ou non etc ce qui a t relativement ais mettre en place du fait des techniques employ es pour l acquisition Nous avons galement particip la mise en place des exp riences et l valuation des r sultats Nous donnons ici un r sum de ces exp riences voir l annexe F pour voir les extraits plus d taill s des articles publi s et nous en discutons les r sultats ensuite Exp rience 1 classification par regroupement ascendant hi rar chique Nous avons r alis une exp rience de classification par regroupement ascendant hi rarchique en collaboration avec Kata Gabor Messiant et al Boo Pour cette exp rience nous avons utilis la version non filtr e de Lex SCHEM mais seules les entr es qui ont plus de 5 occurrences sont utilis es La m thode de regroupement utilis e est la classification ascendante hi rarchique au d but du processus chaque verbe constitue une clas
215. nts des s quences du corpus et les lemmes t tes des arguments ont t tronqu es les versions compl tes du lexique sont disponibles l adresse suivante nttp www lipn univ paris13 fr messiant lexschem html FORMAT STANDARD xxx Entr e 04306 6135 occurrences fr quence relative 75 4 Verbe accompagner 8142 occurrences 2 ssc SSC SUJ SN OBJ SN S quences Syntex 0100 anasynt d684217p3_5 38 0100 anasynt d687293p5_4 19 0100 anasynt d683973p3_3 39 Lemmes t tes de l argument 0 UNKNOWN 527 0 08 il 477 0 08 qui 384 0 06 Lemmes t tes de l argument 1 le 1699 0 27 mouvement 68 0 01 exposition 66 0 01 xxx Entr e 00239 2007 occurrences fr quence relative 24 6 Verbe accompagner 8142 occurrences 2 ssc SSC SUJ SN REF refl DE OBJ SP lt de SN gt S quences Syntex 0100 anasynt d686200p4_17 48 0100 anasynt d686690p5_6 16 0100 anasynt d686339p4_30 3 Lemmes t tes de l argument 0 UNKNOWN 215 0 11 elle 212 0 10 il 108 0 05 Lemmes t tes de l argument 1 se 2007 1 00 Lemmes t tes de l argument 2 baisse 38 0 02 augmentation 31 0 02 r duction 28 0 01 133 Annexe D Entr es de LexSchem pour le verbe accompagner dans les diff rents formats disponibles FORMAT XML lt lexschem gt lt entree id 04306 gt lt verbe nb_occ 8142 nb_ssc 2 gt ACCOMPAGNER accompagner
216. o teuse et l acquisition automatique d une base de travail qui peut tre ensuite valid e et compl t e la main semble une piste int ressante Nous avons donc utilis un nouveau corpus afin de d terminer la capa cit d ASSCi acqu rir de nouveaux SSC en fonction du corpus consid r Pour ce faire nous avons choisi de prendre comme source la partie fran aise du corpus EUROPARL 2005 Il s agit d un corpus parall le libre ment disponible sur Internet constitu des actes du Parlement europ en entre mars 1996 et septembre 2003 M me s il ne s agit pas d un corpus sp cialis au sens propre du terme on peut s attendre au sein du corpus EUROPARL a avoir affaire des SSC particuliers li s la nature et au genre du corpus consid r c est dire des textes l gislatifs europ ens Pour acqu rir des SSC partir du corpus EUROPARL nous avons utilis le syst me ASSCi pr sent dans le chapitre 5 avec les r glages par d faut notamment en ce qui concerne les seuils L objectif de cette tude est de valider notre hypoth se selon laquelle l acquisition automatique de SSC sur un corpus sp cialis donne des r sultats sensiblement diff rents de ceux obtenus lors de notre premi re exp rience 6 1 Le tableau 6 8 pr sente les chiffres obtenus pour le lexique acquis partir du corpus EUROPARL LS EUROPARL ceux extraits du corpus LM10 LS LM1o section 6 1 Le rep rage automatique des nou
217. ompl ments Julie un livre et Marc Dans les manuels de grammaire par exemple dans le Bon Usage le sujet est la plupart du temps exclu de la structure argumentale En effet le sujet et le groupe verbal c est dire le pr dicat verbal et ses arguments sont consid r s comme tant les deux l ments constitutifs de la phrase N anmoins d un point de vue s mantique l l ment plac en position sujet est le plus souvent partie prenante de l action Il n y a donc pas lieu de l exclure de la structure argumentale dans le cadre de notre travail 2 Nous utilisons dans cette th se le terme de compl ment pour tous les l ments reli s au verbe ind pendamment de la distinction argument modifieur Chapitre 2 Description du verbe pour l laboration de lexiques Parmi les compl ments d un verbe on distingue les arguments des mo difieurs 1975 Les arguments sont obligatoires dans la structure argumentale ils peuvent tre omis en surface mais ils sont tou jours pr sents dans la structure profonde tandis que les modifieurs sont en g n ral optionnels et plus facilement d placables en surface Nous nous contenterons pour l instant de cette pr sentation rapide et nous reviendrons plus loin sur cette distinction entre arguments et modifieurs Nous appellons sch ma pr dicatif la description plus formelle qui permet de d crire la structure argumentale d un pr dicat Selon la th o rie la ressource
218. onn en figure 6 6 10 Il s agit de Thierry Poibeau et de nous m me Un guide d annotation a toutefois t r dig pour garantir la coh rence de l valuation 100 6 2 Evaluation de LexSchem lt verbe lemme commander gt lt ssc forme SUJ SN OBJ SN A OBJ SP lt a SN gt Caracteristiques present lexschem absent treelex present dicovalence gt lt hum gt lt hum gt lt Commentaires gt lt Commentaires gt lt exemple gt La Shochiku lui commande Yokai Hanta Hiruko qui a droit lui une sortie commerciale lt exemple gt FIGURE 6 6 Extrait du fichier d valuation Annotateur A Annotateur B Entr es de LEXSCHEM incorrectes 39 6 5 49 8 4 correctes 311 53 5 301 51 8 Entr es absentes de LEXSCHEM correctes 131 22 5 137 23 6 douteuses ou incorrectes 100 17 4 94 16 2 Apport TREELEX 116 nouvelles entr es 109 nouvelles entr es Apport DICOVALENCE 42 nouvelles entr es 33 nouvelles entr es TABLE 6 6 Donn es issues de l analyse manuelle de 150 verbes de LEXSCHEM Au total 581 entr es ont t annot es pour 150 verbes Les r sultats sont pr sent s dans le tableau 6 6 Pour les formes absentes de LEXSCHEM l annotation pr voyait initiale ment deux cat gories douteux d une part et incorrect d autre part Nous avons eu beaucoup de mal juger de la pertinence de certaines entr es hors co
219. or classes with non distinctive syntactic charateristics For example the intransitive verbs in 43 1 LIGHT EMISSION class e g briller tinceler flamboyer are difficult to cluster based on syntax only but semantic features work because the verbs pose strong sPs on their subjects entities capable of light emission In the experiment of 2008 43 1 was the worst performing class for English possibly because no semantic features were used in the experiment The most frequent source of error is syntactic idiosyncracy This is parti cularly evident for classes 10 1 REMOVE and 45 4 CHANGE OF STATE Although verbs in these classes can take similar SCFs and alternations only some of them are frequent in data For example the SCF ter X Y is frequent for verbs in 10 1 but not ter X de Y Although class 10 1 did not suffer from this pro blem in the English experiment of Sun et al 2008 class 45 4 did Class 45 4 performs particularly bad in French also because its member verbs are low in frequency Some errors are due to polysemy caused partly by the fact that the French version of the gold standard was not controlled for this factor Some verbs have their predominant senses in classes which are missing in the gold standard e g the most frequent sense of retenir is memorize not keep as in the gold standard class 13 5 1 GET Finally some errors are not true errors but demonstrate the capability of clustering to learn novel informat
220. orpus annot s syntaxiquement la main ou dont l analyse a t valid e par des linguistes Le syst me parcourt les arbres syntaxiques et extrait les arguments des verbes pour associer ces construc tions des SSC tant donn l importance du travail manuel requis dans ce type de travaux nous pr f rons pr senter ces travaux dans ce chapitre plut t que dans le chapitre suivant consacr aux techniques d acquisition partir de corpus bruts Une tude de ce type a t r alis e r cemment sur le fran ais par Anna Kupse 2008 TreeLex est un lexique de sous cat gorisation verbale pour le francais contem porain extrait automatiquement du corpus arbor de Paris 7 2003 Le corpus arbor du francais est compos d extraits d articles du jour nal Le Monde et contient un million de mots Il a t annot par 14 cat gories lexicales et 12 types de syntagmes Le syst me d acquisition n exploite que la partie du corpus qui contient les informations fonctionnelles 15000 phrases soit environ 300 000 mots La premi re tape de l acquisition consiste par courir les arbres et en extraire les sch mas Les formes actives et passives sont normalis es les formes passives sont pass es la forme active et les l ments des sch mas sont ordonn s Cette m thode a permis d extraire TreeLex un lexique de sous cat gorisation pour environ 2 000 lemmes verbaux et 180 SSC moyenne de 2 09 sch mas par lemme Les tiqu
221. osons de peu d informations en surface pour d terminer le sens du verbe compter selon le contexte par exemple pour 20c comme pour 20d compter est suivi d un compl ment pr positionnel dont la pr position est sur Ce sont des informations s mantiques plus profondes qui permettent de diff rencier 20c de 20d Ce probl me est encore plus fr quent avec la pr position qui est fr quemment utilis e tant pour des compl ments de lieu modifieur que pour des objets pr positionnels ce qui nous am ne la distinction argu ment modifieur Retour sur la distinction argument modifieur Nous avons pr sent les crit res classiques de distinction des arguments et des modifieurs dans la section 2 3 2 effacement ou d placement du com pl ment th matisation etc Toutefois ces crit res ne font pas l objet d un consensus fort Il n existe pas de crit re linguistique suffisamment discrimi nant pour d terminer de mani re certaine ind pendamment du contexte si un compl ment est un argument ou modifieur Certains cas sont difficiles et sujets d bat comme l exemple 13 rencontr plus haut 13a Les actions ont baiss de 10 la semaine derni re 18 2 5 3 2 5 Les contours flous des sch mas pr dicatifs 13b Les actions ont baiss la semaine derni re 13c De 10 les actions ont baiss la semaine derni re Il est difficile de dire si le compl ment de 10 est un argument ou un modi fi
222. our certaines applications mais n est pas toujours g nante s il s agit de fournir des ressources un analyseur syntaxique ou de fournir des donn es au linguiste qui se charge ensuite de les valider Pour des raisons diff rentes ces deux ressources sont partielles les concepteurs de DICOVALENCE se sont concentr s sur les verbes et les constructions essentielles du fran ais tandis que TREELEx n inclut que ce qui est attest dans le corpus arbor utilis comme source Il est donc int ressant de comparer la couverture relative de ces diff rentes ressources et l apport possible de LEXSCHEM L utilisation de DICOVALENCE pour valuer LEXSCHEM n cessite une transformation de format d licate en raison des sp cificit s li es l Ap proche Pronominale des fins de comparaison et d valuation Claire Gardent a unifi un certain nombre de ressources dans un format pivot dans le cadre du projet TALC Traitement automa tique des langues et des connaissances Le processus n est videmment pas sans poser probleme les ressources concern es ne sont pas fond es sur la m me th orie elles n ont pas le m me objectif et les informations n y sont pas toujours cod es de fa on explicite Nous nous sommes int ress en particulier DICOVALENCE EASY qui est la transformation de DicoVa LENCE dans ce format pivotfl Des difficult s de codage ont entra n des erreurs des constructions r pertori es dans DICOVALENCE son
223. pale difficult rencontr e a t le rep rage des noms pr dicatifs dans le corpus aucune information de surface ne nous permet de diff ren cier le camion de Jean de la construction de l aqueduc La solution la plus simple a ce probl me est de fournir une liste de noms cibl s au syst me Nous avons d cid de traiter les noms r pertori s dans la ressource VERBAC TION qui est un lexique de noms d actions morphologiquement apparent s a des verbes Par cette m thode nous avons acquis les SSC de 1 436 noms pr dicatifs Les SSC de noms pr dicatifs sont tr s diff rents des SSC de verbes les noms pr dicatifs ne prennent ni sujet ni objet et le sch ma intransitif sans compl ment n a pas de sens tous les noms peuvent appara tre sans com pl ment Tous les sch mas acquis par notre m thode sont des combinaisons 17 http w3 erss univ tlse2 fr 8080 index jsp perso hathout verbaction main html 107 Chapitre 6 Utilisation et valuation des m thodes d acquisition automatique de SSC 6 4 6 4 1 d un ou de plusieurs syntagmes pr positionnels Par exemple le sch ma SP lt de SN gt apparait pour de tr s nombreux noms dont construction consul tation et perturbation Ce sch ma est issu d une propri t bien connue de la nominalisation Les ouvriers construisent le pont La construction du pont La ressource acquise lors de cette premi re exp rience n a pas fait l
224. par des ordinateurs plut t que par des humains Les lexiques de sous cat gorisation font l inventaire des diff rentes constructions possibles pour chaque entr e lexicale Pour chacune de ces entr es son ou ses sch ma s pr dicatif s sp cifiant le nombre et le type de ses arguments et les informations compl mentaires qui s y rapportent par exemple les lemmes t tes des arguments De tels lexiques peuvent no tamment am liorer les performances d analyseurs syntaxiques Carroll et al ou de syst mes d extraction d information Il existe de nombreuses ressources d crivant les verbes en frangais et nous nous limitons ici aux dictionnaires informatis s et aux lexiques lec troniques qui contiennent des informations de sous cat gorisation Les res sources acquises automatiquement seront pr sent es conjointement avec leur m thode d acquisition dans le chapitre 4 Elles sont donc exclues du pr sent inventaire Nous pr sentons dans ce chapitre un tat de l art des ressources exis tantes pour le fran ais Nous faisons galement l tat de l art de l acquisition de lexiques partir de corpus arbor s dans ce chapitre dans la mesure o ces travaux requi rent un important travail manuel 23 Chapitre 3 Les ressources existantes pour le fran ais 3 1 LE LEXIQUE GRAMMAIRE Le Lexique Grammaire est la plus ancienne ressource lectronique pour le fran ais qui regroupe des informations sur la syntaxe des
225. pensation de manques d informations en corpus pour certains verbes analogue celle men e Cambridge back off estimates 2000 pourrait tre r alis e afin d augmenter la couverture de la ressource Une telle tude n cessite d utiliser des classes verbales acquises a partir d un lexique tr s peu filtr Outre les progres r sultant de ces modifications de la m thode l am lioration des performances du syst me d acquisition est galement envisageable Cela peut notamment passer par l utilisation d un tiqueteur morpho syntaxique plus efficace ou par un r entrainement de TREETAGGER Le programme de proposition de nouveaux SSC pourrait proposer des sch mas issus d autres ressources ou qui ont t filtr s alors qu ils sont pr sents assez fr quemment dans le corpus L inconv nient principal de cet ajout est qu il augmente significativement la part manuelle dans la consti tution du lexique Cependant il nous semble que la compl mentarit des approches est n cessaire pour obtenir une ressource de tr s bonne qualit en un temps acceptable Une autre extension possible de la th se est la poursuite et l approfon dissement des exp riences qui concernent l adaptabilit de la m thode d ac quisition Nous pensons notamment l acquisition de SSC pour d autres domaines de sp cialit par exemple le domaine m dical pour lequel les besoins sont nombreux ou l acquisition automatique de SSC de noms
226. pr dicatifs et d adjectifs pr dicatifs Nous avons montr dans cette th se que de telles adaptations taient possibles et peu cotiteuses a condition de disposer de corpus de taille suffisante A plus long terme une piste int ressante serait d enrichir LEXSCHEM pour en faire un lexique de sch mas pr dicatifs c est a dire de sch mas com prenant non seulement les informations de sous cat gorisation mais aussi les r les th matiques et les restrictions de s lection sur les arguments L ti quetage de r les th matiques a fait l objet de travaux r cents irafsky 2002 Il faut tout d abord identifier le nombre et la granularit des r les Cette t che n cessite des informations sur la s mantique profonde des verbes Un important travail manuel est donc requis avant d automatiser le processus La grande majorit des tudes concernant l ajout de restrictions de s lection sur les arguments utilisent des ressources du type de WORDNET Fellbaum 1998 afin d exploiter l hyperonymie partir des t tes lexicales des arguments Resnik Abney et Light Weir 2002 La pr sence dans les ressources acquises par ASSCi des lemmes t tes des arguments est donc un avantage consid rable pour acqu rir auto matiquement ces informations Toutefois il n existe pas de ressource aussi 124 8 3 Perspectives aboutie que WorDNET disponible pour le fran ais malgr des travaux r cents allant dans ce sens co
227. pro bl me difficile Il serait int ressant d approfondir cette question par exemple en utilisant la m thode propos e par 12008 Cette m thode repose sur la productivit des couples verbe pr position c est dire la diversit des contextes nominaux dans lesquels ce couple appara t plus un couple verbe pr position appara t avec des noms vari s plus le compl ment pr positionnel a de chances d tre un argument Notre travail constitue toutefois l un des premiers travaux concernant l acquisition automatique de SSC partir de corpus brut pour le fran ais r alis en largeur et ayant fait l objet d une valuation rigoureuse Ce syst me a permis d acqu rir un lexique de sous cat gorisation large couverture pour le fran ais appel LEXSCHEM LEXSCHEM contient 7 239 entr es couples verbe SSC Ces entr es concernent 3 123 lemmes verbaux et 88 SSC diff rents De plus cette ressource est dot e d une interface de consultation et d ou tils de param trage qui permettent d adapter le lexique en fonction des be soins applicatifs Compar e d autres ressources pour le fran ais la couverture de LEx SCHEM en nombre de verbes est dans la fourchette basse La ressource concerne toutefois les verbes les plus communs du fran ais En outre il est possible d am liorer sa couverture en augmentant les donn es d acquisition ann es 2001 2010 du journal Le Monde corpus web autres corpus ou en comp
228. que est compos de 2 703 entr es 1 171 lemmes verbaux et 74 SSC diff rents Cette tude pr liminaire a permis de prouver que lors d tudes concer nant un domaine particulier l utilisation de ressources acquises automa tiquement peut se r v ler plus int ressante que celle de dictionnaires construits manuellement Dans cette tude nous n avons compar LEXSCHEM EUROPARL qu avec LExSCHEM La comparaison des entr es pr sentes dans LEXSCHEM EUROPARL avec les entr es pr sentes dans les autres lexiques de langue g n rale DICOVALENCE ou le LEXIQUE GRAMMAIRE par exemple serait profitable car elle permettrait de mieux mettre en vidence l int r t des m thodes automa tiques dans le cas des langues de sp cialit Une approche combin e acquisition automatique dans un premier temps puis validation manuelle semble id ale pour obtenir une ressource de bonne qualit Enfin cette th se s attache prouver que les ressources acquises bien qu imparfaites peuvent tre utilis es dans un cadre applicatif ou pour ac qu rir d autres ressources Dans certains contextes il s av re m me qu elles ont une plus value sur les dictionnaires existants car elles sont dot es d informations notamment sur la fr quence des entr es ou les lemmes t tes rencontr s en corpus dont ne disposent pas ces lexiques Les deux exp riences de classification automatique de verbes partir de LEXSCHEM pr sent es au chapitr
229. r des caract ristiques plus vari es que les seuls SSC caract re instrumental du sujet alternances etc mais pas de prendre en consid ration la fr quence des SSC Le calcul de similitude entre les verbes est fait par l analyse formelle de concepts Ducass et Ferr 2009 Il semble pourtant que les indications concernant la fr quence relative des SSC et la pr sence ou non de modifieurs soient des param tres importants aussi prenons nous en compte ces l ments dans les exp riences qui suivent DEUX EXPERIENCES POUR L ACQUISITION DE CLASSES S MANTIQUES DE VERBES Nous avons vu dans la section 7 1 que l acquisition de classes verbales a des int r ts th oriques et applicatifs Notre objectif est donc d acqu rir des classes verbales partir de LExScHEM Nous avons galement vu qu il existe plusieurs m thodes de classification et qu un d bat existe sur la quantit d informations fournir pour obtenir les meilleures classes possibles Nous avons donc r alis en collaboration deux exp riences de classifica tion partir de LEXSCHEM Ces deux exp riences different par la m thode utilis e et les informations exploit es ce qui nous permet de comparer les r sultats obtenus et de v rifier l hypoth se selon laquelle ces r sultats sont compl mentaires Nous reprenons en annexe deux extraits d articles pr sentant ces exp riences Ces classes sont obtenues en utilisant diff rentes m thodes de re groupeme
230. r ensuite des classes de verbes partageant les m mes alternances selon l hypoth se de Levin Schulte im Walde 2000 Les informations rep r es doivent ensuite tre vali d es manuellement puis associ es des entr es lexicales pour produire des ressources vraiment utilisables Malgr ces limites la popularit de ce type de m thodes depuis une dizaine d ann es montre leur int r t et leur po tentiel pour la mise au point de ressources large chelle voir l exp rience d crite dans Kipper et al 2008 4 L existence de ressources de qualit Tr sor de la Langue Fran aise Lexique Grammaire etc large couverture d une part et l absence de corpus librement disponible d autre part a s rement limit en France l int r t pour les m thodes d acquisition automa tique par le pass Nous pensons toutefois que l tat des techniques est aujourd hui tel qu il est int ressant d y revenir Chapitre 1 Introduction 1 2 ENJEUX 1 3 Nous avons identifi trois enjeux importants concernant ce domaine 1 S il existe de nombreux travaux pour l anglais les techniques d acquisi tion automatique de SSC large couverture pour le fran ais taient peu tudi es lorsque cette th se a d but la seule tude publi e en 2006 tait celle de Paula Chesley et Susanne Salmon Alt qui ne concerne qu une centaine de verbes Chesley et Salmon Alt 2006 Le projet ANR Passage qui a notamment pour o
231. rap port une t che donn e en particulier lorsque cette ressource est destin e n tre utilis e que pour une t che pr cise valuation intrins que valuation quantitative Pour l valuation quantitative des ressources on utilise un gold standard c est dire une ressource de r f rence Cette r f rence peut tre une res source existante pour que cette ressource puisse tre consid r e comme une r f rence il faut que sa qualit soit assur e par un certain travail manuel constitution de la ressource ou a minima sa validation la fusion de plusieurs ressources ou encore elle peut tre obtenue partir de l annotation manuelle d un corpus ce qui permet en utilisant un extrait du corpus d acquisition d valuer les performances du syst me par rapport aux informations conte nues dans le corpus Les principales mesures d valuation utilis es sont la pr cision le rappel et la F mesure La pr cision mesure la proportion d entr es c est dire pour notre t che de couples verbe SSC correctes acquises par le syst me Elle est me sur e en faisant le rapport entre le nombre de vrais positifs c est dire d entr es pr sentes la fois dans la ressource valu e et dans la r f rence et la somme entre le nombre de vrais positifs et le nombre de faux positifs c est dire d entr es pr sentes dans la ressource valu e mais pas dans la r f rence VP Precision VP FP Le r
232. rb clustering approach developed for English and apply it to French a major language for which no such experiment has been conducted yet Basic NLP resources corpora taggers parsers and subcategorization acquisition sys tems are now sufficiently developed for this language for the application of a state of the art verb clustering approach to be realistic Our investigation reveals similarities between the English and French classi fications supporting the linguistic hypothesis Jackendoff 1990 and the earlier result of Merlo et al 2002 that Levin classes have a strong cross linguistic basis Not only the general methodology but also best performing features are transferable between the languages making it possible to learn useful classes for French automatically and without the need for language specific tuning French Verb Classes and the Gold Standard The development of an automatic verb classification approach requires at least an initial gold standard Some syntactic 1975 and semantic 1998 verb classifications exist for French along with ones which aim to integrate aspects of both Saint Dizier 1998 Although such resources could be combined to hypothesise Levin style classes for French using e g an ap proach similar to that employed by 2008 we adopted a more direct approach following the EA we translated a number of Levin classes from English to French We chose an English gold standard which has bee
233. rd pour l valuation voir chapitre 6 2 il s agit d une ressource acquise partir d un corpus annot la main ce qui en fait un bon mod le pour l talonnage On calcule la proximit d un lexique avec TREELEX en utilisant la F mesure Toutefois nous n utilisons pas la F mesure habituelle F qui donne le m me poids la pr cision et au rappel TREELEX a t acquis partir d un corpus dont la taille ne permet pas d assurer une couverture de l ensemble de la langue C est pourquoi nous privil gions le rappel sur la pr cision en fixant B 1 5 le rappel p se alors 1 5 fois plus que la pr cision sur le score obtenu Cela permet de compenser le fait qu un d ficit de pr cision r sulte ici assez souvent d une insuffisance de TREELEX nous montrons dans la sec tion 6 2 qu une part importante d entr es nouvelles acquises par ASSCi par rapport TREELEX est correcte _ L R2 Precision Rappel Fg 1 P B xPrecision Rappel 80 5 4 Description des modules d ASSCi 0 64 0 62 0 6 0 58 Proximit avec TreeLex 0 56 0 0 02 0 04 0 06 0 08 0 1 0 12 0 14 0 16 0 18 0 2 Seuil utilis pour le filtrage FIGURE 5 6 Variation de la proximit avec TREELEX F 5 en fonction du seuil La mesure utilis e est donc Pa Precision Rappel F5 3 25 2 25xPrecision Rappel Une premi re exp rience a permis de d terminer le meilleur seuil pour notre syst me sans seuils d
234. re la plus efficace Toutefois les diff rences de perfor mances ne sont pas significatives Nous avons alors r alis une autre exp rience qui montre que le jeu de param tres le plus sophistiqu F17 est de plus en plus efficace avec l augmentation du nombre d exemples consid r s alors que les autres jeux de param tres ne tirent pas autant profit de ces donn es Une valuation qualitative des classes obtenues a aussi t r alis e et permet d identifier les principales sources d erreurs faible fr quence de certaines constructions ou de certains verbes dans le corpus polys mie etc Elle a galement permis de montrer que la classification s pare des anto nymes qui font partie de la m me classe dans la r f rence par exemple affaiblir et renforcer ou regroupe des classes proches syntaxiquement et s mantiquement mais qui sont distinctes dans la r f rence Dans ce cas on ne peut pas vraiment parler d erreurs dans le sens o l information acquise est valide et utile Cette tude a r v l qu un syst me optimis pour la classification verbale en anglais tant du point de vue m thodologique que du point de vue des caract ristiques utilis es obtenait de bons r sultats pour le fran ais Elle a aussi mis en vidence l importance de la taille des donn es utilis es pour ce type de travaux DISCUSSION Les r sultats de ces deux exp riences montrent que la classification au tomatique de verbes sur la base
235. rence est que l utilisateur doit entrer les r glages au lancement du script Les choix propos s l utilisateur sont les seuils utiliser pour le filtrage seuil de base seuil pour les formes intransitives seuil pour les formes pronominales la r duction ou non des SSC Apr s l utilisation de ce programme l utilisateur peut disposer d une ressource plus adapt e ses besoins que le lexique pr sent la section 6 1 Formats disponibles pour le lexique Afin de rendre LEXSCHEM utilisable dans diff rents contextes celui ci est disponible en diff rents formats Le format d origine des ressources acquises par le syst me ASSCi est un format brut les entr es sont pr sent es par ligne et les champs sont s par s par des tabulations Ce format convient bien un traitement automatique mais il n est pas standard Pour faciliter l utilisation de nos ressources nous avons d velopp et mis disposition de la communaut un script de transformation du format de sortie d ASSCi Le programme permet de choisir de rendre LEXSCHEM plus lisible for mat normal de le transformer dans un format XML ou encore dans le format utilis pour les versions ant rieures du lexique ce qui permet aux utilisateurs de LEXSCHEM qui auraient utilis ces versions d utiliser la der ni re version sans probl me Un aper u de ces formats est donn en annexe DI Le script permet galement de faire
236. rents que Pacaud Dutournier ou Massonnet a Poitiers Les lois de la m canique c leste pr voient que si un corps suffisamment massif tourne autour d une toile il lui imprime un l ger mouvement oscillatoire Des constructions courantes sont ainsi identifi es et montrent l apport de l acquisition automatique par rapport aux dictionnaires existants Le cas des constructions pronominales Les constructions pronominales sont int ressantes parce qu elles posent des probl mes de codage complexes qui sont r solus de mani re diff rente suivant les lexiques consid r s Il s agit surtout d un ph nom ne massif en fran ais qui concerne la plupart des lemmes verbaux Prenons le cas du verbe confondre Pour ce verbe LEXSCHEM propose les SSC donn s dans le tableau 6 7 L tiquette REF ref1 est utilis e pour toutes les constructions pronominales ind pendamment de la valeur s man tique du pronom Les constructions pronominales sont souvent couvertes de mani re par tielle dans les diff rents lexiques syntaxiques du fran ais voir section b y compris dans des lexiques par ailleurs quasi exhaustifs Pour le verbe confondre DICOVALENCE est le plus pr cis dans la mesure o le lexique en code non seulement les formes pronominales mais pr cise en outre la valeur s mantique des arguments Le Lexique Grammaire et les versions d ri v es comme LGLex ne mentionne pas les constructions pronominales mais pr cise les r
237. reurs un valuateur de patrons filtre les SSC candidats is sus du classifieur l aide d un test binomial Ce filtre permet d exclure des SSC incorrects par exemple pr sentant des modifieurs Ce syst me permet d associer aux verbes rep r s en corpus 160 SSC dif f rents Le syst me extrait galement la fr quence relative des entr es Une premi re exp rience a permis d valuer le syst me sur une liste de 14 verbes en comparant le lexique obtenu avec les SSC issus de dictionnaires existants Briscoe et Carroll 1997 Les r sulats de cette valuation font tat d un taux de pr cision de 65 7 et un taux de rappel de 35 5 L valuation des r sultats par rapport une analyse manuelle du corpus donne des r sultats sensiblement meilleurs 76 6 en pr cision et 43 4 en rappel Le token recall pour ces sept verbes est de 80 9 Ces r sultats montrent que l valuation des SSC acquis par rapport un dictionnaire peut biaiser les r sultats En effet la pr sence dans le corpus de constructions non r pertori es dans le dictionnaire ou l absence de sch mas rares ou anciens dans le corpus ne permet pas de juger de la performance du syst me en lui m me Nous reviendrons sur ce probl me dans le chapitre g Les auteurs ont galement montr que les SSC extraits par leur syst me am liorent sensiblement les performances d un analyseur syntaxique malgr 1 L article pr sente six composants qui sont charg
238. rofon deur la quantit de donn es doit permettre de couvrir une grande partie de la langue sans effectuer des analyses fines co teuses et parfois impossibles 15 Extrait du corpus des 10 ans du journal Le Monde 73 Chapitre 5 Description du syst me d acquisition de SSC pour le fran ais 5 4 2 sans l apport de ressources ext rieures Cette approche garantit galement la g n ricit de la m thode Constructeur de sch mas de sous cat gorisation candidats Description du module Le constructeur de sch mas utilise les informations contenues dans les pr SSC pour construire les SSC candidats qui constituent un lexique de sous cat gorisation non filtr Contrairement la plupart des m thodes d acquisition de SSC employ es jusqu alors par exemple par Preiss et al 2007 ASSCi ne dispose pas d une liste de sch mas pr d finie Ce choix s inscrit dans notre volont d acqu rir des sch mas sans a priori pour faire merger du corpus les SSC correspon dant l usage Il n y a d ailleurs pas de raison qu une liste de sch mas existe si l on ne dispose pas d ja d une ressource et il est clair que la constitu tion d une liste de sch mas possibles pour une langue donn e n est pas une t che triviale Ce choix permet m me d observer pour certains verbes des constructions qu il tait difficile de pr voir a priori surtout quand on tra vaille sur corpus sp cialis voir section L
239. route A1 et de 10 sont des arguments ou des modifieurs certains des crit res classiques de distinction se contredisent 12b Pierre s est rendu Lille 12c Pierre s est rendu par l autoroute A1 Lille 13b Les actions ont baiss la semaine derni re 13c De 10 les actions ont baiss la semaine derni re par l autoroute A1 et de 10 sont effa ables 12a et 13a mais leur d placement pose probl me 12b et 13b Les sch mas de sous cat gorisation concernent donc les propri t s syn taxiques des arguments d un pr dicat Les deux autres composantes des sch mas pr dicatifs la grille th matique et les restrictions de s lection ca ract risent leurs propri t s s mantiques 2 3 4 Grille th matique On appelle grille th matique le sch ma constitu par les r les th ma tiques des arguments d un pr dicat Le r le th matique d un argument est une tiquette qui d signe la rela tion s mantique entre un pr dicat et son compl ment dans un sch ma donn Gruber 1965 Fillmore 1968 Jackendoff 1972 Wilkins 1988 Il caract rise de fa on tr s g n rale le r le de l argument dans la structure pr dicative un niveau s mantique Par exemple dans la phrase Mon fr re a mang tout le chocolat l argument mon fr re est l agent du verbe manger Cette notion est sujette discussions les fronti res d limitant les diff rents r les sont floues et il n y a p
240. rreurs de Sartre il les lui reproche autant que ses adversaires mais il les lui reproche au nom du Sartre qu il aime et qui lui ressemble l homme seul le Roquentin a produit le pr SSC suivant 0100 anasynt d686339p6_ 2121 REPROCHER reprocher P OBJ SP lt au nom de SN gt Sartre SUJ SN il OBJ SN le A OBJ SP lt SN gt lui 16 http loriatal loria fr Resources html 74 5 4 Description des modules d ASSCi Le SSC candidat issu de ce pr sch ma consolid avec len semble des pr sch mas du m me type pour le verbe reprocher est SUJ SN OBJ SN A OBJ SP lt a SN gt Les compl ments sont s par s par des virgules Ce SSC contient trois compl ments le sujet SUJ SN le compl ment d objet 0BJ SN et l objet pr positionnel r gi par A OBJ SP lt a SN gt Remarquons que le compl ment pr position nel r gi par au nom de P 0BJ SP lt au nom de SN gt n appara t pas dans le sch ma candidat le constructeur a supprim ce compl ment dont la pr position au nom de est non argumentale Le constructeur a trouv 2128 occurrences de cette entr e dans le corpus ce qui produit une fr quence relative de 0 218 le nombre total d occurrences de reprocher dans le corpus tant de 9757 Le module attribue galement un identifiant l entr e ici 2610 et conserve les identifiants des phrases correspondant cette entr e dans le corpus ainsi que les lemmes t tes des diff rents
241. s 6 Ushioda amp al 1993 Wall Street Journal 2 6 Manning 1993 New York Times 3 104 19 Briscoe amp Carroll 1997 Susanne SEC et LOB 160 Korhonen 2000 BNC 163 Korhonen 2006 6 ressources 6 397 163 Chesley amp Salmon Alt 2006 Frantext litt raire 104 27 Gardent 2009 Corpus Passage Court 4 800 TABLE 4 2 Synth se des m thodes d acquisition automatique de SSC pr sent es les correspondent des donn es non disponibles pour Korhonen 2006 il s agit des chiffres pour le lexique 3 Syst me Nb verbes Pr cision Rappel F Mesure valu s type recall Brent 1993 0 96 0 60 Ushioda amp al 1993 33 0 86 Manning 1993 40 0 90 0 43 Briscoe amp Carroll 1997 14 0 66 0 35 Korhonen 2000 14 0 75 0 58 0 65 Korhonen 2006 183 0 76 0 63 0 69 Chesley amp 24 0 87 0 54 Salmon Alt 2006 token recall TABLE 4 3 Synth se des m thodes d acquisition automatique de SSC valuation les correspondent des donn es non disponibles pour Korhonen 2006 il s agit des chiffres pour le lexique 3 quisition automatique de SSC partir de corpus et les principales exp riences r alis es pour l anglais Nous avons enfin d crit les principaux tra vaux d acquisition existants pour le francais Si les m thodes utilis es pour les premi res tentatives d acquisition partir de corpus brut taient tr s vari es de nombreuses
242. s Dans Quaderns de Sintagma Universitat de Lleida 2000 Deepak Verma et Marina Meila A comparison of spectral clustering algo rithms Rapport technique Department of CSE University of Washington Seattle 2005 Andreas Vlachos Anna Korhonen et Zoubin Ghahramani Unsupervised and constrained dirichlet process mixture models for verb clustering Dans Proceedings of the Workshop on on GEMS pages 74 82 2009 Ulrike von Luxburg A tutorial on spectral clustering STAT COMPUT 17 395 416 2007 Piek Vossen EuroWordNet A Multilingual Database with Lexical Semantic Networks Kluwer Academic Publishers Dordrecht 1998 Wendy Wilkins diteur Thematic relations volume 21 Academic Press 1988 Be at Zapirain Eneko Agirre et Llu s M rquez Robustness and Genera lization of Role Sets PropBank vs VerbNet Dans Proceedings of ACL 2008 Lihi Zelnik Manor et Pietro Perona Self tuning spectral clustering NIPS 17 1601 1608 16 2004 Ce document a t pr par a l aide des diteurs de texte Geany et Kile et du logiciel de composition typographique ATEX 169 Titre Acquisition automatique de sch mas de sous cat gorisation a partir de corpus bruts R sum Cette th se de doctorat traite de l acquisition automatique d in formations lexicales partir de corpus Nous nous int ressons en particulier l acquisition de sch mas de sous cat gorisation de verbes pour le francais Nous avons mis au point u
243. s cat gorisation pour Chaque phrase faire pour Chaque verbe conjugu faire pour Chaque d pendant du verbe faire Cherche la fonction du compl ment a Cherche la cat gorie du compl ment b Cherche la t te du compl ment c fin Constitue le pr sch ma de sous cat gorisation pour l occurrence du verbe d fin fin Les quatre principales t ches de l algorithme d extraction de pr sch mas sont donc de rep rer dans l analyse syntaxique a la fonction syntaxique de chaque compl ment du verbe b leur cat gorie syntaxique c leur lemme t te et enfin d de constituer un pr SSC en exploitant ces informations Deux proc dures permettent d inf rer la fonction syntaxique et la cat go rie syntaxique de chacun des arguments Elles utilisent des regles de g n ra lisation qui d terminent la cat gorie et la fonction syntaxique de l argument en fonction des informations disponibles dans l analyse de surface relation du verbe au compl ment cat gorie morphosyntaxique du compl ment ou m me les lemmes des mots qui constituent ce compl ment Par exemple si l l ment r gi par le verbe par la relation OBJ est un nom la cat gorie du compl ment est SN et sa fonction est OBJ Toutefois dans bien des cas l as sociation entre l analyse de surface et les tiquettes de l argument dans le pr SSC n est pas aussi triviale Nous d taillons pr sent le fonctionnement de ces traitements Une proc dur
244. s cat gorisation SSC d un pr dicat d crivent la structure argumentale de ce pr dicat en termes syntaxiques Un SSC est donc compos d un pr dicat et d une combinaison possible d arguments pour ce pr dicat Ainsi l ensemble des SSC d un pr dicat repr sente les diff rents usages syntaxiques possibles de ce pr dicat Il existe trois repr sentations syntaxiques possibles des arguments La fonction d crit la relation syntaxique entre le verbe et l argument sujet objet direct objet indirect attribut du sujet etc La cat gorie syntaxique du syntagme constituant l argument exprime sa nature syntagme nominal syntagme pr positionnel syntagme ver bal etc La repr sentation mixte m le les deux repr sentations pr c dentes en associant la fonction de l argument sa cat gorie syntaxique sujet syntagme nominal objet direct syntagme verbal etc L exemple suivant illustre ces trois repr sentations le SSC sous forme r duite est donn entre crochetsf Fonctions Julie sy a donn un livre oy a Marc p ogy SUJ OBJ P OBJ Cat gories Julie sx a donn un livre sn a Marc sp SN SN SP Mixte Julie syy sn 4 donn un livre oy sN Marc p Osy SP A SUJ SN OBJ SN P OBJ SP Dans la phrase Julie a donn un livre a Marc Julie et un livre sont des syn tagmes nominaux mais le premier a la fonction sujet tandis que le deuxi me
245. s courantes C est notamment le cas d anglicismes ou d am ricanismes comme se baser sur ou de sol cismes comme pallier un probl me l inverse certains verbes tr s rares sont pr sents dans le Lexique Grammaire mais absents de toutes les autres ressources Par exemple on trouve dans le Lexique Grammaire le verbe torchecuter qui donne trois r sul tats tous li s au Lexique Grammaire lors d une requ te sur Google Le Lexique Grammaire n est pas limit la description des verbes simples les adjectifs et les substantifs pr dicatifs sont galement class s selon les m mes principes dans diff rentes tables Une selection des tables du Lexique Grammaire du fran ais 60 est mise dispositionff sous la licence LGPL LR Les tables du Lexique Grammaire ayant t cr es l poque o l utilisation d un tel type de ressources de mani re automatique n tait pas facilement r alisable bien des informations sont rest es implicites laissant le soin de d codage aux utilisateurs humains Le format utilis est par ailleurs difficilement ex ploitable directement et n cessite un transcodage Des travaux r cents ont tent de rendre les informations disponibles dans les tables du Lexique 6 http infolingu univ mlv fr 27 Chapitre 3 Les ressources existantes pour le fran ais 3 2 3 2 1 Ressource Lexique Grammaire M thode de d veloppement manuelle Nombre de verbes 15 000 5 0
246. s de l usage et des nuances de sens observ es Avec l augmentation de la taille du lexique il est relativement difficile de maintenir la coh rence de classification par tables Messiant et al 2009 Ainsi un m me emploi risque de se retrouver dans deux classes diff rentes Par exemple la s lection d une compl tive directe par le verbe savoir corres pond deux entr es la construction NOhum V Que P Luc sait que L a est Paris et la construction NOhum V par N2hum Que P Luc a su par Max que L a est Paris class e dans la table 10 Il nous semble qu il n y a ici pas lieu de distinguer deux sens du verbe savoir et de classer ces deux usages du verbe dans des tables diff rentes Par ailleurs les classes dites r siduelles marqu es par R comme 32R3 ont tendance regrouper tous les exemples qui n ob issent pas strictement des crit res de classification G n ralement les exemples accumul s dans cette classe attendent d tre reclass s dans d autres classes Seule l am liora tion continue du Lexique Grammaire all gera ce probl me Enfin le classement binaire du Lexique Grammaire une construction est dans le lexique ou en est absente ne permet pas de rendre compte de constructions limites en fran ais une construction l g rement douteuse vieillie ou l inverse pas encore stabilis e sera soit exclue totalement du dictionnaire soit mise au m me plan que les constructions les plu
247. s explications sur les informations fournies sont don n es dans le corps de la these au chapitre 5 section 5 2 2 page 60 Det le Les 1 DET 4 AdjJFP fameux fameuses 2 ADJ 4 Typo 3 Nom P erreur erreurs 4 DET 1 ADJ 2 PR Typo 5 Prep de de 6 PREP 4 NOMPREP 7 NomPrXXInc Sartre Sartre 7 NOMPREP 6 Typol 1 181 Pro il il 9 SUd 12 Pro le les 10 OBJ 12 Pro lui lui 11 PREP 12 EP 6 VCONJS reprocher reproche 12 SUJ 9 0BJ 10 PR CSublautant quelautant que 13 DetMP son ses 14 DET 15 Nom P adversaire adversaires 15 DET 14 Typol 1161 CCoord mais mais 17 Pro il il 18 SUd 21 Prolle les 19 0BJ 21 Pro lui lui 20 PREP 21 VCONJS reprocher reproche 21 SUJ 18 0 BJ 19 PRI EP 11 EP 20 PRI EP 22 NomPrXXInc Sartre Sartre 23 NOMPREP 22 CSub que qu 24 COMP 26 Proli1 i1 25 SUJ 26 Preplau nom delau nom du 22 PREP 21 NOMPREP 23 VCONJS aimer aime 26 COMP 24 S5UJ 25 0BJ 34 Typol 27 CCoord etl et 28 129 Annexe B Exemple d analyse syntaxique au format de Syntex ProRel qui qui Pro luill VCONJS re ul 30 mb 1 29 SUJ 31 PREP 31 ressemble Typol Det le ss 32 17 Nom S homme Adj seul Typol l Typo 33 hon seul SL nme 36 39 DET 34 34 0BJ 26 31
248. s informa tions disponibles dans le corpus et peut faire merger des sch mas nou veaux par rapport aux lexiques existants qui peuvent tre incomplets Elle 47 Chapitre 4 Les m thodes d acquisition automatique de sch mas de sous cat gorisation 4 2 4 43 n introduit pas de biais li des choix effectu s par les linguistes qui au raient constitu les lexiques dont serait issue la liste de SSC les sch mas qui apparaissent dans la ressource sont les sch mas pr sents dans le corpus l issue de cette tape le syst me a associ des SSC aux configurations identifi es plus haut pour notre exemple 1 Tout d abord jl affirme que gt SUJ SN OBJ COMPL 2 la De Beers n a jamais achet de diamants l Unita gt SUJ SN OBJ SN OBJ SP a Le syst me associe donc une construction compl tive SUJ SN OBJ COMPL affirmer et une construction ditransitive SUJ SN OBJ SN OBJ SP acheter soit en utilisant une liste de sch mas pr d finie soit en inf rant ces sch mas partir du corpus tape 4 correction d erreurs Certains des sch mas acquis lors de l tape pr c dente sont incorrects et une correction des erreurs est n cessaire pour obtenir la meilleure ressource possible Il s agit le plus souvent d un filtrage des entr es incorrectes c est dire d une s lection parmi les hypoth ses produites par l tape 3 par des m thodes statistiques
249. s pr traitements puis les trois modules qui composent notre syst me Le chapitre se termine par une discussion sur le syst me ASSCi 57 Chapitre 5 Description du syst me d acquisition de SSC pour le fran ais ARCHITECTURE GENERALE D ASSCI La plupart des syst mes d acquisition automatique partagent le m me mod le g n ral voir section 4 2 En effet quels que soient les choix effectu s par les concepteurs ces syst mes ont tous la m me vis e et il est possible d identifier les principales t ches qu ils doivent effectuer L architecture d ASSCi repose sur ce mod le global Nous rappelons ci dessous les quatre tapes principales de ce mod le 1 l identification des verbes en corpus 2 l identification des compl ments de ces verbes c est dire des confi gurations syntaxiques locales ou constructions locales 3 l association entre ces constructions locales et des sch mas de sous cat gorisation 4 la correction d erreurs via un filtrage qui permet de distinguer les SSC erron s des SSC corrects pour chaque verbe Nous avons montr dans le chapitre 4 qu il existe des variations quant la fa on dont ces t ches sont r alis es Pour ce qui concerne ASSCi l utilisa tion d outils pour le pr traitement des donn es permet de faciliter les deux premi res t ches De plus l tape 3 du sch ma global est effectu e sans l aide d une liste pr tablie de SSC ce qui permet de ne pas
250. script de transformation du format du lexique et un syst me de proposition de nouveaux SSC pour compl ter le lexique Filtrage du lexique Le filtrage de LEXSCHEM r alis par le troisi me module d ASSCi a pour objectif d optimiser l quilibre entre la pr cision et le rappel du lexique Toutefois selon l application vis e lexicalisation d un analyseur syntaxique classification verbale fusion des donn es avec d autres ressources etc les informations souhait es dans le lexique peuvent varier Par exemple un al gorithme d acquisition de classes verbales pourra tirer profit de sch mas contenant des modifieurs et sera peu sensible au bruit alors qu un analyseur syntaxique aura besoin de la structure argumentale stricto sensu Un script de filtrage de LExSCHEM inspir du module de filtrage d ASSCi et le lexique non filtr sont mis disposition de la communaut 18 Contrairement au verbe on dispose de peu de dictionnaires lectroniques de sous cat gorisation pour les noms et adjectifs pr dicatifs en fran ais m me si certaines des res sources pr sent es au chapitre 3 disposent de telles informations 108 6 4 3 6 4 Des outils pour le param trage des lexiques sur la page web de LEXSCHEM http www lipn univ paris13 fr messiant lexschem 1lexschem php 9 Le script fonctionne exactement de la m me mani re que le module de filtrage pr sent dans la section 5 4 3 La seule diff
251. se et on unifie les classes de verbes les plus similaires chaque it ration Cette m thode cr e des classes disjointes un verbe ne peut pas faire partie de deux classes ce qui ne permet pas de tenir compte de la polys mie de certains verbes mais facilite l interpr tation des classes obtenues L arr t de la classi fication d pend de la distance maximale entre les deux classes susceptibles d tre unifi es et de la cardinalit des classes ce qui permet la fois d viter l absorption de nombreux verbes par quelques classes et de ne pas faire de pr supposition sur le nombre de classes que l on obtient Afin d valuer les classes obtenues nous avons cr une classification de r f rence la main compos e de 171 verbes r partis dans 16 classes diff rentes Apr s plusieurs exp rimentations 20 des classes obtenues sont parfaitement homog nes et 43 comprennent un verbe incorrect au maxi mum Ces r sultats peuvent tre am lior s en exploitant plus d informations par exemple sur les t tes lexicales des arguments ou en sp cifiant les com posants s mantiques centraux des classes classification supervis e Exp rience 2 classification par regroupement spectral Nous avons r alis une autre tude de classification verbale partir des sorties d ASSCi Sun et al 2010 La m thode de regroupement utilis e est le regroupement spectral spec tral clustering suivant l algorithme MNCut Meil
252. se limiter aux seuls SSC connus et donc d acqu rir les informations contenues dans le corpus sans a priori Nous soulignerons ces sp cificit s tout au long de la descrip tion du syst me La figure 5 1 montre la chaine de traitement de notre syst me d acqui sition et ses diff rents modules ASSCi est constitu de quatre modules qui permettent d ex cuter en s rie les taches d crites ci dessus 1 pr traitements le corpus brut est lemmatis et annot par TREETAG GER puis analys par SYNTEX 2 extracteur de pr sch mas de sous cat gorisation pour chaque phrase on identifie les compl ments du des verbe s et on extrait les informations utiles pour constituer les SSC candidats constructions locales 3 constructeur de sch mas candidats on constitue un lexique de base en inf rant des SSC partir des pr sch mas observ s en corpus pour chaque verbe 4 filtre des SSC non pertinents on limine les sch mas incorrects par des m thodes statistiques l issue du processus d acquisition le syst me produit un lexique com pos de couples lemme verbal SSC ainsi que d informations statistiques et lexicales associ es ces couples la composition d taill e des entr es du lexique sera pr sent e dans la section 6 1 Les sp cificit s de chacun des mo dules d ASSCi sont pr sent es a la section 5 4 Nous pr sentons tout d abord les outils utilis s pour effectuer les pr traitements
253. se sont av r s inutiles PT paradigme de temps PT_PR pr position s fixe s du paradigme PT PQ paradigme de quantit PQ_ PR pr position s fixe s du paradigme PQ PP paradigme pr positionnel PP_PR pr position s fixe s du paradigme PP AE adjoint valuatif un v tement qui tombe bien PX paradigme sans proportionalit on l a lu pr sident TABLE 3 3 Paradigmes valenciels utilis s dans DicoValence source manuel d utilisation de DicoValence Le tableau 3 3 pr sente la liste des diff rents paradigmes valenciels utili s s dans DicoValence Un exemple d entr e de DicoValence pour le verbe accompagner est donn dans la figure Cette entr e l entr e 990 de DicoValence correspond au cadre PO P1 PL pour le verbe accompagner dans le sens de to accompany Ce SSC correspond a un emploi transitif ventuellement compl t d un com pl ment de lieu PL comme par exemple dans Luc a accompagn L a a Lyon Les champs PO P1 et PL donnent les diff rentes pronominalisations pos sibles de chacun des arguments Les cadres de valence attribu s au verbe accompagner sont donn s dans le tableau Des traductions en anglais et n erlandais champs TR_EN et TR_DU per mettent de distinguer des traductions diff rentes d un m me lemme verbal donc des sens diff rents la traduction permet de rep rer des entr es diff 11 Pour des informations sur les notions syntaxiques manipul es nous renvoyo
254. sed approach to SP acquisition using the method of Sun et Korhonen 2009 with the difference that we determine the optimal number of sp clusters automatically following Zelnik Manor et Perona 2004 148 F 2 5 F2 Article publi dans les actes de la conf rence CoLing en 2010 The method is introduced in the following subsection The approach involves i taking the Grs subj obj iobj associated with verbs ii extracting all the argument heads in these GRs and iii clustering the resulting N most frequent argument heads into M classes The empirically determined N 200 was used The method produced 40 sp clusters Clustering methods Spectral clustering SPEC has proved promising in previous verb cluste ring experiments Brew et Schulte im Walde 2002 Sun et Korhonen 2009 Chen and other similar NLP tasks involving high dimensional feature space et al Following 2009 we used the MNCut spectral clustering Meila et Shi 2001 which has a wide applicability and a clear pro babilistic interpretation von Luxburg 2007 Verma et Meila 2005 However we extended the method to determine the optimal number of clusters automa tically using the technique proposed by 2004 Clustering groups a given set of verbs V v _ into a disjoint parti tion of K classes SPEC takes a similarity matrix as input All our features can be viewed as probabilistic distributions because the combination of different
255. sentation de l analyse syntaxique Pour un aper u du format de SYNTEX voir S 8 En g n ral les l ments n ont qu un seul recteur 9 SYNTEX fournit galement la forme fl chie de l l ment 11 L ensemble des r sultats de SYNTEX la campagne EASY sont disponibles sur la page consacr e au logiciel http u3 erss untv t15e2 fr menbres bourigault syntex html On remarquera le diff rentiel de performance important entre SYNTEX et ses poursuivants en terme de pr cision sur les corpus crits lors de cette campagne d valuation 5 2 Pr traitements 1 le Det 2 fameux AdjFP 3 Typo 4 erreur Nom P 2 Typo 6 de Prep 7 Sartre NomPrXXInc 8 Typo o il Pro 10 le Pro 11 lui Pro 12 reprocher VCONJS 13 autant que CSub 14 son DetMP 15 adversaire Nom P 16 Typo 17 mais CCoord 18 il Pro 19 le Pro 20 lui Pro 21 reprocher VCONJS 22 aunomde Prep 23 Sartre NomPrXXInc 24 que CSub 25 il Pro 26 aimer VCONJS 27 Typo 28 et CCoord 29 qui ProRel 30 lui Pro 31 ressembler VCONJS 32 Typo 33 le Det 34 homme Nom 5 35 seul Adj 36 Typo 37 le Det 38 roquentin NomMS 39 Typo DET 4 ADJ 4 PREP 4 NOMPREP 6 SUJ 12 OBJ 12 PREP 12 DET 15 SUJ 21 OBJ 21 PREP 21 PREP 21 NOMPREP 22 SUJ 26 COMP 24 SUJ 31 PREP 31 DET 34 OBJ 26 ADJ 34 DET 38 FIGURE
256. ser de l analyse en d pendances l analyse en constituants on peut retrouver les groupes en suivant les relations recteurs r gis alors que la r ciproque est moins vidente on peut difficilement retrouver les relations recteurs r gis en ne disposant que des constituants Les principales relations syntaxiques reconnues par SYNTEX sont les sui vantes sujet compl ment d objet direct compl ment pr positionnel de 5 Le d veloppement de SyNTeEx fait suite celui de LEXTER analyseur d di au rep rage des syntagmes nominaux dans les corpus sp cialis s 62 5 2 Pr traitements reproche Il lui erreurs ses FIGURE 5 3 Analyse syntaxique en d pendances nom de verbe et d adjectif ant c dence relative i e ant c dent des pro noms relatifs modification adjectivale pith te attribut et subordination Chaque l ment de la phrase est annot par ses relations de recteur ou de r gi avec les autres l ments Pour annoter les l ments de la phrase SYNTEX applique diff rents mo dules de reconnaissance de relations syntaxiques en s rie chaque module prend en charge une relation syntaxique particuli re et l entr e de chaque module est la sortie du module qui le pr c de Cependant des retours en arri re sont possibles dans la chaine de traitement et un module peut rem placer l tiquette appos e par un module qui l a pr c d si n cessaire Ce fonctionnement rend malgr
257. sh studies have reported contradictory results e g showed that CO performs better than SCF in supervised verb classification indicating that the role of CO features in verb classification requires further investigation Looking at the LP features F13 produces the best F 52 7 for French which is slightly better than the best SCF result for the language Also in English F13 performs the best in this feature group and yields a higher result than the best SCF based feature F3 Parameterizing the best SCF feature F3 with LPs F14 16 and srs F17 yields better performance in French F15 and F17 have the F of 54 5 and 54 6 respectively These results are so close to the result of the best co feature F7 55 1 which is the highest result in this experiment that the differences are not statistically significant In English the results of F14 F17 are similarly good however only F17 beats the already high performance of F13 On the basis of this experiment it is difficult to tell whether shallow co features or more sophisticated SCF based features are better for French In the English experiment sophisticated features performed better and the SCF SP feature F17 was the best one However the English experiment employed a much larger dataset These more sophisticated features may suffer from data sparseness in our French experiment since although we required the minimum of 150 occurrences per verb in LexSchem verb clustering performance tends
258. sic information about SCFs F1 SCFs and their relative frequencies with individual verbs SCFs abstract over particles and prepositions F2 F1 with scrs parameterized for the tense the POS tag of the verb F3 F2 with sCFs parameterized for prepositions PP The following six features include information about the lexical context co occurrences of verbs We adopt the best method of 2008 where collocations COs are extracted from the window of words immediately preceding and following a lemmatized verb Stop words are removed prior to extraction F4 F6 F8 cos are extracted from the window of 4 6 and 8 words respecti vely The relative word position is ignored Fs F7 F9 F4 F6 and F8 with the relative word position recorded The next four features include information about lexical preferences LP of verbs in argument head positions of specific GRs associated with the verb F10 LP PREP the type and frequency of prepositions in the preposition PREP relation F11 LP SUBJ the type and frequency of nouns in the subject susy relation F12 LP IOBJ the type and frequency of nouns in the object OBJ and indirect object 1OBJ relation F13 LP ALL the combination of F10 F13 The final two features refine SCF features with LPs and semantic information about verb selectional preferences sP F14 F16 F1 F3 parameterized for LPs F17 F3 refined with srs We adopt a fully unsupervi
259. sifs c est dire des seuils moins lev s lors de l acquisition afin de faire merger un plus grand nombre de constructions Le fait de privil gier le rappel sur la pr cision est une bonne solution lorsque l on est assur d une validation manuelle de la ressource a posteriori C est pourquoi nous avons rendu disponibles une version non filtr e de LEXSCHEM et un programme de filtrage autonome voir section 6 4 1 16 nttp www lipn univ paris13 fr messiant lexschem html 106 6 3 2 6 3 Adaptabilit des m thodes d acquisition automatique En tous cas l acquisition automatique de SSC peut fournir une base de travail int ressante pour les linguistes cherchant a batir des ressources sp cialis es en leur permettant de se concentrer sur les cas difficiles ou peu fr quents Acquisition de SSC de pr dicats non verbaux Les m thodes d acquisition automatique de ressources lexicales per mettent galement d acqu rir facilement des ressources pour d autres types de pr dicats Par exemple Judita ont utilis le syst me d acquisition de SSC de Cambridge pour acqu rir les SSC des adjectifs et des noms pr dicatifs en anglais A l image des tudes concernant les domaines de sp cialit la faible disponibilit de ressources de sous cat gorisation pour les pr dicats non verbaux justifie les exp riences de ce type L adaptation d un syst me comme ASSCi un autre type de pr dicats es
260. sition subordonn e ATTS attribut du sujet SA syntagme adjectival SN syntagme nominal SINF syntagme infinitif ATTO attribut de l objet SA syntagme adjectival A OBJ objet indirect r gi par SP lt SN gt syntagme pr positionnel a SP lt a SINF gt syntagme pr positionnel DE OB objet indirect r gi par SP lt de SN gt syntagme pr positionnel de SP lt de SINF gt syntagme pr positionnel P OBJ objet indirect r gi par SP lt prep SN gt syntagme pr positionnel la pr position prep SP lt prep SINF gt syntagme pr positionnel TABLE 5 3 Cas trait s par ASSCi et au nom du Sartre qu il aime Par exemple le module asso cie P OBJ SP lt au nom de SN gt Sartre au compl ment au nom du Sartre qu il aime Il s agit d un compl ment pr positionnel r gi par au nom de suivi d un syntagme nominal dont la t te nominale est Sartre Un pr SSC est donc constitu du verbe l infinitif et de la liste de ses compl ments cette tape l ordre des compl ments n a pas d importance Pour chaque compl ment le module fournit le lemme de la t te sa cat gorie morphosyntaxique et sa fonction syntaxique L extracteur associe l un des couples fonction et cat gorie d tiquettes pr sent s dans le tableau chacun des compl ments du verbe De plus les phrases reconnues par SYNTEX comme tant la forme pas sive sont marqu es par l ajout du code PASSIF la liste des compl ments
261. sp cifique Les sch mas de sous cat gorisation les plus sp cifiques aux classes donneront une id e des alternances qui caract risent les classes s mantiques de verbes fran ais Le recours d autres traits notamment des informations quant aux restrictions de s lection permettrait d obtenir des classes diff rentes et sans doute plus pr cises que celles obtenues en l tat 143 Annexe F Articles portant sur l acquisition de classes verbales F2 F 2 1 ARTICLE PUBLI DANS LES ACTES DE LA CONF RENCE Co LING EN 2010 Cette section reproduit l article Lin Sun Thierry Poibeau Anna Korhonen and C dric Messiant Investiga ting the cross linguistic potential of VerbNet style classification In Procee dings of CoLing 2010 Introduction A number of verb classifications have been built to support natural lan guage processing NLP tasks include both syntactic and semantic classifications as well as ones which inte grate aspects of both Classifications which integrate a wide range of linguistic properties can be particularly useful for NLP applications suffering from data sparseness One such classification is VerbNet Kipper Schuler 2005 Building on the well known taxonomy of 1993 VerbNet groups verbs e g deliver post dispatch into classes e g SEND on the basis of their shared meaning components and morpho syntactic behaviour identified in terms of meaning preserving or extending syntactic
262. stance et de la cardinalit maximales ont t tablies individuellement pour chaque mesure de distance lors des ex cutions de test Evaluation S Schulte im Walde Schulte im Waldel 2009 propose deux approches diff rentes pour valuer une classification automatique 1 mesurer la coh rence l int rieur des groupes de verbes obtenus par une mesure de similarit ind pendante de celle utilis e pour la t che de classification m me 2 comparer le r sultat une classification manuelle de r f rence Dans le cadre de notre exp rimentation nous visons confirmer l hypo th se qu il existe un lien entre le comportement syntaxique des verbes et leurs propri t s s mantiques Il ne suffit donc pas de d montrer que notre algo rithme arrive mod liser correctement les similarit s distributionnelles entre les verbes c est la coh rence s mantique des classes qui doit tre examin e par comparaison la r f rence Pour ce faire nous avons cr la main une classification dite de r f rence La r f rence est compos e de 176 verbes class s dans 16 classes diff rentes qui ont d abord t d finies partir de la classification de Levin par traduction des verbes anglais Pour assurer l homog n it des classes fran aises et une certaine coh rence par rapport au travail de Levin nous avons 141 Annexe F Articles portant sur l acquisition de classes verbales v rifi
263. style pour le fran ais au d but de nos travaux il contient 9 8 millions de s quences chaque s quence peut contenir une ou plusieurs phrases soit 200 millions de mots L utilisation d un corpus journalistique garantit une certaine h t rog n it des th mes abord s et des constructions syntaxiques utilis es du fait de la vari t des auteurs les citations pr sentes dans les articles etc Les trois phrases suivantes extraites du corpus montrent bien la vari t des th mes abord s et des constructions observables dans Le Monde ainsi que la complexit des phrases du corpus Le march de New York ne c de plus la panique le 2 janvier en fin de s ance les cours du brut avaient s rieusement rechut perdant 2 dollars par baril Le sida leur bouffe la vie Impossible de ne pas y penser De son c t le porte parole du RPR Patrick Devedjian a d clar que les communiqu s d autosatisfaction les communiqu s sur les lendemains qui chantent les Fran ais commencent s en fatiguer car les imp ts il y en a trop Le corpus utilis a t normalis et nettoy gr ce des scripts d velopp s par Benoit Habert afin d viter par exemple que les titres soient coll s au corps des articles etc Ces traitements permettent notamment de limiter le nombre d erreurs dues une mauvaise segmentation La distribution des verbes dans le corpus est repr sent e sur une chelle
264. suite possible de rep rer des r gularit s de comportement et donc d inf rer des connais sances sur les constructions possibles du verbe c est dire le nombre et la 2 Sur toutes ces questions voir le site S manticlop die http www semantique gdr net dico 3 Computational Natural Language Learning 1 1 Domaine et motivations nature syntaxique des arguments ce que l on appelle ici sch ma de sous cat gorisation abr g en SSC Ces constructions sont associ es en vrac aux lemmes verbaux comme nous l avons mentionn supra l tat de l art est encore insuffisant cf chapitre 4 pour aller au del faute notamment de techniques de d sambigu sation s mantique suffisamment efficaces L infor mation rep r e est donc partielle et n cessite un travail manuel de tri et de validation cf chapitre 6 L hypoth se d une corr lation entre classes syntaxiques et classes s man tiques a t pos e a plusieurs reprises notamment dans les travaux du LADL d s les ann es 1970 Borillo pour les verbes sym triques pour les verbes psychologiques ou 1976 pour les verbes lo catifs Nous nous inspirons en outre ici de Beth Levin qui a propos de repr senter le sens des verbes par le recours 4 des composants s mantiques Levin 1993 Levin et Rappaport Hovav 2005 C est en partant de cette no tion que Levin arrive a fournir une description syst matique des alternances Elle pr sume que ch
265. sults suggest that when 2000 or more occur rences per verb are used most features perform like they performed for English in the experiment of Sun et Korhonen 2009 with CO being the least infor mative and SCF SP being the most informative feature The only exception is the LP feature which performed relatively better than co in English SPEC K MEANS English BL 6 7 6 7 6 7 F1 SCF 42 4 39 3 57 8 F2 scr pos 45 9 40 3 46 7 F3 scr PP 50 6 36 9 63 3 F4 co 4 50 3 38 2 40 9 Fs co 4 loc 48 8 26 3 F6 co 6 52 7 29 2 F7 co 6 loc 55 1 33 8 F8 co 8 54 2 36 4 Fg co 8 loc 54 6 37 2 F10 LP PREP 35 5 32 8 49 0 F11 LP SUBJ 33 7 23 6 F12 LP OBJ 50 1 33 3 F13 LP ALL 52 7 40 1 74 6 F14 SCF LP SUBJ 50 3 40 1 71 7 F15 SCF LP OBJ 54 5 35 6 74 0 F16 SCF LP SUBJ OBJ 53 4 36 2 73 0 F17 SCF SP 54 6 39 8 80 4 TABLE F2 Results for all the features for French SPEC and K means and English SPEC THR Verbs Cls F3 F7 F13 F17 o 147 15 43 7 57 5 43 3 50 1 50 137 15 47 9 56 1 44 8 49 1 100 125 15 49 2 54 3 44 8 49 5 150 116 15 50 6 55 1 52 7 54 6 200 110 15 54 9 52 9 49 7 52 5 400 96 15 52 7 52 9 43 9 53 2 1000 71 15 51 4 54 0 44 8 54 5 2000 59 12 52 3 45 9 42 7 53 5 3000 51 12 55 7 49 0 46 8 59 2 4000 43 10 60 5 53 4 51 0 65 4
266. sur la fr quence d usage tir e d informations issues du Web Les principes de base sont ceux de grammaire en chaine 1979 Un accent important est mis sur la formalisation des donn es le lexique ayant vocation a tre utilis par des applications de TAL Le dictionnaire comprend les entr es de 975 verbes parmi les plus fr quemment utilis s du fran ais L objectif du projet terme est de r unir les entr es de plus de 6 000 verbes tant donn l ampleur de la t che les constructions verbe support les constructions verbales fi g es et les collocations sont exclues du lexique Diverses ressources sont utilis es pour constituer LexValf le Lexique Grammaire 1975 des dictionnaires usuels Grand Robert Petit Robert ou le Tr sor de la Langue Fran aise ou encore Les Verbes Fran ais Dubois et Dubois Charlier 1997 Ce lexique n est pas disponible pour l instant Tr sor de la Langue Fran aise informatis Le Tr sor de la Langue Fran aise informatis TLFI est la version in formatis e du Tr sor de la Langue Fran aise 2003 Il s agit du plus grand dictionnaire de langue fran aise en 16 volumes r alis par l Institut National de la Langue Fran aise INaLF entre le d but des ann es 1960 et le milieu des ann es 1990 Initialement con u pour tre dit uniquement sous forme papier ce dictionnaire est d sormais diffus sur In ternet M me si cette ressource est parfois employ e comme u
267. t BJ SN P OBJ SP lt devant SN gt 4926 4882 4864 4796 4742 3923 3242 3114 2732 1942 1787 1765 1446 1396 1297 1248 1157 966 907 858 809 722 684 627 593 484 399 335 333 306 257 233 211 201 180 152 137 100 77 73 72 48 47 28 24 16 16 14 12 10 138 Ex ARTICLES PORTANT SUR L ACQUISITION DE CLASSES VERBALES Comme nous n avons pas d velopp nous m me les algorithmes de clas sification nous donnons en annexe le texte des exp riences faites en com mun avec Kata Gabor d une part et l quipe de Cambridge d autre part Une pr sentation de ces exp riences et une discussion des r sultats figure dans le chapitre 7 de la th se EXTRAIT DE L ARTICLE PUBLIE DANS LA REVUE TAL EN 2010 Cette section est un extrait de l article C dric Messiant Kata G bor et Thierry Poibeau Acquisition de connais sances lexicales a partir de corpus la sous cat gorisation verbale en frangais Traitement Automatique des Langues 2010 M thode Dans le cadre de cette exp rimentation nous nous sommes int ress s la classification automatique de verbes francais en classes lexico s mantiques Pour ce faire nous partons de l hypoth se qu il est possible de produire ce type d information par des m thodes statistiques appliqu es des donn es syn taxiques L hypoth se est fond e sur l observation qu il existe une corr lation entre les propri t s s
268. t plus co teuse que son utilisation sur un corpus de sp cialit Il reste n an moins beaucoup plus simple et rapide d acqu rir automatiquement des SSC pour les noms pr dicatifs ou les adjectifs que de d velopper une ressource la main ex nihilo si on consid re les travaux ant rieurs de construction de dictionnaires La qualit de la ressource acquise automatiquement d pend ici aussi tout autant de la taille du corpus utilis que du temps et de l atten tion attribu s aux r glages du syst me et la validation de la ressource Nous avons r alis une premi re exp rience d acquisition automatique de SSC pour des noms pr dicatifs en effectuant quelques modifications dans notre syst me l objectif est de rep rer les constructions dans le corpus qui correspondent aux occurrences des noms pr dicatifs L architecture du sys teme ainsi que l impl mentation des modules ont t tr s peu modifi es nous avons par exemple utilis la m me liste d tiquettes pour les compl ments pour cette exp rience pr liminaire qui avait pour objectif d explorer la faisabilit de l acquisition automatique de SSC de noms pr dicatifs en fran ais Cette exp rience faisait suite la demande de linguistes dont le th me de recherche est la nominalisation par exemple le verbe annuler se nominalise en annulation Le corpus que nous avons utilis pour cette exp rience est le corpus journalistique LM10 voir section 6 1 1 La princi
269. t une pr position il faut chercher quelle est cette pr position puis identifier le type de syntagme nominal ou infinitif qui suit cette pr position pour obtenir une cat gorie de la forme SP lt a SINF gt Dans l exemple le compl ment du verbe repro cher d identifiant 22 et dont la fonction est P 0BJ correspond l l ment aunomde 22 au nom de Prep PREP 21 NOMPREP 23 Cet l ment est une pr position qui r git l l ment 23 de l analyse SYNTEX tra vers la relation NOMPREP Cet l ment Sartre est un nom et la cat gorie du compl ment est donc SP lt au nom de SN gt Le module reconna t les cat gories suivantes Syntagmes nominaux si la t te du compl ment est un nom un sub stantif ou certains pronoms Syntagmes infinitifs si la t te du compl ment est un verbe l infinitif Syntagmes pr positionnels si la t te du compl ment est une pr po sition ou certains pronoms et pronoms relatifs Dans ce cas le module 71 Chapitre 5 Description du syst me d acquisition de SSC pour le fran ais cherche quelle est cette pr position et quel syntagme suit cette pr po sition Syntagmes adjectivaux si la t te du compl ment est un adjectif ou un participe pass ou pr sent adjectif verbal Propositions subordonn es si la t te du compl ment est une conjonc tion de subordination Forme pronominale si la t te du compl ment est un pronom r fl chi o
270. t absentes de DicoVALENCE EASY c est notamment le cas des compl ments infinitifs in troduits par une pr position P 0BJ SP lt prep SINF gt qui sont syst mati quement marqu s OBJ SINF ou des propositions subordonn es Un article r cent de Piet Mertens confirme notre observation Nous utiliserons donc DICOVALENCE EASY des fins de comparaison mais avec prudence Dans le cas de DICOVALENCE l valuation manuelle des r sultats pour la quelle nous avons utilis la ressource originale voir section est donc indissociable de la comparaison quantitative pr sent e ici Conversion de LexSchem Pour effectuer la comparaison des lexiques il a fallu trouver un for mat commun conservant au mieux les informations originales mais du fait des choix de descriptions variables d un lexique l autre la transfor mation ne peut tre compl tement neutre Le format retenu est proche du format EASy du fait que les versions de TREELEX et de DICOVALENCE utilis es sont d ja encod es dans ce format Les compl ments pr position nels y sont r duits trois cat gories A OBJ SP lt SN SINF gt compl ments en DE OBJ SP lt de SN SINF gt compl ments en de et P OBJ SP lt prep SN SINF gt les compl ments gouvern s par toutes 7 Les lexiques au format EASy peuvent tre trouv s l adresse suivante talc loria fr Tous les lexiques mentionn s ici ont t consult s en ligne le 20 f vri
271. t de vue th orique l tude de ces classes permet de se pencher sur la question de l interface syntaxe s mantique En effet les travaux de Levin sur l anglais tout comme ceux de Gross sur le fran ais tendent montrer que des verbes partageant des comporte ments syntaxiques similaires peuvent souvent former des classes homo g nes sur le plan s mantique a constitu des classes de verbes sur la base des alternances qu ils partagent si des verbes n ont pas les m mes alternances ils n appartiennent pas la m me classe Ensuite Levin a tent d interpr ter les classes obtenues en cherchant quels en sont les l ments s mantiques discriminants par exemple dans le cas des verbes break et hit il s agit du changement d tat du patient Toutefois ce lien entre syn taxe et s mantique n est pas parfait C est pourquoi l exploration de classes 114 7 2 7 2 Travaux ant rieurs acquises sur la base de comportements syntaxiques est int ressant pour ten ter de mieux d limiter cette interfacel Au niveau applicatif les classes verbales peuvent notamment tre utili s es par des syst mes question r ponse de traduction automatique d ti quetage en r les s mantiques ou d extraction d information Swier et Ste 2008 Nous avons galement vu que des classes de ce type sont utiles pour am liorer les performances des syst mes d acquisition de SSC en per mettant de compenser un manque d information
272. temes de traitement de la langue En effet les applications de traite ment automatique des langues reposent de plus en plus sur des ressources lexicales Or les ressources disponibles concernent le plus souvent la langue g n rale et les ressources sp cialis es sont pour l instant peu dis ponibles Il est difficile de d finir les concepts de langue g n rale et de langue de sp cialit Ces notions sont discut es et leurs fronti res sont floues partir de quand une langue est suffisamment sp cifique pour tre consid r e comme sp cialis e et m ritant un traitement particulier d faut d tre capables de d finir des r gles pour r pondre cette ques tion nous pensons que certaines langues professionnelles ou techniques sont 104 6 3 Adaptabilit des m thodes d acquisition automatique tr s sp cifiques et peuvent tre tudi es en tant que langues de sp cia lit C est notamment le cas des domaines juridiques et m dicaux souvent tudi s dans les laboratoires de linguistique A titre d exemple nous avons choisi le corpus LM10 pour son h t rog n it mais on ne peut pas consi d rer que ce corpus journalistique couvre toute la langue g n rale comme nous l avons montr la section avec l absence de constructions re latives a l utilisation du verbe accompagner dans un contexte culinaire La construction manuelle de nouvelles ressources sp cialis es est c
273. ter prendre saisir r server conserver gar der pr server maintenir retenir louer affr ter 18 1 HIT cogner heurter battre frapper fouetter taper rosser brutaliser reinter maltraiter corriger 22 2 AMALGAMATE incorporer associer r unir m langer m ler unir assembler combiner lier fusionner 29 2 CHARACTERIZE appr hender concevoir consid rer d crire d finir d peindre d signer envisager identifier montrer percevoir repr senter ressentir 30 3 PEER regarder couter examiner consid rer voir scruter d visager 31 1 AMUSE abattre accabler briser d primer consterner an antir puiser ext nuer craser ennuyer reinter inonder 36 1 CORRESPOND coop rer participer collaborer concourir contribuer prendre part s associer travaille 37 3 MANNER OF SPEA r ler gronder crier ronchonner grogner bou KING gonner maugr er rousp ter grommeler lar moyer g mir geindre hurler gueuler brailler chuchoter 37 7 SAY dire r v ler d clarer signaler indiquer mon trer annoncer r pondre affirmer certifier r pli quer 43 1 LIGHT EMISSION briller tinceler flamboyer luire resplendir p tiller rutiler rayonner scintiller 45 4 CHANGE OF STATE m langer fusionner consolider renforcer forti fier adoucir polir att nuer temp rer p trir fa conner former 473 MODES OF BEING trembler fr mir osciller vaciller vibrer tres s
274. ter Dirix et al diteur Proceedings of the 17th Meeting of Computational Linguistics in the Netherlands CLIN pages 175 190 University of Leuven Leuven Belgium 2007 Jacques Dendien et Jean Marie Pierrel Le tr sor de la langue frangaise in formatis un exemple d informatisation d un dictionnaire de langue de r f rence Traitement Automatique des Langues 44 2 2003 David Dowty Thematic proto roles and argument selection Language 67 3 547 619 1991 Jean Dubois et Francoise Dubois Charlier Les verbes francais Larousse Paris 1997 Mireille Ducass et S bastien Ferr Aide a la d cision multicrit re coh rence et quit grace l analyse de concepts Dans Mod les et Apprentissage en Sciences Humaines et Sociales 2009 C cile Fabre et Didier Bourigault Exploiter des corpus annot s syntaxique ment pour observer le continuum entre arguments et circonstants Journal of French Language Studies 18 1 87 102 2008 Ingrid Falk Cr ation automatique de classes s mantiques verbales pour le francais M moire de Master LORIA Nancy 2008 Christiane Fellbaum diteur WordNet An Electronic Lexical Database Lan guage Speech and Communication MIT Press Cambrige MA May 1998 Eva Esteve Ferrer Towards a semantic classification of spanish verbs based on subcategorisation information Dans Proceedings of ACL Student Research Workshop 2004 Charles J Fillmore The grammar of hitt
275. tes composantes des sch mas pr dicatifs David Dowty propose quant lui de n utiliser que deux grands types de r les qu il appelle proto agent et proto patient et donne une liste des propri t s qui caract risent ces deux types Par exemple le proto agent provoque un v nement ou le changement d tat d un autre participant tandis que le proto patient subit un changement d tat et ou est affect par un autre participant 14a Jean ouvre la porte 14b La clef ouvre la porte 14c Le vent ouvre la porte Pour les classifications en r les th matiques classiques Jean est agent dans 14a et La clef est instrument dans 14b Or les trois l ments en position sujet jouent le m me r le s mantique par rapport au verbe Pour Dowty Jean La clef et Le vent sont tous proto agent tandis que la vitre est proto patient Les r les th matiques d crivent les relations s mantiques entre le pr di cat et ses arguments ou entre les arguments eux m mes mais pas des pro pri t s intrins ques des arguments Restrictions de s lection sur les arguments En plus d informations syntaxiques sous cat gorisation et des r les th matiques il est possible de d crire des restrictions de s lection sur les argu ments d un pr dicat Les restrictions de s lection sont des propri t s qui permettent de restreindre au niveau s mantique le type de nom accept par un argument Par exemple le premier argument du ver
276. that at least some of the current errors are due to parsing Future research should therefore investigate the source of error at different stages of processing In the future it would also be interesting to investigate whether perfor mance on French can be further enhanced by language specific tuning e g by experimenting with language specific features such as auxiliary classes Methodology similar to ours has yielded promising results on semantic verb classification in German and Japanese 2009 However these studies have not focussed on Levin style classes and have not explored cross linguistic transfer The works most related to ours are those of and Ferrer 2004 Our results contrast with those of Ferrer who showed that a clustering approach does not transfer well from English to Spanish However her experiment used basic SCF and named entity features only and a clustering algorithm less suitable for high dimensional data Like us created a gold standard by translating Levin classes to another language Italian They also applied a classification ap proach developed for English to Italian and reported good overall performance using features developed for English Although the experiment was very small 154 F2 Article publi dans les actes de la conf rence CoLing en 2010 in scale involving three classes and a few features only and although it invol ved a use of a supervised classification technique the results are
277. tion de lexiques Construction pronominale r fl chie lorsque le sujet exerce une action sur lui m me Marie se l ve Construction pronominale r ciproque lorsque les sujets exercent une action chacun sur chacun des autres Ses enfants se sont pr sent leurs excuses Construction pronominale subjective lorsque le pronom est incorpor au verbe Un d tenu s est vad de la prison de Reims Construction pronominale passive lorsque le sujet subit l action mais J que l agent n est en g n ral pas indiqu Les feuilles mortes se ra massent la pelle Il existe des verbes qui admettent plusieurs constructions pronominales Par exemple s apercevoir 23a Jean s aper oit dans le miroir construction pronominale r fl chie 23b Ils s apercoivent sur la place construction pronominale r ci proque 23c On s est apercu que le virus gagnait du terrain construction pro nominale subjective 23c La montagne s apercoit de loin construction pronominale pas sive Les ambiguit s sont alors difficiles 4 lever automatiquement En effet il semble impossible de diff rencier tous ces cas en se basant uniquement sur des indices de surface Seules des connaissances s mantiques nous per mettent de faire la diff rence entre les diff rentes formes de constructions pronominales Cette multiplicit de cas pour les formes pronominales pose la question de leur place dans un lexique est c
278. tiseur remplace les paires mot tiquette par des paires lemme tiquette en fonction des parties du discours as soci es aux l ments par l tiqueteur 2 Identification des compl ments et des constructions locales un analy seur syntaxique probabiliste non lexicalis RASP Robust Accurate Sta tistical Parsing entrain sur un corpus arbor produit des analyses syntaxiques hierarchis es en constituants pour chaque phrase roll et Briscoe 1996 Ensuite un extracteur de patrons extrait des patrons de sous cat gorisation c est dire des constructions locales incluant les cat gories syntaxiques et les lemmes des t tes des constituants a partir des analyses syntaxiques de chaque phrase 3 Association entre ces patrons de sous cat gorisation locaux et des SSC un classifieur de patrons assigne des SSC aux patrons extraits ou les d clare inclassifiables en se basant sur les caract ristiques des cat gories syntaxiques et des lemmes des t tes des constituants Le syst me uti lise une liste de sch mas constitu e en combinant des dictionnaires de sous cat gorisation existants pour l anglais ANLT et COMLEX Nous avons d j voqu le fait qu une telle liste peut augmenter la pr cision du syst me mais qu elle risque de r duire son rappel en ne lui per mettant pas d acqu rir des informations pr sentes dans le corpus mais absentes des dictionnaires utilis s pour constituer la liste 4 Filtrage des er
279. to improve when more data is available and given the fine grained nature of LexShem scfs it is likely that more data is required for optimal performance We therefore performed another experiment with French on the full set of 147 verbs using SPEC where we investigated the effect of instance filtering on the performance of the best features from each feature group F3 F7 4 Note that the results for the two languages are not mutually comparable due to diffe rences in test sets data sizes and feature extraction systems see Section 8 for discussion The results for English are included so that we can compare the relative performance of individual features in the two languages in question 151 Annexe F Articles portant sur l acquisition de classes verbales F13 and F17 The results shown in Table F 3 reveal that the performance of the features remains fairly similar until the instance threshold of 1000 When 2000 occurrences per verb are used the differences become clearer until at the threshold of 4000 it is obvious that the most sophisticated SCF SP feature F17 is by far the best feature for French 65 4 F and the SCF feature F3 the second best 60 5 F The co feature F7 and the LP feature F13 are not nearly as good 53 4 and 51 0 F Although the results at different thresholds are not comparable due to the different number of verbs and classes see columns 2 3 the results for features at the same threshold are Those re
280. trins que et en soulignant les probl mes pos s par les m thodes d valuation g n ralement utilis es Nous pr sen tons ensuite un sch ma global que semblent partager ces m thodes Le reste du chapitre fait l tat de l art des travaux existants nous pr sentons d abord les principaux travaux r alis s depuis le d but des ann es 90 puis les tudes existantes sur la langue fran aise Dans le chapitre 4 Acquisition de sch mas de sous cat gorisation pour le fran ais nous d crivons le syst me d acquisition automatique de sch mas de sous cat gorisation de verbes partir de corpus brut que nous avons d velopp pour le fran ais Apr s une pr sentation des outils d analyse mor phosyntaxique et d analyse syntaxique de surface utilis s par notre syst me nous nous int ressons aux diff rents modules qui composent ce syst me d acquisition Nous continuons dans le cinqui me chapitre Utilisation et valuation des m thodes d acquisition automatique de SSC par une tude de l utili sation qui peut tre faite des m thodes d aquisition et des ressources qui en r sultent Une premi re exp rience permet d acqu rir un lexique de sous cat gorisation large couverture pour le fran ais L valuation de cette res source montre les limites de l approche mais aussi ses avantages par rapport aux dictionnaires construits manuellement Nous mettons en vidence l int r t de ces m thodes dans une deuxi me exp
281. tudes r centes uti lisent le m me mod le En effet la disponibilit et la qualit des tiqueteurs morpho syntaxiques et des analyseurs syntaxiques simplifient les premi res tapes identification des verbes extraction des arguments etc A nsi les travaux r cents se concentrent plut t sur l acquisition des sch mas propre ment parler et le filtrage des entr es non pertinentes notamment en raison de la distinction argument modifieur Le syst me d acquistion automatique de SSC pour les verbes fran ais pr sent au chapitre suivant s inscrit dans la lign e de ces travaux 56 DESCRIPTION DU SYSTEME D ACQUISITION DE SCHEMAS DE SOUS CATEGORISATION POUR LE FRANCAIS Ne l avons vu dans le chapitre pr c dent il existe peu de travaux concernant l acquisition automatique de SSCs pour le fran ais par tir de corpus Pourtant les outils de TAL comme les analyseurs syntaxiques ont de plus en plus besoin de ce type de ressources En outre l tude des SSC obtenus par de telles m thodes et leur comparaison avec les lexiques exis tants peut tre tr s int ressante mais a t relativement peu abord e dans la litt rature Nous pr sentons dans ce chapitre notre syst me d acquisition de sch mas de sous cat gorisation ASSCi Acquisition de sch mas de sous cat gorisation informatis e Apr s une pr sentation de l architecture glo bale d ASSCi nous pr sentons les deux outils utilis s pour effectuer le
282. u en est il aujourd hui des int r ts des copropri taires qui ont achet entre 1986 et 1989 des appartements non autoris s la construction et d truits en 1989 par le FLNC Ces erreurs sont comment es plus en d tail dans la section Un extrait plus large de LEXSCHEM est donn en annexe D Une interface web de consultation du lexique Une interface de consultation a t d velopp e en PHP MySQL et mise en lignef Elle permet de consulter les entr es de LEXSCHEM correspondant un verbe ou un SSC On peut donc avoir un aper u de tous les SSC cor respondant un verbe donn ou de tous les verbes qui acceptent un sch ma donn Pour chaque entr e consult e l interface pr sente son nombre d oc currences sa fr quence relative ainsi que 5 exemples extraits du corpus Il est galement possible de consulter les analyses SYNTEX correspondant aux exemples ce qui permet d avoir une meilleure visibilit sur l origine des erreurs La premiere page de l interface propose l utilisateur de choisir un verbe ou un SSC parmi deux listes d roulantes voir figure 6 2 Selon le choix fait par l utilisateur l interface propose la liste des SSC correspondant au verbe choisi voir figurel6 3 ou la liste des verbes qui acceptent le SSC choisi L uti lisateur est invit choisir un SSC un verbe pour consulter les informations correspondantes ce choix figures 6 4 et 6 5 6 http ww lipn univ paris13 fr messia
283. u processus d acquisition difficult de la distinction argument modifieur Enfin il n y a pas dans ces ressources d entr es lexicales au sens d fini la section En effet il est difficile de distinguer diff rents sens pour un m me verbe l aide de m thodes automatiques LEXSCHEM est une ressource acquise automatiquement Une valuation du lexique est donc n cessaire afin d identifier ses lacunes et de proposer des solutions quand cela est possible L valuation permet galement de donner un aper u de la qualit de la ressource et du syst me d acquisition aux utilisateurs potentiels Nous comparons tout d abord LEXSCHEM d autres lexiques du fran ais avant d examiner plus en d tail la nature des informations qu il contient et l importance du type de corpus utilis lors de l acquisition Nous proposons enfin une typologie des erreurs du syst me valuation quantitative comparaison avec d autres ressources La mani re la plus classique d valuer une ressource acquise automa tiquement est de la comparer d autres ressources Il s agit de l approche g n ralement adopt e par exemple par 2007 Ressources utilis es et format commun Nous sommes partis de deux lexiques de sous cat gorisation pour le fran ais TREELEx Kups et Abeill et DICOVALENCE van den Eynde 2006 choisis pour leurs sp cificit s et leur disponibilit Nous avons pr sent ces ressources dans le chapitre let nous
284. u r ciproque Comme nous l avons d j vu les compl ments adverbiaux sont ignor s par le syst me en raison de la faible fr quence des compl ments adverbiaux essentiels et de la difficult les rep rer automatiquement partir d analyses de surface Des programmes sont charg s de traiter les cas plus complexes comme les conjonctions de coordination les pronoms et les pronoms relatifs Nous prendrons ici l exemple du traitement des conjonctions de coordination qui n cessitent un traitement sp cifique Xa Bernard Kouchner qui dirige la mission de l ONU au Kosovo t moigne de cette tr s grosse erreur ou de cette manipulation Par exemple dans la phrase Xa le verbe t moigner a pour compl ment de cette tr s grosse erreur ou de cette manipulation Les deux compl ments pr positionnels en de sont reli s par la conjonction de coordination ou qui est r gie par le verbe La recherche des compl ments reli s par une conjonction de coordination n est pas triviale car l annotation des cas de coordination par SYNTEX est plus ou moins pr cise selon la complexit de la phrase Si la t te du compl ment dont on cherche acqu rir la fonction et la cat gorie est une conjonction de coordination il faut donc diff rencier les cas suivants La cat gorie du compl ment est cod e dans l tiquette de la conjonction de coordination au sein de l analyse SYNTEX Par exemple dans leur environnement conom
285. uellement rend cette t che de normalisation ardue et co teuse Il faut donc consid rer avec prudence l valuation quantitative des res sources par le calcul de la pr cision du rappel et de la F mesure et s int res ser galement une valuation plus qualitative des lexiques valuation intrins que valuation qualitative Pour valuer la qualit d une ressource on peut galement demander des valuateurs humains d examiner ses entr es et de v rifier qu elles cor respondent bien des sch mas de sous cat gorisation corrects Pour faciliter la t che des valuateurs il est possible d utiliser des lexiques existants ou d observer les usages en corpus afin de v rifier s ils correspondent bien l entr e concern e L valuation qualitative permet d avoir une vision plus pr cise des er reurs contenues dans la ressource et de leur origine par exemple dans le cas de l acquisition automatique de sch mas de sous cat gorisation ana lyse syntaxique erron e pr sence de modifieurs erreur lors de l acquisition etc Le principal inconv nient de ce type d valuation est son co t ce qui a pour cons quence la grande difficult traiter en largeur les entr es du lexique par cette approche Discussion Nous venons de voir les principales techniques d valuation des sys temes d acquisition automatique de ressources lexicales Nous avons montr plus en d tail les avantages et les lac
286. unes de ces m thodes d valuation dans 45 Chapitre 4 Les m thodes d acquisition automatique de sch mas de sous cat gorisation Identification des verbes en corpus brut y Identification des compl ments des verbes constructions locales y Association entre les constructions locales et des SSC y Correction d erreurs filtrage Lexique de sous cat gorisation FIGURE 4 1 Sch ma global des m thodes d acquisition automatique de sch mas de sous cat gorisation notre article pr sent la conf rence LREC en 2008 Boo Etant donn les probl mes li s aux diff rents types d valuation il nous semble important de mixer plusieurs types d valuation On peut par exemple combiner une valuation quantitative en largeur a condition de disposer d un gold standard d une certaine qualit et une valuation qualita tive qui permet de juger plus en profondeur la qualit de la ressource 4 2 SCHEMA GLOBAL POUR L ACQUISITION AUTOMATIQUE DE SCHEMAS DE SOUS CATEGORISATION La plupart des travaux d acquisition automatique de sch mas de sous cat gorisation suivent une m me approche En effet ce processus d acqui sition n cessite des op rations identifi es et les diff rentes m thodes se dis tinguent selon l importance donn e telle ou telle tape ou selon la fa on dont ces op rations sont effectu es La pr sentation de ce sch ma global
287. ur Akira Ushioda et al 1993 utilisent un corpus journalistique compos d articles du Wall Street Journal lexicalement tiquet et un analyseur de syntagmes nominaux tats finis pour reconna tre les six SSC reconnus par Brent voir tableau 4 1 Des r gles d extraction bas es sur des expressions r guli res sont ensuite utilis es pour g n rer des hypoth ses Un jeu de pa trons d erreurs extrait d un corpus d entrainement par apprentissage permet de reconna tre les erreurs types pour filtrer ces hypotheses L apport prin cipal de cette tude est l acquisition des fr quences relatives des SSC pour un verbe donn en corpus qui sont obtenues en faisant le rapport entre le nombre d occurrences de la combinaison SSC verbe et le nombre d oc currences du verbe Ceci est utile car une telle information est exploit e par 50 4 4 4 4 Acquisition de SSC a large chelle certaines applications de TAL par exemple des analyseurs syntaxiques pro babilistes L algorithme d acquisition de 1993 prend en entr e un corpus de 4 millions de mots trait par un tiqueteur de parties du discours Dans un premier temps un analyseur syntaxique tats finis bas sur l ordre des mots en anglais parcourt ce corpus Il d tecte les compl ments des verbes ainsi que des statistiques sur l apparition des verbes dans divers contextes Ces statistiques permettent ensuite de filtrer les sorties de l analyseur par un test
288. urce DicoValence M thode de d veloppement Manuelle Nombre de verbes 3738 Utilisabilit en TAL N cessite une transformation de format Divers Bas sur 1 Approche Pronominale TABLE 3 5 Synth se pour DicoValence rentes dans la mesure ot la notion d entr e est aussi fond e sur la s man tique du verbe Par exemple les entr es 1010 et 1030 semblent correspondre au m me cadre mais concernent des sens diff rents du verbe accompagner L argument P1 se pronominalise en vous pour l entr e 1030 5a mais pas pour l entr e 1010 5b et il se pronominalise en ceci pour l entr e 1010 6a mais pas pour l entr e 1030 6b 5a les v nements forts de la jeunesse vous accompagnent jusqu la mort 5b une sauce piquante vous accompagne 6a une sauce piquante accompagne ceci 6b les v nements forts de la jeunesse accompagnent ceci jusqu la mort Ces diff rences de pronominalisation permettent de distinguer ces deux cas ce qui souligne l int r t de l approche pronominale Le tableau r sume les informations concernant DicoValence Dico Valence est l une des ressources syntaxiques les plus compl tes et pr cises concernant les verbes les plus courants du frangais Si le socle th orique que constitue l Approche Pronominale permet au dictionnaire d tre coh rent et robuste le format particulier de la ressource qui r sulte de cette th orie rend son utilisation difficile En effet certains l
289. us faciles maintenir et largir parce qu elles permettent de formuler des g n ralisations sur des classes de mots Les premi res tentatives de classification s mantique automatique s ap puyaient sur la classification de Levin elles visaient reproduire automati quement les classes anglaises ou une classification quivalente pour d autres langues Schulte im Walde 2003 identifier les al ternances syntaxiques McCarthy 2001 ou compl ter le syst me de Levin par de nouvelles classes Korhonen et Briscoe 2004 Nous nous int ressons ici uniquement aux m thodes non supervis es reposant sur un espace de traits extrait d un corpus analys syntaxiquement 1 Il nous semble d ailleurs que le statut de ces classes n est pas tout fait clair sur le plan th orique Les approches de Levin et de Gross n ont jamais fait l objet d un examen compar approfondi Pourtant nous pensons que la comparaison de ces approches serait int ressante dans la mesure o il s agit de deux ensembles de travaux proches et importants m me s ils reposent sur des pr suppos s en partie diff rents 115 Chapitre 7 Production de classes de verbes sur la base de leur comportement syntaxique 7 3 Schulte im Walde Schulte im Walde et Brew 2003 Le point de d part n cessaire est donc un lexique syntaxique avec des informations concernant la fr quence relative des diff rents SSC par verbe ave
290. veaux SSC est simple dans la mesure oti il suffit de les extraire par comparaison entre les deux ressources 1 171 verbes sont pr sents la fois dans LEXSCHEM LM10 et dans LEXSCHEM EUROPARL tous les verbes pr sents dans EUROPARL sont gale ment pr sents dans LMio ce qui s explique par la diff rence de taille entre les deux corpus et le fait que Le Monde relate r guli rement des informations du domaine l gislatif 2 445 entr es couples verbe SSC sont pr sentes dans les deux ressources tandis que 4 794 couples verbe sch ma sont sp cifiques LExSCHEM LM10 et 258 LEXSCHEM EUROPARL Ces chiffres montrent que les donn es pr sentes dans le lexique sont fortement d pendantes du cor pus utilis Une analyse manuelle des donn es est n cessaire pour valuer la sp cificit des entr es issues du corpus EUROPARL par rapport celles issues de LM10 Une tude qualitative a donc ensuite t men e Nous avons examin les SSC sp cifiques LEXSCHEM EUROPARL obtenus partir de l analyse au tomatique d crite auparavant Parmi les SSC nouveaux rep r s un grand http www statmt org EuroParl 15 Le corpus inclut 11 langues europ ennes fran ais italien espagnol portugais anglais n erlandais allemand danois su dois grec et finnois Chaque langue comprend environ 1 million de phrases qui contiennent de l ordre de 28 millions de mots nous n utilisons ici que la partie fran aise du corpus 10
291. vent au d triment du rappel Le principal avantage des syst mes d acquisition partir de corpus brut sur ces m thodes est qu ils permettent de faire merger de nouveaux comportements de la langue en fonction du type de corpus ou du domaine tudi voir section Le tableau 3 8 r sume les informations disponibles propos de TreeLex CONCLUSION Nous avons vu qu il existe aujourd hui de nombreux lexiques contenant des informations de sous cat gorisation pour le fran ais Ces ressources sont tr s h t rog nes tant au niveau de leur format que de leur couverture ou des informations qu elles contiennent nombre de verbes et de sch mas ca ract ristiques des sch mas etc Ces lexiques ont t construits manuellement ou semi automatiquement Depuis les ann es 90 d autres ressources ont t acquises par des m thodes d acquisition automatique Le chapitre suivant pr sente les m thodes d ac quisition automatique de ressources de sous cat gorisation a partir de cor pus 39 LES METHODES D ACQUISITION AUTOMATIQUE DE SCHEMAS DE SOUS CATEGORISATION construction de dictionnaires de sous cat gorisation de verbes a t l objet de nombreux travaux Ce ph nom ne est particuli rement vrai pour le frangais comme en t moigne la vari t des lexiques pr sent s dans le chapitre pr c dent Certains de ces lexiques ont t cr s avant l essor de l informatique et leur format n est pas adapt
292. verbe reprocher si cette fr quence est inf rieure au seuil le compl ment pr positionnel A OBJ SP lt a SN gt est supprim et le SSC SUJ SN OBJ SN est de nouveau test par le filtre apr s un nouveau calcul de son nombre d occurrences et de sa fr quence relative ASSCi utilise un seuil de 0 06 et l entr e reprocher SUJ SN OBJ SN A OBJ SP lt a SN gt passe l tape de filtrage Impl mentation L algorithme 3 pr sente les traitements effectu s par le module de fil trage Algorithme 3 Filtre des sch mas non pertinents Entr es Liste de SSC candidats non filtr e Sorties Liste de SSC filtr e pour Chaque entr e faire si Fr quence relative entr e gt seuil alors Ajoute l entr e au lexique sinon Retire un des compl ments pr positionnels du sch ma Consolide l entr e qui en r sulte Cette entr e est de nouveau test e par le filtre fin fin La technique de filtrage retenue pour ASSCi est un seuil sur les fr quences relatives des entr es qui sont calcul es par le constructeur voir section 5 4 2 Afin de d terminer le meilleur seuil on talonne le syst me en utilisant le lexique TREELEX comme r f rence le d tail de l talonnage d ASSCi est donn plus bas Cette m thode appel e maximum de vraisemblance maximum likelihood estimates est d crite dans Korhonen et al 2000 qui la compare deux 78 5 4 Description des modules
293. vray Simonetta Montemagni et Vito Pir relli Unsupervised Acquisition of Verb Subcategorization Frames from Shallow Parsed Corpora Dans Proceedings of the Sixth International Lan guage Resources and Evaluation LREC 08 Marrakech Morocco may 2008 European Language Resources Association ELRA Beth Levin English Verb Classes and Alternations a preliminary investigation University of Chicago Press Chicago and London 1993 Beth Levin et Malka Rappaport Hovav Argument Realization Cambridge university Press Cambridge 2005 164 Bibliographie Hang Li et Naoki Abe Generalizing case frames using a thesaurus and the mdl principle Computational Linguistics 24 239 248 1998 Jianguo Li et Chris Brew Which are the best features for automatic verb clas sification Dans Proceedings of the Meeting of the Association for Computational Linguistics ACL HLT pages 434 442 Columbus Ohio 2008 John Lyons Introduction to Theoretical Linguistics Cambridge University Press Cambridge 1968 Christopher D Manning Automatic acquisition of a large subcategorization dictionary from corpora Dans Proceedings of the 31st Annual Meeting of the Association for Computational Linguistics ACL pages 235 242 Columbus Ohio 1993 Christopher D Manning Probabilistic syntax Dans MIT Press diteur Probabilistic Linguistics pages 289 341 R Bod J Hay S Jannedy 2003 M Maragoudakis K Kermanidis N Fakotakis et G
294. w Inducing German Semantic Verb Classes from Purely Syntactic Subcategorisation Information Dans Pro ceedings of the goth Annual Meeting of the Association for Computational Lin guistics pages 223 230 Philadelphia PA 2002 Andras Ser ny Eszter Simon et Anna Babarczy Automatic acquisition of hungarian subcategorization frames Dans Proceedings of the oth Internatio nal Symposium of Hungarian Researchers on Computational Intelligence 2008 Lei Shi et Rada Mihalcea Putting Pieces Together Combining FrameNet VerbNet and WordNet for Robust Semantic Parsing Dans Proceedings of CICLing pages 100 111 2005 Harold Somers On the validity of the complement adjunct distinction in valency grammar Linguistics 22 501 530 1984 Karen Sparck Jones et Julia R Galliers Evaluating Natural Language Proces sing Systems An Analysis and Review Springer Oxford University Press Berlin 1906 Suzanne Stevenson et Xavier Carreras diteurs Proceedings of the Thirteenth Conference on Computational Natural Language Learning ACL Boulder Co lorado 2009 Lin Sun et Anna Korhonen Improving Verb Clustering with Automatically Acquired Selectional Preferences Dans Proceedings of EMNLP pages 638 647 2009 Lin Sun Anna Korhonen et Yuval Krymolowski Verb class discovery from rich syntactic data LNCS 4919 16 2008 Lin Sun Thierry Poibeau Anna Korhonen et C dric Messiant Investiga ting the Cross Linguistic Potential of
295. x verbes partageant les m mes sch mas pr dicatifs peuvent ne pas accepter les m mes alternances Par exemple l alternance causative inchoative est applicable casser mais ne l est pas fr ler 18a Le ballon casse la vitre 18b La vitre casse 19a Le ballon fr le la vitre 19b La vitre fr le Aucune information de surface n est ici disponible pour distinguer le cas 18 du cas 19 C est donc bien la diff rence s mantique entre casser et fr ler en particulier le changement d tat produit par casser sur la vitre qui rend possible l alternance causative inchoative L alternance permet de diff rencier les verbes casser et fr ler et de les classifier plus finement Cependant les alternances restent tres difficiles 4 analyser automatique ment parmi les rares travaux s attaquant directement l analyse des al ternances voir 2001 Les techniques de d sambiguisation s mantiques sont encore largement insuffisantes pour distinguer finement les verbes polys miques comme commander entre commander un soda et com mander Luc de faire ceci Agirre et Edmonds 2007 4 Nous reprenons ici l appellation de Beth Levin 17 Chapitre 2 Description du verbe pour l laboration de lexiques 2 5 2 5 1 2 5 2 LES CONTOURS FLOUS DES SCHEMAS PR DICATIFS Nous avons donn un panorama des repr sentations possibles de la structure argumentale des pr dicats Il s agit d sor
296. xemple suivant 16a milie a cass la fen tre 16b La fen tre a cass Si les alternances impliquent des modifications videntes dans la syntaxe de la phrase elles provoquent galement des changements s mantiques On per oit cette nuance de sens dans les phrases 16a et 16b dans 16b on a l impression que la fen tre s est cass e d elle m me mais l alter nance locative met en vidence ce ph nom ne comme en t moignent les phrases suivantes 17a Arnaud a charg le camion d oranges 17b Arnaud a charg les oranges dans le camion Ici l alternance locative n a pas pr serv la grille th matique du verbe dans 17b camion passe de th me but De plus la phrase 17a implique que le camion soit rempli d oranges alors que ce n est pas le cas pour la phrase 17b les alternances ne sont donc pas uniquement un ph nom ne syntaxique Les verbes partageant les m mes alternances semblent partager une cer taine proximit s mantique Levin montre que les alternances qui d crivent des comportements majoritairement syntaxiques permettent d aboutir une classification s mantique des verbes Ces classes verbales sont vari es verbes de jet verbes de contact avec impact verbes d interaction sociale verbes de perception verbes de d sir verbes de communication etc Pour montrer l importance des alternances dans la classification des verbes remarquons tout d abord que deu
Download Pdf Manuals
Related Search
Related Contents
取付説明書 - E Netgear GS308 EHAC-80A Manual for the Estate Planning Council Website Administrator SnapSAN 3000/5000 Disk Array User Guide Waring Pro TG15 Use and Care Manual Crimzon Development Board Accessory Kit User Manual. Operating Manual 取扱説明書 [PDF形式] EM2-VR v1.0 Manual Copyright © All rights reserved.
Failed to retrieve file