Home
Vers la construction d`une bibliothèque en-ligne de
Contents
1. SENELLART 99 SENELLART J Reconnaissance automatique des entr es du lexique grammaire des expressions fig es In Lamiroy B Ed Le lexique grammaire Travaux de linguistique Bruxelles pp 109 121 1999 SILBERZTEIN 93 SILBERZTEIN M Dictionnaires lectroniques et analyse automatique de textes Le syst me INTEX Masson Paris 1993 SILBERZTEIN 94 SILBERZTEIN M INTEX a corpus processing system In Proceedings of the 15 International Conference on Computational Linguistics COLING94 Kyoto Japan pp 579 582 1994 SILBERZTEIN 97 SILBERZTEIN M The Lexical Analysis of Natural Languages In E Roche and Y Schabes Eds Finite State Language Processing The MIT Press Cambridge Mass pp 329 352 1997 SILBERZTEIN 99 SILBERZTEIN M Transducteurs pour le traitement automatique des textes In Lamiroy B Ed Le lexique grammaire Travaux de linguistique Bruxelles pp 127 142 1999 WOODS 70 WOODS W A Transition Network Grammars for Natural Language Analysis Communications of the ACM Vol 13 10 1970
2. 2 station E de m tro J Senellart 1998 a construit des grammaires pour des noms d activit s telles que ministre E de l int rieur L tape suivante est de construire des constituants de phrases comme les groupes nominaux ou les groupes verbaux comme le montre M Salkoff 1973 pour construire une grammaire en cha ne du fran ais Afin de reconna tre automatiquement des expressions fig es dans les corpus J Senellart 1999 a labor quelques grammaires de groupes nominaux simples comme montr dans le graphe 11 ci dessous C Domingu s 2001 a regard le comportement de groupes nominaux contenant une coordination La constitution de grammaires compl tes reconnaissant les GN est l un des futurs enjeux du r seau RELEX Par ailleurs il existe des grammaires de groupes verbaux compos s en anglais GROSS 99 lt E gt lt Sim Lors lt E gt lt lt DET mp gt lt A mp gt lt N mp gt lt E gt lt DET fs gt SN lt N fs gt lt E gt lt A fp gt lt DET fp gt lt N fp gt Figure 11 GN A partir de l tape pr c dente il est possible de d crire des phrases simples libres contenant un pr dicat verbe nom adjectif et des arguments comme l a fait E Roche 1993 1999 l aide de tables de lexique grammaires et de transducteurs tats finis Un travail de grande envergure dans la continuit de cette tude est actuell
3. DISTER 01 Les r sultats sont encourageants et d pendent beaucoup des corpus Morphologie Un probl me crucial dans la construction de dictionnaires large couverture est la g n ration automatique de toutes les formes fl chies d un lemme A chaque lemme est associ une classe de flexion qui repr sente un transducteur L application de ce transducteur permet de r soudre une grande majorit des probl mes rencontr s SILBERZTEIN 97 tiquetage La consultation des dictionnaires permet de faire un tiquetage lexical des textes Le r sultat est repr sent sous la forme d un transducteur permettant par la m me occasion de montr l impressionnante ambigu t de la langue SILBERZTEIN 97 Les grammaires lexicalis es permettent de reconna tre des s quences compos es et d tiqueter ces derni res de mani re tr s satisfaisante La prochaine tape est l analyse syntaxique compl te de textes Pour cela il est n cessaire de trouver en tenant compte de l norme ambigu t de la langue de nouveaux formalismes et des algorithmes associ s Des travaux sont en cours l universit de Marne la Vall e Extraction Un des sujets la mode actuellement est l extraction d information Le plus br lant d entre eux est l extraction de noms propres De nombreuses tudes ont t men es et sont en cours J Senellart 1998 extrait automatiquement des noms de personnalit s en leur associant une fonction po
4. X Y Figure 8 Table Figure 9 Graphe de r f rence Figure 10 Graphes g n r s partir de la table 8 et le graphe 9 3 2 Les diff rents niveaux d analyse Le gros avantage des grammaires sous la forme de graphes est qu elles permettent diff rents niveaux d analyse des textes Dans la pr c dente section nous avons d j distingu deux niveaux selon l unit minimale utilis e caract re ou mot Lorsque l unit minimale est le caract re nous pouvons parler de traitement morphologique Dans ce cas les graphes utilis s servent d crire des variantes orthographiques de mani re compacte et donc alimenter les dictionnaires lectroniques Nous nous int ressons maintenant au cas o l unit minimale est le mot Les niveaux d analyse y sont plus nombreux Tout d abord les graphes peuvent tre assimil s des extensions des dictionnaires des mots compos s Par exemple la description des dates sous la forme d automates factorise de fa on significative un ensemble d expressions quasiment impossible traiter sous forme de listes MAUREL 90 BAPTISTA 99 Ensuite 1l est possible de d crire les contraintes locales autour d un mot de mani re tr s fine Ainsi nous pouvons constituer des classes de mots compos s ayant un sens proche comme le graphe Station Ce dernier graphe permet notamment de distinguer deux entr es lexicales de station 1 station E de ski et
5. 1 Introduction Le d veloppement des moyens de communication et plus particuli rement d Internet a fait exploser le nombre de textes lectroniques disponibles rendant ainsi le traitement automatique des langues naturelles et ses applications incontournables depuis quelques ann es La plupart des outils impl ment s utilisent des approches statistiques ABNEY 96 CHARNIAK 97 Cependant depuis longtemps les chercheurs connaissent l int r t d int grer ces syst mes de vastes bases de donn es de descriptions linguistiques fines ABEILL 00 Dans cette optique le Laboratoire d Automatique Documentaire et Linguistique puis le r seau de laboratoires europ ens RELEX accumulent depuis les ann es soixante dix une large vari t de composants linguistiques o le lexique joue un r le fondamental Avec l aide d une m thodologie claire et rigoureuse et de la technologie tats finis ROCHE 97 MOHRI 97 de larges dictionnaires et grammaires ont t cr s et appliqu s des textes avec les logiciel Intex SILBERZTEIN 93 94 et Unitex PAUMIER 02 et leurs extensions LAPORTE 99 PAUMIER 00 Actuellement nous assistons une augmentation spectaculaire du nombre de ressources notamment des grammaires sous la forme de graphes Nous proposons d impl menter un outil de gestion de grammaires une biblioth que en ligne Dans cet article nous d crivons dans un premier temps le cadre th orique de travail du r sea
6. 68 HARRIS Z S Mathematical Structures of Language New York John Wiley and sons 1968 13 LAPORTE 88 LAPORTE E M thodes algorithmiques et lexicales de phon tisation de textes applications au fran ais th se de doctorat en informatique Universit Paris 7 1988 LAPORTE 99 LAPORTE E amp MONCEAUX A Elimination of lexical ambiguities by grammars the ELAG system In FAIRON C Ed Analyse lexicale et syntaxique le syst me INTEX Lingvisticae Investigationes John Benjamins publishing company Amsterdam Philadelphia pp 341 368 1999 LECL RE 91 LECL RE C SUBIRATS R GGEBERG C A bibliography of studies on lexicon grammar Lingvistic Investigationes XV 2 347 409 1991 MAUREL 90 MAUREL D Adverbes de date tude pr liminaire leur traitement automatique Lingvisticae Investigationes Vol XIV 1 John Benjamins Amsterdam Philadelphia pp 31 63 1990 MOHRI 97 MOHRI M Finite State Transducers in Language and Speech Processing Computational Linguistics 23 2 pp 269 312 1997 NAKAMURA 0I NAKAMURA T Analyse du discours conomique Communication au colloque international des lexiques et grammaires compar s Londres 2001 PAUMIER 00 PAUMIER S 2000 Nouvelles m thodes pour la recherche d expressions dans de grands corpus In A Dister ed Actes des Troisi mes Journ es Intex Revue Informatique et Statistique dans les Sciences Humaines Li ge Universit de Li ge pp 289 296 P
7. des travaux r alis s dans la langue fran aise car c est la langue qui a le niveau le plus avanc Pour des pr cisions sp cifiques sur d autres langues les lecteurs sont pri s de se r f rer la bibliographie g n rale 3 1 Formalisme Les grammaires que nous consid rons ont la forme de r seaux r cursifs de transitions WOODS 1970 SILBERZTEIN 93 Chaque grammaire g poss de un alphabet N d l ments non terminaux un alphabet T d l ments terminaux avec NOT un ensemble de r gles G sous la forme de graphes terme gauche nom du graphe soit un l ment de N termes droits factoris s sous la forme d un graphe sur NOT et un axiome de d part ou graphe principal go Par exemple prenons N X Y Z T a b c d et X correspondant au nom de g G est repr sent par l ensemble des graphes ci dessous fig 1 2 et 3 Les graphes se lisent de gauche droite Ils sont quivalents des automates finis Les tats ne sont pas repr sent s sauf l tat initial et l tat final Les tiquettes des transitions se trouvent dans des bo tes Chaque tiquette gris e est un l ment non terminal c est dire un appel un sous graphe Ainsi notre grammaire reconna t des expressions telles que aaccbb ou bcdab Figure l X Figure 2 Y Figure 3 Z Pour l instant nous avons d fini les l ments des alphabets comme de simples symboles Nous pr cisons maintenant leur forme r elle d
8. m me esprit J Baptista et D Catala 2002 ont r alis quelques grammaires autour de trois mots permettant de traduire des adverbes de temps du portugais vers l espagnol et vice versa G n ration La g n ration n est pas un sujet tr s porteur dans la communaut RELEX plus attir e par l analyse Cependant il existe un projet de g n ration automatique de sujets d examen l aide de graphes m moires ou graphes de r criture FAIRON 01 4 Gestion de grammaires une biblioth que en ligne 4 1 Vers une centralisation des grammaires Dans la section pr c dente nous avons vu la diversit des grammaires que nous utilisons Nous avons avant tout expos les travaux sur le fran ais qui reste la langue la plus avanc e dans les descriptions linguistiques Ma s les autres langues auront atteint le m me niveau dans quelques ann es Ainsi nous pr disons une future explosion du nombre de grammaires disponibles Par ailleurs la dispersion g ographique des laboratoires est source de redondance Le formalisme utilis la modularit des grammaires est une qualit essentielle pour le travail en quipe En effet un chercheur construisant une grammaire peut facilement ins rer une sous grammaire d j construite par lui m me ou par un autre au moyen d un appel un sous graphe aussi faut il que ces sous graphes soient facilement accessibles Actuellement il n existe pas de gestion commune des grammaires ce qu
9. plus large R f rences ABEILL 00 ABEILL A BLACHE P Grammaires et analyseurs syntaxiques In PIERREL J M Ing nierie des langues Herm s science publications Paris pp 51 76 2000 ABNEY 96 ABNEY S Statistical Methods and Linguistics In Judith KLAVANS and Philip RESNIK eds The Balancing Act Combining Symbolic and Statistical Approaches to Language The MIT Press Cambridge MA 1996 BALVET 00 BALVET A Evaluation de strat gies linguistiques pour le filtrage d information In A Dister ed Actes des Troisi mes Journ es Intex Revue Informatique et Statistique dans les Sciences Humaines Li ge Universit de Li ge pp 29 52 2000 BAPTISTA 99 BAPTISTA J Manh Tarde Noite analysis of temporal adverbs using local grammars Seminarios de Linguistica 3 Faro Universidade do Algarve pp 5 31 1999 BAPTISTA 02 BAPTISTA J D CATAL Compound temporal adverbs in Portuguese and in Spanish In Ranchhod E Mamede N Eds Advances in Natural Language Processing Lecture Notes in Artificial Intelligence LNAI 2389 Springer pp 2002 CHARNIAK 97 CHARNIAK E Statistical techniques for natural language parsing AI Magazine 1997 CARVALHO 02 CARVALHO P MOTA C RANCHHOD E Complex lexical units and automata In Ranchhod E Mamede N Eds Advances in Natural Language Processing Lecture Notes in Artificial Intelligence LNAI 2389 Springer pp 229 238 2002 CONSTANT 02 C
10. s Par exemple il existe des modules qui recherchent toutes les grammaires dans lesquelles certains mots existent ou toutes les grammaires qui reconnaissent ou comprennent une s quence de mots donn e Il est galement 11 possible de faire des recherches sur les descriptions textuelles des graphes ou les mots cl s Il peut tre int ressant de v rifier si une grammaire n existe pas d j ce qui revient faire une intersection de grammaires Or l intersection de grammaires hors contextes est ind cidable GROSS 67 Dans l avenir il conviendra de r aliser des intersections approximatives 5 Conclusions et perspectives Dans cet article nous avons d crit le cadre de travail de la communaut RELEX puis fait un large tat des lieux sur un type de donn es linguistiques les grammaires Nous avons montr la n cessit de construire un outil de gestion de cette ressource une biblioth que en ligne de grammaires Nous avons d crit son organisation et les services impl ment s stockage et recherche Dans le futur nous esp rons am liorer les services d j existants notamment en permettant des recherches sur des crit res complexes cf 4 3 Nous souhaitons aussi permettre aux utilisateurs d changer des informations critiques et remarques sur les grammaires notamment Par ailleurs il faudrait tendre cette biblioth que aux autres donn es linguistiques tables de lexique grammaire et dictionnaires de fa on
11. AUMIER 02 PAUMIER S manuel d utilisation d Unitex http www igm univ mlv fr unitex 2002 PITON 97 PITON O MAUREL D le traitement informatique de la g ographie politique internationale Cahiers Eco amp Maths 97 68 Universit Paris 1 Paris 1997 POIBEAU 01 POIBEAU T Extraction d information dans les bases de donn es textuelles en g nomique au moyen de transducteurs tats finis Actes de la 8 conf rence sur le Traitement Automatique des Langues Naturelles TALN Tours pp 295 304 2001 REVUZ 91 REVUZ D Dictionnaires et lexiques m thode et algorithmes Th se de doctorat en informatique Paris Universit Paris 7 1991 ROCHE 93 ROCHE E Analyse syntaxique transformationnelle du fran ais par transducteurs et lexique grammaire Th se de doctorat en informatique Paris Universit Paris 7 1993 ROCHE 97 ROCHE E SCHABES Y Finite State Language Processing The MIT Press Cambridge Mass 1997 ROCHE 99 ROCHE E Finite state transducers parsing free and frozen sentences In A Kornai ed Extended finite state models of language pp 108 121 Cambridge Press 1999 SALKOFF 73 SALKOFF M Une grammaire en cha ne du fran ais Analyse distributionnelle Paris Dunod 1973 SENELLART 98 SENELLART J Locating noun phrases with finite state transducers In Proceedings of the 17 International Conference on Computational Linguistics COLING98 Montr al pp 1212 1219 1998 14
12. Chaque utilisateur a un compte personnel auquel il acc de au moyen d un nom d utilisateur et d un mot de passe Il l organise librement l aide d un syst me d arbre de r pertoires comme dans tous les syst mes d exploitation Tous les utilisateurs ont acc s en lecture toutes les grammaires Les auteurs ont acc s en criture leurs propres graphes uniquement 4 3 Les diff rentes op rations stockage et recherche d information Pour l instant il existe deux types d op rations qui ont t impl ment es le stockage de grammaires et la recherche simple d informations Une caract ristique de cette biblioth que est que les graphes n existent pas seulement physiquement ils sont aussi document s Ainsi lors de l insertion d un graphe dans la biblioth que son auteur doit fournir un certain nombre d informations dont une description linguistique de celui ci C t client il existe un diteur de documentation facilitant la t che de l utilisateur Les graphes d une grammaire sont automatiquement calcul s et fournis sous la forme d une liste Ainsi pour diter la documentation d un graphe il lui suffit de cliquer sur un graphe de la liste et un formulaire simple remplir appara t pour ce graphe Par ailleurs certaines caract ristiques des graphes comme le type sont automatiquement calcul es r duisant le nombre de champs remplir dans le formulaire Le stockage de grammaires compren
13. ONSTANT M On the analysis of locative phrases with graphs and lexicon grammar the classifier proper noun pairing In Ranchhod E Mamede N 12 Eds Advances in Natural Language Processing Lecture Notes in Artificial Intelligence LNAI 2389 Springer pp 33 42 2002 COURTOIS B SILBERZTEIN M Les dictionnaires lectroniques du fran ais Langue Fran aise 87 Paris Larousse 1990 DISTER 00 DISTER A Actes des Troisi mes Journ es Intex Revue Informatique et Statistique dans les Sciences Humaines Li ge Universit de Li ge 2000 DOMINGUES 01 DOMINGUES C Etude d outils informatiques et linguistiques pour l aide la recherche d information dans un corpus documentaire Th se de doctorat en informatique Universit de Marne la Vall e 2001 FAIRON 99 FAIRON C SENELLART J Classes d expressions bilingues g r es par des transducteurs finis dates et titres de personnalit anglais fran ais Linguistique contrastive et traduction Approches empiriques Louvain la Neuve 1999 FAIRON 99 FAIRON C Analyse lexicale et syntaxique le syst me INTEX Lingvisticae Investigationes John Benjamins Publishing Company Amsterdam Philadelphia 1999 FAIRON 00 FAIRON C Structures non connexes Grammaires des incises en fran ais description linguistique et outils informatiques th se de doctorat en informatique Universit de Marne la Vall e 2000 FAIRON 01 FAIRON C INTEX dans un syst me de g n
14. Vers la construction d une biblioth que en ligne de grammaires linguistiques Matthieu Constant Universit de Marne la Vall e mconstant univ mlv fr URL http ladl univ mlv fr ABSTRACT Local grammars efficiently recognize local syntactic constraints in texts As their number is exploding and the places where they are stored are spread all over the world we plan to build a system that manages an on line library of local grammars We describe their formalism and give an overview of where they are used within the informal European network of RELEX laboratories Finally we describe briefly the on line library we have implemented KEY WORDS lexicon grammar local grammars natural language processing R SUM Les grammaires locales sont un moyen simple et efficace de rep rer et d analyser des contraintes syntaxiques locales dans des textes L explosion de leur nombre et leur parpillement g ographique nous pousse implanter un outil de gestion une biblioth que en ligne de grammaires locales Apr s avoir d crit leur formalisme nous faisons un large tat des lieux de l utilisation des grammaires locales dans le cadre du r seau informel de laboratoires europ ens RELEX Nous insistons principalement sur les travaux r alis s sur le fran ais Enfin nous d crivons bri vement notre syst me de gestion de grammaires locales MOTS CL S grammaires locales lexique grammaire traitement automatique des langues
15. ans nos grammaires linguistiques Les symboles non terminaux sont des noms arbitraires donn s des graphes Sous Intex et Unitex ces noms sont toujours pr c d s du caract re Les symboles terminaux repr sentent dans la majorit des cas des mots au sens linguistique et sont donc tr s vari s Afin de limiter le nombre de transitions dans les graphes nous utilisons des abr viations pour d signer des ensembles d l ments terminaux Par exemple lt station gt d signe toutes les formes fl chies de la forme canonique station station stations lt V gt d signe n importe quel verbe cod dans nos dictionnaires c est quivalent au OU logique de tous les verbes cod s dans le dictionnaire lt N ms gt d signe n importe quel nom masculin singulier du dictionnaire noms simples et compos s lt NB gt d signe n importe quel nombre repr sent par l expression r guli re 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 o le symbole repr sente le symbole de Kleene et le signe symbolise le OU logique Ainsi l exemple 5 repr sente une classe de mots compos s s mantiquement proches de station de ski et reconna t des expressions telles que station de sports d hiver ou station de haute montagne Dans certains cas l alphabet des symboles terminaux n est pas compos de mots linguistiques mais de caract res typographiques de la langue de travail L exemple 4 repr sente les diff
16. d deux op rations essentielles insertion et suppression Contrairement des bases de donn es classiques qui contiennent des objets simples ces op rations ne sont pas videntes du fait de la complexit du formalisme des grammaires Les algorithmes utilis s mettent en jeu des objets math matiques complexes comme les composantes fortement connexes lors de la suppression Nous n entrons pas dans les d tails dans cet article principalement d di une pr sentation g n rale du syst me Par ailleurs l utilisateur peut cr er dans son compte personnel son arbre de travail personnel en ins rant ou supprimant des r pertoires Notre outil de stockage permettra d ins rer un dictionnaire personnel de l utilisateur quand il est utile dans certains graphes Exemple supposons que l on ins re une grammaire sur les noms de ville il est n cessaire d utiliser un dictionnaire de toponymes non implant dans le dictionnaire g n ral du syst me De m me il sera possible d ins rer la table de lexique grammaire associ e un graphe patron Un utilisateur peut tre tent de rechercher des informations sur le catalogue de grammaires puis de t l charger les graphes qui l int ressent Nous avons impl ment un explorateur avanc de la biblioth que de graphe Cet explorateur effectue des tris et des filtres sur des crit res simples comme l auteur le type la langue D autres outils plus complexes ont t impl ment
17. ement men au sein de l universit de Marne la Vall e J Senellart 1999 l aide de graphes a d crit les expressions fig es du fran ais partir des tables de M Gross 1983 et montr par la m me occasion leur pr sence en grand nombre dans les textes fran ais de l ordre de 30 dans des textes journalistiques Les phrases simples avec pr dicats nominaux et adjectivaux peuvent tre r duites en GN ou GA Leur description permet d affiner celle des GN g n raux La reconnaissance de phrases complexes combinaisons de phrases simples sous toutes les formes d adverbes de temps M Gross 2002 de lieux M Constant 2002 d incises FAIRON 00 et de conjonctions est un objectif majeur du r seau RELEX Enfin quelques tudes ont t men es dans le domaine sp cifique de la bourse GROSS 97 NAKAMURA 01 et ont montr la limitation du lexique et des structures syntaxiques employ s Des grammaires enti rement lexicalis es ont ainsi pu tre construites 3 3 Les applications Nous d crivons dans cette section quelques applications qui ont t d velopp es par les membres de la communaut RELEX Elles sont nombreuses nous listons les principales D coupage Une des premi res tapes du traitement automatique des textes est la segmentation de ces derniers en phrases l aide de la ponctuation Des transducteurs ont t construits cet effet ins rant la fin des phrases un symbole comme S
18. es dans les variables i et sont r crites en sortie de l application du graphe quand elles apparaissent en sortie dans le transducteur LS SES 0 Ch 0 1l 1 2 2 3 3 d 1 3 2 Figure 7 Interpr tation s mantique Enfin les graphes patrons repr sentent des sur ensembles de s quences ROCHE 93 SENELLART 99 et permettent de transformer les informations cod es sous la forme de tables de lexique grammaire en graphes Pour chaque entr e lexicale ou chaque ligne on cr e automatiquement un graphe associ partir des informations de la table Nous utilisons un syst me de variables qui sont plac es dans les bo tes des graphes Soient i et j deux entiers TLG une table de lexique grammaire et g le graphe patron associ TLG Etant donn une ligne i de TLG la variable j plac e dans g correspond au contenu de l intersection de la ligne i et de la colonne j de TLG Ainsi chaque variable correspond une colonne des tables soit une propri t c est dire un ensemble de s quences ou et des informations lexicales Pour chaque ligne i si TLG i j alors on supprime la boite contenant j on supprime un ensemble de s quences non d sir es Si TLG ij on remplace j par l l ment vide Par d faut on remplace j par le contenu de TLG i j Par exemple partir de la table 8 et de son graphe patron associ figure 9 on g n re automatiquement les deux graphes de la figure 10 C1 C2
19. i est pr judiciable pour la collaboration et est source de redondance Les seuls moyens de s informer ou d informer les autres de l existence d une grammaire particuli re sont les articles les communications aux diff rents colloques ou les discussions orales ou par courrier lectronique Le meilleur moyen pour se transmettre les grammaires est le courrier lectronique Nous proposons de cr er un outil de gestion des grammaires permettant de centraliser les grammaires dans un m me endroit et de donner un moyen simple aux utilisateurs de stocker leurs donn es et de consulter le catalogue de grammaires disponibles 4 2 Organisation de la biblioth que Le syst me que nous proposons a une architecture client serveur Du c t serveur est dispos e la base de donn es contenant les grammaires et diff rentes informations et y 10 sont aussi r unis un certain nombre de modules traitant cette base de donn es Du c t client est fournie une interface au moyen de laquelle l utilisateur envoie ses requ tes au serveur La base de donn es contient deux principales entit s les grammaires et les utilisateurs L entit utilisateur contient quelques donn es sur les utilisateurs du syst me L entit Grammaire contient les grammaires sous forme de graphes physiquement un fichier pour chaque graphe des informations techniques relatives aux graphes langue auteur type et de la documentation crite sur les graphes
20. inalisation Luc ob it Max Luc lui ob it Luc pense Max Luc lui pense Un autre volet fondamental de cette approche est l tude et la classification syst matique des expressions fig es GROSS 84 Environ 25 000 expressions ont t r pertori es en Fran ais selon la m thode d crite pr c demment Cette liste sert notamment de base un travail de comparaison entre diff rentes variantes du fran ais BFQS Belge Fran ais Qu b cois Suisse LECL RE 91 1 Le r seau RELEX est un ensemble informel de laboratoires europ ens travaillant dans les domaines de la linguistique et du traitement automatique des langues naturelles Les diff rentes quipes travaillent sur un nombre important de langues comme le fran ais l anglais le portugais l allemand l espagnol le norv gien le cor en le tha Elles utilisent une m thodologie commune le lexique grammaire Le lexique y occupe une place fondamentale ce qui se traduit par la construction de bases de donn es linguistiques large couverture Le logiciel INTEX sert de plate forme linguistique commune pour appliquer ces ressources des textes r els Des r unions formelles sont organis es tous les ans sous la forme d une conf rence le Colloque international grammaires et lexiques compar s et sous la forme d un atelier de travail les journ es INTEX FAIRON 99 DISTER 00 Par ailleurs il existe un service de veille de corpus journalisti
21. litique ou professionnelle l aide de grammaires sous forme de graphes N Friburger et al 2001 extraient des noms propres de personne l aide de cascades de transducteurs D autres sujets ont aussi t abord s comme l extraction de noms de g nes dans les corpus en g nomique POIBEAU 01 Filtrage Le filtrage d information est aussi un sujet majeur de ces derni res ann es notamment pour la distribution personnalis e des d p ches AFP A Balvet 2000 montre l int r t d utiliser des graphes linguistiques pour rep rer les textes ad quats une requ te donn e Ambigu it La lev e d ambigu t des textes est fondamentale pour le traitement automatique De nombreuses tudes pointues ont montr l int r t d utiliser des batteries de transducteurs SILBERZTEIN 97 DISTER 99 CARVALHO 02 C est un sujet tr s important dans la communaut un module de lev e d ambigu t ELAG a m me t impl ment par E Laporte et al 1999 qui permet de supprimer les mauvais chemins dans le transducteur du texte Traduction La traduction automatique des langues est s rement l objectif le plus difficile du TAL GROSS 92 Devant la difficult de la t che les tudes dans ce domaine s orientent vers l aide automatique la traduction C Fairon et J Senellart 1998 ont construit un ensemble de transducteurs lexicalis s traduisant des adverbes de temps du fran ais l anglais Dans le
22. me de terre N NDN fp nom compos pomme de terre au f minin pluriel Ensuite les tables de lexique grammaire sont un moyen simple et efficace de repr senter le comportement distributionnel et transformationnel des pr dicats dans les phrases simples GROSS 75 Elles ont la forme de matrices Chaque ligne correspond une entr e lexicale ou un pr dicat Chaque colonne correspond une propri t A l intersection il y a un signe si l entr e lexicale accepte cette propri t un signe si elle ne l accepte pas une information lexicale si besoin est Enfin les grammaires sous forme de graphes sont au d part des extensions des dictionnaires de mots compos s puis ont volu vers des niveaux d analyse sup rieurs voir section 3 Elles peuvent par exemple tre dit es l aide des diteurs de graphe d Intex et d Unitex Elles pr sentent de nombreux avantages ind niables comme la repr sentation compacte de descriptions linguistiques fines GROSS 97 3 Grammaires tat des lieux Dans cette section nous regardons en d tail un type de donn es linguistiques les grammaires Nous tablissons un tat des lieux dans le r seau RELEX Nous d crivons d abord les grammaires locales formellement puis nous regardons les diff rents niveaux d analyse pouvant tre faites l aide des grammaires Enfin nous listons diff rentes applications utilisant ce type de ressources Nous parlons essentiellement
23. ques sur Internet Glossanet tr s utile pour les linguistes FAIRON 00 2 2 Les donn es linguistiques Le traitement automatique des langues requiert de larges bases de donn es linguistiques avec un grand degr de pr cision Dans le r seau RELEX il existe trois grands types de donn es les dictionnaires lectroniques les grammaires et les tables de lexique grammaire D abord les dictionnaires lectroniques de formes fl chies de mots simples DELAP et de mots compos s DELACF permettent de reconna tre des unit s lexicales et de r aliser un tiquetage lexical pr cis des textes COURTOIS 90 Ces formes fl chies sont automatiquement g n r es partir de leur forme canonique et d une classe flexionnelle associ e Au d part sous la forme de listes simples les dictionnaires sont compress s sous la forme de transducteurs tats finis minimaux REVUZ 91 Par exemple le DELAF fran ais comprenant 900 000 mots a une taille d environ 1 MO dans sa forme compress e Le codage des entr es lexicales suit le m me format dans toutes les langues RELEX Nous donnons ci dessous un exemple d une entr e ambigu du DELAF avions et d une entr e du DELACF pommes de terre Nous notons qu il existe aussi des dictionnaires phon tiques DELAP LAPORTE 88 avions avoir V 11p verbe avoir conjugu l imparfait la troisi me personne du pluriel avions avion N mp nom avion au masculin pluriel pommes de terre pom
24. ration automatique de tests de raisonnement analytique http www nvu edu pages linguistics intex 2001 FRIBURGER 01 FRIBURGER N MAUREL D Elaboration d une cascade de transducteurs pour l extraction de motifs l exemple des noms de personnes Actes de la 8 conf rence sur le Traitement Automatique des Langues Naturelles TALN Tours pp 183 192 2001 GROSS 67 GROSS M LENTIN A Introduction to formal grammars Springer Verlag Berlin Heidelberg New York 1967 GROSS 75 GROSS M M thodes en syntaxe Paris Hermann 1975 GROSS 84 GROSS M Une classification des phrases fig es du fran ais In ATTAL P et MULLER C Eds De la syntaxe la pragmatique Lingvisticae Investigationes Supplementa John Benjamins publishing company pp 141 180 1984 GROSS 92 GROSS M Quelques r flexions sur le domaine de la traduction automatique TAL Paris pp 1992 GROSS 97 GROSS M The Construction of Local Grammars In E ROCHE and Y SCHABES Eds Finite State Language Processing The MIT Press Cambridge Mass pp 329 352 1997 GROSS 99 GROSS M Lemmatization of compound tenses in English In FAIRON C Ed Analyse lexicale et syntaxique le syst me INTEX Lingvisticae Investigationes John Benjamins publishing company Amsterdam Philadelphia pp 71 122 1999 GROSS 02 GROSS M Les d terminants num raux un exemple les dates horaires Langages n 145 Paris Larousse pp 21 37 2002 HARRIS
25. rentes variantes orthographiques du toponyme Vietnam O Piton D Maurel 1997 Notons galement qu un m lange des deux niveaux est possible notamment pour des formes telles que re lt V gt o est un symbole qui interdit l espace entre le pr fixe re et le verbe lt V gt Figure 4 Vietnam Figure 5 Station Il est possible d ajouter des informations en sortie des graphes A nsi nos grammaires peuvent se comporter comme des transducteurs tats finis SILBERZTEIN 99 Par exemple le graphe 6 qui d crit des adverbes de temps tels que l aube ou en fin de matin e peut servir tiqueter les expressions qu il reconna t comme des adverbes de temps l aide des informations de sortie crites en gras sous les boites du graphe Ainsi apr s application de cette grammaire le texte Marie est arriv e en fin de matin e peut tre tiquet Marie est arriv e lt ADV Time gt en fin de matin e lt ADV Time gt ADV Time gt Figure 6 Adverbes de temps Par ailleurs il est possible de construire des graphes d crivant des r gles de r criture ce sont des graphes variables Le graphe 7 permet de d crire la phrase Paul est 10 km de la ville et de l interpr ter s mantiquement la distance d entre Paul et la ville est gale 20 km ou d Paul la ville 10 km En effet les s quences reconnues par les morceaux de graphes entre parenth ses index s par le nombre i i entier sont stock
26. u RELEX puis nous dressons un tat des lieux des diff rents types de grammaires existants Enfin nous d crivons notre projet de biblioth que en ligne de grammaires et les services impl ment s 2 Le cadre th orique et m thodologique 2 1 Le lexique grammaire Le lexique grammaire est un ensemble de m thodes linguistiques d M Gross 1975 largement inspir par les travaux de Z Harris 1968 L unit minimale d tude est la phrase l mentaire comprenant un pr dicat et des arguments Chaque pr dicat verbe nom adjectif est class selon sa structure de surface de base nombre et forme des arguments Par exemple les quatre pr dicats dire demander proc s et donner appartiennent trois classes Dans les phrases ci dessous Ni signifie le i me argument d un pr dicat i entier et P d signe une phrase NO dire demander N1 que P NO donner N1 N2 NO faire un proc s N1 Dans les ann es soixante dix M Gross et l quipe du LADL ont entam une tude syst matique transformationnelle et distributionnelle pour chaque pr dicat du fran ais Cette m thodologie a t reprise par les diff rents laboratoires du r seau RELEX C Lecl re et al 1991 Ces tudes exhaustives ont montr que chaque pr dicat avait un comportement quasi unique Par exemple les deux verbes ob ir et penser qui ont la m me structure syntaxique de surface NO V Prep NI se comportent diff remment lors de la pronom
Download Pdf Manuals
Related Search
Related Contents
Rosewill RC-300E Manual del muestreador de botella icountBS WS-8117 Instruction Manual 【PDF】漏液センサ RS1000シリーズ 取扱説明書|東横化学株式会社 Toro Greensmaster eFlex 2100 (04042) Specifications Lightolier V611 User's Manual HD 1040 B universidade do vale do itajaí centro de ciências Sikadur Arena Copyright © All rights reserved.
Failed to retrieve file