Home
Utilisation d`Outils dans la Constitution de Bases de Connaissances
Contents
1. Rep rage de termes qui n ont pas de base nominale Hyperbase est utilis dans l objectif de travailler sur les concepts qui renvoient des actions ce qui indirectement permet d acc der aux verbes qui ne sont que rarement propos s par les outils d extraction de candidats termes Notre effort porte plus particuli rement sur les d verbaux il s agit des noms morphologiquement et s mantiquement associ s un verbe gestion g rer Cette tude nous permet de faire une analyse approfondie des actions Symboles utilis s d t d terminant d t_d f d fini d t_ind f d t_ absence de d terminant T1 T2 termes ou termes candidats de Lexter ind fini sp cifiques d un corpus La premi re liste obtenue gr ce Hyperbase fait actuellement l objet d une tude linguistique d taill e para tre qui vise d finir des tests linguistiques permettant de s lectionner de fa on m thodique les d verbaux qu il convient de conserver comme termes Cette premi re s rie d tudes permet d acqu rir une liste de termes candidats et de commencer identifier des variantes de termes sigles ellipses et des termes quivalents valid s par un expert 3 2 2 Recueil des donn es attach es au concept Le champ concept du mod le de BCT est identifi en particulier par les relations conceptuelles qui lient l ensemble des concepts d un domaine ce sont ces
2. elles sont pr c d es d un pr sentatif etc affiner une requ te pour mettre en vidence des ph nom nes propres un corpus Nous traiterons plus pr cis ment de l organisation temporelle des phases constitutives du processus de d veloppement de logiciels scientifiques et techniques dans un corpus d EDF pour montrer comment partir d un ensemble de marqueurs potentiels on peut rep rer d autres marqueurs sp cifiques ce domaine Notons que nous ne d taillons pas ici la premi re phase qui m ne de la liste des candidats termes propos s par Lexter une liste de termes candidats Signalons simplement que l application des crit res pr sent s en 3 2 1 nous a permis de r duire la liste de 5875 candidats termes pour un corpus d environ 50 000 mots 1516 termes candidats soit une r duction de 74 Nous nous int ressons ici la deuxi me tape du processus qui conduit mettre en place un r seau relationnel Une tude de la relation partie de nous a permis de mettre en vidence l importance de la notion de phase pour le corpus Ainsi on a montr que l organisation d un processus en phases peut tre mod lis e gr ce une relation de type partie de accompagn e de relations comme pr c de ou se superpose qui permettent d ordonner ce type de parties cet ordonnancement n tant g n ralement pas n cessaire lorsqu il s agit de parties d objets Nous proposons donc ici un a
3. expression lexicale de la relation d ingr dience partie tout Faits de Langues 7 53 62 Jouis C 1995 SEEK un logiciel d acquisition des connaissances utilisant un savoir linguistique sans employer de connaissances sur le monde externe In Actes des Journ es d Acquisition de Connaissances du PRC GDR IA du CNRS Grenoble 5 7 avril 159 172 Kavanagh J 1996 The Text Analyzer A tool for extracting knowledge from text Master thesis Universit d Ottawa Meyer I amp Mackintosh K 1996 The corpus from a terminographers viewpoint International Journal of corpus Linguistics 1 2 Otman G 1996 Le traitement automatique de la relation partie tout en terminologie Faits de langue 7 43 52 Rastier F 1995 Le terme entre ontologie et linguistique La Banque des mots 7 35 65 Rebeyrolle J 1996 D finition et textes sp cialis s vers une mod lisation In Actes des Troisi mes Rencontres de l Atelier des Doctorants de l Universit de Paris7 9 11 Rousselot F Frath P amp Oueslati R 1996 Extracting Concepts and relations From Corpora In Actes de ECAT96 12th European Conference on Artificial Intelligence John Willy amp Sons S gu la P amp Aussenac N 1997 Un mod le de base de connaissance terminologique In Actes des 277 rencontres de Terminologie et Intelligence Artificielle TIA 97
4. se qu ils vont sans doute jouer un r le important dans le domaine et donc qu on va pouvoir les envisager comme constituant une premi re d limitation du domaine Cette hypoth se est encore l tude il faut donc la consid rer avec pr caution c Rep rage des quivalents de forme ou variantes de termes Partant de la liste des candidats propos s par Lexter on peut galement avancer un certain nombre de crit res de conservation de certains termes Ainsi nous avons d fini un ensemble de crit res morphosyntaxiques de conservation Ces crit res concernent les cas o existe une quivalence entre candidats termes qui manifeste la pr sence d un concept unique On peut proposer des quivalences entre des candidats morphologiquement proches comme outil de GL du projet et outil g nie logiciel du projet Le logiciel Lexter propose d ailleurs des hypoth ses d quivalence entre candidats termes en rep rant des variations de la d termination T1 d t T2 vs T1 d t_ T2 comme dans l exemple suivant tat de configuration logiciel vs tat de configuration du logiciel De m me on rapproche assez rapidement des quivalences entre des formes sigl es et les formes d velopp es correspondantes PDL Plan de D veloppement Logiciel DCP Dossier de Conception Produit N anmoins il s agit d autant d hypoth ses d quivalence qu il est n cessaire de valider avec les experts du domaine d
5. Le linguiste terminologue doit alors intervenir pour en fonction des donn es qu il recherche supprimer les donn es inad quates et r cup rer les donn es oubli es A ce moment l il a besoin d outils tr s souples qui lui permettent des interactions rapides en fonction des r sultats propos s Alors l utilisation du second type d outils est incontournable Le second type d outils n est pas d di une recherche pr cise mais propose un ensemble de fonctionnalit s que l utilisateur doit mettre en oeuvre en fonction de ses besoins Les concordanciers sont tr s caract ristiques de ce type d outils Dans l exp rimentation en cours nous utilisons un outil sp cifiquement con u pour la terminologie Lexter nous avons retenu galement deux autres types d outils Sato et Hyperbase Lexter le logiciel LEXTER Logiciel d EXtraction de TERminologie a t con u par Didier Bourigault Bourigault 1995 au sein de la Direction des Etudes et Recherches d EDF pour aider l extraction de donn es terminologiques Lexter utilise en entr e des corpus de textes techniques d un domaine quelconque qu il traite au moyen d une analyse syntaxique automatique partielle Sur la base de patrons morphosyntaxiques qui permettent de d limiter les fronti res de groupes nominaux le logiciel fournit en sortie une liste d unit s terminologiques candidates susceptibles de repr senter les concepts du domaine tudi
6. Les activit s li es l int gration d butent d s que Cette phase est achev e lorsque Les occurrences nous donnent toutes pour une phase d termin e dans la principale la condition de son d but ou de sa fin 4 2 2 Mod lisation de la relation de condition A cot d une relation de pr c dence succession et en lien avec elle il est n cessaire de prendre en compte une relation de condition Un examen plus fin des r sultats obtenus par application du patron de fouille montre que les conditions s appliquent pour le d but ou la fin des phases Un sch ma g n ral serait donc X conditionne le d but de Y Z conditionne la fin de Y Si nous visons construire une BCT il est contre intuitif de retenir comme terme des syntagmes comme d but de la phase Y ou fin de la phase Y Cette fa on de proc der si Il faut lire ce patron de fouille de la mani re suivante il s agit de rechercher tous les contextes dans lesquels un mot de la liste phase etc est suivi dans un contexte de 0 5 mots pr s d une conjontion de subordination temporelle elle permettait de conserver une relation conditionne serait tr s peu conomique puisque pour chaque tape on aurait au moins deux termes concern s celui qui indiquerait le d but et celui qui indiquerait la fin Nous avons donc fait un choix plus conomique qui consiste retenir deux relations conditionne le d but et conditionne la fin Le sch m
7. Sato le logiciel SATO Syst me d Analyse de Textes par Ordinateur a t con u par Jean Guy Meunier et d velopp par Fran ois Daoust Daoust 1992 L acc s au texte s effectue au moyen de concordances c est dire de recherche de l ensemble des occurrences d un mot dans chacun de ces environnements contextuels La grande originalit de Sato par rapport aux autres concordanciers r side dans le fait qu il permet d ajouter des propri t s aux mots ou aux segments textuels Notons que l ajout de propri t s peut tre le r sultat d une op ration automatique de projection d une base de donn es lexicales sur le lexique qui permet d attribuer chaque forme l une des valeurs grammaticales d clar es nom verbe conjugu pronom relatif etc Par exemple une commande comme ment tion age 2 de d du des 2 gramr Ncom permet de ramener la plupart des cas de d verbaux ou nominalisations qui sont suivis dans un intervalle de deux mots apr s de la 21 s agit de la Base de Donn es Lexicales BDL d velopp e par L Dupuy Universit de Qu bec Montr al L algorithme de la BDL repose sur la comparaison des cha nes du lexique du corpus de texte celles contenues dans les dictionnaires Si les cha nes sont identiques la cha ne du lexique re oit la cat gorie associ e la cha ne du dictionnaire pr position de puis dans un intervalle de deux mots apr s d un nom commun On trouverait
8. m thode de constitution de terminologies Nous proposons une m thode pr cise d utilisation de plusieurs outils Lexter Hyperbase SATO afin de constituer une base de connaissances terminologiques L article d crira l exp rimentation en cours il s attardera surtout sur la pr sentation de la m thodologie que nous mettons en oeuvre qui consiste en une int gration de r sultats fournis par diff rents outils guid e la fois par l objectif constituer une Base de Connaissances Terminologiques BCT et par les connaissances que nous avons sur le fonctionnement de la langue 1 Introduction L utilisation effective d outils pour la constitution de Bases de Connaissances Terminologiques BCT ne va pas sans poser de probl mes d autant plus difficiles identifier que les outils d di s la terminologie sont souvent des prototypes qui n ont pas t valu s sur des projets effectifs de constitution de terminologies Depuis plusieurs ann es nous travaillons la d finition de m thodes de constitution de BCT ce qui nous am ne tester des outils et essayer d int grer les r sultats qu ils produisent dans notre d marche d analyse de textes Or l utilisation de ces outils entra ne des probl mes qui selon nous linguistes utilisateurs de ces outils peuvent avoir pour origine d une part le fait que la r flexion th orique sous jacente la constitution n est souvent pas suffisamment avanc e et d
9. Condamines A amp Rebeyrolle J 1997c Utilisation d outils dans la constitution de Bases de Connaissances Terminologiques exp rimentation limites d finition d une m thodologie In Actes 1 Journ es Scientifiques et Techniques du R seau Francophone de l Ing nierie de la Langue de l AUPELF UREF Avignon avril 1997 pp 529 535 Utilisation d Outils dans la Constitution de Bases de Connaissances Terminologiques Exp rimentation Limites D finition d une M thodologie Anne Condamines CNRS Josette Rebeyrolle Universit Toulouse Le Mirail Equipe de Recherche en Syntaxe et S mantique ERSS Maison de la Recherche 5 All es Antonio machado 31058 Toulouse cedex tel 05 61 50 36 02 fax 05 61 50 46 77 e mail condamin irit fr rebeyrol cict fr R sum De nombreux laboratoires publics ou priv s travaillent la construction d outils pour aider l acquisition de donn es terminologiques partir de textes On peut cependant regretter qu ils soient encore tr s peu utilis s ce qui rend difficile l valuation de leur pertinence r elle Du fait de notre engagement dans la constitution de bases de connaissances terminologiques sur des corpus d entreprises nous devons d finir des m thodes qui int grent le mieux possible l utilisation d outils d analyse de corpus Notre travail s organise en deux parties d une part recensement et test d outils d autre part int gration des r sultats fournis par ces outils une
10. a suivant montre un exemple de mise en oeuvre de ces deux relations Phase de validation conWtionne la fin de le d but de phase d int gration r daction du manuel d installation conditionne le d but de crit res qualit crit res qualit du des composants produit livrable Figure 2 Partie du r seau conceptuel dans lequel des concepts sont reli s par les relations condition A partir de marqueurs suppos s d une relation nous avons volu vers l identification d une autre relation pour laquelle nous avons progress pas pas vers l affinement d un patron de fouille tr s efficace Aussi bien la mod lisation de cette relation que la d finition de ce patron de fouille sont tr s sp cifiquement d pendants du corpus l tude Il n aurait pas t possible d imaginer de tel r sultats avant l exp rimentation Il n aurait pas t possible non plus de les trouver sans une r flexion m thodique int grant les r sultats fournis par le logiciel chaque tape Par une int gration m thodique des r sultats fournis par Sato dans la d finition de nouveaux patrons de fouille nous progressons vers la d finition d un r seau conceptuel qui est soumis dans une derni re tape un expert du domaine qui le valide Alors seulement la liste des termes et des relations retenus est arr t e 5 Conclusion Si la constitution de bases de connaissances term
11. ainsi int gration r ussie des composants prototytpage d un logiciel Hyperbase construit en 1989 par Etienne Brunet Brunet 1995 Hyperbase r pond par les m thodes de l hypertexte aux besoins classiques du traitement automatique des textes concordances de type Key Word In Contexte KWIC index s lectifs ou syst matiques dictionnaires de fr quences cooccurrences filtrage et masquage de mots recherche de parties de mots La fonctionnalit qui nous a particuli rement int ress es est celle qui permet de faire une comparaison sous forme d cart r duit avec le corpus du Tr sor de la Langue Fran aise TLF de 70 millions de mots 3 2 La m thode Pour retrouver les informations associ es chacune des entit s du mod le de BCT propos nous avons labor une m thode linguistique assist e par les outils que nous venons de citer Nous appuyant sur les deux donn es principales du mod le le terme et le concept nous montrerons dans ce qui suit comment peuvent tre rep r es les informations n cessaires leur description 3 2 1 Recueil des donn es attach es au terme a Rep rage de termes candidats L identification des termes est acc l r e si l on a recours un extracteur de candidats termes comme Lexter N anmoins les r sultats que fournis Lexter ne sont pas utilisables directement car ils contiennent trop de bruit Ainsi ils demandent tre tri s sur la ba
12. autre part le fait que les outils d finis pour un r sultat ponctuel laissent peu de marge de manoeuvre l utilisateur Notre pr sentation s organisera en trois tapes Nous indiquerons d abord quel objectif nous poursuivons lors de l analyse de textes pr sentation du mod le de BCT et des t ches qu il am ne effectuer ensuite nous exposerons notre m thode de travail qui allie analyse linguistique et utilisation de diff rents types d outils puis nous proposerons travers un exemple une illustration de notre d marche 2 Constitution de Bases de Connaissances Terminologiques La constitution d une base de connaissances terminologiques suppose qu un ensemble d l ments soient clairement tabli un corpus doit servir de r f rence Anne Condamines et l ERSS ont re u en 1994 le prix ANVIE CNRS de valorisation de la recherche en sciences humaines dans les entreprises pour la constitution de BCT et de mat riau de travail un mod le de donn es doit avoir t d fini les tapes d analyse du corpus doivent avoir t identifi es le type de r sultats fournis par les outils doivent avoir t analys s et int gr s les connaissances linguistiques qui sont mises en oeuvre ou cr es doivent avoir t d termin es Dans ce processus on le voit la mise en oeuvre des outils constitue un des l ments qui est contraint par d autres la nature des donn es rechercher et les connaissa
13. comatique et Dictionnairiques IVes Journ es scientifiques du r seau Lexicologie Terminonologie Traduction Lyon Condamines A amp Amsili P 1993 Terminology between Language and Knowledge An example of Terminological Knowledge Base In TKE 93 Terminology and Knowledge Engineering Frankfurt Indeks Verlags 316 323 Condamines A 1996a Aide l acquisition des connaissances par l tude de la terminologie In N Aussenac Gilles P Laublet amp C Reynaud Edbs Acquisition et Ing nierie des connaissances tendances actuelles pp 247 265 Toulouse Cepadues Condamines A 1996b Analyse de textes pour l acquisition de donn es terminologiques Terminologies Nouvelles 14 35 42 Daoust F 1992 SATO Syst me d Analyse de Textes par Ordinateur version 3 6 Manuel de r f rence Centre ATO Universit du Qu bec Montr al Descamps J L Mochet M A Lewin T Lamizet B amp Costes D 1992 S mantique et concordances Publication de l INALE Collection St Cloud Paris Klincksieck Hearst M A 1992 Automatic acquisition of hyponymys from large text corpora In Actes du 15 Colloque international en linguistique informatique COLING 92 Nantes 539 545 Herviou M L Ogonowski A amp Dauphin E 1994 Tools for extracting and structuring Knowledge from Texts In Actes du Colloque international en linguistique informatique COLING 94 Japon Kyoto Jackiewicz A 1996 L
14. d finir une m thode qui soit r utilisable voire enseignable on ne peut se contenter d une approche intuitive Nous montrerons dans la partie suivante comment ces connaissances sont activ es chaque tape du recueil On montrera que suivant les cas la connaissance sur la langue de r f rence permet soit de mettre en vidence un fonctionnement r gulier mais implicite dans les corpus soit de mettre en vidence un fonctionnement d viant par rapport au fonctionnement attendu Dans tous les cas l analyse de textes sp cialis s est faite par comparaison avec un syst me consid r comme standard et stabilis 3 M thode de constitution de BCT Une fois tabli le type de donn es qui vont tre recherch es dans les corpus on peut mettre en place une m thode de recueil de ces donn es et rechercher les outils qui assisteront le mieux cette d marche 3 1 Les outils Deux types d outils peuvent tre envisag s des outils construits pour l extraction de donn es terminologiques et des outils d analyse de textes au sens large Le premier type d outil propose soit des candidats termes soit des candidates relations conceptuelles Que la d marche soit de type ascendant les donn es sont remont es du corpus comme dans les outils de type statistique ou de type descendant les donn es sont d finies a priori et recherch es dans le corpus comme dans Hearst 1992 tous ces outils engendrent du silence ou du bruit
15. donn es qu il faut retrouver dans le corpus tudi a Rep rage des quivalents de contenu pour des formes diff rentes synonymes Ces quivalences peuvent tre tir es de l examen des candidats termes de Lexter si l on applique certains crit res s mantiques Ces crit res s mantiques permettent de poser l existence de paradigmes d quivalents parmi les expansions Ainsi des structures du type T1 Adj1 T1 Adj2 dans lesquelles Adj1 et Adj2 sont synonymes en langue peuvent tre consid r es comme quivalentes Ce fonctionnement r gulier est consid r comme un argument pour conserver les candidats termes petit projet vs projet de petite taille De la m me fa on une opposition parmi les expansions est un argument pour retenir les candidats terme conception g n rale vs conception d taill e Par le biais de la notion d quivalence on acc de au niveau conceptuel puisque deux termes sont quivalents s ils renvoient au m me concept b Rep rage des relations conceptuelles Un examen des candidats termes de Lexter peut aussi permettre de mettre au jour certaines relations taxonomiques potentielles entre des candidats En effet les paradigmes propos s par Lexter sous la forme t te T et expansion E permettent de faire l hypoth se qu il existe une relation de hi rarchie entre T et T E ex test test d acceptation test de qualification test de validation test de recette etc P
16. e des marqueurs de relations d finitoires contextes tr s riches dans l expression de relations conceptuelles Rebeyrolle 1996 nous permet de caract riser le fonctionnement des marqueurs dans les corpus sp cialis s On peut distinguer des marqueurs ind pendants d un corpus particulier Borillo 1996 ce qui ne signifie pas qu ils sont syst matiquement utilis s Ainsi dans le corpus en cours d tude cf note 5 on retrouve certaines structures Il s agit de structures pr dicatives du type d t_d f T1 est d t_ind f T2 Le Plan de D veloppement Logiciel est un document de structures appositives soit strictement appos es du type d t_ind f T2 d t_d f T1 soit parenth tiques d t_d f T2 d t T1 Le produit logiciel correspond une transformation g n ration d un Etat de Configuration donn et galement d autres structures signalant un emploi autonymique telle que d t_d f T1 c est dire d t_d f T2 tests effectuer l issue de la phase de sp cification c est dire le plan de validation du logiciel Par contre dans ce m me corpus on ne retrouve pas les structures signalant l introduction d une d finition comme on appelle d t_ T1 d t_ ind f T2 structure pourtant tr s fr quente dans des corpus de type didactique et d t T2 ou d t T1 structure utilis e dans certains corpus pour introduire une quivalence entre des termes On distingue d aut
17. e manifestant l accomplissement d une condition Dans lorsque les besoins ne sont pas couverts par les chapitres du document de r f rence des chapitres suppl mentaires peuvent tre r dig s c est peut tre une cause qui est indiqu e par la subordonn e mais certainement pas une condition Le patron de fouille qui s av re le plus efficace fait intervenir une notion de phase dans la principale et un marqueur de subordination temporelle lorsque d s apr s avant quand sans contrainte a priori sur la subordonn e temporelle La notion de phase peut s exprimer soit au moyen d un d verbal et nous recueillons ici les r sultats de l analyse des d verbaux soit au moyen d un quivalent du mot phase quivalents que nous avons recherch s dans Sato par un examen des contextes contenant un d monstratif suivi d un nom autre que phase ou une nominalisation dans des contextes o ils constituent une reprise anaphorique de phase comme La phase de conception pr liminaire Cette t che Ainsi en plus du terme phase on a galement retenu les termes t che activit processus Le patron de fouille qu on obtient alors est le suivant t che activit processus revuef phasef Dev dev 5 lorsque d s Avec ce nouveau patron de fouille obtenu progressivement par adaptation en fonction des r sultats renvoy s par Sato les occurrences obtenues sont toutes tr s pertinentes on en citera quelques exemples
18. enter Dans le cas d un terme d nommant plusieurs concepts polys mie ou homonymie les occurrences sont s lectionn es en fonction de chaque concept 2 2 Les t ches effectuer Pour compl ter ce mod le on distingue quatre types de t ches r aliser Condamines 1996 a rep rage des termes par exemple partir d une liste de candidats termes rep rage d quivalents de forme ou de variantes de termes il s agit des sigles ou des abr viations voire de variantes plus sophistiqu es comme IVA moyenne pour segment moyen de l IVA ce sont des groupes de mots qui apparaissent dans des contextes s mantiquement proches et qui entretiennent une parent morphologique rep rage des quivalents de contenu pour des formes diff rentes synonymes c est dire des relations entre termes mots ou syntagmes qui apparaissent dans des contextes s mantiquement proches sans avoir aucune parent morphologique capteur senseur d tecteur dans la terminologie de Matra Marconi Space rep rage des relations entre concepts pour des couples de termes rep rage de contextes diff rents mais s mantiquement proches Le travail d analyse de textes sur lequel se fonde le recueil des donn es n cessaires une BCT fait appel des connaissances sur le fonctionnement de la langue autant que faire se peut cette mise en oeuvre doit tre contr l e par le linguiste En effet si l on vise
19. ffinement de la relation partie de 4 1 De la relation de succession vs pr c dence la relation de condition Pour d crire un processus d coup en phases prenons deux phases X et Y on peut avoir besoin de savoir au moins si X pr c de Y X suit Y X se d roule en m me temps qu Y concomitance X a lieu pendant Y Ce sont ces informations que l on va chercher retrouver dans le corpus par l application de patrons de fouille d finis avec Sato Dans la pr sentation qui suit nous nous int ressons plus particuli rement la relation de pr c dence vs succession On peut d finir un patron tr s g n ral faisant intervenir des marqueurs verbes comme pr c der suivre succ der ou des marqueurs pr positions comme avant ou apr s L application du patron verbal ne nous donne que de tr s faibles r sultats seuls deux contextes mettent effectivement en vidence la succession de deux activit s Par contre les pr positions font appara tre des donn es plus pertinentes On a par exemple La phase d Architecture d bute apr s approbation des Sp cifications Fonctionnelles et Techniques Produit ou Le Dossier de Conception Produit r sultant doit tre accept avant la phase d Int gration Produit L examen de ces deux exemples nous am nent prendre en compte l id e de condition que l on peut consid rer comme un affinement de la notion de pr c dence une condition pr c de toujours u
20. inologiques ne peut ignorer les nombreux outils d extraction de termes candidats d analyse de corpus etc qui visent l assister il reste cependant pr ciser lPutilisation qu on peut faire des r sultats qu ils fournissent La m thode que nous avons d crite ici a pour objectif de proposer une fa on d int grer ces outils dans une d marche linguistique de constitution de terminologies Il appara t clairement dans le processus que nous avons d crit que les outils interviennent essentiellement pour assister le linguiste terminologue dans sa t che pour le guider dans son recueil et de ce fait qu il est n cessaire que ces outils soient d une grande souplesse afin de laisser toujours possible des retours en arri re au fil de la d marche 6 Bibliographie Bourigault D amp L pine P 1994 M thodologie d utilisation de Lexter pour l acquisition des connaissances partir de textes In Actes des Journ es Acquisition Validation Apprentissage JAVA 94 1 13 Bourigault D amp Condamines A 1995 R flexions sur le concept de Base de Connaissances terminologiques In Actes des 5 mes Journ es du PRC IA Nancy 1 3 f vrier 1995 Toulouse Teknea 425 444 Borillo A 199 Exploration automatis e de textes de sp cialit rep rage et identifcation automatique de la relation lexicale d hyperonymie LINX 34 35 Brunet E 1995 Un hypertexte statistique pour grands corpus HYPERBASE In Lexi
21. nces linguistiques utilis es 2 1 Le mod le de BCT Pour rendre compte du fonctionnement de la terminologie d un domaine nous avons retenu un certain nombre de donn es n cessaires terme T concept C lien terme concept LT C et texte qui sont organis es dans le mod le suivant Condamines amp al 1993 S gu la amp al 1997 M D Ha D mes partie de Lyc R seau Conceptuel Figure 1 Les diff rents composants de la BCT Les quatre champs du mod le contiennent respectivement les informations suivantes a le terme comporte les donn es proprement linguistiques nature et genre variantes de formes sigles abr viations etc le concept contient les donn es qui concernent le concept d nomm par le terme sous la forme d une d finition et de relations s mantiques explicites Le choix des relations n est pas contraint et seule la relation taxinomique est r ellement formalis e le lien terme concept renferme des informations sur les contraintes de la validit d un terme pour d nommer tel concept il s agit par exemple de standards ou de normes ou bien de certains locuteurs tel ou tel d partement l int rieur d une entreprise tel ou tel m tier etc le texte permet de rendre compte des liens entre un terme et ses occurrences dans un corpus repr sentatif d un domaine ou d une t che que la BCT cherche repr s
22. ne action En effet c est l approbation des Sp cifications qui conditionne le d marrage de la SL tude de ce corpus est r alis e dans le cadre d un projet financ par le GIS Sciences de la Cognition Terminologie mod lisation des connaissances et syst mes hypertextuels de consultation de documentation technique phase d Architecture de m me que l acceptation du Dossier de Conception conditionne le d but de la phase d Int gration De plus si on examine de plus pr s cette id e d un d clenchement li une approbation ou acceptation on met en vidence une r gle g n rale propre au processus que l on d crit dans notre corpus En effet si l on recherche le marqueur de condition le plus intuitif dans le corpus condition avec une troncature signifiant une variable en fin de mot on trouve trois occurrences dont l une d crit explicitement le cycle de d veloppement comme un encha nement de phases dans lequel le passage d une phase la suivante est conditionn par l acceptation de la phase pr c dente Ainsi partir de marqueurs de succession pr c dence on a obtenu non pas des contextes o s exprime cette relation mais des contextes o c est la relation de condition qui est exprim e Si l on d cide de s int resser d sormais cette relation de condition il convient de trouver des marqueurs suffisamment pr cis pour qu ils g n rent le moins possible du bruit o
23. nes formes sont consid r es comme tant trop g n rales c est le cas de certains groupes nominaux compl ment du paragraphe Synth se du projet de certaines locutions pr positionnelles la suite de l issue de de certaines locutions adverbiales coup par coup de certains candidats termes dont la t te joue un r le de d terminant et non pas de nom au sens plein famille ensemble des formes contenant un anaphorique ou un cataphorique dont l interpr tation est directement li e au contexte phase suivante de d veloppement et galement des formes contenant un d ictique dont l interpr tation est li e la situation d nonciation mise jour du pr sent document et enfin des formes contenant un adjectif qualificatif trop vague ou trop g n ral alphab tique classique concret constitutif b D finition des limites terminologiques du domaine Une des difficult s dans la constitution de BCT est li e la cl ture du domaine aux marges du r seau conceptuel comment d finir ce qui est terme et ce qui n est pas terme Dans cet objectif nous nous appuyons sur les r sultats fournis par Hyperbase En utilisant la fonctionnalit d Hyperbase qui permet une comparaison avec le corpus du TLF on peut en effet obtenir les mots qui dans le corpus que l on tudie apparaissent en exc dent ou en d ficit Nous nous int ressons particuli rement aux mots qui sont en exc dent en faisant l hypoth
24. our aller plus avant dans la d termination des relations conceptuelles une analyse des corpus est indispensable Dans la plupart des cas c est l utilisation de fonctionnements r guliers qui va donner au linguiste une stabilit pour lui permettre d expliciter des ph nom nes implicites dans les textes sp cialis s Ainsi lors de la construction de terminologies le recours des marqueurs syntactico s mantiques permet de mettre en vidence des relations conceptuelles Par exemple une m me relation de cause va s exprimer diff remment dans les trois phrases suivantes un infarctus du myocarde par st nose de l IVA la st nose de l IVA est responsable de l infarctus du myocarde un IDM en relation avec une st nose de l IVA Or ces indices que nous appellerons d sormais marqueurs de la cause sont utilisables quels que soient les domaines et permettent un non sp cialiste de mettre au jour des portions enti res de r seaux conceptuels l expert n tant sollicit que pour confirmer les hypoth ses En revanche il se peut que certaines marqueurs soient sp cifiques certains domaines ou m me que certaines relations n apparaissent que dans certains domaines par exemple la relation est sympt me de dans le domaine m dical Pour rep rer les relations et d finir le r seau conceptuel nous proposons de recourir l utilisation de Sato Notre tude de diff rents corpus et plus particuli rement notre analys
25. re part des marqueurs qui sont d pendants d un corpus cf exp rimentation d crite en 4 Enfin on peut trouver des marqueurs sp cifiques pour une relation non identifi e Notre travail sur les corpus consiste utiliser des connaissances que nous avons a priori sur les marqueurs de relations soit pour les retrouver dans les corpus soit pour les adapter au corpus soit pour en d couvrir de nouveaux Dans cet objectif une interaction permanente avec le logiciel nous permet de prendre en compte les r sultats imm diatement et d ajuster nos patrons de fouille au fur et mesure des r ponses fournies Ainsi partir de marqueurs consid r s comme g n raux ind pendants du domaine nous d finissons une premi re s rie de patrons de fouille que nous testons sur le corpus A partir des r sultats produits nous adaptons les patrons pour les rendre plus pertinents c est dire pour limiter les bruits et les silences Cette d marche est pr sent e dans le paragraphe suivant 4 Exp rimentation Il s agit de pr senter pas pas une utilisation de Sato pour le rep rage d informations conceptuelles en montrant comment partir d une structure tr s g n rale on peut 4 utilisation du gras signale l emploi autonymique du terme Il faut noter que l on regroupe dans un m me sch ma g n ral des structures qui peuvent subir des modifications syntaxiques selon qu elles se trouvent dans une relative qu
26. se de crit res linguistiques afin de constituer une liste de termes candidats c est dire de cha nes de caract res dont on peut penser qu elles sont des termes avant toute analyse en corpus Il s agit en effet de sp cifier des crit res linguistiques relativement stables qui permettent d exclure les unit s qui constituent incontestablement du bruit et qui multiplient inutilement les donn es analyser en contexte Ainsi nous proposons de rejeter les unit s qui r pondent l un des crit res syntaxiques ou s mantiques num r s dans ce qui suit On limine dans une premi re tape de filtrage les candidats qui ne peuvent pas tre des termes pour des raisons syntaxiques qu il s agisse d une erreur de d coupage syntaxique effectu par Lexter pr sume pas de la m thodologie de d veloppement utilis e ou d une erreur de d coupage due une confusion entre forme verbale et forme nominale la forme verbale utilis e est consid r e par Lexter comme une forme nominale offre demande Seul un examen en contexte permet d identifier cette erreur C est avec Sato que s effectue cette confirmation Les formes non terminologiques sont galement supprim es il s agit de structures qui sont syntaxiquement correctes mais qui ne sont pas terminologiques est il a t il choix entre Dans une seconde tape on retire les candidats qui ne peuvent pas tre des termes pour des raison s mantiques Ainsi certai
27. ts sont accept s Or l examen des contextes dans lesquels le participe pass accept e es s est utilis approuv n est pas utilis fait appara tre une corr lation tr s nette entre le fait qu une condition est exprim e et le fait que le contexte d apparition est une subordonn e temporelle Il faut cependant une principale particuli re puisqu elle doit exprimer le d but ou l ach vement d une phase Un pas suppl mentaire nous montre d ailleurs que la notion d acceptation qui induit la notion de condition dans la subordonn e peut s exprimer simplement par un participe pass m me s il est utilis avec un autre verbe qu accepter Ainsi dans la phase de validation est achev e lorsque les tests de validation ont t effectu s avec succ s c est bien l aspect accompli apport par le participe pass ici au passif effectu s qui permet de comprendre qu une condition a t respect e On pourrait d s lors en d duire que la configuration de marqueurs utiliser pour rep rer l expression d une condition dans ce corpus particulier serait Conj de subordination temporelle verbe au participe pass Or l application de ce patron ram ne beaucoup trop de bruit d une part parce que Sato ne contient pas d analyseur syntaxique et que beaucoup de formes peuvent tre consid r es comme des participes pass d autre part parce que n importe quel verbe au participe pass ne peut pas tre consid r comm
28. u du silence 4 2 La relation de condition Ce paragraphe va nous permettre d tudier plus en d tail la relation de condition en particulier les marqueurs qui permettent de la mettre en vidence le plus s rement ainsi que la meilleure fa on de la mod liser 4 2 1 Recherches des marqueurs de condition Repartant d une perception intuitive on peut chercher si les marqueurs g n raux de la condition se retrouvent dans le corpus De ce point de vue l des verbes comme conditionner entra ner provoquer sont tr s peu productifs part l exemple de conditionner que nous avons donn ci dessus Des marqueurs plus sp cifiques du corpus comme approbation ou son quivalent acceptation sont eux trop g n raux pour ne renvoyer que les contextes o une relation de condition est exprim e En r alit ces mots sont plut t utilis s pour introduire des crit res de Qualit on trouve ainsi souvent proc dure d acceptation modalit s d acceptation crit res d acceptation test d acceptation Par contre ces deux mots tant des d verbaux nous pouvons tester si la forme verbale n appara t pas dans les textes Il s av re en effet qu une forme verbale la forme participe pass est tr s utilis e dans le corpus dans des contextes o une condition est exprim e On trouve ainsi Phase de r alisation du produit est achev e lorsque tous les composants sont accept s Le bilan produit est effectu lorsque les produi
Download Pdf Manuals
Related Search
Related Contents
Fluke 43B Energy Valve 取扱説明書(電気工事パラメータ設定) Manuel d`installation et d`entretien Electrodistributeurs type 5 Calcul de l`Indice de Service Whitehaus Collection WHNDBU3318-BSS Installation Guide Aroma BREADCHEF ABM-220 User's Manual Requirements Engineering - Software Engineering STIHL FS 360C Professional Use Brushcutter/Clearing Saw Artwizz SeeJacket Leather FLIP User Manual and Troubleshooting Guidelines Copyright © All rights reserved.
Failed to retrieve file