Home
le filtrage d`information - Page Personnelle de Antonio Balvet
Contents
1. 203 4 2 2 3 Passage de formes sch matiques des sch mas de sous cat gorisatiOn cccceeceeeteeneeee 206 4 2 2 4 G n ration de bases de donn es lexicales cece csseeseeececseeseececsssessesscsessssesesscsssensenees 207 4 2 3 Une base de donn es lexicales pour la recherche d information n se 209 4 3 MESURE DES PERFORMANCES DU SYST ME CORAIL in 210 4 3 1 Un corpus professionnel ses 211 3 1 1 WnCOrpus financiers ct mere restes teste ane t EE tent de da no 211 4 3 1 2 Quelques l ments stylistiques ss 211 4 3 1 3 Structuration en themes i cisvcscssescerssssssissescsscscsnsssvecsoeacsadtossssetsssssosssessevsespazessesdontbavesdeos 213 4 3 2 Mesure des performances seine 215 4 3 2 1 Protocole d valuation quantitative 215 4 3 2 2 Indicateurs de performance se 216 43 2 3 Discussion des r sultats sims amenant dir rte EAEE 218 4 3 3 Questions d utilisabilit ss 221 4 3 3 1 bauche d une valuation ergonomique een 221 4 3 3 2 Quelques r sultats see 223 4 4 CONCLUSION 555 O EE EEEE EO EE EEEE EEEE ie EEE ESE EEEE E EE 225 CHAPITRE 5 CONCLUSION ET PERSPECTIVES ssssseenneeeennneennnennnrse 228 5 1 UN CADRE POUR UNE LINGUISTIQUE DES CORPUS sccesccssecssecseecseeeseeeeeesseeseeeeceseessecsaecsaecsaecsaeeneseneeegs 228 5 2 LINGUISTIQUE DE CORPUS ET RECHERCHE D INFORMATION nee 230 5 3 LINGUISTIQUE ET CATEGORIES 28008 nan n
2. La strat gie des lots de certitude dans le cas d nonc s tels que Thales rach te sa filiale EADS Dassault ne retient que les l ments suivants e un pr dicat verbal dont la structure de sous cat gorisation attend au moins deux compl ments habituels et d notant un v nement i e une op ration financi re consid r comme pertinent pour un th me de veille i e veille conomique 205 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL e agent le patient et l objet d une transaction respectivement Thales Dassault et le syntagme sa filiale EADS en l occurrence des soci t s identifi s par leur position dans l nonc e la mention facultative d un montant pour la transaction ex pour trois milliards d euros e des potentiels d insertions ventuellement non born es aux fronti res des diff rents syntagmes ainsi qu entre la t te et l extension de ces syntagmes Les lex mes mentionn s ci dessus qui constituent des amorces pour la reconnaissance de signatures th matiques peuvent tre rattach s la structure suivante NO Insertions V_Achat Insertions N1 Insertions PREP N2 Insertions Montant dans laquelle les l ments facultatifs sont figur s entre parenth ses 4 2 2 3 Passage de formes sch matiques des sch mas de sous cat gorisation La premi re phase de g n ralisation est suivie d
3. speech is a set of complex continuous events and the ability to set up discrete elements lies at the base of the present development of descriptive linguistics idem On le voit tant pour Saussure que pour Harris toute description est d ja une analyse et non pas une simple accumulation de faits On peut voir dans le recours a des proc dures d approximation la mise en ceuvre d un principe visant a assurer un maximum de coh rence aux observations alli la recherche d une compl tude maximale donn e par la description envisag e comme syst matique 1 2 2 4 Ad quation pr dictive Nous avons pr sent le distributionnalisme comme une d marche centr e sur les observables donc visant une compl tude maximale dans les observations Nous avons galement avanc que ce principe de compl tude tait associ un principe de coh rence Ce principe visant induire des r gles g n rales partir des exemples observ s peut tre vu 51 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS comme une ambition de d passer le niveau purement descriptif Les approches rationalistes telles que le g n rativisme ont essentiellement fond leurs critiques du distributionnalisme sur les limites d une th orie linguistique fond e sur des observables incomplets les corpus Le recours aux proc dures d approximation voqu es plus haut peut tre vu comme la r ponse de Harris l argument de l incompl tude
4. Le postulat de l arbitraire des signes linguistiques implique que les l ments d une langue donn e ne sont con us qu en ce qu ils s opposent d autres l ments autrement dit ils ne poss dent pas de valeur intrins que mais bien une valeur qui ne peut tre que relative r sultant des relations d opposition avec les autres l ments ou syst me Outre les avanc es m thodologiques et conceptuelles consign es dans le Cours de Linguistique G n rale CLG fondant la linguistique comme une approche scientifique des ph nom nes langagiers en synchronie et effectifs l uvre saussurienne marque une tape primordiale en ce qu elle prend position et fait acte de science en postulant des unit s abstraites par rapport une r alit ex un signal acoustique Cette abstraction premi re exprim e dans les termes saussuriens comme la discr tisation dynamique de la mati re phonique par ex et de la pens e l un par l autre constitue nos yeux une vocation du recours n cessaire une d marche cat gorisante en termes saussuriens l adoption d un point de vue d s l tape de description Autrement dit toute tude linguistique repose sur un effort visant organiser le r el continu en un ensemble d l ments discontinus contenus dans des classes la langue ne se pr sente pas comme un ensemble de signes d limit s d avance dont il suffirait d tudier les
5. 36 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS 3 les propri t s distinctives des l ments peuvent tre exprim es sous une forme binaire dans une optique de principe optimal de description L effet de cette adh sion au mod le classique n cessaire dans une perspective objectivante a principalement t selon des auteurs tels que Taylor de constituer la linguistique comme science ou tout le moins de d marche scientifique en sortant notamment du r le quasi exclusivement descriptif qui lui tait d volu jusque l en posant la question de l acquisition de la facult de langage le g n rativisme impose tout mod le linguistique de disposer de moyens de pr diction et d explication des ph nom nes tudi s Toutefois l adh sion sans condition au mod le aristot licien des cat gories s est galement traduite par l introduction d une vis e logiciste discr tisante en contradiction avec des ph nom nes dont le caract re holiste et flou a t soulign par des auteurs tels que Wittgenstein Des observations et des exp riences men es par des linguistes tels que Labov Lakoff et Langacker des psycholinguistes tels que Rosch notamment ou encore des anthropologues tels que Levi Strauss ont par ailleurs r v l l existence de processus de cat gorisation d viants par rapport au mod le aristot licien classique fond sur le principe du tiers exclu tant dans des cultures non occidentales
6. bomb le syst me Circus cherchait des documents contenant des passages reconnus par une grammaire locale construite autour de l amorce bomb was bombed by lt perpetrator gt par exemple Dans cette grammaire locale lt perpetrator gt regroupe des syntagmes nominaux attest s dans les documents ou g n ralis s susceptibles de jouer le r le d agents Nous proposons de reprendre pour le filtrage d information la notion de signature de pertinence introduite par Riloff en extraction Cette approche bien qu adapt e a une tache d extraction a classer dans les activit s de pull implique cependant la mise en ceuvre d algorithmes de d cision de cat gorisation des textes trait s en fonction de contraintes multiples que nous n avons pas d taill es ex taux de corr lation entre une signature et un th me Dans le cas du filtrage autrement dit une t che de push le temps de traitement doit tre le plus limit possible Cette contrainte implique que la phase de prise de d cision soit abandonn e Nous proposons pour le FI la notion de signature th matique se distinguant de celle de signature de pertinence par une plus grande sp cialisation 3 2 3 2 Des unit s lexicales complexes comme descripteurs Les signatures th matiques sont consid rer comme des unit s lexicales complexes pouvant servir de descripteurs th matiques dans le cadre du FI Autrement dit nous consid rons des unit s linguistiques fon
7. la fois noms et infinitif clair fort juste sont la fois adjectifs et adverbes Faut il cr er les cat gories adjectif nom adjectif adverbe Aucune classification r ellement satisfaisante ne s est impos e on se heurte au probl me d un continuum rebelle toute classification rigide Fuchs 1993 p 91 L extrait cit ci dessus montre une autre cons quence de l adoption d un point de vue logiciste et cat gorique et monocat gorial dans la construction des classes linguistiques i e les parties du discours pour des applications en ing nierie linguistique qui poussent l auteur re 7 A 21 poser la question de la cr ation de nouvelles classes pour sauver les ph nom nes sachant je aa que toute nouvelle classe remet n cessairement en cause l quilibre de l ensemble du syst me construit jusque l 1 1 3 Quelques notions fondamentales 1 1 3 1 Unit Historiquement l mergence d une linguistique des structures ou syst mes est li e la prise en compte du mat riau sonore du langage Ce mat riau pose un d fi aux tudes linguistiques l o l crit qui est d j une formalisation et une normalisation de l oral propose des unit s videntes ex des mots typographiques l oral n est que variation La naissance de la phonologie peut tre vue comme celle d une approche scientifique du langage qui am ne se poser la questi
8. la notion de r p tition 59 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS While Harris discussed the functional role of distributional regularities in language he proposed no specific mechanisms by which language users could take advantage of those regularities in language acquisition and use In particular it is not obvious that language users can acquire stable distributional information from the limited evidence that is available to them from their linguistic environment This question created a great opening for Chomsky s rationalist critique of empiricist and structuralist linguistics Pereira 2000 p 1242 Les cons quences de cette formalisation insuffisante sont une remise en cause de toute approche guid e par les observables par une approche rationaliste i e le g n rativisme Face aux lacunes du programme distributionnel envisag dans un cadre cat gorique trop restrictif quelle valeur accorder au renouveau des approches probabilistes guid es par les observables sous la pression principalement du domaine de l ing nierie linguistique 1 3 Distributionnalisme et probabilit s L alliance entre une approche non cat gorique fond e sur un appareil formel en contradiction avec le cadre cat gorique classique et une approche empirique des ph nom nes langagiers n est pas nouvelle Nous abordons dans cette partie le glissement vers une approche probabiliste stochastic
9. un ensemble de documents traitant du domaine financier ex th me 18 strat gie des entreprise th me 19 cession acquisition de soci t s Comme d finition approch e de la fonction informative nous consid rerons l ensemble de phrases ou de parties de phrases formant l ensemble des documents trait s associ es un th me besoin en information donn Cette conception fonctionnelle de l information se retrouve par exemple chez Michel 1999 consacr la mise en uvre de protocoles d valuation d une application informatique de recherche d information pour laquelle la dimension individuelle est primordiale Cette centration sur l utilisateur final se traduit en effet par une n cessaire remise en cause d une conception objective de l information Le projet Profil Doc part du constat que tous les documents ne sont pas pertinents au m me titre pour des utilisateurs diff rents m me si leur contenu est en relation avec la question pos e au syst me L Jutilisateur face un syst me en texte int gral qui lui fournit g n ralement trop d information va d velopper une strat gie de recherche empirique Toutes ces strat gies ont deux caract ristiques elles portent sur des crit res la forme le support le style le domaine de comp tence de l auteur autres que le contenu du document elles sont tr s fortement individualis es et permettent une personnalisation de la
10. 1999 Traitement automatique de la langue fran aise utilisant le paradigme d valuation Aupelf Uref John Libbey Eurotext France Markovitch S 1989 Information Filtering selection mechanisms in learning systems th se de doctorat university of Michigan Martin D Cheyer A J Moran D B 1999 The Open Agent Architecture a framework for building distributed software systems Applied Artificial Intelligence vol 13 pp 91 128 Martinet 1985 Syntaxe g n rale Armand Colin Paris Mason O 2000 Programming for Corpus Linguistics Edinburgh Textbooks in Empirical Linguistics Edinburgh University Press McEnery T Wilson A 1996 Corpus linguistics Edinburgh University Press McMahon J G J 1994 Statistical language processing based on self organising word classification th se de doctorat The Queen s university of Belfast Mel Cuk I A Clas A Polgu re A 1995 Introduction la lexicologie explicative et combinatoire AUPELF UREF Champs Linguistiques collection dirig e par Dominique Willems Editions Duculot Louvain la Neuve Meunier F Balvet A Poibeau T 1999 Projet CORAIL COmposition de Requ tes par des Agents Intelligents Linguistiques Linguisticae Investigationes XXII pp 369 381 John Benjamins B V Amsterdam 246 Michel C 1999 Evaluation de syst mes de recherche d information comportant une fonctionnalit de filtrage par des mesures endog nes th se de doctorat en Scien
11. Muller C 1973 Initiation aux m thodes de la statistique linguistique Collection Unichamp Champion Nasr A 1996 Un modele de reformulation automatique fond sur la Th orie Sens Texte Application aux langues contr l es th se de doctorat Universit Paris VII Naulleau E 1997 Apprentissage et filtrage syntaxico s mantique de syntagmes nominaux pertinents pour la recherche documentaire th se de doctorat Universit Paris XIII Villetaneuse 247 Oard D 1996 Adaptive vector space text filtering for monolingual and cross lingual applications th se de doctorat university of Maryland Oard D W Marchionini G 1996 A Conceptual Framework for Text Filtering Technical Report CS TR 3613 university of Maryland Osborne M 1999 MDL based DCG Induction for NP Identification Osborne M amp Tjong Kim Sang E eds CoNLL99 pp 61 68 Bergen Pedersen T Kayallp M Bruce R 1996 Significant lexical relationships Proceedings of the 13 national conference on Artificial Intelligence Portland Pereira F 2000 Formal grammar and information theory together again Philosophical Transactions Mathematical Physical and Engineering Sciences n 358 pp 1239 1253 The Royal Society London Pereira F Tishby N Lee L 1993 Distributional clustering of English words Proceedings of the 31 annual meeting of the Association for Computational Linguistics ACL pp 183 190 Piattelli Palmerini
12. Num ro d ordre UNIVERSIT PARIS X NANTERRE UFR LLPHI PR SENT E PAR ANTONIO BALVET POUR OBTENIR LE GRADE DE DOCTEUR EN SCIENCES DU LANGAGE APPROCHES CAT GORIQUES ET NON CAT GORIQUES EN LINGUISTIQUE DES CORPUS SP CIALIS S APPLICATION UN SYST ME DE FILTRAGE D INFORMATION Soutenue publiquement le 11 D cembre 2002 devant le jury M M M M M Christian FLUHR Beno t HABERT Bernard LAKS ric LAPORTE C lestin SEDOGBO Mme Antoinette RENOUF Rapporteur Examinateur Directeur Examinateur Examinateur Rapporteur Remerciements Je remercie tout d abord Antoinette Renouf et Christian Fluhr d avoir accept la lourde charge de rapporteur Leur regard sur ce travail m a permis d aborder des perspectives nouvelles les questions qu ils m ont adress es m ont incit es clarifier certains points Je souhaite galement adresser mes remerciements l ensemble des membres de la convention CIFRE r gissant le pr sent travail de th se Bernard Laks C lestin Sedogbo et ric Laporte pour la qualit de leur encadrement au cours de cette th se Par ses remarques tout au long de ce travail Bernard Laks m a permis d apporter un clairage pist mologique aux tudes sur corpus expos es ici De son c t C lestin Sedogbo en m accueillant au sein du laboratoire de recherche du groupe Thales m a permis de b n ficier d un environnement hu
13. accomplir Dans le cadre chomskyen la question du d veloppement d une comp tence linguistique est li e celle du param trage d un langage formel afin de n engendrer et de ne reconna tre que des phrases Gold 1967 64 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS grammaticales Chomsky montre dans les ouvrages cit s que seul un type de langage formel est en ad quation avec la nature du probl me linguistique les grammaires dites d cidables Gold de son c t d finit les conditions g n rales du param trage de diff rents langages formels en fonction de la nature des exemples pr sent s au mod le dans une situation d apprentissage particuli re un oracle fournit l apprenant un ensemble d exemples des nonc s auquel il associe un jugement de grammaticalit Deux situations de param trage sont envisag e la premi re ne fournit que des exemples dits positifs grammaticaux la seconde fournit aussi bien des exemples positifs que n gatifs agrammaticaux Dans le cadre d fini par Gold l apprentissage partir des exemples peut tre vu comme l laboration d un algorithme de d cision grammatical agrammatical sur un ensemble de phrases conformes la grammaire qui les a produites Gold montre que les conditions de la constitution d un algorithme r ussite ou chec sont li es au type de la grammaire apprendre et au paradigme d apprentissage Il montre no
14. analyse linguistique automatique dans les termes que nous avons 226 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL voqu s 1 e des assistants pour des t ches complexes conjugu un rapprochement avec les besoins effectifs des op rationnels du domaine de la recherche d information sont m me de voir la g n ralisation certains parlaient d explosion tant attendue des techniques issues du TALN 221 CHAPITRE 5 CONCLUSION ET PERSPECTIVES CHAPITRE 5 Conclusion et perspectives 5 1 Un cadre pour une linguistique des corpus Dans l ensemble de notre expos nous nous sommes efforc de d finir un cadre m thodologique et th orique pour une linguistique centr e sur les productions effectives La n cessit d un tel cadre vient du constat 1 de la pr pond rance des approches guid es par les observables dans les domaines applicatifs 2 d une conception empreinte de pragmatisme de la place qu occupent de telles analyses En effet dans le domaine applicatif repr sent essentiellement par l ing nierie linguistique la p dagogie l enseignement des langues trang res et les approches lexicographiques terminologie la prise en compte des productions linguistiques dans leurs param tres les plus fins autrement dit la prise en compte de la variation constitue l objet central La description d un maximum de variantes possibl
15. approche avec ces exemples Principalement qu un locuteur natif n a aucun mal distinguer 1 de 2 et 3 de 4 sans plus de contexte que celui fourni par ces quatre nonc s pour la bonne et simple raison qu il conna t d j le sens de to be eager to versus to be easy to et de voir versus manger Pour mieux comprendre dans quel pi ge objection pos e par ces nonc s fait tomber les approches guid es par les observables faisons un d tour par la langue vernaculaire et Dans le premier cas la souris est toujours vivante dans le second elle ne l est plus 48 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS consid rons des l ments tels que machin En fran ais machin peut remplacer n importe quel substantif il peut galement tre utilis comme verbe Dans chaque cas machin respecte les contraintes morphologiques de l l ment remplac En rempla ant le verbe de 3 et 4 par machin er on obtient 3 Le chat machine la souris L encore en dehors d informations apport es par le contexte situationnel rien ne permet d interpr ter 3 comme un v nement au cours duquel une souris est vue ou bien mang e En quelque sorte voir et manger deviennent des homonymes par la transformation subie Le d tour pris par 3 nous a surtout permis de comprendre l importance du contexte situationnel pour l interpr tation de ces nonc s dans le cas o leur sens n est pas d
16. est parfois consid r comme un mot compos en raison du caract re r current de l association entre un adverbe et un adjectif valuation ICDC DTA e la n cessit d un retour a t ressentie par les utilisateurs test s au cours de l laboration d un filtre Pour ces sujets un tel retour peut tre fourni par des exemples du langage engendr par la grammaire locale servant de filtre d une part par la mise en relation entre une grammaire locale ou une partie et l ensemble des documents s lectionn s gr ce cette grammaire d autre part 55 TEREE LE ie Les recommandations li es l interface graphique ne figurent pas ici pour plus de d tails voir l annexe consacr e au projet CORAIL 223 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL e des outils d aide l laboration de grammaires locales ont t demand s par les utilisateurs notamment en ce qui concerne l extraction de segments th matiques pertinents autrement dit des signatures th matiques e de m me que pour l valuation Thales R amp T des repr sentations concurrentes des objets linguistiques manipul s ont t observ es chez les utilisateurs notamment pour la notion de mot pour laquelle une h sitation entre une conception typographique et une conception plus linguistique a t observ e les mots compos s les expressions fig es et les g
17. est peu adapt e l valuation d un m me syst me sur plusieurs th mes puisqu il s agit d une mesure absolue non normalis e Par ailleurs l auteur fait remarquer que cette mesure ne prend pas en compte le nombre de documents d j consult s susceptible de faire d cro tre la pertinence de chaque nouveau document Les d fauts de l ASP et de la F mesure tr s proche sont galement mentionn s cette mesure ne permet pas de distinguer entre les syst mes qui ne fournissent aucune bonne r ponse alors qu elles existent et ceux qui retournent un nombre quelconque de documents non pertinents Autrement dit si on se reporte au tableau ci dessus l ASP ne permet de distinguer entre les cas R et N Malgr les modifications apport es l ensemble du protocole d valuation repose sur des donn es qui ne sont pas issues d une pratique effective de FI pour les m mes raisons qu voqu es plus haut une forte dispersion th matique qui n cessiterait le recours d une batterie d experts pour chaque domaine abord par les documents des corpus d valuation Autrement dit l essentiel de l valuation se fait partir d chantillons tir s sur l ensemble des corpus pour lesquels des mesures d utilit sont estim es et non pas des donn es de r f rence int gralement v rifi es par des experts du domaine Afin de d partager les syst mes entre eux autrement dit de fournir une liste ordonn e de
18. indexation tel que d crit sommairement ci dessus ne va pas sans rencontrer des difficult s constat es de fa on unanime qui ont trait une variation incontournable dans les points de vues adopt s par les op rateurs humains lors de l indexation La condensation du contenu gr ce un langage d indexation pose des probl mes gt 18 r x fs z d ordre pratique mais galement des probl mes plus th oriques ayant trait aux points abord s dans le chapitre pr c dent savoir essentiellement des probl mes de structuration du monde 1 e les concepts v hicul s par les documents donc des choix de cat gorisation The major feature of the conventional information retrieval process is the replacement of a long and complex linguistic entity the entire document by a greatly abbreviated description The use of such a summary is not solely a consequence of practical 17 Les termes servant l indexation sont souvent tir s des langues naturelles cependant des syst mes reposant sur des termes non naturels ont galement t mis en uvre ex la Classification D cimale Universelle S Optimisation du processus d indexation choix d un langage d indexation ou encore normalisation et standardisation 89 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION constraints on the amount of material that can be stored and inspected in searching t may also be
19. objective et subjective Nous voyons galement dans une linguistique non cat gorique et probabiliste la r solution des difficult s introduites par la fid lit au paradigme cat gorique qui apparaissent dans l ensemble de la linguistique d inspiration structurale La position de Saussure militant pour un compromis jug n cessaire entre la d marche objective et la d marche subjective nous para t tre le reflet d une telle tension entre l insaisissable essence des observables et la n cessit d en poser une Harris de son c t dans son entreprise classifiante ne cesse d introduire des moyens de contourner la rigidit non linguistiquement op ratoire des principes de non contradiction et de tiers exclu par les proc dures d approximation La conciliation des deux points de vue voqu s ci dessus nous para t fondamentale en ce que l adh sion trop stricte dans le domaine linguistique au principe cat gorique a eu pour cons quence une vision normative sur la Langue la position cat gorique sur les nonc s naturels violant certaines contraintes consid r es comme des r gles ne peut tre que celle d un rejet d une n gation de l vidence d un ph nom ne contredisant le mod le On comprend facilement la raison d un tel rejet int grer de tels nonc s non canoniques un mod le cat gorique implique une modification de l ensemble du syst me construit Or la pratique r elle de la lan
20. par Bellcore et le SIG sur les syst mes d information bureautique Office Information Systems tait organis au cours duquel plus de quarante publications examin rent le domaine du filtrage partir de plusieurs perspectives diff rentes de la s lection de l information la mod lisation de l utilisateur en passant par les domaines d applications les d tails techniques et logiciels ainsi que des consid rations sur la confidentialit et des tudes de cas Ces publications furent regroup es dans une dition sp ciale des Communications of the ACM dat e de D cembre 1992 149 CHAPITRE 3 LE FILTRAGE D INFORMATION Toutefois du c t de TREC le filtrage d information ne connut que des d buts tr s h sitants ne se focalisant que sur un des aspects de l activit le filtrage partir du contenu Dans les premi res ditions de TREC suivant une organisation en t ches et sous t ches bien tablie pour l indexation et la recherche de documents par exemple le filtrage d information n tait consid r que comme une recherche exploratoire au m me titre que le volet d di au TALN 3 1 2 3 Une stabilisation tardive Le filtrage d information proprement dit n apparait qu la quatri me dition de TREC Cette dition est l occasion de distinguer entre routage et filtrage d information Ce dernier est d fini comme une t che de s lection binaire des documents sur un principe proche de
21. vecteurs s mantiques bases de donn es lexicales etc 4 1 1 2 Phases de veille phases de crise PRIAM a t con u de mani re offrir des fonctionnalit s diff rentes en fonction du contexte d utilisation en l occurrence une phase de veille par opposition une phase de crise En phase de veille le syst me fonctionne en mode ouvert aucun besoin en information sp cifique ne guide les traitements Ce fonctionnement vise principalement assister les op rateurs de renseignement en leur vitant la lecture int grale de tous les documents et en leur fournissant des fonctionnalit s minimales d acc s au texte Ainsi le module de push se contente d indexer les documents assist par le module d extraction En phase de crise le syst me prend en compte des besoins en information d finis en vue d une prise de d cision soit sous la forme de vecteurs s mantiques soit sous la forme de transducteurs tats finis filtrage et extraction d information Le module de filtrage par cascades de transducteurs CORAIL n est donc sollicit qu en phase de crise d o des contraintes particuli res d utilisation Pour plus d informations sur ce module voir Poibeau 2002 7 En moyenne un document par minute de quelques Ko repr sentant quelques paragraphes 8 Des essais pour le routage ont t men s avec le logiciel Intuition d velopp par Sinequa qui permet une indexation de documents c
22. CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS Dans ce premier chapitre consacr aux fondements m thodologiques et conceptuels d une linguistique des corpus nous tentons essentiellement de montrer que l tude des distributions des l ments linguistiques telle qu expos e dans Harris 1951 constitue plus qu une simple m thode de travail en vue de d couvrir les unit s d une langue tudi e ainsi que leurs propri t s Le distributionnalisme est issu d une vision fortement empreinte de pragmatisme dans l tude du langage De ce fait cette approche des faits langagiers est le plus souvent per ue comme un ensemble de proc dures de m thodes plut t que comme une v ritable th orie scientifique sur le langage Toutefois condition de d passer le cadre structuraliste classique inspir d une conception logiciste des relations entre l ments linguistiques ainsi que les travaux de Harris nous y invitent implicitement il est possible de voir dans l tude des distributions un v ritable cadre m thodologique et conceptuel dans l optique de l mergence d une linguistique des corpus constitu e comme un domaine de recherches part enti re non plus comme une simple m thode d exploration Ce premier chapitre est l occasion de pr ciser les notions sur lesquelles nous basons l ensemble de notre travail dans un premier temps nous voquons les sources multiples l origine du courant distributi
23. Les conf rences TREC de m me que les conf rences MUC pour l extraction d information ont jou un r le pr pond rant dans le d veloppement du domaine de la recherche d information automatis e Ces conf rences en regroupant des quipes de diff rentes nationalit s tant du domaine public que priv ont eu pour ambition de confronter des approches techniques diff rentes sur des donn es normalis es 3 1 2 1 Une conf rence d valuation internationale En 1987 sous l impulsion et gr ce au soutien financier du minist re de la d fense am ricain DARPA tait organis e la premi re conf rence d valuation de compr hension automatique de messages MUC pr c dant les conf rences TREC plus ax es sur la fouille de textes text retrieval La septi me et derni re conf rence MUC eut lieu en 1998 alors que les conf rences TREC en sont leur neuvi me dition ce qui montre l importance de 148 CHAPITRE 3 LE FILTRAGE D INFORMATION l engagement d institutions telles que le minist re am ricain de la d fense dans le domaine de la recherche d information Les principes directeurs de ces conf rences sont les suivants e d finir les principaux domaines et sous domaines de la RI e fournir des donn es de r f rence normalis es dans le but de comparer les performances de syst mes de RI gr ce des m triques communes e faciliter l change entre quipes participantes issues aussi bien de l
24. a partir d un ensemble de formes linguistiques observables produites dans un contexte particulier par un individu ou groupe d individus particulier destination d un public particulier ex sp cialistes tudiants Nous avons montr dans le chapitre pr c dent quelle tension entre fid lit aux donn es et n cessaire abstraction ce type de processus d analyse impliquait Une des cons quences de cette tension est l extr me variation de l indexation r alis e par des op rateurs humains Ce ph nom ne est mis en vidence par les exp riences relat es dans Coyaud 1972 visant valuer l influence de ce qui est d nomm variation de point de 1 Ttaliques ajout s 90 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION z 3 x 4 20 vue chez les indexeurs sur l indexation de documents Coyaud fait remarquer que Une des causes essentielles d checs en recherche documentaire r side dans le fait que l analyse humaine manque de r gularit et de coh rence Coyaud voque les exp riences r alis es en indexation visant comparer les choix d indexation op r s par des indexeurs humains L ensemble de ces exp riences se basait sur des documents d j index s au pr alable pris parmi un ensemble ferm quelques centaines de documents que des indexeurs devaient r indexer Les dimensions suivantes ont t abord
25. appara t comme une d marche essentiellement guid e par la contrainte de coh rence alors que l approche de Harris elle appara t essentiellement guid e par celle de compl tude Ce qui n implique pas que chez Harris la contrainte de coh rence soit absente En effet cette contrainte est visible tous les niveaux d analyse rephon misation prise en compte de composants longs postulat setting up de classes distributionnelles voire resegmentation morphologique Jusqu la notion de distribution elle m me qui contient en germe la pond ration des deux contraintes compl tude coh rence elle est d finie comme la somme totale des environnements dans lesquels les segments apparaissent On a bien l d un c t la pr gnance des donn es les environnements et de l autre la n cessit de s en abstraire marqu e par l accent mis sur le caract re cumulatif des distributions Ce caract re cumulatif appelle d ailleurs les approches distributionnelles automatiques ex statistiques r seaux de neurones artificiels utilis es avec succ s dans le domaine de l ing nierie linguistique Au del des antagonismes concernant le statut du mat riau linguistique le distributionnalisme peut tre vu comme une approche visant construire un syst me linguistique avec un minimum de connaissances alors que le g n rativisme pr suppose un Nous pr f rons ce terme l adjectif empirique souve
26. apprentissage de la probabilit de distribution P sens nonc contexte Autrement dit la t che linguistique consiste en l apprentissage de la probabilit conditionnelle associant un sens un nonc et un contexte La facult de langage consiste donc induire partir d un contexte et d un nonc donn une fonction de projection mapping vers un espace s mantique 1 3 4 Crit res d ad quation d un mod le probabiliste des faits langagiers Dans le cadre de r flexion d fini par les travaux de Pereira Manning et Abney les conditions d ad quation d une th orie probabiliste des faits langagiers sont les suivantes 1 3 4 1 Ad quation descriptive L ad quation descriptive de tels mod les doit tre assur e par l adoption de mod les probabilistes capables de couvrir suffisamment les donn es observ es D apr s les auteurs cit s cette ad quation fitting doit s appuyer autant que possible sur les aspects cognitifs situationnels ou encore pragmatiques du langage En effet la premi re objection chomskyenne l mergence d une vision probabiliste d une th orie linguistique tient l argument de la pauvret du stimulus langagier expos plus haut Chomsky tire de cet 4 Nous prenons ici le probl me de la constitution d une th orie linguistique comme tant essentiellement celui de la description la pr diction et l explication de ph nom nes li s l acqui
27. canismes probabilistes d apprentissage l poque o Chomsky formulait les objections mentionn es plus haut tait de nature technique ils affirment que le champ des approches probabilistes s est dot depuis de nouveaux algorithmes permettant de d passer les probl mes pos s par la variabilit des observables langagiers Pour ces auteurs les conditions d ad quation descriptive d une th orie linguistique non cat gorique et non logique passent donc par la r futation de l argument de la pauvret du stimulus ainsi que par le d passement de limites techniques inh rentes aux premiers formalismes mis en uvre 1 3 4 2 Ad quation pr dictive Une fois l ad quation aux donn es r alis e l ad quation pr dictive d un mod le probabiliste du langage doit se traduire par la capacit d un tel mod le g n raliser les r gularit s constat es de nouvelles donn es c est dire faire preuve d une capacit d abstraction par rapport aux donn es brutes Autrement dit un mod le probabiliste doit pouvoir tre capable de concilier les deux imp ratifs contraires que nous avons mentionn au 4 Des Principes au sens platonicien Autrement dit ils prennent position contre le dogme d une linguistique autonome logiciste d connect e des autres capacit s cognitives majeures 69 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS sujet de la construction d une th orie scientifique la
28. cialisation de la classification de textes Autoslog construit des sch mas conceptuels case frames li s des v nements partir de corpus d apprentissage tiquet s par Circus et annot s manuellement Rilloff donne l exemple suivant tir des corpus MUC 4 sur les attentats terroristes A passerby was hurt when two terrorists attempted to kill the mayor Exemple 1 extraction d information sur une phrase d crivant les cons quences d un attentat Dans cette phrase les informations suivantes correspondant grossi rement des r les casuels doivent tre extraites par le syst me e la victime de l attentat a passerby Riloff 1994 5 Voir Lehnert et al 1993 pour une pr sentation de l analyseur Circus 111 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION e agent two terrorists e la victime vis e the mayor Autoslog vise constituer de fa on automatique des sch mas conceptuels case frames associ s des v nements tels que des attentats terroristes partir de corpus d apprentissage de type journalistique tiquet s et annot s en fonction des informations extraire Les sch mas d crits par Riloff constituent en quelque sorte une repr sentation abstraite des v nements d crits dans les corpus trait s Ces repr sentations sont fond es en partie sur la notion de frames conceptuels et de script e
29. cision soit sur la compl tude rappel des r ponses fournies Une de ces mesures d velopp e dans Van Rijsbergen 1979 est la F mesure qui se d finit comme suit e F mesure a 1 Pr cision Rappel a Pr cision Rappel Le coefficient a permet de pond rer soit le rappel soit la pr cision Une mesure d riv e de la F mesure nomm e P amp R fixe a 1 Il s agit dans ce cas d une m trique visant privil gier les syst mes quilibr s Ce type de m trique pond ration suppose qu il soit 160 CHAPITRE 3 LE FILTRAGE D INFORMATION possible de d terminer de fa on non artificielle un poids auquel il soit ais d associer une interpr tation 3 3 2 Les m triques TREC pour le filtrage d information Les m triques d velopp es par TREC s inspirent de celles pr sent es plus haut Comme nous l avons montr plus haut le domaine du filtrage d information a souffert d un flottement tant terminologique que conceptuel Ce flou est visible jusque dans les m triques mises en place par les conf rences TREC pour l valuation des syst mes participant aux t ches de filtrage Nous passerons sur les trois premi res ditions de TREC o filtrage et routage d information taient confondus pour nous int resser dans un premier temps la quatri me dition qui introduisit pour la premi re fois la notion d utilit Nous tudierons dans un deuxi me temps comment cette notion n
30. dures ont pour but de g n raliser des r gularit s observ es en corpus induites par des contraintes de s lection et de sous cat gorisation portant sur les pr dicats verbaux Les proc dures de g n ralisation et d approximation suivies par LIZARD sont pr sent es ci dessous les donn es textuelles analys es sont issues d un premier amp Dans notre cas un sc nario d extraction d information plut t qu une repr sentation abstraite de type frame ou script Les compl ments typiques ex vendre et soci t filiale groupe 57 Les structures syntaxiques typiques ex vendre et les constructions NO V N1 NO V N1 Prep N2 Riloff donnait l exemple de dead moins discriminant que was found dead pour le domaine des attentats dans notre cas vendre est moins discriminant que la signature Nom de Soci t vendre Nom de Soci t ex Thales vend EADS une instance de la structure NO V N1 120 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION d blayage du corpus visant en extraire des segments de phrase comprenant des verbes et leurs compl ments habituels POUR CHAQUE mot tiquet SI le mot appartient la class des l ments g n ralisables Effacer le mot Proc dure 2 approximation visant 4 normaliser les contextes distributionnels d occurrence des pr dicats verbaux Cette proc dure a pour r sultat ce que nous nom
31. galement des fonctionnalit s d tiquetage en parties du discours 0 Voir Silberztein et al 2001 pour plus de pr cisions sur la plate forme Intex 3 Les op rations s mantiques sont assur es par le Dictionnaire Int gral DI d crit dans Dutoit 2000 201 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL L entr e du syst me est constitu e par des corpus de textes bruts la sortie est une base de donn es lexico grammaticales codant quelques propri t s syntaxiques de surface ainsi que quelques propri t s lexicales liens s mantiques d l ments extraits des corpus nombre et type de compl ments habituels de chaque verbe transformations possibles termes s mantiquement reli s Cette base est le r sultat d une expansion s mantique r alis e par le composant Memodata partir de sch mas de sous cat gorisation rudimentaires extraits des corpus en interaction avec l utilisateur Dans cette conception modulaire chaque composant peut tre remplac si l application le demande ainsi on peut envisager de remplacer le DI par Wordnet Intex par d autres outils d exploration des textes ou encore d inclure un nouveau module Par ailleurs chaque module peut tre ais ment transform en agent logiciel autonome et distribu en suivant les sp cifications de la plate forme Open Agent Architecture d velopp e au Stanford Research Insti
32. graph mes prises dans leur dimension lin aire En effet le paradigme chomskyen s attache essentiellement expliquer l acquisition d un ensemble de comportements langagiers ad quats par le postulat de l existence de structures abstraites inn es et universelles param tr es par les stimuli langagiers Par cons quent nous consid rons que les approches probabilistes doivent pour acc der au statut de th orie linguistique et pour d passer le statut de mod le op rationnel dans le cadre de l ing nierie linguistique se prononcer sur les conditions de la constitution d un tel syst me linguistique partir des observables Manning voit dans une variante probabiliste de la th orie de l optimalit OT un cadre pour le d veloppement de mod les linguistiques non cat goriques et non logiques Il propose un mod le syntaxique reposant sur un principe de satisfaction de contraintes hi rarchis es rendant mieux compte d apr s ses observations des 7 Cette analogie entre construction d une th orie et induction de r gles linguistiques partir des observables fournit la base de Finch 1993 48 Voir Prince amp Smolensky 1993 70 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS pratiques r elles notamment de la variation dans la production d nonc s en langue g n rale Manning fait reposer l ensemble de sa conception d une syntaxe probabiliste guid e par les observables centr e sur la v
33. hypoth se que chaque th me peut tre associ de fa on plus ou moins certaine un ensemble d indices linguistiques en l occurrence des mots simples dans la plupart des cas en raison de l approche sac de mots de ces syst mes Il para t en effet raisonnable de penser qu on ne parle pas de la m me fa on selon qu on d crit l impact des pluies acides sur l environnement ou des op rations boursi res par exemple Cette hypoth se qui reste implicite pour la plupart des syst mes bas s sur une logique d indexation est celle qui guide explicitement les tudes sur corpus dont les travaux de Harris constituent un parangon En d autres termes nous posons que la seule comp tence explicitable pour des syst mes automatiques de FI est la d cision de s lection d un document donn partir d un ensemble d indices linguistiques des mots simples ou compos s des expressions typiques relativement idiomatiques voire des phrases compl tes ou suites de phrases Par cons quent un corpus appel devenir une r f rence doit contenir une proportion exploitable d l ments linguistiques sp cialis s condition que des corpus g n ralistes sont notre avis peu susceptibles de satisfaire D autre part nous pensons avoir montr la n cessit d analyser la valeur linguistique des corpus d valuation d autant plus importante que les approches bas es sur une logique d indexation vectorielle ou
34. mieux faire ressortir les informations pertinentes en s adaptant aux habitudes de chaque utilisateur ce dont SIFT tait incapable Autrement dit Infoscope mettait 1 Des champs r serv s auteur date sujet ainsi que la segmentation en unit s textuelles 155 CHAPITRE 3 LE FILTRAGE D INFORMATION en uvre des fonctionnalit s de mod lisation de l utilisateur qui font partie des techniques destin es augmenter les performances des syst mes de RI automatique Cette voie ainsi que d autres fonctionnalit s telles que le filtrage collaboratif n ont que rarement t explor es Les conf rences TREC de leur c t s en sont toujours tenues aux techniques de filtrage par le contenu ind pendamment de conditions d utilisation r elles notamment la diversit des besoins en information les interactions entre utilisateurs et la prise en compte de l volution des centres d int r t On le voit les syst mes de FI automatique n ont t mis en place que tardivement et de fa on lacunaire alors m me que les bases du domaine taient pos es d s les ann es 1960 et le besoin autrement dit le march identifi d s l tude de Housman Ainsi les syst mes pr sent s SIFT et Infoscope bien que pr curseurs dans les fonctionnalit s explor es n ont jamais fait l objet notre connaissance d une diffusion grande chelle De fa on g n rale la plupart des syst mes de FI existants sont
35. notamment en raison de l am lioration des performances globales du logiciel Intex constat e pour les derni res versions 194 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL 4 1 3 3 D cision de s lection La t che de filtrage d information dont nous reprenons la d finition donn e par les conf rences TREC repose sur une d cision de s lection binaire prise pour chaque document trait extrait d un flux dynamique d information Contrairement aux approches les plus r pandues CORAIL conditionne la d cision de s lection au rep rage de s quences cl s sp cifi es au moyen de grammaires locales repr sentant le besoin en information autrement dit le profil de chaque utilisateur Les grammaires locales utilis es par CORAIL sont typ es en fonction de leur statut On distingue ainsi e des primitives filtres de bas niveau g n riques dont la coloration th matique est la plus neutre possible tels qu une grammaire des dates par exemple e des filtres proprement dits dont la coloration th matique est restreinte un sous th me ex pour le domaine financier des grammaires d crivant l achat d une soci t par une autre ou encore une d claration d offre publique d achat e des profils d utilisateurs repr sent s par des op rations bool ennes ET OU NON portant sur des filtres Les figures ci dessous montrent la hi rarchisatio
36. per ue comme une activit scientifique et le mod le classique du processus de construction de cat gories des fins scientifiques h rit du mod le aristot licien Nous tentons dans un premier temps de caract riser la linguistique comme tant essentiellement une d marche structurant le r el autrement dit une d marche cat gorisante puis nous exposons dans un second temps les principes de cette d marche structurante passant par la constitution d un syst me de cat gories dont les fronti res sont con ues comme tanches position cat gorique d termin es par des principes logiques Enfin nous examinons l influence du mod le classique de la cat gorisation sur les th ories linguistiques labor es dans ce cadre cat gorique et logique 1 1 2 1 La linguistique comme entreprise cat gorisante La position exprim e par Labov If linguistics can be said to be any one thing it is the study of categories that is the study of how language translates meaning into sounds through the categorization of reality into discrete units and sets of units Labov 1973 p 342 nous appara t partag e par l ensemble des disciplines scientifiques s appuyant sur des observables des objets du monde La linguistique structurale partage avec ces sciences la pr occupation de classer les observables de d composer des ph nom nes complexes en unit s plus simples et de rendre compte des relations entre les observables par
37. que dans les cultures nourries de l h ritage philosophique classique Ainsi l adoption d une d marche logiciste dans la construction de cat gories d l ments linguistiques mises en uvre dans le cadre de la construction d une th orie scientifique bien qu historiquement n cessaire pour la constitution d une science du langage S En opposition d ailleurs avec le positivisme de Comte l Par exemple les Dyirbal un groupe d aborig nes australiens et leur syst me de cat gorisation traditionnel tripartite d crit dans Lakoff 1987 structur par un principe de ressemblance d aire de famille plut t que par les lois de non contradiction et du tiers exclu 17 De son c t Labov 1973 relate des exp riences de d nomination d items familiers dans des cultures occidentales i e nord am ricaine tels que des tasses cup et des bols bowl visant mettre en vidence les principes de cat gorisation de ces objets en faisant varier certaines de leurs propri t s taille circonf rence pr sence d anse Ces exp riences ont essentiellement r v l des principes de cat gorisation non logiques et non cat goriques en fonction d une distance par rapport un exemplaire jug le plus repr sentatif prototype Le constat d un tel gradient d appartenance cat gorielle remet en cause la validit de la conception aristot licienne des cat gories 37 CHAPITRE 1 POUR UNE LINGUI
38. relevant du distributionnalisme classique permettant de constituer une base de signatures th matiques Nous explorons ici l apport d une approche distributionnelle probabiliste dans le cadre de la constitution de telles bases Nous examinons notamment quelques techniques permettant la d tection de groupes de mots pr sentant un degr de coh sion important des collocations Apr s avoir situ le cadre dans lequel s inscrit la collocation nous ferons une pr sentation g n rale des principales m thodes de d tection de tels groupes de mots montrant une coh sion particuli re Enfin nous discuterons de quelques collocations extraites du corpus Firstinvest Ce principe a t d velopp dans Senellart 1999 ainsi que dans Silberztein 1999 128 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION susceptibles de fournir une base pour l laboration de ressources linguistiques pour un syst me de filtrage d information 2 2 3 1 D finition Les collocations sont des s quences constitu es de plusieurs mots pour lesquelles des contraintes de composition sont observables dans un degr moindre que dans le cas des mots compos s Les collocations regroupent des l ments de nature diff rente telles que les expressions semi fig es ex casser sa pipe les expressions idiomatiques les mots compos s et les associations dites habituelles La notion de collocation
39. s n ont cess d tre modifi es On est ainsi pass pour l valuation de la performance des syst mes d une m trique absolue l utilit lin aire pour laquelle plusieurs param trages ont t test s une m trique relative reprenant les principes des m triques standards que sont les taux de rappel et de pr cision En ce qui concerne les corpus utilis s l inconstance est l aussi de mise aucune des ditions de TREC n a utilis les m mes corpus de test afin de ne pas biaiser les r sultats ce qui interdit toute tude longitudinale Le constat qui s impose l heure o les actes d une dixi me dition de TREC devraient para tre est l impossibilit tant pour le d cideur que pour le chercheur s int ressant au domaine de choisir une approche pour le FI automatique D autre part aucun syst me mettant en uvre une analyse linguistique des donn es textuelles m me locale n a t valu au cours des cinq ditions de TREC dont nous avons tent de faire une synth se lacune que Lewis souhaitait voir combl e De m me seuls les techniques de filtrage dites par le contenu ont t valu es au cours de TREC Apr s plus de cinq campagnes TREC le domaine du filtrage d information loin de voir ses contours mieux dessin s semble tout aussi flou qu au d part Dans la suite de notre expos nous tenterons de comprendre les raisons de ce que nous percevons comme l
40. une architecture industrielle de gestion des documents lectroniques PRIAM 4 1 1 1 Architecture fonctionnelle La figure ci dessous donne un aper u de l architecture de la plate forme PRIAM Le Laboratoire Central de Recherches du groupe Thomson CSF Thales Le d partement Informatique de la Caisse des D p ts et Consignations Direction des Travaux Avanc s Centre de Recherche en Informatique Sp cialis e 5 PRIAM Programme de Recherche en Indexation Automatique projet interne Thales 1999 2000 184 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL Documents BDD relationnelle Documents Terminologie Information structur e Filtra ts Documents SEE Veille Crise Figure 6 architecture fonctionnelle de la plate forme PRIAM PRIAM repose sur une conception distribu e des agents logiciels prennent en charge chacune des t ches figur es en jaune selon une conception centralis e de type tableau noir Les agents logiciels sont crits en Java le fonctionnement multi agent est pris en charge par RMI Remote Method Invocation passant par un agent central le superviseur PRIAM est galement distribu e chaque agent peut s ex cuter sur un h te diff rent en fonction des besoins en ressources Par ailleurs les agents sont accessibles via un r seau de type Intranet sous forme d applets Java
41. une langue Ainsi les formes ne sont telles qu en ce qu elles s opposent d autres formes et non par leurs propri t s absolues ex propri t s acoustiques Par l m me qu elles s opposent elles construisent un r seau de relations entre elles un syst me Cette approche purement fonctionnaliste am ne Harris consid rer des constituants d passant le cadre du mot typographique constituants discontinus constituants longs tant aux niveaux phonologique morphologique que syntaxique 1 2 2 Le distributionnalisme cat gorique comme th orie linguistique Nous examinons ici le distributionnalisme cat gorique du point de vue de sa capacit jouer le r le d un mod le pour une science des faits langagiers Nous abordons donc les aspects li s l ad quation descriptive explicative et pr dictive de l approche harrissienne 1 2 2 1 Un mod le de la Langue Harris 1968 p 20 r v le l objet du distributionnalisme Given the properties of language it follows that we should be able to define discrete elements and should then be able to describe language as certain well formed sequences of classes of them Tout le programme distributionnel est contenu dans ce passage Harris 1968 constitue en effet un 44 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS expos th orique et formel de la d marche distributionnelle l o Harris 1951 constituait essentiellement un recueil
42. utilisateur un regroupement des candidats signatures en fonction de leur profil s mantique ex un classement tel que racheter DET filiale NPropre gt racheter DET soci t NPropre gt PRO racheter DET conduite 208 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL tablies hors corpus Ce mouvement est possible gr ce l int gration des fonctions du r seau s mantique du Dictionnaire Int gral de Memodata par exemple En effet cette ressource lexicale vis e g n raliste d crit la plupart des relations s mantiques et morphosyntaxiques 42 les plus commun ment admises pour environ 186000 mots sens Ainsi les relations suivantes entre entr es lexicales sont cod es e synonymie e g n riques e sp cifiques e d riv s L expansion du noyau de signatures th matiques au moyen des fonctions du r seau s mantique est r alis e de fa on interactive en proposant Putilisateur des termes s mantiquement proches de ceux trouv s dans la base synonymes g n riques sp cifiques ainsi que locutions proches et formes transform es ex formes nominalis es d une entr e verbale Ainsi par exemple le DI permet de calculer acheteur et achat partir de acheter par les relations personne qui V et action de V L algorithme de parcours du r seau lui m me est d crit de fa on extensive dans Dutoit 2000 Poibeau 2002 don
43. 175 CHAPITRE 3 LE FILTRAGE D INFORMATION ne l entend pas de cette oreille le groupe dirig par amp lt b amp gt serge Tchuruk amp lt b amp gt affirme vouloir d fendre ses int r ts et a attaqu Loral en justice devant le tribunal du district du sud de New York amp lt br amp gt La plainte porte sur Loral et sa filiale de construction de satellites Space Systems Loral SS L Alcatel reproche ses partenaires d avoir viol leurs accords et conteste la demande m me de divorce amp lt bR amp gt L alliance avait t labor e en 1991 Alcatel Aerospatiale et Finmeccanica avaient alors pris 49 de SS L et l ann e suivante DASA les avait rejoint En 1996 et 1997 Loral avait rachet leurs parts remontant 100 du capital de SS L contre des actions mettre Alcatel d tient ainsi toujours 3 4 de Loral amp lt br amp gt En dix ans l alliance a produit une dizaine de contrats dont Intelsat7 Intelsat9 et GlobalStar Elle a aussi permis aux Europ ens de p n trer le march am ricain et r ciproquement amp lt br amp gt Reste que la rupture de cette alliance ne remet pas en cause celle dans les services satellites notamment dans le multimedia o Alcatel a investi 30 millions de dollars dans Cyberstar et Loral 46 millions pour 14 de SkyBridge 24 US Dans la premi re partie du titre Satellites l am ricain Loral veut se s parer d Alcatel l expression se s parer de prenant comme sujet grammatical NO un g
44. 3 automate patron g n rant les grammaires locales correspondant aux constructions fig es acceptant la forme active Le m tagraphe ci dessus se lit de gauche droite les parenth ses num rot es indiquent que les s quences de caract res reconnues par les grammaires locales d crites entre parenth ses sont m moris es Les tats figurant en gris sont des appels des sous 80 grammaires locales 7 Dutoit 2000 Les transducteurs utilis s par Intex sont g n ralement appel s graphes en raison de leur pr sentation graphique D o la d nomination de m tagraphe pour des graphes factoris s ou graphes patrons Pour plus de pr cision concernant les conventions s appliquant aux graphes Intex voir Silberztein 1993 127 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION L op rateur suivi d un nom de colonne de A a Z fait r f rence aux colonnes de la table laquelle le m tagraphe est associ Ainsi dans le m tagraphe ci dessus le premier tat fait r f rence la colonne A le troisi me fait r f rence la colonne I sp cifiant quelles entr es sont des constructions fig es La s mantique de l op rateur est double dans les cas o des s quences de caract res autres que ou figurent dans les colonnes de la table ces s quences sont recopi es dans l tat appelant lors de la compilati
45. 3 Nous opposons linguistique de corpus et linguistique formelle abstraite reposant sur des nonc s construits 105 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION Ceci nous am ne au deuxi me point supposer que le domaine des tudes linguistiques sur corpus soit capable de fournir des descriptions et des mod les g n riques ex une grammaire des phrases normales la question reste pos e quant l utilit de ces objets dans des domaines sp cialis s En effet la mise au point d applications logiciels en ing nierie linguistique se caract rise par une centration sur les productions effectives dans des conditions relativement peu contraintes autrement dit des ph nom nes relevant essentiellement de la Parole En termes de march la valeur ajout e des syst mes d velopp s ex aide au suivi de la relation client par filtrage des courriers lectroniques tient plus dans leur capacit traiter la Parole c est dire pouvoir prendre en compte les sp cificit s des locuteurs ex violation des contraintes de bonne formation des nonc s recours l implicite variation des niveaux de langue que dans leur conformit une certaine norme En somme bien qu en termes d objectifs long terme l laboration de descriptions et de mod les g n riques constitue une vis e int ressante elle n appara t pas suffisante dans le domaine des a
46. 4 La position saussurienne sur le langage est celle d un objet compl tement conventionnel o aucun d terminisme naturel ne joue puisque m me les onomatop es sont culturelles Cette position est la base de celle d arbitraire du signe dont nous montrerons plus bas l importance en termes de scientificit de l tude des observables linguistiques 27 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS significations et l agencement c est une masse indistincte o l attention et l habitude peuvent seules nous faire trouver des l ments particuliers de Saussure 1972 p 146 En cela on peut voir une avanc e primordiale en termes scientifiques toute description linguistique d passe le niveau empirique toute description est d j une analyse Nous verrons plus bas que le processus d laboration de ces classes est fortement influenc par l h ritage aristot licien notamment le recours la logique formelle comme instrument organon de science qui a pour r sultat des cat gories ex phon mes morph mes parties du discours mutuellement exclusives et discontinues En tant que d marche scientifique bas e sur des observables le CLG pr sente une tension in vitable entre abstraction n cessaire l tablissement de classes d l ments et discr tisation n cessaire l dification de relations d opposition d terminant la valeur d l ments particuliers et du m me coup l en
47. B sont gaux Ces trois cas de figure sont synth tis s ci dessous Exp rience Valeur des param tres Mesure d efficacit RI ual 1 Up 3 u A 3B R2 Ua 1 Up 1 uo A2 B2 R3 Ual 3 Up 1 u3 3A B3 Figure 4 mesures d utilit pour trois sc narios d valuation Une particularit de la mesure d utilit de TREC 4 est qu il s agit d une m trique absolue on raisonne en nombre de documents pour chaque cat gorie et non pas en proportion de bonnes ou mauvaises r ponses De ce fait la mesure d utilit ainsi mise en uvre n est pas normalis e entre 0 et 1 comme c est le cas pour les mesures telles que la pr cision et le rappel La comparaison de l efficacit d un m me syst me sur plusieurs profils requ tes diff rentes n est pas ais e seule la comparaison entre syst mes pour une m me exp rience est possible Ainsi la mesure d utilit ne permet pas de d terminer de fa on globale l efficacit d un syst me donn mais bien seulement relativement aux autres syst mes sur une m me requ te Ce choix est compatible avec la philosophie g n rale de TREC qui consiste d partager entre eux des syst mes sans pr juger de la meilleure fa on de r soudre le probl me pos i e s lectionner les bons documents Ce choix sous entend que la meilleure approche n est pas connue mais galement que la complexit du probl me n est pa
48. Chaque l ment primitives filtres profils poss de des attributs de propri t sp cifiant son caract re partag ou priv Cette strat gie permet la r utilisabilit d l ments jug s suffisamment g n riques ou particuli rement strat giques tout en garantissant la 196 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL confidentialit des donn es propres chaque utilisateur dans la figure ci dessus la sous grammaire nomm e D monstrateur Corail public est une ressource partag e d crivant la grammaire locale du concept de public i e public usager ou administr Cette gestion des ressources sur le mod le des syst mes d exploitation de type Unix permet galement d augmenter les fonctionnalit s de filtrage de CORAIL et d en faire une plate forme permettant le filtrage collaboratif par la mise en commun de ressources On le voit CORAIL dans ses objectifs et ses fonctionnalit s se situe dans un cadre applicatif difficilement compatible avec les pr suppos s des conf rences d valuation TREC Chaque s quence reconnue par un transducteur donn est r crite en ins rant une balise particuli re une tape de post traitement se charge d valuer les conditions de v rit de chaque profil et d acheminer par courrier lectronique les documents filtr s aux utilisateurs concern s Les documents trait s se trouvent donc enrichis
49. Extraction pattern discovery through corpus analysis LREC 2000 Zhai C Tong X Milic Frayling N Evans D A 1996 Evaluation of Syntactic Phrase Indexing CLARIT NLP Track Report TREC 5 NIST Special Publication Gaithersburg MD Zipf G K 1945 The meaning frequency relationship of words Journal of general psychology n 33 pp 251 256 252
50. Habert 1998 nomme empirisme a sonn le glas d une linguistique forte dans la plupart des domaines d application y compris la recherche d information ainsi qu en t moignent aujourd hui les pratiques effectives extraction et filtrage d information par cascades de transducteurs et analyse de surface pr dominance des approches vectorielles en indexation de documents La pr pond rance d une linguistique faible dans le domaine applicatif peut tre comprise de plusieurs fa ons e la linguistique n a pas les moyens de fournir un appareillage formel g n ral pouvant trouver des applications dans diff rents domaines e les descriptions g n rales ne sont pas utilisables dans des domaines sp cialis s e une linguistique faible est suffisante En ce qui concerne le premier point il para t difficile de pr juger de la capacit de la linguistique de corpus fournir des descriptions et des mod les g n riques En effet le domaine a t marqu principalement depuis le d but des ann es 1990 par l mergence de mod les formels alternatifs au g n rativisme pour lesquels le recul fait encore d faut Cependant la disponibilit toujours plus importante de corpus annot s standardis s en plusieurs langues permet d envisager long terme des avanc es dans le domaine de la langue g n rale 37 Voir le chapitre III 38 Par analogie avec la notion d IA Intelligence Artificielle forte
51. Herdan consid re qu elle permet d estimer de fa on suffisamment pr cise la valeur des l ments linguistiques consid r s ce qui motive donc tant sur le plan descriptif pr dictif qu explicatif une d marche scientifique fond e sur des observables linguistiques La position adopt e par Herdan sur les rapports entre les sujets parlants et leur langue est centr e sur la fr quence d usage la fixation et la propagation des faits langagiers par leur r p tition Autrement dit pour Herdan la Langue est un processus dynamique int grant en plus de la dimension sociale une dimension temporelle L ensemble de l ouvrage de 1964 est impr gn de la conviction que les ph nom nes langagiers peuvent et doivent tre tudi s avec la m me rigueur que les ph nom nes naturels ex astronomie biologie sociologie all laws of language except those which are basic laws of logic are statistical in nature since they are behavioural conventions through frequency of use Herdan 1964 p 18 1 3 1 3 Une th orie linguistique non grammaticale Herdan pose l objet d une th orie linguistique scientifique comme la reconnaissance des s quences bien form es En cela son approche statistique s inscrit dans la continuit tant du structuralisme saussurien que dans celle du distributionnalisme Toutefois Herdan rejette l ensemble de la tradition grammaticale Ce rejet de la grammaire qu elle soit traditionnelle ou
52. INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL labor s par les administrateurs du syst me alors que les filtres CORAIL sont labor s par la communaut d utilisateurs en collaboration ventuelle r utilisation des filtres possible 4 3 3 2 Quelques r sultats Les conclusions des exp riences d valuation ergonomique sont les suivantes elles constituent essentiellement des recommandations dans l optique de la poursuite du projet CORAIL l 2 valuation Thales R amp T le concept de grammaire locale semble pr senter peu de difficult s d assimilation La pr sentation graphique la navigation au sein des sous grammaires et la s mantique des diff rents types d tats distingu s par leur couleur ont t relativement facilement assimil s par des utilisateurs n ayant leur disposition qu un manuel communiqu quelques jours avant l exp rience ainsi que d une pr sentation de 20 minutes du syst me CORAIL par l ergonome menant l exp rience les diff rents niveaux d analyse doivent tre distingu s certains ne n cessitant que des connaissances sommaires ex ce que regroupe la classe des substantifs alors que d autres supposent de bonnes connaissances en grammaire ex quivalence entre voix active et passive des repr sentations diff rentes des relations de d pendance entre constituants ont t observ es chez les sujets ex tr s exalt
53. J 1979 Th ories du langage th ories de l apprentissage le d bat entre J Piaget et N Chomsky Centre Royaumont pour une science de l homme Poibeau T 1999 Evaluation des syst mes d extraction d information une exp rience sur le frangais Aupelf Uref John Libbey Eurotext France Poibeau T 2002 Extraction d information a base de connaissances hybrides th se de doctorat universit Paris XIII Poibeau T Balvet A 2001 Corpus based lexical acquisition for Information Extraction IJCA1 2001 Workshop on Adaptive Text Extraction and Mining ATEM 2001 Seattle Popescu Belis A 1999 L valuation en g nie linguistique un mod le pour v rifier la coh rence des mesures Aupelf Uref John Libbey Eurotext France Prince A Smolensky P 1993 Optimality Theory Constraint interaction in generative grammar Technical Report ROA Pustejovsky J 1996 The generative lexicon MIT Press Rajman M Besan on R Chappelier J C 2000 Le mod le DSIR une approche de s mantique distributionnelle pour la recherche documentaire TAL n 41 Traitement 248 automatique des langues pour la recherche d information Herm s Sciences Publications Paris Ram A 1991 Interest based information filtering and extraction in Natural Language Understanding systems Bellcore workshop on High Performance Information Filtering Morristown Riloff E 1994 Information Extraction as a Basis for Portab
54. Janua Linguarum Mouton amp Co The Hague the Netherlands Herdan G 1964 Quantitative linguistics Butterworths London Hobbs J Appelt D Bear J Israel D Kameyama M Stickel M Tyson M 1997 FASTUS a cascaded finite state transducer for extracting information in natural language text Roche E amp Schabes Y ds Finite state language processing pp 383 406 MIT Press Hoenkamp E Schomaker L Van Bommel P Koster C H A Van der Weide Th P 1996 PROFILE A Proactive Information Filter nitial Project Plan University of Nijmegen 242 Housman E M 1969 Survey of current systems for selective dissemination of information Technical Report American Society for Information Science Special Interest Group Hull D A 1997 The TREC 6 filtering track description and analysis TREC 6 NIST Special Publications Gaithersburg MD Hull D A 1994 Information Retrieval using statistical classification th se de doctorat Stanford university Hutchens J L 1995 Natural language grammatical inference th se de doctorat university of Western Australia Illouz G Jardino M 2001 Analyse statistique et g om trique de corpus textuels TAL n 42 Linguistique de corpus Herm s Sciences Publications Paris Jackendoff R 1983 Semantics and cognition MIT University Press Jacquemin C 1997 Variation terminologique reconnaissance et acquisition automatiques de termes et de leurs variantes
55. LINGUISTIQUE DES CORPUS To put it succinctly although we know from formal learning theory that we can t learn all transformational languages this is irrelevant because natural language is a particular transformational language Moreover what makes it special is the regularity which is evident over nearly all large finite sets of sentences and the Chomsky hierarchy does not classify these at all Finch 1993 p 73 Finch met l accent sur une lacune de l argument chomskyen et remet en cause la classification des langages formels tablie par Chomsky Par ailleurs Finch caract rise la conception goldo chomskyenne de l apprentissage comme trop contraignante car elle vise a induire les r gles d un ensemble infini de phrases En restreignant l apprentissage un ensemble fini et en prenant en compte les r gularit s locales observables dans ce domaine Finch pose les conditions d un r el apprentissage partir des observables 1 3 3 2 L argument de la Pauvret du Stimulus Le th or me de Gold est galement la base d une autre objection chomskyenne en d faveur de l apprentissage de la facult de langage qui pose que non seulement l identification d un langage formel ad quat la limite dans les conditions d apprentissage d finies par Gold est impossible mais de plus l apprenant est soumis un ensemble de stimuli trop limit pour mener bien tout param trage Cet argument pose le stimu
56. LIZARD Les composants logiciels y sont figur s sous la forme de bo tes rectangulaires les ressources lexicales produites sous celle d un cylindre Pour plus de pr cision sur ce point voir Balvet 2001 200 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL MEMODATA FRONTIERE du SYSTEME INTERFACE CORPUS Figure 11 architecture de l assistant linguistique LIZARD Les fl ches bris es correspondent aux canaux de communication entre l ments de l assistant la plupart des communications sont bidirectionnelles sauf entre l interface utilisateur et les donn es textuelles trait es corpus L orientation des fl ches symbolise la r troaction feedback possible ou non entre composants La ligne gris e figure la fronti re visible du syst me pour l utilisateur il n a acc s directement qu l interface d utilisation Les composants retenus sont r er 30 r A e Intex pour les op rations li es aux corpus effectu es grace des cascades de transducteurs tats finis e le Dictionnaire Int gral de Memodata pour les op rations s mantiques telles que le calcul de la distance s mantique entre deux expressions la comparaison de mots expressions et phrases rye rors 32 r r e un tiqueteur morphosyntaxique g n rique en occurrence QTag est int gr au syst me en concurrence avec Intex poss dant
57. association entre un mot cl ou amorce et un n ud conceptue expos nous reformulons cette d finition des signatures th matiques en l association entre Erag 58 un ensemble d amorces et une structure syntaxique d crite par une grammaire locale 2 2 1 4 Analyse th matique automatique fond e sur une ontologie s mantique Les travaux de Klavans amp Kan 1998 constituent une variante de ceux pr sent s plus haut ils font appel une classification des proc s de type ontologique et s inscrivent eux aussi dans un cadre cat gorique logique L approche de Klavans amp Kan 1998 d di e a l analyse th matique automatique a partir des structures pr dicatives trouv es dans les documents Les auteurs mettent l accent sur la limite inh rente aux approches guid es par des descripteurs g n ralement des substantifs bien qu on puisse savoir de quoi parle un document on ne peut pas savoir ce qui s est pass Les auteurs font appel a une classification des proc s inspir e de Jackendoff 1993 reposant sur des principes cat goriques et visant a 7 1 59 fournir une ontologie s mantique des proc s Ce type d approche se centre donc sur les pr dicats sous leur forme verbale associ s leurs compl ments typiques entit s nomm es sp cifiques substantifs appartenant un ensemble relativement restreint L approche d crite dans Klavans amp Kan 1998 vise associer d
58. au premier chapitre quel enjeu repr sentait la notion de classe pour une science du langage ainsi que l influence du mod le classique de la cat gorisation h rit d Aristote Nous nous d marquons ici des travaux cit s ci dessus en effet nous soulignons l insuffisance des propri t s distributionnelles voqu es ici notamment contraintes de sous cat gorisation comme crit res de constitution d une ontologie au sens o les l ments recens s seraient appel s appartenir des classes aux fronti res tanches r gies par un principe de hi rarchisation de type taxinomique Tout au plus faisons nous le constat qu une partie des l ments qui partagent le m me profil distributionnel tir s de corpus sp cialis s peuvent fournir la base de classes de mots relativement stables et op rationnelles dans une application de recherche d information Signalons que les corpus que nous avons analys s dans le cadre d une application au filtrage d information appartiennent au domaine journalistique A nsi dans des phases pr liminaires nous avons tudi des articles du journal Le Monde des d p ches de l AFP et de AP Dans un dernier temps nous avons appliqu les principes d finis ci dessus un corpus financier constitu de d p ches r dig es dans un style journalistique La prudence par nous 46 Gross 1975 fait d ailleurs un constat d chec d une tentative de constitution de classes s man
59. autre en restant au niveau du mot typographique ne peuvent avoir acc s qu une infime partie des comp tences explicitables en mati re de FI 174 CHAPITRE 3 LE FILTRAGE D INFORMATION 3 4 2 Le filtrage d information une t che complexe 3 4 2 1 Subjectivit ou exp rience En sus de comp tences qu il est possible de rendre explicites le FI ainsi que tout processus de cat gorisation et de prise de d cision repose sur un ensemble de comp tences que nous nommons implicites en raison de la difficult voire de l impossibilit de les expliciter Ces comp tences implicites peuvent tre vues comme des manifestations d une certaine subjectivit voire d une inconstance de la part des op rateurs humains en FI Cependant ces comp tences implicites peuvent aussi tre vues comme ce qui fait la valeur ajout e d un op rateur par rapport un autre ce qui lui permet de prendre les bonnes d cisions de s lection en ne se basant pas uniquement sur les indices linguistiques objectifs mentionn s plus haut en d autres termes son exp rience du domaine Nous donnons ici un exemple tir d un corpus issu d une pratique effective du FI destin illustrer notre propos Le corpus en question nous a t communiqu par la soci t Firstinvest propri taire d un site Internet offrant des services de diffusion cibl e d informations financi res sur le mod le de la SDI d crit plus haut Ce corpus re
60. cadre monocat gorial en ce que ces deux op rations impliquent n cessairement des choix de cat gorisation puisqu il s agit de trancher l appartenance d un l ment une classe donn e Confront s aux ph nom nes mentionn s par Auroux les th ories monocat goriales doivent supposer en plus du domaine des observables un domaine non directement observable S Ainsi Manning 2002 dans sa revue de la tradition cat gorique et logiciste en linguistique formelle attribue a Sapir 1921 p 38 le constat que all categorical grammars leak 19 O les l ments peuvent appartenir une versus plusieurs cat gories diff rentes 20 re r 5 W a S La distinction entre le plan des formes de surface et celui des formes profondes du g n rativisme par exemple peut tre compris comme la manifestation du processus d crit par Auroux Le g n rativisme se caract rise par une position monocat goriale tous les niveaux notamment en ce qui concerne la grammaticalit 38 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS Le recours la traditionnelle classification en parties du discours noms adjectifs verbes adverbes articles pronoms conjonctions pr positions interjections pose un certain nombre de probl mes dont nous allons donner quelques exemples Polycat gorie par d rivation impropre rouge juste informatique linguistique sont la fois noms et adjectifs rire pouvoir sont
61. celui tabli par Luhn pour la SDI la diff rence que les profils valu s restent fixes apr s param trage sur les corpus d apprentissage fournis par le NIST Avec les ditions successives de TREC le filtrage d information initialement confondu avec la t che de routage d information s est vu lui aussi sp cialis d coup en t ches principales et sous t ches Les derni res conf rences TREC ont ainsi abouti une distinction entre filtrage automatique et filtrage dit interactif semi automatique Le filtrage automatique a son tour t distingu entre filtrage par lots et routage en fonction de la d cision de s lection op r e par les syst mes valu s binaire pour le filtrage par lot suivant la d finition de Luhn pour la SDI continue pour le routage scores de pertinence Dans la suite du pr sent expos le terme filtrage d information servira d signer le filtrage par lots tel que d fini au cours des conf rences TREC partir de leur septi me dition D autres types de filtrage ont t voqu s au cours du d veloppement du domaine tel que le filtrage collaboratif ou social prenant en compte les avis des utilisateurs sur la qualit informative des documents consult s Il est ainsi envisageable dans une perspective de diffusion cibl e de ne prendre en compte que les avis des diff rents utilisateurs ind pendamment du contenu des documents 7 La premi re dition consid
62. ces diff rentes activit s 187 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL Recherche d information e Routage e Extraction e Filtrage e Fouille de textes Figure 8 PRIAM une interd pendance entre push et pull Cette interd pendance n est pas propre PRIAM les travaux de Riloff notamment sont l illustration d une coop ration fructueuse entre push et pull en l occurrence entre filtrage et extraction d information pour le syst me Autoslog 4 1 2 TALN et recherche d information par analyse locale 4 1 2 1 La recherche de la qualit en recherche d information Les approches les plus r pandues en RI se basent sur une conception non linguistique de l information apport e par des documents traiter Ces approches adoptent un point de vue sur la langue composant les documents privil giant les mots individuels au d triment de la structure syntaxique textuelle d ensemble Ces approches reposant sur des algorithmes statistiques peu d pendants des langues particuli res dans lesquelles sont r dig s les documents ont montr leurs limites e en raison du caract re peu intuitif des algorithmes utilis s il est souvent difficile d am liorer les performances d un syst me donn I Voir Riloff 1994 l Voir les chapitres II et III 188 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN
63. cessaire un examen bact nologique compl mentaire dans un laboratoire de Lyon dont les r sultats sont attendus la semaine prochaine par la pr fecture de l Aveyron S On saura alors s il conviendra ou non de proc der l abattage de l ensemble du troupeau S Au cours des derniers mois trois troupeaux aveyronnais ont t abattus en raison de la tuberculose S Un cas similaire a t d couvert r cemment dans le Tarn et Garonne et l abattage d un troupeau de 240 bovins de race Aubrac y a t d cid en d but de semaine dbe sp Nombre total de messages 43 messages non lus 0 Figure 10 visualisation des filtrats achemin s par courrier lectronique L int gration de l API Javamail au syst me CORAIL permet l acheminement des filtrats par courrier lectronique ainsi que la cr ation la vol e de r pertoires correspondant aux diff rents profils mis jour en temps r el ex lors de l abonnement ou du d sabonnement un profil donn Les balises de marquage employ es sont param trables en l occurrence pour cette version de Netscape Messenger seules des balises de mise en forme de bas niveau i e soulignement et couleur des caract res sont utilis es toutefois l ensemble du jeu d tiquettes du langage XML par exemple peut tre int gr 4 2 LIZARD un assistant linguistique pour la d couverte de signatures th matiques Cette partie est consacr e un assistant linguistique LIZ
64. chec des campagnes d valuation TREC Nous insisterons tout d abord sur la difficult de constituer une r f rence indiscutable pour une activit qui revient Les actes de la dixi me dition ne sont pas encore disponibles La m thode de pooling utilis e pour cr er des donn es d apprentissage pour une dition donn e r utilise une partie des r sultats des ditions pr c dentes 7 La th se de Lewis soutenue en 1992 porte sur des techniques am liorant l indexation des documents par la prise en compte de la dimension linguistique syntaxique notamment 171 CHAPITRE 3 LE FILTRAGE D INFORMATION attribuer de fa on automatique une cat gorie th matique ex finance actes de terrorisme des objets cognitifs complexes des textes en langue naturelle Nous tenterons ensuite de mettre en avant la complexit li e au processus m me de filtrage qui consiste s lectionner des documents en fonction d un besoin en information Enfin nous essaierons de montrer quel point les campagnes d valuation TREC ont une vision simpliste du probl me qui nous occupe l heure o se diffusent des initiatives comparables au niveau europ en nous jugeons indispensable de faire le point sur ce que nous consid rons comme des erreurs tant dans la d finition de la t che que dans le processus d valuation lui m me 3 4 1 Probl mes de constitution d une r f rence La constitutio
65. compl tude par une bonne ad quation aux donn es et la coh rence du mod le construit permettant de d passer la contingence empirique La r futation des objections chomskyennes dans ce domaine passe nouveau par l affirmation du caract re technique de l insuffisance constat e par les tenants d une linguistique rationaliste des mod les probabilistes Pereira cite notamment des proc dures de lissage smoothing des donn es susceptibles de fournir la base d une capacit d abstraction pour des approches probabilistes 1 3 4 3 Ad quation explicative Nous avons expos les conditions d ad quation de mod les linguistiques probabilistes telles que les con oivent Pereira et Manning Les ouvrages cit s contiennent des r futations plus d velopp es des objections chomskyennes que ce que nous livrons ici cependant ces r futations tiennent dans l ensemble aux capacit s descriptive et pr dictive de tels mod les En ce qui concerne l aspect explicatif des mod les probabilistes on ne trouvera que peu d indices dans les ouvrages cit s Nous consid rons pour notre part ainsi que nous l avons voqu pour le distributionnalisme classique que la capacit explicative d une th orie linguistique non cat gorique doit se focaliser sur le processus d laboration d un syst me linguistique Langue partir d observables langagiers Parole non restreints des suites de signes ex phon mes
66. comportement distributionnel observable seul En effet dans l exemple ci dessus on remarque des diff rences dans l incertitude entropie Voir Charniak 1993 pour une pr sentation plus compl te de l induction de grammaires PCFG partir de corpus 138 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION dans laquelle on se trouve quant la survenue du mot suivant Ces diff rences peuvent tre interpr t es comme suit e en termes de relations paradigmatiques deux classes d l ments se d gagent en l occurrence les l ments pour lesquels l entropie conditionnelle est faible Jean Marie Claude Jacques Louis par rapport une classe d l ments pour lesquels l entropie conditionnelle est plus lev e Darmon Cabre Decaux Poutrel Bresson Beffa Ces deux classes peuvent tre interpr t es comme l observation des r gularit s connues quant la formation des noms propres certains l ments sont des pr noms d autres des noms de famille e en termes de relations syntagmatiques on retrouve une partie des r gles de formation des noms propres notamment des pr noms compos s l entropie conditionnelle associ e au caract re est nulle pour la t te Jean Une entropie conditionnelle nulle entre une t te et son expansion imm diate est majoritairement associ e dans notre corpus des entit s nomm es ex Ne
67. de l analyse des corpus en termes d harmonisation et de centralisation des ressources lexicales pour la recherche d information Par ailleurs les valuations ergonomiques men es dans le cadre du projet CORAIL ont permis de constater 225 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL e appropriation relativement ais e du formalisme des grammaires locales par des utilisateurs non linguistes et non informaticiens ou tout le moins peu familiers des probl mes d analyse automatique des langues naturelles e la bonne lisibilit des grammaires locales pr sent es sous une forme graphique par rapport des expressions r guli res par exemple plus compacte mais moins imm diatement intelligibles e la diversit des repr sentations linguistiques des utilisateurs potentiels de syst mes tels que CORAIL e la n cessit de m nager plusieurs niveaux de fonctionnalit s linguistiques en fonction des utilisateurs et du contexte d utilisation militant pour le principe de syst mes dits bo te de verre dans une bo te noire autrement dit des syst mes o seuls les niveaux conceptuels les plus lev s sont accessibles l utilisateur Pour notre part nous insistons sur la n cessit d offrir des utilisateurs non sp cialistes des fonctionnalit s de traitement automatique des langues dans le cadre d applications de recherche d information En
68. des approches probabilistes tient au fait que ces deux nonc s n ont probablement jamais t prononc s par cons quent un mod le statistique bas sur des nonc s effectifs attribuerait 1 et 2 la m me probabilit d occurrence i e 0 Repris de Pereira 2000 et de Manning 2002 67 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS alors que 1 est attestable et pas 2 Cette objection tient essentiellement la reconnaissance par Chomsky du caract re fondamental de l abstraction pour la construction d une th orie linguistique dont il accuse les approches probabilistes de ne pas pouvoir disposer Il s ensuit que si les approches guid es par les observables sont incapables d une telle abstraction elles se trouvent invalid es en tant que fondement d une th orie linguistique L objection discut e ici tient galement une position implicite dans l ensemble de la linguistique structurale et revendiqu e par Chomsky de l impossibilit de la construction d une th orie linguistique non cat gorique ne reposant pas sur des contraintes logiques Cependant des auteurs tels que Manning voient dans le langage sa compr hension comme sa production un fonctionnement essentiellement continu et quantitatif commun l ensemble des processus cognitifs Ainsi d apr s Manning 2002 l approche probabiliste de la compr hension du langage naturel revient voir cette t che complexe comme l
69. descripteur fiable du domaine tant ce verbe courant peut appara tre dans nombre de contextes n ayant rien voir avec la finance Les approches vectorielles tentent de limiter l ambigu t th matique en accumulant les descripteurs pour chaque document cette strat gie n apporte toutefois aucune garantie sur la pr cision de l indexation les vecteurs obtenus restent d pendants des mots trouv s dans les documents Les m thodes vectorielles se caract risent par une absence de connaissances sur les objets index s ex les documents traitant d un domaine de sp cialit c est d ailleurs ce qui fait leur attrait elles sont ind pendantes des documents trait s elles n ont recours qu des propri t s intrins ques aux objets index s en l occurrence les diff rences de fr quence d occurrence des termes Nous posons que cette approche sans connaissances knowledge poor n est pas optimale notamment pour des applications visant les activit s sp cialis es En effet ces activit s ou domaines de sp cialit se caract risent g n ralement par une phras ologie propre des expressions typiques ou fa ons de parler d un th me donn dont il est envisageable d tablir un recensement Ce recensement tabli partir de textes de sp cialit pr sente des lacunes qu il est possible de combler partiellement gr ce des connaissances g n rales ex lemmatisation transformations syntaxiques ter
70. descriptions de contenu des documents archiv s afin de fournir une liste la plus exhaustive possible des documents susceptibles de combler le besoin en information de cet utilisateur On comprend d s lors que si la langue dans laquelle sont labor s les documents est envisag e comme un vecteur du contenu de ces documents alors l tude de ce vecteur constitue une priorit notamment dans une optique d automatisation des processus d archivage et de recherche des documents pertinents Ce lien entre linguistique de corpus et recherche d information a donn naissance d s les ann es 1960 de nombreux programmes de recherche et de d veloppement dans l optique d un apport mutuel entre les deux disciplines cit es On retrouve ainsi la trace de l mergence d une recherche d information bas e sur des tudes linguistiques aussi bien dans Bar Hillel 1964 qui constitue un examen critique des pratiques dans le domaine de la recherche d information que dans Coyaud 1972 et Sp rck Jones amp Kay 1973 consacr s aux relations entre linguistique et recherche d information Ces trois ouvrages serviront de base au pr sent chapitre consacr l application de proc dures de d couvertes d unit s linguistiques suivant les principes du distributionnalisme dans le cadre de la recherche d information en raison de l clairage Cette alliance entre analyses linguistiques et recherche d informat
71. desirable in principle since the function of the description is to bring out the essential features of the document Sparck Jones amp Kay 1973 p 47 Les auteurs caract risent l activit de recherche d information dont font partie les processus d indexation comme un moyen de souligner les propri t s essentielles essential features des documents trait s La question de l essentiel versus l accidentel est bien un probl me de cat gorisation dont nous avons vu qu il d pendait du mod le adopt de fa on implicite le plus souvent dans le processus de structuration des classes d objets 1 e des classes de documents En ce sens l usage du terme descripteur nous para t trompeur les l ments choisis pour repr senter le contenu d un document sont bien plus qu une simple description ils constituent forc ment une prise de d cision par rapport l appartenance du document une classe donn e 2 1 2 2 La variation dans l indexation humaine Comme nous l avons vu plus haut le processus d indexation des documents fait appel a des langages d indexation plus ou moins proches du langage naturel Or la description du contenu d un document autrement dit la traduction d un ensemble de formes d une langue naturelle vers un ensemble de formes d un langage contr l constitue une analyse de ce contenu Autrement dit ce processus correspond a la mise en ceuvre d une vis e objectivante
72. doit accommoder au mieux Nous abordons de ce fait de mani re d tourn e les probl mes essentiels que sont la mod lisation de la compr hension du langage naturel en vue de son automatisation ainsi que celle de processus de cat gorisation complexes pour aboutir la question essentielle de la subjectivit n cessaire au processus de filtrage Par exemple courrier lectronique d p ches journalistiques actualis es en temps r el En l occurrence des comp tences linguistiques une connaissance du domaine la facult de prendre des d cisions et l interpr tation d un message en fonction d un contexte 145 CHAPITRE 3 LE FILTRAGE D INFORMATION Nous pr sentons dans une premi re partie le contexte dans lequel est n e la notion de FI essentiellement attach e au domaine de la documentation ex centres de documentation biblioth ques comme l ensemble des activit s de RI Dans une deuxi me partie nous nous penchons sur les caract ristiques de quelques syst mes de FI La troisi me partie de ce chapitre est consacr e aux probl mes de mod lisation de l expertise humaine que pose l automatisation du FI la quatri me partie est elle d di e aux difficult s d valuer les performances de syst mes automatiques de FI 3 1 Aper u historique de la notion de filtrage d information Le FI est n d un besoin tr s concret d une part r duire la charge de travail des documentali
73. du discours Extraction d information information extraction Activit de recherche d information visant la mise jour automatique de bases de donn es relationnelles partir de textes en langue naturelle A nsi un syst me d extraction d information traitant des descriptions d attentats MUC 3 MUC 4 viserait renseigner les champs nombre de bless s localisation g ographique ou encore type d arme utilis d un formulaire template fixe Filtrage d information S lection et acheminement de documents tir s d un flux d information textuelle ex fil de d p ches journalistiques sur la base d une comparaison binaire correspondance non correspondance entre le profil informatif de chaque document et celui du besoin en information exprim par un ensemble d utilisateurs En filtrage d information seuls les documents pertinents sont achemin s vers les utilisateurs Filtre Dans le cadre d un syst me de filtrage d information sous l ments d un profil d utilisateur Un filtre peut tre constitu par une s quence d expressions rechercher dans les documents ou une conjonction disjonction n gation de ces expressions op rateurs bool ens 14 Grammaire locale local grammar Grammaire g n ralement limit e l analyse d l ments dont la productivit syntaxique est limit e Ainsi l expression des dates en fran ais peut tre analys e p
74. e NFI 6 R N e NF2 6 R Nt Le principe des fonctions ci dessus est que l utilit d un document pertinent donn d pend de ceux d j retrouv s par le syst me Ainsi plus un syst me retrouve de documents pertinents moins la valeur additionnelle de nouveaux documents pertinents est lev e Hull et Robertson les concepteurs du protocole d valuation de TREC 8 esp rent que ces fonctions permettront de lisser les diff rences d effectif de documents pertinents donc les diff rences d utilit des documents s lectionn s pour chaque th me Par ailleurs partir de TREC 7 d autres pond rations sont affect es aux diff rentes cat gories de documents Ainsi pour TREC 7 la fonction d utilit F2 3 R N R est remplac e par la fonction F3 4 R N au motif que le silence est difficile valuer pour certains th mes Pour TREC 8 les fonctions lin aires test es sont les suivantes LF1 3 R 2N 167 CHAPITRE 3 LE FILTRAGE D INFORMATION et LF2 3 R N Afin de faciliter les comparaisons entre syst mes autrement dit leur classement l issue des diff rentes phases d valuation une fonction de redimensionnement d utilit utility scaling function est introduite d s TREC 7 elle pr c de le calcul de scores moyens d utilit pour chaque syst me sur l ensemble des th mes trait s qui fournit un classement glo
75. effet les utilisateurs potentiels de tels syst mes commencent prendre conscience que les outils les plus utilis s destin s des besoins en information peu sp cifiques dans le cadre de situations de veille non strat giques 1 e les moteurs d indexation et de recherche par approche vectorielle ne sont pas adapt s Ces utilisateurs se tournent d ailleurs parfois de nouveau vers des approches manuelles non par conservatisme mais bien plut t par pragmatisme seul l expert humain est m me de leur apporter la qualit qu ils recherchent Nous pensons que bien qu il soit utopique de vouloir remplacer ces experts des outils et des approches tels que ceux que nous avons pr sent s peuvent au moins all ger la t che des experts et assurer une constance dans le niveau de qualit qu une approche compl tement manuelle ne peut pas garantir En conclusion on pourrait avancer que le domaine de la recherche d information se trouve dans la m me situation que celui de la traduction automatique des utopies originelles visant mettre en place des syst mes presse bouton o l ensemble des traitements linguistiques seraient r alis s sans le concours des utilisateurs on est pass une conception plus r aliste o les outils qu ils soient proprement linguistiques ou non sont vus plus comme des aides que comme des experts automatiques Il nous appara t de ce fait que seul un positionnement des outils d
76. en corpus th se d habilitation diriger des recherches universit de Nantes Jacquemin C Zweigenbaum P 2000 Traitement automatique des langues pour l acc s au contenu des documents Le document en sciences du traitement de l information Le Maitre J Charlet J Garbay C ds pp 71 109 Cepadues Toulouse Kahane S 1999 The Meaning Text Theory Dependency and Valency An International Handbook of Contemporary Research De Gruyter Berlin Karlgren J Cutting D 1994 Recognizing text genres with simple metrics using discriminant analysis Fifteenth international conference on Computational Linguistics COLING 94 Kyoto Karttunen L 2000 Applications of finite state transducers in Natural Language Processing Proceedings of CIAA 2000 Lecture Notes in Computer Science Springer Verlag Klavans J Kan M N 1998 Role of verbs in document analysis COLING ACL 1998 Proceedings pp 680 686 Universit de Montr al Klein D Manning C D 2001 Distributional phrase structure induction CoNLL 2001 Krenn B 2000 Empirical implications on lexical association measures Rapport de recherche 243 Krenn B Evert S 2001 Can we do better than frequency A case study on extracting PP verb collocations Proceedings of the ACL Workshop on Collocations Toulouse France Krenn B Samuelsson C 1997 The linguist s guide to statistics Don t panic Kushmerick N Johnston E McGuinness S 2
77. engendrer la fois trop et trop peu d nonc s y compris des nonc s jug s non grammaticaux cette critique d ordre formel une contrainte d ordre pratique doit tre ajout e dans l optique de l laboration d une grammaire de phrases il est plus difficile de d finir un ensemble de grammaires op rationnelles partir d automates ou de transducteurs tats finis qu partir de formalismes unification par exemple En effet le m canisme d unification permet de propager des contraintes de fa on d clarative tel que l accord entre d terminant et nom au sein d un syntagme nominal l o il est n cessaire de Pia Pe x g 20 sp cifier toutes les possibilit s dans les formalismes moins contraints Toutefois dans un cadre infra phrastique tel que celui qui nous occupe les transducteurs et automates tats finis encha n s en cascades d ensembles de r gles hi rarchis es offrent une simplicit de mise en uvre sup rieure celle de formalismes d claratifs Par ailleurs dans l tat actuel du prototype CORAIL le choix du formalisme sous tendant les analyses linguistiques automatis es est marqu par une priorit accord e la d monstration de la faisabilit d un filtrage d information sur des bases linguistiques La technique des cascades de transducteurs suppose d ordonner les phases de traitement en fonction de la g n ralit des analyses op r es des plus g n
78. ensemble de notre expos de justifier une prise de position pour une linguistique des corpus sp cialis s notamment d passant le cadre purement descriptif et empirique pour atteindre le niveau d une r elle r flexion th orique La deuxi me probl matique sous tendant l ensemble de notre pr sentation a trait la question de la variation linguistique tant en production qu en compr hension Cette variation observable tous les niveaux lexical stylistique pragmatique s mantique dans les productions linguistiques tant spontan es conversation que codifi es r daction d une d p che journalistique repr sente un d fi pour tout concepteur de syst me linguistique automatis Or manifestement elle est loin de constituer un frein la communication humaine il semblerait au contraire qu elle en soit un pr requis 20 Nous serons amen par le biais du ph nom ne de la variation aborder des probl mes li s la reconnaissance d un invariant une unit linguistique dans un flux mouvant En d autres termes nous serons amen s aborder des probl mes d analyse et de cat gorisation Ces probl mes seront tudi s tant dans le domaine linguistique que dans celui de l activit de filtrage d information Nous tenterons essentiellement de montrer la n cessit de prendre en compte le caract re non cat gorique et non logique des cat gories construites par des locuteurs humains dans l opti
79. entre espoir de meilleures performances et frustration devant l incompl tude des analyses linguistiques automatiques Encore aujourd hui la conviction g n rale dans le domaine est celle d une inutilit des repr sentations linguistiques de haut niveau non seulement par le manque de maturit des recherches en linguistique mais galement par les particularit s de la recherche d information les temps d analyse des documents doivent tre les plus r duits possibles tout d lai de plus de quelques secondes dans la constitution d une r ponse une requ te tant per u comme intol rable par les utilisateurs De plus dans le cas des syst mes d information interrogeables en langue naturelle la langue utilis e pour constituer les requ tes est loin d tre celle du locuteur id al postul par les linguistiques abstraites Cette pr valence de la Parole dans ce domaine est l objet de la remarque ill designed requests are probable or even certain qui milite pour les auteurs cit s ci dessus pour une approche privil giant la simplicit des analyses linguistiques La progression rh torique du passage cit qui pr ne une position linguistique faible dans un premier temps pour se conclure par une apologie de la simplicit sophistiqu e sophisticated simplicity ne peut tre comprise que dans le cadre du bilan que repr sente l ouvrage entier command et financ par le Comit sur la Linguistique en Docu
80. es variation inter et intra individuelle effets de la fr quence d occurrence sur le choix de mots cl s pris comme descripteurs et comparaison entre proc dure manuelle et automatique statistique Les r sultats de ces exp riences peuvent tre synth tis s comme suit e les d cisions de s lection points de vue voluent au cours du temps pour un m me op rateur dans une proportion analogue aux diff rences observ es entre deux op rateurs diff rents e accord entre indexeurs constitue l exception plut t que la norme e la fr quence d occurrence ne semble pas avoir d influence sur le choix des descripteurs e les diff rences entre les d cisions de s lection op r es par des moyens automatiques statistiques et celles op r es par des humains sont comparables celles constat es entre op rateurs humains Coyaud voit dans la variation associ e aux indexations humaines un argument en faveur de processus compl tement automatis s si possible bas s sur la prise en compte de la dimension linguistique des documents trait s Nous voyons de notre c t dans cette variation la tension entre deux modes de repr sentation de la structure du monde telle que per ue au travers des bases de documents une conception vis e ontologique objectivante selon le mod le scientifique classique et une conception dans laquelle les cat gories ont des fronti res perm ables ex un document traite plut t d
81. es utilis es pour l valuation des syst mes participants sont a 17 Pour un expos plus complet des probl mes rencontr s au cours de TREC 5 voir Lewis 1996 S Dans la terminologie TREC l interactivit d signe la possibilit de consultation des r sultats du filtrage au fil de l eau autrement dit document par document et non pas l issue du tri d une base de documents en fonction d un score de pertinence par rapport une requ te d utilisateur comme c est le cas pour le routage 164 CHAPITRE 3 LE FILTRAGE D INFORMATION partir de TREC 6 tir es des archives du FBIS et non plus de l ensemble des donn es servant aussi bien l valuation de moteurs d indexation et de recherche que de routage La sixi me dition de TREC est galement l occasion sous l impulsion de Hull d adopter des m triques compl mentaires celle d utilit en l occurrence pr cision d ensemble moyenne Average Set Precision ASP La notion d utilit elle m me est red finie comme suit sur la base des ditions pr c dentes Pertinent Non Pertinent Document S lectionn R A N B Document Non S lectionn R C N D Utilit lin aire A R B N C R D N Figure 5 d cisions de s lection d un syst me de filtrage d information et mesures d utilit correspondantes La mesure d utilit prend ainsi en compte deux param tres d cisio
82. la Langue est donc fondamentale en ce qu elle est n cessairement une construction un objet mental abstrait Ces objets sont n cessairement plus ou moins d coupl s du mat riau linguistique qu ils visent organiser Le recours l abstraction semble partag par l ensemble des auteurs que nous avons voqu s jusqu ici d Aristote Saussure en passant par Comte la position dominante est celle d une discr tisation n cessaire d un r el continu Cette discr tisation n est possible que dans l optique o la d marche scientifique adopte un point de vue par rapport au r el Nous nous inscrivons dans une telle d marche d abstraction en posant pour le domaine qui nous int resse la linguistique de corpus appliqu e la recherche d information des unit s d passant les bornes traditionnelles du mot typographique Ces unit s forment la base sans laquelle aucune approche raisonn e du probl me n est possible nous les nommons signatures th matiques Nous donnerons une d finition plus compl te de cet objet dans le deuxi me chapitre retenons simplement ce stade de l expos le statut d unit que nous lui conf rons 1 1 3 2 Syst me La notion de syst me ou de structure base de la linguistique structurale est g n ralement d finie comme un r seau de relations entre l ments ou unit s d un ensemble d objets en l occurrence des faits linguistiques Cette notion est centrale pour no
83. le montre le corpus dont nous disposons se caract rise par des effectifs limit s voire nuls dans certains cas Les effectifs les plus importants sont 214 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL ceux li s des th mes g n rateurs d une intense activit communication des r sultats financiers th me 8 op rations de cession acquisitions th me 19 d finition de strat gies th me 24 et annonces de partenariat th me 18 On se trouve donc dans une situation de donn es parses contrairement aux bases documentaires de la fouille de textes o la d tection des signaux faibles autrement dit des l ments enregistrant des effectifs d occurrence peu lev s est primordiale Notre exp rience du domaine nous incline croire que la d tection des signaux faibles fait partie int grante de la t che de filtrage d information et de l activit de veille en g n ral On le voit le corpus dont nous disposons justifie le recours une approche linguistique base de r gles d analyse explicites construites sur corpus par interaction avec un op rateur humain plut t qu une approche base d algorithmes d apprentissage automatique par exemple pour lesquels le volume de donn es d apprentissage doit tre largement sup rieur Par ailleurs notre connaissance la d tection de signaux faibles autrement dits le rep rage des hapax legome
84. les techniques de linguistique de corpus vues plus haut 3 Voir l annexe II pour une pr sentation des signatures th matiques du domaine financier extraites grace des proc dures distributionnalistes Par exemple celles relevant du domaine notionnel de l attaque et de la d fense tr s productif dans les corpus financier pr parer une offensive contre s allier 178 CHAPITRE 3 LE FILTRAGE D INFORMATION e contraintes portant sur les connaissances du monde de type encyclop dique CE Une telle hi rarchie de contraintes mise en uvre dans le cadre d un syst me dynamique de FI viserait rendre compte du continuum de certitude chez les op rateurs humains ainsi que de la variation et la collision de points de vue On peut faire l hypoth se que les documents les plus explicites sont ceux pour lesquels les jugements d appartenance th matique seraient les plus assur s et les mieux partag s par une communaut d indexeurs Sch matiquement en accordant aux contraintes li es aux observables ST et EM un poids fort par rapport celles li es aux connaissances du domaine CE il serait possible de pr dire une coh rence maximale dans les d cisions de s lection relev es chez plusieurs indexeurs pour les documents les plus explicites l inverse si seules des soci t s peu connues sont mentionn es et si seules des m taphores fig es peu explicites sont employ es on peut s atten
85. lt DET gt soci t acquiert acqu rir V P3s deux DET mp fp usines usine N fp lt acqu rir gt lt DET gt lt usine gt lt PREP gt lt N Top gt Ken PREP Europe N Top fs lt acqu rir gt lt DET gt lt groupe gt lt N NPropre gt Kacquiert acqu rir V P3s le DET ms groupe N ms lt acqu rir gt lt DET gt lt soci t gt lt PREP gt lt conseil gt lt PREP gt lt projet KRetec N NPropre lt N NPropre gt acquiert acqu rir V P3s une un DET fs soci t N fs de PREP lt acter gt racl Kconseil N ms en PREP projets projet N mp SAP N NPropre lt affirmer gt lt DET lt groupe gt lt PREP gt lt DET gt lt communiqu Kactions acter W11p S1p rachet es racheter V Kfp lt agiter lt aussi lt DET gt lt secteur gt affirm affirmer v Kms le DET ms groupe N ms dans PREP lt aider gt lt PREP gt lt DET lt d veloppement Kun DET ms communiqu N ms lt ajouter gt lt N NPropre gt agite agiter V P1s P3s 91s 93s 2s aussi le DET ms secteur N ms lt amorcer lt amorcer gt lt DET gt r organisation aider VW dans PREP son DET ms d veloppement N ms lt annoncer gt lt DET gt lt cession PREP lt DET participation lt PREP ajout ajouter v Kms Lafarge N NPropre lt N NPropre gt lt N NPropre gt Kamorc amorcer V Kms lt appliquer gt lt pas gt lt PREP DET gt lt N NPropre gt Kamorc amorcer V Kms sa son DET f
86. m thodologique Dans un mouvement comparable celui entrepris par Saussure Harris pose comme axiome la nature discr te non des observables linguistiques eux m mes mais bien de ces observables en tant qu ils sont amen s jouer le r le d unit s pour une th orie linguistique L objet premier d une d marche scientifique passe donc pour Harris par la d limitation des unit s d une langue aux niveaux phonologique morphologique et syntaxique Cette d couverte est assur e par ce que Harris nomme des proc dures pour lesquelles il voit une traduction possible sous la forme d un langage formel Bien que l automatisation des proc dures d analyse ne soit pas notre connaissance mentionn e explicitement par Harris Harris 1968 contient en germe les principes d une linguistique des corpus formelle et automatique Harris pose la grammaire d une langue comme objet mod liser autrement dit il pose la reconnaissance des seules s quences bien form es comme probl me r soudre pour une th orie linguistique We begin with an experimental method for establishing the ultimate discrete elements the phonemic distinctions for each language separately A recurrent stochastic process on these elements then distinguishes words and another and different recurrent stochastic process on words distinguishes sentences The latter process can also be stated in the form of an axiomatic theory wh
87. me X dont les scores de pr cision et de rappel sont sup rieurs ceux d un syst me Y effectue une recherche d information de meilleure qualit Cette observation est valable tant pour les fonctions lin aires que non lin aires d utilit dans des conditions diff rentes des ds st gt 3 ox DE 19 scores d utilit n gatifs pour les premi res positifs pour les secondes La mesure principale employ e au cours de la neuvi me dition en compl ment de nouvelles mesures d utilit lin aire et d autres mesures bas es sur la pr cision est la suivante e T9P Nombre de documents pertinents s lectionn s Max Cible Nombre de documents s lectionn s 1 Pour une discussion plus d taill e de ce point voir Hull amp Robertson 2000 169 CHAPITRE 3 LE FILTRAGE D INFORMATION Avec une cible fix e 50 pour TREC 9 Le principe de cette mesure repose sur l id e de cible ou but atteindre i e un effectif de 50 pour chaque syst me en termes de nombre de documents pertinents une p nalit est attribu e dans les cas o la cible n est pas atteinte D autre part une seule fonction d utilit lin aire est test e au cours de la neuvi me dition de TREC Utility 2 R N Afin de fournir un intervalle de r f rence TOU pour les scores d utilit de chaque syst me en vue de leur classement les bornes suivantes sont fix es T9U Utility MinU MinU 100 pour
88. n ralement des 2grammes selon le principe de la fen tre coulissante L exemple simplifi ci dessous illustre les deux premi res phases de pr traitement des corpus 12172 La Fnac lance DigiFnac Pour r pondre l offre tout num rique la Fnac lance un nouveau service 37 Church amp Hanks 1990 38 Voir plus haut Dans le cas des collocations une paire constitu e des mots x et y 131 CHAPITRE 2 DETECTION POUR LA RECHERCHE D INFORMATION D UNIT S LINGUISTIQUES ET TH MATIQUES 1 Les phrases du corpus sont d coup es en mots simples g n ralement suite de caract res comprises entre deux d limiteurs 12172 La Fnac lance DigiFnac Pour r pondre offre tout num rique Fnac lance un nouveau service 132 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION 2 Parall lement un index des mots du texte est cr chaque entr e de ce SA ve or a r 90 7 dictionnaire est associ e une fr quence d occurrence et ventuellement une position dans le texte Entr e Fr quence d occurren ce f 1 1 1 A 3 1 DigiFnac 1 Fnac 2 1 La 1 la 1 lance 2 nouveau 1 num rique 1 offre 1 Pour 1 3 Enfin le texte initial est transform en n grammes i e 2grammes autrement dit des groupes de n i e 2 mots constitu s partir du texte gr ce une fen tre glissa
89. ou une particule 32 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS contraintes de structuration de type logique ainsi que sur la mise en uvre de raisonnements logiques pens s par Aristote en tant qu instruments de science Ce mod le expos dans La M taphysique d Aristote repose sur une distinction fondamentale op r e entre l essence des objets du monde et leurs accidents L essence est consid r e comme l l ment d finitoire des choses les accidents tant des propri t s incidentes ni n cessaires ni habituelles Le mod le classique repose donc sur la prise en compte de propri t s des objets du monde ainsi que de leur caract re n cessaire ou non suffisant ou non en tant que d finition de ces objets La cat gorisation qui est souvent d finie comme la facult de percevoir du M me dans la diversit peut donc tre reformul e comme suit la facult de percevoir l essence des choses plut t que leurs accidents Dans ce mod le les cat gories sont d finies par des conjonctions au sens logique de conditions ou propri t s n cessaires et suffisantes ou CNS Ce mod le est principalement structur par deux contraintes e la loi de non contradiction qui stipule qu une chose ne peut pas la fois tre et ne pas tre e la loi du tiers exclu qui stipule qu une chose doit tre ou ne pas tre Ces deux contraintes peuvent servir de base une description des propri t s de
90. paradigme induit en physique par la prise en compte de la dimension temporelle se traduisant par le passage d un r f rentiel de coordonn es cart sien 3 dimensions vers un r f rentiel 4 dimensions 1 3 2 Un changement de paradigme Nous voyons dans l uvre de Herdan l mergence d une r flexion alternative par rapport au courant g n rativiste sur le statut d une th orie linguistique guid e par une approche probabiliste des observables langagiers Herdan accorde aux observations sur le terrain un statut d exp rience au sens scientifique par l m me on peut voir dans la parution de son ouvrage de 1964 l acte fondateur d une linguistique de corpus se constituant comme d marche scientifique d tach e de la contingence empirique 37 Comme par exemple la v rification de l application de la loi de Gauss certains ph nom nes linguistiques 38 Herdan fait d ailleurs remarquer que l argument g n rativiste contre la pertinence de l application la loi de Gauss en linguistique oblit re le caract re universel de cette loi de distribution au d part r serv e au domaine de l astronomie et diffus e entre autres dans l tude des populations humaines 61 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS La r flexion initi e par Herdan nous semble fondamentale en ce qu elle pr pare et annonce la diffusion des approches probabilistes en ing nierie linguistique qui nous para t avoi
91. postulons aucune association r guli re valable pour tous les utilisateurs entre l ensemble de formes linguistiques pris comme descripteur de contenu et le contenu lui m me Nous nous pla ons plut t dans une optique proche de celle guidant le syst me Profil Doc proposer des solutions afin de repr senter la partie linguistique des unit s documentaires mises en uvre dans les strat gies individuelles de recherche d information 2 1 4 Recherche d information bas e sur des unit s lexicales complexes Tout l enjeu de remplacer les langages de description dont nous avons vu quelles difficult s taient li es leur utilisation par la langue naturelle comme moyen d indexation et d appariement entre requ te et documents index s est celui d une simplification suppos e de l utilisation des syst mes d information Dans cette approche le texte autrement dit une partie de la Langue est consid r comme un support de l information Suivant les recherches amorc es par Harris poursuivies entre autres par Herdan Biber ou encore Habert chaque domaine de sp cialit ex genre litt raire domaine d activit poque se caract rise par des contraintes tant au niveau lexical morphologique syntaxique phrastique que textuel Autrement dit est pos e une 100 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION sp cialisation linguistique en fonction
92. quelles constructions sont attest es pour chaque verbe tudi ex pour vendre NO V N1 NO V N1 Prep N2 A l issue de ces deux proc dures d approximation et de g n ralisation trois vues diff rentes d un m me corpus sont disponibles e le corpus tiquet d origine e une vue dans laquelle les contraintes de s lection des verbes sont mises en vidence e une vue dans laquelle les contraintes de sous cat gorisation des verbes sont mises en vidence Ces trois vues sont compl t es par une quatri me reposant sur la proc dure suivante POUR CHAQUE sch ma de sous cat gorisation POUR CHAQUE verbe du corpus SI le profil distributionnel du verbe courant s unifi avec l sch ma de sous cat gorisation courant Inclure le verb t ses compl ments dans la liste associ e au sch ma de sous cat gorisation courant Proc dure 4 laboration d une liste d entr es lexicales en fonction d un sch ma de sous cat gorisation Cette proc dure dans laquelle seule l entr e verbale est conserv e les autres l ments ex d terminants noms adjectifs pronoms tant repr sent s par un sert 122 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION de base l laboration d une base de donn es lexicale pr sent e plus bas sp cifiant pour chaque verbe ses contraintes de s lection et de sous cat gori
93. r e comme exploratoire eut lieu du 4 au 6 Novembre 1992 8 Ces deux domaines ont d ailleurs galement en commun une naissance remontant aux ann es 1960 une demande certaine de la part des utilisateurs potentiels et une mise en uvre difficile en raison du mat riau trait le langage naturel ventuellement porteur d une charge informative 150 CHAPITRE 3 LE FILTRAGE D INFORMATION 3 2 Approches pour le filtrage d information Cette partie est consacr e l tude des approches dominantes en filtrage d information Nous examinons les sp cificit s techniques de quelques syst mes se r clamant du filtrage d information Nous distinguons essentiellement entre syst mes bas s sur des moteurs classiques d indexation et de recherche et syst mes visant reconna tre des s quences de mots cl s dans les documents trait s Nous tenterons d tablir que le premier type de syst mes rel ve du routage plus que du FI tel que d fini plus haut Par ailleurs nous tenterons de montrer que les syst mes appartenant au deuxi me type restent limit s dans les fonctionnalit s de filtrage qu ils offrent moins d adopter comme nous le proposons une approche consid rant non plus de simples mots cl s comme descripteurs de th me mais bien des unit s lexicales complexes 3 2 1 Filtrage d information bas sur un moteur de recherche et d indexation Le domaine du FI est largement domin par les
94. recherche C es propri t s permettront de s lectionner un corpus personnalis suivant les caract ristiques de l utilisateur corpus sur lequel portera la question la requ te soumise au syst me Michel 1999 p 16 Le projet Profil Doc vise d velopper une interface dite de filtrage entre une application de recherche d information largement diffus e Spirit et un ensemble d utilisateurs Chaque utilisateur est identifi par un profil sp cifiant quelles unit s documentaires il int gre sa strat gie de recherche d information qui servira de base une pr s lection filtrage de documents parmi les r ponses fournies par le syst me 86 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION Dans les termes de Michel 1999 nous consid rerons des unit s documentaires au niveau syntaxique en l occurrence des parties de phrases associ es un ou plusieurs x ab de 15 th mes c est dire un ou plusieurs besoins en information Comprise dans les termes pr sent s ci dessus une activit de recherche d information vise donc identifier des unit s documentaires au niveau syntaxique en se basant sur une tude sur corpus pr alable Cette tude pr alable vise d terminer le fonctionnement syntaxique au sens large des unit s documentaires recherch es types d unit s syntaxiques choix lexicaux contraint
95. ricaine dans un deuxi me temps semble se caract riser par une orientation g n rale en faveur des productions linguistiques effectives Cette centration sur les observables est partag e par le courant distributionnaliste incarn par Harris De leur c t les recherches appliqu es dans le domaine de l ing nierie linguistique ont massivement recours des donn es linguistiques effectives dans le but de param trer les syst mes labor s souvent gr ce des approches statistiques Quel lien peut on tirer entre le domaine de la linguistique th orique et celui de la recherche appliqu e Plus pr cis ment quel lien peut on tirer entre les trois domaines suivants ayant tous pour objet d tude les productions linguistiques effectives Recherche d Information RI linguistique de corpus et ing nierie linguistique Dans le cadre d une application des principes de la linguistique de corpus au domaine de la RI qui sera l objet des chapitres suivants quel est le statut des analyses visant r v ler au sein de corpus sp cialis s des unit s linguistiques particuli res associ es de fa on relativement stables des th mes les signatures th matiques Nous avons voqu le statut de ces analyses dans le domaine applicatif comme tenant essentiellement du param trage Du point de vue d une th orie linguistique quelles conditions ces observations peuvent elles acqu rir un statut scientifique 23
96. riques aux plus 1 moins de disposer d un algorithme traduisant les r gles d une telle grammaire d clarative en transducteurs ou automates tats finis En l occurrence dans le cadre de la d finition d une grammaire locale restreinte des syntagmes nominaux en fran ais les quatre possibilit s donn es par le genre masculin f minin et le nombre singulier pluriel doivent tre d crites une par une d terminant masculin singulier nom masculin singulier d terminant masculin pluriel nom masculin pluriel etc 191 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL sp cifiques Un syst me de traitement de l information textuelle g n rique par analyse locale peut s appuyer sur les phases d analyse suivantes dans l ordre 1 reconnaissance des fronti res de phrase 2 reconnaissance et normalisation des unit s lexicales d viantes ex aujourd hui 3 reconnaissance et tiquetage des mots simples en parties du discours ex le le Det ms chat chat N ms court courir V P3s 4 reconnaissance et tiquetage des mots compos s ex la le Det fs culture culture N fs du de le PrepDet ms ver a soie ver soie N ms 5 r duction des ambiguit s d tiquetage 6 reconnaissance et tiquetage des expressions fig es 7 reconnaissance de signatures th matiques ex lt FINANCE gt TotalFinaElf Tot
97. se rapproche de Zellig un outil servant l extraction terminologique d crit dans Habert 1998 Les sp cificit s de notre approche sont e l int gration de l utilisateur au sein d un processus interactif e le recours des proc dures d approximation inspir es de Harris 1951 visant rapprocher des contextes d occurrence lorsque cela est possible e la focalisation sur des nonc s susceptibles de d velopper des v nements par le biais d un pr dicat verbal et de ses arguments e int gration de connaissances hors corpus tir es de ressources lexicales telles que le Dictionnaire Int gral de Memodata dans l optique d apporter plus de g n ralit aux signatures extraites des corpus e la prise en compte des signaux faibles s quences n ayant qu une faible probabilit d occurrence mais poss dant un fort pouvoir discriminant e la prise en compte de la variation lexicale choix lexicaux et syntaxique transformations l uvre dans les corpus sp cialis s comme dans d autres types de corpus Nous nous inscrivons dans la continuit des approches d crites plus haut en reprenant l hypoth se harrissienne qui fonde l ensemble des analyses sur corpus sp cialis s voqu es ici Cette hypoth se Harris 1988 1990 1991 est celle d une diff rence fondamentale dans la nature des contraintes de s lection des entr es lexicales notamment verbales entre le
98. simulation presque comme l allemand Walfisch Les classifications ne sont pas n cessairement scientifiques Au contraire il y a de bonnes raisons de penser que plus elles sont scientifiques moins elles risquent d tre efficaces Coyaud 1972 p 16 Ce passage illustre nos yeux la tension r sultant d un n cessaire compromis entre plusieurs repr sentations du monde celle des indexeurs vocation normative et scientifique point de vue objectif et celle des utilisateurs point de vue subjectif La conclusion que tirent tant Coyaud que Sp rck Jones amp Kay des manifestations de cette tension entre les repr sentations des utilisateurs d un syst me d information et celles des op rateurs de ce syst me va dans le sens 1 d une automatisation du processus d indexation 2 op r e sur des bases linguistiques En effet les auteurs cit s voient dans l adoption d une description de contenu des documents plus proche de la langue naturelle les moyens de d passer les tensions voqu es plus haut variation dans l indexation humaine limites des indexations automatiques par descripteurs La question pos e ici peut tre reformul e comme celle de la place de l utilisateur au sein du syst me d information En d autres termes on peut comprendre les exp riences men es dans le domaine de la recherche d information pour aboutir une plus grande Ttaliques ajout s 99
99. sous l impulsion de la phonologie l approche aristot licienne aurait t tendue l ensemble des domaines de la linguistique et se serait galement enrichie de contraintes suppl mentaires Taylor dans son ouvrage de linguistique cognitive Taylor 1989 attribue ainsi aux phonologues fonctionnalistes Troubetzkoy Jakobson Martinet l introduction de la notion de primitive caract risant les traits phonologiques appel s tre formalis s en un syst me de traits binaires Taylor voit donc dans la notion de primitive le fondement d une linguistique abstraite autonome ind pendante des ph nom nes cognitifs et modulaire par l extension de la notion de primitive l ensemble des l ments linguistiques ex s mes Cette extension est vue comme la condition de l mergence d une linguistique th orique et mentaliste reposant sur le postulat de l inn it de la facult de langage c est dire son fondement g n tique telle que formalis e par Chomsky Fodor et autres auteurs du courant g n rativiste transformationnel La linguistique d essence structurale s est ainsi constitu e comme une discipline cherchant les fondements essentiels des objets linguistiques et a repris les postulats du mod le aristot licien 1 les cat gories ont des fronti res bien d finies 2 les l ments linguistiques sont r gis par les contraintes de la loi de contradiction et de la loi du tiers exclu
100. susceptibles d tre vendus n est pas restreinte Ainsi on peut vendre son me au diable vendre sa maison ses meubles son corps ou encore des services En revanche dans le domaine financier bien que la cl ture absolue de l ensemble des compl ments de vendre soit impossible r aliser il n en reste pas moins que la plupart des objets vendus tombe dans les cat gories soci t ou partie de soci t filiale activit service branche capital financier d une soci t notamment actions parts droits ou encore capital mat riel quipement machines Cet tat de fait tient autant des contraintes mat rielles li es au monde des soci t s qu des contraintes linguistiques en l occurrence celles qui s appliquent dans les langues de sp cialit et les jargons Les unit s lexicales complexes que nous cherchons extraire des textes financiers se rapprochent donc des signatures de pertinence d crites dans Riloff 1994 dont nous reprenons l hypoth se centrale un ensemble d amorces structur par un sch ma conceptuel recensant les contraintes de s lection ainsi que de sous cat gorisation constitue une unit 7 112 7 68 d information plus discriminante que des amorces isol es Les principes sous tendant LIZARD sont ceux d une analyse distributionnelle classique r alis e dans un cadre cat gorique tout en ayant recours des proc dures d approximation Ces proc
101. tend suivre une loi g n rale Ainsi la s lection des descripteurs associ s un document donn ne prendra en compte qu une partie de la population des mots des documents ceux dont la fr quence d occurrence est comprise entre un seuil maximal au dessus duquel les termes sont trop fr quents pour tre pertinents ex les mots dits grammaticaux tels que les d terminants ou les pr positions et un seuil minimal en dessous duquel on consid re n avoir affaire qu des hapax legomena dont le faible taux d occurrence am ne les consid rer comme des accidents Ce principe de s lection des mots d un document en fonction d une relation 27 suppos e entre fr quence d occurrence et pertinence est l objet du passage ci dessous The general assumption behind the extraction of words on a statistical basis whether these are to serve as entry words to a dictionary or as terms is that conspicuous words are significant content indicators Jt is not necessary to make any more concerted attempt to discover what a document is about because a document wears its heart on its sleeve and any nontrivial word that occurs sufficiently frequently must be a valid content indicator or it would not be used so often Sparck Jones amp Kay 1973 p 134 Cet extrait donne la philosophie g n rale sous tendant le recours aux approches statistiques en indexation automatique des documents La difficult principa
102. tonnante stabilit des fr quences d occurrence relatives des unit s linguistiques ex phon mes morph mes The phenomenon of the stability of relative frequencies of linguistic forms leads to the statistical view of de Saussure s fundamental distinction between la langue and la parole According to de Saussure la langue is the total of linguistic habits which make communication between the members of the speech community possible It is a social reality existing for the mass of the people Roughly it represents the lexicon of the language in question La parole on the other hand is the individual utterance Whereas la langue is independent of the individual la parole as the realisation of parts of la langue through speech is dependent upon the individual So far it was thought that the former comprised the engrams of the language in the sense of lexical forms including here of course also grammar forms listed in the lexicon and the latter the words of actual speech However the stability of the relative frequencies which we find attached to the various items of a given series of linguistic forms leads inevitably to the conclusion that what la langue comprises are not only engrams as lexical forms but these engrams plus their respective probabilities of occurrence This is what I have called the statistical view of de Saussure s dichotomy The basic law of linguistic communi
103. un syst me al atoire 4h crient 217 10 Table des exemples Exemple 1 extraction d information sur une phrase d crivant les cons quences d un attentat Exemple 2 tapes principales du pr traitement d un corpus en vue d en extraire des COLO SAE ROTI SR ey eed aia rt cS Se OA E Re an ne 134 Exemple 3 expansions associ es la t te AOL o eeecccececeseceeeeeeseeeseeceaecneeeeeeenseeeaeenes 136 Exemple 4 scores d entropie conditionnelle des expansions de la t te AOL eee 136 Exemple 5 quelques 2grammes fortement coh sifs 138 Exemple 6 les noms propres construits sur la t te Jean extrait oo eeeseereeeeeeeeeeee 138 Exemple 7 phases d analyse d un moteur de filtrage d information g n rique 192 11 Formule 1 Formule 2 Formule 3 Formule 4 Formule 5 Table des formules PES tira tre andre Me rte i elena Ra ee ean ae ae eas 130 scored information mutte LL Sef ae ne Ak ah eal Ble Fa lao 131 Cohesion IE CIGARE SUN E M Re Re ere a erent rem Tn Nae ny Ee 137 miormation maximale SES en ns gece neta 137 test OU Te TN ss hse come Se ele 218 12 af Glossaire Amorces triggers El ments lexicaux associ s des s quences suites de caract res mots de fa on r guli re Ainsi par exemple dans le domaine financier la mention d un montant peut tre associ une op ration de vente d une s
104. une prise en compte de la dimension probabiliste donc continue dans les ph nom nes langagiers 41 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS 1 2 Du discontinu dans le distributionnalisme Dans cette partie nous traitons du courant distributionnaliste tel que d fini et mis en uvre par Harris Ainsi que nous l avons fait plus haut pour la linguistique structurale nous insistons sur quelques notions essentielles qui nous seront utiles dans l ensemble de notre d veloppement 1 2 1 Le distributionnalisme de Harris un processus de d couverte Les travaux fondateurs de Harris centr s sur des proc dures de d couverte des unit s d une langue donn e et de leurs propri t s le syst me de la langue sont marqu s d une vision cat gorique Par cat gorique nous entendons une conception bas e sur les principes logiques loi du tiers exclu et loi de non contradiction qui am ne poser pour une unit donn e une appartenance cat gorielle une fonction unique Dans cette conception les propri t s des unit s linguistiques sont destin es former la base d une hi rarchie taxinomie suivant les principes classiques de la cat gorisation tels qu expos s plus haut 1 2 1 1 La primaut des observables Nous avons tent de pr ciser le cadre pist mologique voir supra et m thodologique du distributionnalisme nous insistons ici sur le caract re syst matique qui ressort des tudes de Harris 1
105. une recherche tendue gr ce aux op rateurs vus plus haut Les expressions rationnelles sont largement utilis es en programmation elles 12 Des biblioth ques informatiques de gestion d automates et de transducteurs sont disponibles titre gratuit ex la bibliotheqe regex de la GNU Foundation 154 CHAPITRE 3 LE FILTRAGE D INFORMATION forment la base des compilateurs Elles forment galement la base des grammaires formelles et des analyseurs syntaxiques automatiques 3 2 2 2 SIFT et Infoscope deux syst mes fondateurs Historiquement les premiers syst mes de filtrage d information par reconnaissance de mots cl s furent d di s au courrier lectronique Ils ont depuis t adapt es d autres moyens de communication tels que les serveurs de news les fils de d p ches et flux d informations apparent s L un des premiers syst mes de ce type SIFT T W Yan amp H Garcia Molina 1995 repose sur une d finition et une mise jour compl tement manuelle des profils en fait des listes de mots SIFT est principalement destin au filtrage d information sur les serveurs de news il fournit une liste ordonn e d articles tri s selon un taux de pertinence par rapport aux listes servant de profils La plupart des syst mes de FI base de mots cl s reprennent les principes de base de SIFT bien que celui ci ait essentiellement servi de banc d essai son concepteur Autrement dit il n existe pas n
106. une th orie devant poss der n cessairement un pouvoir descriptif explicatif et pr dictif ad quat Voir Piattrelli Palmerini 1975 31 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS Ainsi l objet premier de la phonologie domaine d application privil gi des principes structuraux qui fonde cette activit comme d marche scientifique est l tude des phon mes consid r s comme unit s abstraites caract ris es par des faisceaux de traits distinctifs des propri t s mutuellement exclusifs ex sourde sonore avant arri re organis es en un syst me i e le syst me phonologique d une langue donn e Suivant la d marche aristot licienne l essentiel des questions phonologiques se r sume la question de la nature de l objet tudi par exemple tel ph nom ne observ est il une instance d une unit phonologique phon me syllabe ou non De m me en morphologie en syntaxe ainsi que dans l ensemble des champs de recherche de la linguistique dite structurale la question v ritablement scientifique intervient partir du moment o les observables sont abstraits de leurs caract ristiques les moins g n rales autrement dit leurs accidents regroup s en un r seau de relations d opposition un syst me De la m me fa on qu en phonologie la question fondamentale de l ensemble de la linguistique structurale est d ordre m taphysique au sens aristot licien tel mot est il
107. volution technologique de la grammatisation Mardaga Li ge Baker L D McCallum A K 1998 Distributional clustering of words for text classification SIGIR 98 ACM Melbourne Balvet A 2001 Filtrage d information par analyse partielle Actes de la cinqui me rencontre des tudiants chercheurs en informatique pour le Traitement Automatique des Langues 2 5 juillet 2001 pp 421 431 Tours Balvet A 2001 Grammaires locales et lexique grammaire pour le filtrage d information Vers une r utilisabilit des ressources linguistiques pour la recherche d information Actes des quatri mes rencontres Terminologie et Intelligence Artificielle 3 4 mai 2001 pp 201 211 Nancy 235 Balvet A 2002 a Designing Text Filtering Rules Interaction between General and Specific Lexical Resources LREC Workshop on Using Semantics for Information Retrieval 27mai 3 juin 2002 Las Palmas b LIZARD un assistant linguistique Actes de la sixi me rencontre des tudiants chercheurs en informatique pour le Traitement Automatique des Langues 24 27 juin 2002 pp 425 434 Nancy Balvet A Meunier F Poibeau T Viard D Vichot F Wolinski F 2001 Le projet CORAIL utilisation des grammaires locales pour le Filtrage d information pp 34 43 REE n 5 juillet septembre 2001 EDP Sciences SEE Balvet A Meunier F Poibeau T Viard D Vichot F Wolinski F 2001 Filtrage de documents et grammaires locales le projet CO
108. y fx f gt Formule 3 coh sion lexicale O N repr sente l effectif total d l ments consid r s i e 22558 f x y la probabilit d occurrence d une paire de mots constitu e des mots x et y f x et f y la probabilit associ e l occurrence des mots isol s Dans Ferret amp Grau 2001 la coh sion lexicale est normalis e par l information mutuelle maximale Imax log2 N Tf 1 Formule 4 information maximale Dans cette estimation de l information maximale 7f est la taille de la fen tre Dans notre cas l information maximale est Imax log2 22558 28 9227031 Les paires de mots les plus coh sives pr sente un score de 1 250102 Le score de coh sion lexicale calcul pour des 2grammes tir s du sous corpus financier consid r permet d extraire des paires telles que celles pr sent es ci dessous Entropie Lex2 Lex1 oh x y norm millions d 0 314493783512482 1 1208311915351 hauteur de 1 1196095535371 1 1196095535371 ar pM 05 1 1172890859220t dirig par 0 11485538089721 Pernod Ricard 0 1 11486538089721 True North 0 j1 11485638080721 137 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION Exemple 5 quelques 2grammes fortement coh sifs Le tableau pr sente les 2grammes extraits associ s un score d entropie conditionnelle et une mesure de coh sion lexicale Les 2grammes so
109. 0 AUS ER AREA ARS eas ba MAL Is Aen er Ant ni 161 3 3 2 2 TREC S une remise en cause du protocole d valuation cccceecesecseeseeeeceeeceeeeseeeeeeaeenee 163 3 3 2 3 Association de l utilit et d autres mesures 164 3 3 2 4 Fonctions lin aires non lin aires d utilit et m triques associ es ceeceteeeeereeseeeeeeseenee 167 3 3 2 5 M triques orient es vers la pr cision 168 3 4 PROBL MES DE MOD LISATION D UNE T CHE COMPLEXE LE FILTRAGE D INFORMATION s0eeeeeee 171 3 4 1 Probl mes de constitution d une r f rence ss 172 3 4 1 1 Repr sentativit quantitative qualitative des corpus cccceceesseescesseeceseeseeeeceaecnseeseeseeeaeenee 172 3 4 1 2 Des donn es observables le vocabulaire sp cialis 174 3 4 2 Le filtrage d information une t che complexe ss 175 3 42 1 Subjectivit ouexperience reines dinde en E NER E EEE nie 175 3 4 2 2 Filtrage d information et cat gorisation 177 3 4 2 3 D cision de s lection binaire et satisfaction de contraintes ci eeeeeeseeeeceeeseeeceeeeeeneeeeeees 178 7 3 5 CONCEUSION A Tee ee E E Someta A a EIEI a os od anda etre 180 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL eesseseseseseseesorseeeorseroeeoesoreoreeeeoreeeooeoeroreoreeeeoreeeooroeroreoeeeroeroreoeeereoreeeeoreeee 183 4 1 LE SYST ME CORA ID aniio iier onae there nn nt en nine es lie
110. 001 Analyse syntaxique automatique des langues du combinatoire au calculatoire Actes de la huiti me conf rence sur le Traitement Automatique des Langues Naturelles 2 5 juillet 2001 pp 15 29 Tours Viard D 2000 a valuation ergonomique du syst me CORAIL Rapport de projet Consortium CORAIL b valuation et recommandations ergonomiques pour le logiciel Intex Rapport de projet Consortium CORAIL Voorhees E Harman D 1996 Overview of the fifth Text REtrieval Conference TREC 5 TREC 5 NIST Special Publications Gaithersburg MD Voorhees E Harman D 1997 Overview of the sixth Text REtrieval Conference TREC 6 TREC 6 NIST Special Publications Gaithersburg MD Voorhees E Harman D 1998 Overview of the Seventh Text REtrieval Conference TREC 7 TREC 7 NIST Special Publications Gaithersburg MD Voorhees E Harman D 2001 Overview of the Ninth Text REtrieval Conference TREC 9 NIST Special Publications Gaithersburg MD Wittgenstein L 1961 Tractatus logico philosophicus Gallimard Yan W T Garcia Molina H 1995 SIFT A tool for wide area Information Dissemination Proceedings of the 1995 USENIX Technical Conference pp 177 86 Yang Y 1998 An evaluation of statistical approaches to text categorization ZNRT Journal Kluwer Academic Publishers Yangarber R 2001 Scenario customization for Information Extraction th se de doctorat New York University Yangarber R Grishman R 2000
111. 001 Information extraction by text classification IJCAI 01 Workshop on Adaptive Text Extraction and Mining ATEM 2001 Seattle Labov W 1973 The boundaries of words and their meanings C J Bailey amp R Shuy eds New Ways of Analyzing Variation in English pp 340 373 Georgetown University Press Lakoff G 1987 Women fire and dangerous things Chicago University Press Landi B ef al 1998 Amaryllis An evaluation experiment on search engines in a French speaking context LREC pp 1211 1214 Grenade Langacker R W 1999 Grammar and conceptualization Cognitive linguistics research vol 14 Dirven R Langacker R W amp Taylor J R eds Mouton de Gruyter Laporte E 1988 La reconnaissance des expressions fig es lors de l analyse automatique Langage n 90 Larousse Paris Lebart L Salem A 1994 Statistique textuelle Dunod Paris Lecl re C 1990 Organisation du lexique grammaire des verbes fran ais Langue Fran aise n 87 Larousse Paris Lee L J 1997 Similarity based approaches to Natural Language Processing Harvard university Lehnert W McCarthy J Soderland S Riloff E Cardie C Peterson J Feng F Dolan C Goldman S 1993 UMASS HUGHES description of the CIRCUS system used for MUC S Proceedings of the 5th Message Understanding Conference MUC 5 pp 277 291 Morgan Kauffman San Francisco Lespinasse K Kremer P Schibler D Schmitt L 1999 Evaluation des out
112. 1960 comme l atteste l tude de Housman le besoin de syst mes de diffusion cibl e d information prenant en compte les besoins d utilisateurs individuels se faisait sentir Ce besoin accru par la disponibilit nouvelle d information textuelle au format lectronique a donn naissance au terme de filtrage d information sur la base de la SDI Denning dans son article paru en 1982 est l un des premiers utiliser ce terme pour d signer un processus visant pr server la bande passante mentale mental bandwidth des utilisateurs des syst mes de courrier lectronique un nouveau moyen de communication Cette r duction du flux d information avait pour particularit de se baser sur le contenu des messages et non plus seulement sur des indices tels que l identit du correspondant ce qui inaugura la notion de recherche d information partir de contenu content based Information Retrieval une des branches de la RI actuelle On voit l l uvre une deuxi me contrainte tr s pragmatique ayant influenc le d veloppement du filtrage d information la contrainte initiale de maximiser l information pertinente pour chaque utilisateur en fonction de son profil s est ajout e celle de minimiser la perte de temps induite par l information non pertinente introduite par l augmentation du volume des changes due aux nouveaux moyens de communications 3 1 2 TREC et le filtrage d information
113. 2 DU DISCONTINU DANS LE DISTRIBUTIONNALISME ere 42 1 2 1 Le distributionnalisme de Harris un processus de d couverte 0 ccceccceseeseeteenseteensees 42 121 1 La primatte des obs rvables s s 15 tee rene eh lae sen ead 42 1 2 1 2 N tion d distribution serment tendent ne einai 43 1 21 37 Notionidiunit linguistiques wins eek Me MER DA UG eae Meee dn 44 1 2 2 Le distributionnalisme cat gorique comme th orie linguistique oeenn 44 4 1221 Unmodel d la a E ae bei de ne et ead wt Rite Besa ok rer 44 1 2 2 2 L objection chomskyenne au processus de substitution 46 1 2 2 3 Ad quation descriptives ieee ieee heed ee ee aed 49 1 2 2 4 gt Ad quation predictive rte vient ae a a a Ea telee 51 1 2 2 5 Ad quation explicative ses 54 1 3 DISTRIBUTIONNALISME ET PROBABILITES sin 56 1 3 1 Herdan le glissement vers un distributionnalisme probabiliste s e 57 1 3 1 1 Motivations linguistiques pour une approche probabiliste 57 1 3 1 2 Une vision quantitative de l opposition Langue Parole c ceeccesecseesceeeceseceeeeeeeceaecnneeneees 58 1 3 1 3 Une th orie linguistique non grammaticale 00 0 ccc eeceeeeeceeseeesecneeseceesaeeecseeeesnenseeneeaees 60 1 3 2 Un changement de paradigme nine 61 1 3 2 1 Du cat gorique au probable sise 62 1 3 2 2 Vers une th orie non cat gorique et non logique 62 1 3 3 Le distributionnalisme probabiliste comme th orie lin
114. 86 E pi Priamuser icr thomson csf com priamuser lcr thomson csf com priamuser ler thomson csf com priamuser icr thomson csf com priamuser lcr thomson csf com priamuser ler thomson csf com priamuser lcr thomson csf com priamuser lcr thomson csf com Priamuser icr thomson csf com prismuser ler thomson csf com priamuser lcr thomson csf com priamuser lcr thomson csf com Priamuser icr thomson csf com prtiarmuser lcr thomson csf com 30 03 01 14 53 30 03 01 14 47 30 03 01 14 45 30 03 01 14 44 30 03 01 14 40 30 03 01 14 33 30 03 01 14 29 30 03 01 14 22 30 03 01 14 21 30 03 01 14 1 30 03 01 14 15 30 03 01 14 14 30 03 01 14 14 30 03 01 14 13 30 03 01 14 11 30 03 01 14 10 2i EN Peter ol 3 Courrier local f EF news 30 03 01 14 10 Ae 0 104 4 4 00 Documents AFP 2001 03 23 0675 Epi prisamuser lcr thomson csf com Donna nu monte PAR POV DO PA OC A CUT pis TEPES Profile Id Profiles Default 4 SJRODEZ 30 mars AFP Un troupeau de 270 vaches de race charolaise appartenant un leveur de Saint Santin Aveyron risque d tre abattu en raison d une suspicion de tuberculose en fonction des r sultats d analyses compl mentaires en cours Lyon a t on appris vendredi aupr s des services v t rinaires du d partement SJUne premi re d tection de tuberculose bovine a eu lieu en novembre dernier sur ce troupeau mais des expertises successives contradictoires ont rendu n
115. 951 Cette syst maticit est l expression d une primaut accord e aux observables linguistiques l exclusion des aspects non directement observables Nous voyons plusieurs cons quences une telle d marche syst matique La premi re est l impossibilit d une tude r ellement syst matique en tant que r alis e par un op rateur humain En effet volontairement ou non l humain cat gorise a des attentes oublie bref il ne prend en compte qu une partie du r el L tude des observables est donc n cessairement une tude imparfaite incompl te r sultant d un compromis double celui du dialogue entre l ordre r el et la pens e humaine ainsi que celui de l incompl tude des donn es le langage poss dant un caract re infini bien que d nombrable On comprend d s lors qu il faille viser l exhaustivit afin de limiter les effets de ce compromis 3 Ainsi dans son ouvrage de 1951 Harris n aborde les aspects s mantiques pragmatiques ou sociaux du langage qu en termes de bornes au del desquelles le distributionnalisme ne s aventure pas 42 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS Nous avons plac l uvre de Harris la crois e des chemins du structuralisme et du behaviorisme et nous l avons caract ris e comme une syst matique Il en d coule n cessairement une prise de position en faveur des tudes sur le terrain In both the phonologic and the morphologic analys
116. ARD LInguistic wiZARD de notre conception destin aux concepteurs de ressources linguistiques utilisables par un syst me base de cascades de transducteurs tats finis Nous exposons tout d abord les besoins que vise satisfaire cet assistant puis le fonctionnement de cette aide l analyse 198 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL distributionnelle des corpus sp cialis s Enfin nous montrons quel type de ressources lexicales LIZARD permet de constituer 4 2 1 Motivation 4 2 1 1 Automatiser l analyse distributionnelle des corpus Le cadre dans lequel nous nous situons une approche linguistique de la recherche d information sur des textes de sp cialit pr suppose un recours massif aux corpus dont on tente d extraire des indices th matiques non restreints aux termes m mes compos s Cette extraction ne peut tre men e bien que par l tude des observables linguistiques dans une optique distributionnelle tant discontinue que continue ainsi que nous l avons dans les deux premiers chapitres de notre expos En effet on cherche constituer des classes d l ments alliant une forme ou ensemble de formes et une valeur donn es autrement dit des signes partir de r gularit s observ es dans la distribution des formes Dans le cadre distributionnel discontinu classique le travail sur corpus demande un investissement cert
117. CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION ad quation des syst mes d information par rapport aux attentes des utilisateurs comme autant de pr curseurs des mod les orient s vers les utilisateurs user oriented models Qui plus est on peut consid rer des r alisations telles que le projet Profil Doc d crit dans Michel 1999 comme des tentatives d allier une probl matique orient e vers les utilisateurs des mod les bas s sur l usage usage based models Bien que nous souscrivions une probl matique orient e vers les utilisateurs bas e sur l usage effectif pour la conception de syst mes d information nous nous d marquons des auteurs cit s dans la mesure o nous relativisons la port e objectivante d une telle d marche Comme nous le verrons plus bas nous proposons un principe d appariement entre un besoin en information exprim par un utilisateur et une collection de documents reposant sur une analyse linguistique de ces documents r alis e de fa on automatique Cette analyse vise d passer les limites voqu es plus haut des principes d indexation par descripteurs limit s des mots typographiques tir s du stock de mots simples des documents En ce sens l approche que nous proposons suit les conclusions de Coyaud et de Sp rck Jones amp Kay Toutefois pour le sous domaine qui nous occupe savoir le filtrage d information nous ne
118. CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION mise au point d une ontologie autrement dit la construction d une hi rarchie de concepts port s par des unit s lexicales Les travaux voqu s ici restent dans le cadre discontinu de l analyse distributionnelle en effet ils se basent tous sur une conception typographique des mots plus ou moins corrig e en fonction du probl me traiter ex des gt de les du gt de le Par ailleurs les classes d l ments extraits des corpus n ont pas a notre connaissance vocation a tre de nature polycat gorielle 2 2 1 3 Extraction d information a partir de sch mas conceptuels Les travaux d crits dans Riloff 1994 apparaissent comme les plus f conds pour le probl me qui nous occupe En effet cet auteur a abord le probl me de la RI int grant des analyses linguistiques par le biais de l extraction d information Le syst me mis au point Autoslog vise construire ce que l auteur nomme un dictionnaire de n uds conceptuels conceptual nodes pour l extraction d information pouvant tre mis profit pour des t ches telles que la classification automatique de documents Riloff s est donc int ress e aux relations entre TALN et RI par le biais d une analyse locale pouvant tre mise en uvre aussi bien dans le cadre de l extraction que du filtrage d information qui peut tre vu comme une sp
119. Cette plate forme a t con ue de fa on modulariser chaque t che Cette modularisation permet de tester des composants logiciels diff rents pour chaque t che et de mesurer leur impact sur les performances globales du syst me Les cinq modules principaux de PRIAM sont e le module d acquisition c est dire la collecte de documents traiter e le module de push qui r alise essentiellement les t ches de filtrage et de routage d information e le module de pull qui prend en charge l indexation des documents gr ce un moteur de recherche et d indexation du march e le serveur lexical qui assure le param trage des ressources linguistiques en fonction du domaine 185 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL e le module d extraction d information qui met jour des bases de donn es 2 3 6 relationnelles partir des informations contenues dans les documents L agent d acquisition est connect par d faut sur un fil de d p ches de l AFP Agence France Presse dont le d bit permet d valuer le respect du traitement en temps r el pour les diff rents modules Le module de push r unit un agent de filtrage et de routage d information Le serveur lexical regroupe l ensemble des ressources n cessaires aux diff rents modules filtres et patrons d extraction sous forme de cascades de transducteurs de
120. EE AE cates toa teaa aE ASEN atone 123 2 2 2 2 Une base de signatures th matiques sous la forme d une table du lexique grammaire 124 2 2 3 Distributionnalisme probabiliste pour la d couverte de signatures th matiques d tection de COMOCAUONS a a Lei Re Lin ne een dre een ten ten itch tend 128 223 1 D finition sin MEN a tained nite ia nn 129 2 2 3 2 Quelques techniques d extraction de Collocations 0 0 0 cc eceeeseseesecceseeeeseceeeseteceeesneeseeetees 129 2 2 3 3 Transformation d un corpus en n grammes ceeeeeeeceseceseeseeeecesecececseeecaecaeecseeeeceseenteeneees 131 2 2 3 4 Quelques r sultats d une fouille de corpus sp cialis cccceesceecceseeseeeeceecesecseeeeceeenseeneees 136 2 2 4 Ressources linguistiques issues d une analyse probabiliste ene 139 2 2 4 1 Des bases de collocations pour la recherche d information ccceseeceeeceeeeeeeeeteeeeeeneees 140 2 2 4 2 Des collocations aux grammaires locales probabilistes cccceseesceesceseceeceseeseeeeeescenteeneees 140 2 3 CONGEUSION Re S EAE E EAA E Me tate etes men ANEA AN A 141 CHAPITRE 3 LE FILTRAGE D INFORMATION seeseeseeseseeeoeseseeeseeoesoeseceoesereoeseeoeseeeorseeoeroeeereorsereorseeeesee 145 3 1 APER U HISTORIQUE DE LA NOTION DE FILTRAGE D INFORMATION sise 146 3 1 1 Naissance d un concept la veille conomique ss 146 3 1 1 1 Les Business Intelligence Systems ss 147 31 12 Dela SONT Al SDL sie
121. EF rams d mentir rumeur lt V gt lt gt lt L E faire Jentr e A pro y Fichier Aide faire sp cialiste EEE financer investissement financer op ration lt V gt lt PREP gt lt N NPropre gt jeter d volu lt gt lt DET discuter _ B partager soci t av gt lt plint resser poursuivre croissance Ve per investir ba 2 poursuivre croissance lt V gt PREF r aliser t prot ger Jactionnaire s parer is ha red finir collaboration lt V gt lt PRE F refaire sant lt V gt PREF retenter approche lt gt lt gt lt F r aliser acquisition lt V gt lt toute r organiser activit lt gt lt gt lt p lt V gt lt pour Figure 14 LIZARD g n ration de noyaux de bases de donn es lexicales Une fois les tables de signatures th matiques valid es une phase d expansion permet de compl ter ces ressources lexicales construites sur corpus par l apport de connaissances hors corpus Lors de la phase d expansion LIZARD cherche tout moment m nager un va et vient entre connaissances sp cifiques tir es des corpus et connaissances g n riques 4l Le DI int gre des algorithmes de calcul de distance s mantique qui permettent de trouver par exemple que acheter une soci t et acheter une entreprise sont plus proches l un de l autre que de acheter des fleurs Nous envisageons de mettre en uvre ces algorithmes afin de proposer l
122. ES 6 s nd Rennes test chen ta onl te qd needs 11 FABLE DES FORMULES nn tn PR Men nt E EEE ETE 12 G OSSATRE Re M ne O sn ne tn St Sn en Ne de ne dr 13 LISTEDES SIGLES ET ABR VIATIONS ts riens ie nue ne nn nine quete 17 INTRODUCTION sccssccsssssscssscsssesssesssssssnsssssesssessssesssssssscsssnsssnsesssessssssensensssssssesensesseesessssnsssnsssnsesssessoesees 19 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS ssssenensnsnnsnssnnnnnnennenness 23 1 1 LINGUISTIQUE STRUCTURALE ET DISTRIBUTIONNALISME ss 24 1 1 1 La recherche d une d marche scientifique ss 24 kitl Lemonde conna tre sistema initie detente din 25 1 1 1 2 L apport saussurien ios cyeccacecsvcstssvsecsvees coevscvsvsgnees ve ieii eai pi esaa 26 1 1 1 3 Bloomfield la science du langage 0 ccececeescesecsseeseeeecesecseeesceseceaecneeesceseceecaecseeeeeeseeaeeneees 28 1 1 2 Classification et linguistique structurale 31 1 1 2 1 La linguistique comme entreprise cat gorisante ce eeeeeeeceeeeceeeeecseeseceeeseeecseeesnevsesaeaees 31 1 1 2 2 Le mod le classique de la cat gorisation 32 1 1 2 3 Influences du mod le classique sur une science du langage eccssessceseeeeceseeneeeeceeeceneeneees 36 1 1 3 Quelques notions fondamentales ss 39 1 13 UN des ms nn nn nee ne it amd ed Dr a AS LS 39 IRI e P SYST ME MAR MR RE E Re nn latte fn es 40 11 33 Sign ssssennavnstinninsthena arnrnin mine Arte Mr tasers dectvonddusdoueton re ns 41 1
123. MATION Le rejet d une d finition quantitative vis e objective du contenu v hicul par un signal ex document vient galement de la prise de conscience de la subjectivit inh rente tout processus de communication humaine ainsi des linguistes cognitivistes tels que Lakoff postulent que la compr hension d un message donc son contenu et sa fonction informative pour le destinataire d pend de la structure cognitive de ce destinataire et non pas de la seule valeur de v rit du message au sens logique Autrement dit la compr hension d un signal dans le cadre d une communication humaine n est pas qu un simple codage d codage d un contenu par le biais d une langue naturelle mais plut t une n gociation un processus d quilibration int grant les attentes la repr sentation du monde et les connaissances tant du locuteur que du destinataire Dans ce cadre conceptuel deux v nements ont la m me charge informative s ils remplissent la m me fonction Cette type de d finition fonctionnelle a servi de base dans le domaine de la linguistique structurale l essor de la phonologie par exemple dont nous avons montr au chapitre pr c dent quelle part d abstraction par rapport aux donn es observables elle supposait dans l optique d une linguistique de la Langue Cette d finition fonctionnelle peut galement servir de base au domaine de la recherche d information Si on y ajoute la dime
124. MUC Message Understanding Conference conf rence d valuation des syst mes de compr hension automatique de messages en langue naturelle organis e principalement par le DARPA et le NIST NIST National Institute for Standards and Technologies institut national nord am ricain des standards et technologies OT Optimality Theory th orie linguistique d velopp e dans Prince amp McCarthy 1993 d finissant un cadre formel bas sur la notion de hi rarchie de contraintes universelles 17 P R Pr cision Rappel RI Recherche d Information SDL Selective Dissemination of Information diffusion s lective d information SDNI Selective Dissemination of New Information diffusion s lective de la nouvelle information SIG Special Interest Group groupement d int r ts dans le domaine de la recherche appliqu e les SIG ont une influence particuli re aux tats unis TALN Traitement Automatique des Langues Naturelles TREC Text REtrieval Conference conf rence d valuation des syst mes de RI organis e principalement par le DARPA et le NIST 18 INTRODUCTION Les tudes sur des donn es linguistiques observables et attest es centr es sur la Parole longtemps cantonn es au rang de simples outils descriptifs par les tenants d une es gt 2 5 ET VIFAA linguistique abstraite centr e sur la Langue connaissent un regain d int r t depuis une SR 7 7 5 3 K 5 dizaine d a
125. ON 3 1 1 1 Les Business Intelligence Systems La notion de syst mes de veille conomique traduction approch e de Business Intelligence Systems d finit un cadre pour une activit de gestion de l information reposant sur les pratiques classiques en documentation ex au sein d une biblioth que o des op rateurs humains d finissent des profils pour des utilisateurs individuels profils servant la s lection de documents par un syst me automatique sur la base d une correspondance exacte exact match Dans cette conception initiale chaque profil d utilisateur par la description des centres d int r t des abonn s au service de diffusion cibl e d information est con u pour identifier un utilisateur unique De plus le profil de chaque utilisateur est mis jour l arriv e de tout nouveau document ex commande d ouvrages La cha ne de traitement de l information aboutissant la confrontation entre les besoins en information profils des utilisateurs du syst me et les informations contenues dans les documents entrants fut d nomm e par Luhn Diss mination S lective de la Nouvelle Information Selective Dissemination of New Information SDNT Les concepts introduits par Luhn identifient toutes les tapes d un syst me d information moderne bien que les supports microfilm dition sur papier et les techniques de l poque supposent des choix d implantation particuliers On le voit la na
126. PITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION e indexation contr l e Dans le premier cas les descripteurs peuvent tre pris dans l ensemble des mots du lexique d une langue Il s agit habituellement de substantifs repr sentant le ou les th mes principaux abord s dans les documents L indexation libre n est efficace que dans le contexte d un domaine mergent pour lequel n existent pas de d nominations faisant l unanimit On le voit le risque de perte d information est lev des descripteurs pris dans un domaine trop sp cialis ou inattendu risquent de ne jamais pouvoir tre appari s avec des requ tes d utilisateurs L indexation contr l e et l indexation mixte sont les plus r pandues dans le cas de l indexation contr l e le choix des descripteurs se fait dans un ensemble ferm de termes ayant fait l objet d un consensus souvent par le biais d une proc dure de standardisation les langages dits de description de contenu L indexation contr l e n est pas exempte de difficult s des descripteurs consensuels ne sont op rationnels que s ils restent suffisamment discriminants tout en tant g n riques ce qui am ne directement des probl mes ontologiques L indexation mixte tente de concilier les avantages des deux techniques en limitant le recours aux descripteurs libres aux champs les plus subjectifs Le processus d
127. QUES MISE EN UVRE EN MILIEU INDUSTRIEL ressources destin es tre utilis es par des syst mes base de cascades de transducteurs est proche de celui des tables du lexique grammaire tel que d fini dans Gross 1975 Ce format est nos yeux suffisamment souple et simple tableaux de caract res ASCII pour garantir une certaine r utilisabilit des ressources ainsi constitu es Par ailleurs ainsi que nous l avons pr sent au chapitre II ces tables coupl es des automates patrons permettent de factoriser en quelque sorte des contraintes g n rales de construction et de pallier un des d fauts majeurs des grammaires dites locales leur caract re relativement proc dural c est dire d pendant d un corpus et d un contexte particulier d application LIZARD d finit un cadre pour l laboration de ressources linguistiques qui permet de centraliser les ressources lexicales extraites de corpus de sp cialit On peut en effet envisager l accumulation de tables bases de donn es lexicales particuli res au sein d une m me base La fonctionnalit lexique grammaire du logiciel Intex permet gr ce aux auotmates patrons de ne g n rer que les grammaires locales correspondant des contraintes d finies par le concepteur de ressources 4 2 2 Fonctionnalit s principales 4 2 2 1 Une plate forme multi agents distribu e La figure ci dessous donne une repr sentation abstraite de
128. RAIL Actes du troisi me congr s du Chapitre fran ais de l ISKO International Society for Knowledge Organisation Filtrage et r sum automatique de l information sur les r seaux 5 6 juillet 2001 Universit de Nanterre Paris X Bar Hillel Y 1964 Language and information Addison Wesley publishing company Belkin N J Bruce Croft W 1992 Information filtering and information retrieval two sides of the same coin Communications of the ACM vol 35 n 12 Bellot P El B ze M 2000 Classification locale non supervis e pour la recherche documentaire TAL n 41 Traitement automatique des langues pour la recherche d information Herm s Sciences Publications Paris Benveniste E 1966 Probl mes de linguistique g n rale Gallimard Besan on R 2002 Int gration de connaissances syntaxiques et s mantiques dans les repr sentations vectorielles de textes application au calcul de similarit s s mantiques dans le cadre du mod le DSIR th se de doctorat cole polytechnique f d rale de Lausanne Biber D 1988 Variations across speech and writing Cambridge University Press Biber D 1989 A typology of english texts Language n 27 pp 3 43 Biber D 1995 Dimensions of register variation a cross linguistic comparison Cambridge University Press 236 Biber D Conrad S amp Reppen R 1998 Corpus Linguistics investigating language structure and use Cambridge University Press Bizouard
129. S 2001 Evaluation d outils d acquisition de ressources linguistiques pour l extraction m moire de DESS Centre de Recherche en Ing nierie Multilingue Bloomfield L 1926 A set of postulates for the science of language Language n 2 pp 153 164 Bloomfield L 1933 Language New York Boersma P Hayes B 2001 Empirical tests of the gradual learning algorithm Linguistic Inquiry vol 32 n 1 pp 45 86 Boons J P Guillet A Lecl re C 1976 La structure des phrases simples en fran ais constructions intransitives Librairie Droz Gen ve Bouaud J Habert B Nazarenko A Zweigenbaum P 1997 Regroupements issus de d pendances syntaxiques en corpus cat gorisation et confrontation deux mod lisations conceptuelles Actes des l res journ es Ing nierie des connaissance pp 207 223 Bourdeau M 2000 Locus logicus l ontologie cat goriale dans la philosophie contemporaine L Harmattan France Bourigault D 1994 Lexter un logiciel d extraction de terminologies Application l acquisition des connaissances partir des textes th se de doctorat EHESS Bourigault D 2002 Analyse distributionnelle tendue Actes de la 9 conf rence sur le Traitement Automatique des Langues Naturelles pp 75 84 Nancy 24 27 juin Brill E 1992 A simple rule based part of speech tagger Proceedings of the 3rd Conference on Applied Natural Language Processing Trento Briscoe T 1997 Auto
130. STIQUE DES CORPUS semble tre galement source de difficult s Ces difficult s soulign es par les linguistes cognitivistes am ricains ainsi que par l ensemble des linguistes de terrain nord am ricains sociolinguistes notamment ont galement t remarqu es par des auteurs tels que Fuchs dans le domaine de l ing nierie linguistique et Auroux que nous citons ci apr s et se traduisent essentiellement par le probl me de la construction d une th orie monocat goriale 7 19 versus polycat goriale Selon les auteurs les unit s segmentant la cha ne parl e ne doivent appartenir qu une seule cat gorie monocat gorisation soit peuvent relever de plusieurs cat gories polycat gorisation comme il arrive que dans des contextes diff rents une m me forme manifeste des propri t s cat gorielles diff rentes pour sauver la monocat gorisation ceux qui la soutiennent ont d velopp deux strat gies th oriques i l ellipse qui permet de conserver l unicit cat gorielle un savant un homme savant ii I homonymie qui assure que deux formes appartenant des cat gories diff rentes ne sont pas la m me entit linguistique fr que pronom relatif et fr que conjonction de coordination Auroux 1994 p 154 Le recours l ellipse autrement dit l introduction d op rations invisibles ainsi que l homonymie complexifient les th ories linguistiques construites dans un
131. TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL pr sentons se basent sur une exp rience visant valuer l utilisabilit du syst me par des utilisateurs na fs 4 3 1 Un corpus professionnel Le corpus utilis pour cette valuation est issu d une pratique effective de diffusion cibl e d information dans un cadre professionnel 4 3 1 1 Un corpus financier Le corpus de r f rence nous a t communiqu par la soci t Firstinvest propri taire d un portail financier sur Internet Les fonctionnalit s offertes par ce portail sont classiques e alerte s lective veille e suivi des op rations financi res archives Il s agit pour les clients de Firstinvest de disposer de toutes les informations n cessaires la prise d une d cision financi re ex achat vente de titres Les documents vis e informative dont le format est proche de d p ches journalistiques quelques paragraphes en texte quasi brut sont r dig s par des experts financiers qui leur attribuent une tiquette th matique prise parmi un ensemble ferm Le corpus communiqu par Firstinvest repr sente environ deux mois d activit de leur portail financier ce qui repr sente 2 6 M gaoctets de texte 4 3 1 2 Quelques l ments stylistiques Les documents fournis par Firstinvest sont r dig s dans un style journalistique assez contr l Les d p ches suivent toutes le m me format e unen t te d identific
132. TIQUES MISE EN UVRE EN MILIEU INDUSTRIEL afin d obtenir des r sultats interpr tables que les deux ensembles de donn es soient comparables i e m me domaine En sus du corpus de test nous avons labor un corpus de bruit partir de documents tir s d autres th mes que le th me valu En effet le corpus Firstinvest nous est parvenu int gralement tri en fonction des th mes vus plus haut autrement dit nous ne disposions que d exemples positifs pour le param trage du syst me Or il est int ressant de tester le syst me avec des documents attribu s d autres th mes dont la phras ologie est a priori diff rente de celle du th me 19 Le corpus de bruit est donc constitu de 50 documents appartenant aux th mes 2 3 6 8 10 13 18 26 Nous avons pris soin d carter du corpus de bruit les documents affect s plusieurs th mes dont le th me 19 ex plusieurs documents sont communs entre les th mes 18 et 19 Nous avons valu les performances du syst me CORAIL sur une t che de filtrage d information de la mani re suivante en reprenant la d finition de la t che telle que d finie au cours des conf rences TREC nous avons compar les performances obtenues en laborant manuellement des filtres sous forme de grammaires locales puis en int grant l assistant linguistique LIZARD Nous avons constitu une borne inf rieure baseline pour un syst me de filtrage automatique en metta
133. UES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION Le score d information mutuelle I entre deux v nements x y ex des mots est tir de la th orie de l information Ce score est donn par la formule suivante o P x et P y repr sentent les probabilit s associ es aux v nements x et y isol ment et P x y la probabilit associ v nement x y I x y log2 P x y P x PO Formule 2 score d information mutuelle D apr s Manning amp Sch tze 1999 le score d information mutuelle est une mesure grossi re de l information apport e par la survenue d un v nement un mot par rapport un autre D apr s Manninn amp Sch tze l information mutuelle est plus une mesure d ind pendance lexicale que de coh sion De fa on g n rale les auteurs insistent sur les limites li es l utilisation des tests statistiques voqu s plus haut notamment dans les cas o les l ments tudi s pr sentent des fr quences d occurrence basses 2 2 3 3 Transformation d un corpus en n grammes Dans la plupart des cas les approches statistiques supposent dans un premier temps un d coupage des corpus en mots simples selon une norme revenant g n ralement l adoption de la notion de mot typographique Dans un deuxi me temps les corpus ainsi d coup s dont on a gard la structure initiale l agencement des mots au sein du texte sont transform s en n grammes g
134. UVRE EN MILIEU INDUSTRIEL e de nombreux l ments porteurs d information sont limin s au cours des diff rentes phases d indexation ce qui fait baisser d autant la qualit des r sultats e les approches sac de mots sont compl tement d pendantes des corpus sur lesquels elles op rent aucune g n ralisation n est possible De fa on plus g n rale on pourrait r sumer la philosophie sous jacente ces approches non linguistiques comme la recherche du consensus maximal et l absence de prise de risque la seule hypoth se guidant ce type d approche est que le contenu informatif d un document donn peut tre condens en une suite de quelques mots des descripteurs de documents Ainsi que nous l avons voqu plus haut les approches linguistiques en recherche d information se sont d velopp es en parall le aux approches non linguistiques l intuition que des performances acceptables pouvaient tre atteintes gr ce une analyse du contenu des documents guid e par des contraintes linguistiques ex ordre des mots classes de termes structuration textuelle est pr sente d s la naissance de la linguistique informatique Cependant apr s plus de trente ans d efforts force est de constater que la perc e tant attendue de la recherche d information de haute qualit gr ce des techniques linguistiques n a pas eu lieu Ainsi les conf rences TREC par exemple n ont explor cette voi
135. VI Checkmate exposition des d tails de l op ration montant partenariats motivation de l op ration ex renforcer sa position sur un march donn revaloriser une entreprise se renforcer dans une activit La motivation des op rations rappelle les frames de Schank amp Abelson par le caract re relativement pr visible de l encha nement de diff rentes actions en fonction d un but donn ex renforcer sa position gt monter au capital d une entreprise dominante inversement limiter les pertes financi res gt recentrer son activit gt vendre les filiales non strat giques 4 3 1 3 Structuration en th mes Les d p ches de Firstinvest couvrent les 21 th mes suivants 213 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL Th me Intitul Effectif 2 Internet 8 3 Introduction 58 5 Nasdaq 3 6 Vie de la soci t 367 T Op ration sur le capital 87 8 R sultats 360 10 T l phone mobile 7 11 UMTS 7 12 Wap 0 13 Produit service 98 15 Finances perso 0 16 Op rateur 87 18 Accord partenariat contrat 218 19 Cession achat filiale 303 20 Interview 5 21 Avis 194 22 Rumeur 79 23 Profit warning 16 24 Perspectives strat gie 283 25 Eclairage 21 26 TNT 4 Figure 16 tableau synth tique de la r partition en th mes du corpus Firstinvest Ainsi que le tableau ci dessus
136. a diff rence fine entre les deux nonc s a trait au domaine s mantique qui reste dans une large part difficilement traitable par les approches automatiques Cette limite n emp che pas les r alisations pratiques op rationnelles les cas o un syst me automatique aurait op rer une distinction de l ordre de celle existant entre 1 et 2 sont marginaux en termes d application De plus si on consid re la transformation en It is Adj to V NO seule 2 para t attestable l It is eager to please John 2 It is easy to please John gt Signalons que la discussion de cet exemple est bien un probl me de cat gorisation bien qu il ne s agisse plus de reconna tre du m me dans l autre mais bien de l autre deux structures profondes dans du m me une m me forme de surface Autrement dit on se trouve dans le cas voqu plus haut par Auroux du recours un principe d homonymie dans un cadre monocat gorial 1 et 2 ont la m me forme de surface mais leur forme profonde est diff rente 47 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS Autrement dit il para t beaucoup plus probable de trouver 2 que 1 et eager et easy n ont pas la m me valeur puisqu ils se distinguent par au moins un contexte fabriqu distributionnel Nous consid rons donc que la cible premi re de l objection formul e plus haut est la faiblesse des principes de regroupement d l ments en fonction d une sim
137. a Parole une forte variabilit pour laquelle il con oit un mod le non cat gorique et non logique permettant par exemple de comparer deux auteurs ou encore d attribuer la paternit d une uvre un auteur donn Le renouveau d un programme distributionnel non cat gorique et non logique sous l impulsion d auteurs tels que Abney Manning ou encore Pereira nous para t poser une assise plus compl te que l uvre de Herdan en ce qu elle d finit un cadre th orique et m thodologique dans la perspective d une science du langage refusant l autonomie de la syntaxe et int grant la part essentielle de variation des ph nom nes de Parole Signalons toutefois que ce programme dont nous examinons les conditions d ad quation ci dessous reste essentiellement prospectif 63 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS 1 3 3 Le distributionnalisme probabiliste comme th orie linguistique Nous examinons ici la valeur du courant de recherches que nous nommons distributionnalisme probabiliste en opposition au distributionnalisme cat gorique en tant que th orie linguistique part enti re et non pas seulement de mod le op rationnel dans le cadre de l ing nierie linguistique Cet examen se fonde sur les r ponses apport es par Abney 1996 b Pereira 2000 Manning 2002 ou encore Finch 1993 aux principales objections formul es par Chomsky principalement une approche dont l essence est n
138. a cess d tre remani e chaque dition de la campagne d valuation pour aboutir un ensemble de mesures complexes partir desquelles il est difficile de d partager les syst mes valuer 3 3 2 1 Utilit La notion d utilit introduite au cours de TREC 4 marque les vrais d buts du filtrage d information en tant que t che distincte du routage nouvelle t che nouvelle m trique d finie comme suit pour toute exp rience run Ri revenant valuer la capacit des syst mes de filtrage trier un ensemble de documents en deux cat gories A et B e Ui uiAi upiBi A correspond au nombre de documents pertinents trouv s par le syst me pour l exp rience R et B au nombre de documents non pertinents pour cette exp rience Les constantes Uai et U correspondent la valeur d utilit donn e par un utilisateur pour chaque cas r ception d un document pertinent ou non pertinent Diff rentes valeurs pour ces constantes sont d finies qui correspondent autant d exp riences TREC 4 a fix trois valeurs pour ces constantes correspondant trois sc narios diff rents un sc nario o on yr r 14 or r favorise la qualit des r ponses un autre o c est la quantit de r ponses qui est 14 Un poids maximal sur la pr cision 161 CHAPITRE 3 LE FILTRAGE D INFORMATION recherch e et un dernier sc nario dit quilibr o les poids sur les documents de type A et
139. affirme la n cessit de recourir des outils math matiques en linguistique structurale seuls m me de d passer le niveau empirique Il entend combler les lacunes des approches connues jusque l en fondant une linguistique formelle ax e autour d axiomes et de d monstrations Le tout premier de ces axiomes motive le recours des outils math matiques particuliers en l occurrence des outils statistiques Cet axiome donne toute la vision herdanienne des notions saussuriennes fondamentales y compris la distinction entre Langue et Parole fond e sur le caract re arbitraire du signe W e derive the definition of a random sample as being obtained by a method of sampling in which the criterion we sample by is uncorrelated with the variable characteristic we are sampling for In the area of language we have a positive hint where to look for such a random variable in de Saussure s axiom of independence of sound and meaning This is the tenet generally accepted today by linguists that the sounds of which a word consists are independent of its meaning If this were not so the same concept could not be expressed in different languages by different words If that axiom is true then the undoubtedly non random sequence of words in a literary text should yield a random sample of sounds phonemes and also letters since the criterion we are sampling by i e the words arranged according to their meaning is uncorrelated with w
140. ain de la part du concepteur de ressources Par ailleurs toute tude forte composante manuelle telle que l analyse des corpus est sujette des variations de qualit li e la disponibilit de l op rateur humain ex fatigue stress LIZARD vise donc appliquer de fa on syst matique diff rentes phases d analyse distributionnelle en vue d aboutir des classes d l ments par rapprochements entre contextes syntaxiques d occurrence Les phases d analyse sont param trables ce qui constitue nos yeux un pr requis pour ce type d outils En effet ainsi que le travail de Harris l a montr tant le domaine de sp cialit que l application vis e ou encore la langue trait e peuvent demander des traitements diff rents LIZARD se rapproche d outils mis en uvre en terminologie tels que ceux d crits dans Habert 1998 ou encore Bourigault 2002 en ce sens LIZARD est un dispositif de recyclage d tiquettes 1 e syntaxiques 4 2 1 2 Harmoniser et centraliser les ressources lexicales En fournissant un cadre dans lequel les proc dures d analyse sont appliqu es de fa on syst matique et en exigeant de la part du concepteur de ressources de rendre explicites une partie de ses m thodes d analyse de corpus LIZARD vise galement assurer une harmonisation des ressources lexicales constitu es Ainsi le format choisi pour ces 199 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATI
141. alFinaElf N NPropre monte monter au a le Prepdet ms capital capital N ms de de PREP EADS EADS N NPropre lt FINANCE gt Exemple 7 phases d analyse d un moteur de filtrage d information g n rique 4 1 3 CORAIL un syst me de FI par cascades de transducteurs 4 1 3 1 Intex pour le filtrage d information CORAIL est un syst me de filtrage d information reposant sur une analyse locale des documents trait s guid e par le principe des signatures th matiques afin de garantir la fois une qualit sup rieure aux approches quantitatives dominantes ainsi que des temps de traitement ma tris s CORAIL repose sur Intex un logiciel d exploration de textes bas sur des cascades de transducteurs tats finis Le choix d Intex se justifie par le recours des transducteurs tats finis pour l ensemble des traitements textuels ainsi que comme structure de donn es pour les ressources lexicales lectroniques mises en uvre i e dictionnaires lectroniques et grammaires locales disponibles pour le fran ais Voir Silberztein 1993 192 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL Intex permet de fouiller les textes de fa on approfondie des patrons de recherche peuvent tre d finis sous forme de grammaires locales utilisant l ensemble des tiquettes disponibles environ 40 ce qui en fait un outil particuli rement adapt une a
142. ants Cette propri t de la fonction de redimensionnement permet d viter les cueils rencontr s au cours de TREC S o des th mes g n ralement trop pauvres en documents pertinents avaient p nalis l ensemble des syst mes valu s 3 3 2 5 M triques orient es vers la pr cision TREC 9 se distingue des pr c dentes ditions en faisant table rase des m triques non lin aires d utilit ainsi que de la m thode de classement des syst mes bas e sur un 168 CHAPITRE 3 LE FILTRAGE D INFORMATION redimensionnement des scores d utilit Cette neuvi me dition utilise de nouvelles m triques dites orient es vers la pr cision precision oriented ainsi que des m triques adapt es chaque sous t che du FI L introduction de ces nouvelles m triques est justifi e par ses auteurs de la fa on suivante en utilisant des m triques bas es uniquement sur l utilit certains syst mes dont les taux de rappel et de pr cision sont plus lev s que d autres syst mes peuvent se voir moins bien class s que ces derniers Les in galit s suivantes sont l illustration de ce ph nom ne Soient deux syst mes de FI X et Y Pour ces deux syst mes il est possible d observer U correspond au score d utilit Pr cision X gt Pr cision Y Rappel X gt Rappel Y mais U X lt U Y Autrement dit le score d utilit va l encontre de l intuition qui pr suppose qu un syst
143. approches reposant sur une adaptation une t che de push d un syst me pens pour le pull Ces syst mes dominants tirent parti de l infrastructure commerciale mise en uvre pour les moteurs de recherche et d indexation sur lesquels ils reposent ainsi que sur l effet de convergence induit par les conf rences TREC Ces syst mes se r clament du FI or ils sont loin de se conformer la d finition donn e par TREC L examen des principes g n raux d indexation automatique qui sous tendent les moteurs SMART et toutes leurs variantes ex PRISE du NIST nous permettra de trancher entre routage et filtrage d information 3 2 1 1 Principes d indexation automatique Comme nous l avons voqu dans le chapitre I les principaux moteurs de recherche et d indexation reposent sur des variantes de l approche d crite dans Salton 1968 1971 connue sous le nom de m thode ou mod le vectorielle Nous l avons vu ces syst mes consid rent les documents contenus dans la base indexer comme des ensembles non Vector Space Model ou Method en anglais 151 CHAPITRE 3 LE FILTRAGE D INFORMATION ordonn s ou sacs de mots typographiques autrement dit les notions d ordre des constituants ainsi que la structuration textuelle ex phrases paragraphes chapitres ne sont g n ralement pas prises en compte Par ailleurs dans cette approche tous les mots n ont pas le m me statut En effet tan
144. ar Hillel 1964 p 362 La solution pr conis e par Bar Hillel pour limiter les r ponses non d sir es passe principalement par l abandon du principe d indexation par une collection non structur e de mots simples Cette solution doit tre comprise dans le cadre plus g n ral de la th orie de l information s mantique d velopp e par l auteur Nous verrons plus bas que la solution voqu e ci dessus constitue celle que nous avons adopt e dans l optique du filtrage d information reposant sur une analyse linguistique bien que nous ne reprenions pas la th orie d velopp e par Bar Hillel dans son ensemble Par ailleurs les principes de s lection des descripteurs de contenu visent explicitement liminer les mots grammaticaux des bases d index construites ce qui rend quasiment impossible toute repr sentation des relations de constituance 97 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION 2 1 3 2 Pertinence d une base de descripteurs fig s Les bases d index en raison des volumes documentaires manipul s ont vocation tre relativement stables Autrement dit les descripteurs de contenu choisis manuellement ou pas ont vocation saisir les aspects les moins volatils du contenu informatif des documents Comme nous l avons vu plus haut avec Sp rck Jones amp Kay 1973 on retrouve l le probl me classique de la m taphysique qui consiste
145. ar une grammaire locale Il est possible d imbriquer ou d associer des grammaires locales afin d tendre le degr de localit MUC Conf rence internationale d valuation de syst mes de compr hension automatique de messages en langue naturelle organis e principalement par le DARPA et le NIST Cette conf rence est essentiellement consacr e aux syst mes d extraction d information elle a donn lieu la validation des approches bas es sur des cascades de transducteurs tats finis pour les applications en Recherche d Information Op rateurs bool ens Op rateurs de la logique bool enne disjonction OU conjonction ET et n gation NON sont les op rateurs de base permettant de g n rer l ensemble des fonctions d valuation logique implication etc OU et ET sont des op rateurs binaires NON est un op rateur un aire Pr cision precision Taux de documents pertinents retrouv s par un syst me de recherche d information par rapport l effectif des r ponses du syst me Profil d utilisateur Mod lisation des besoins en information d un utilisateur donn Le profil peut tre bas sur une explicitation des besoins ou repr sent par l ensemble des documents consult s Rappel recall Taux de documents pertinents retrouv s par un syst me de recherche d information par rapport l effectif de r f rence Recherche d information information retrieval Activi
146. ariation sur le mod le probabiliste propos par Boersma amp Hayes 2001 L enjeu li la constitution d une th orie linguistique non cat gorique et non logique est celui de la possibilit de l existence d une th orie scientifique non cat gorique et non logique Cette question examin e par le positivisme comtien dans le domaine de l pist mologie des sciences trouve avec les travaux mentionn s un d but de r ponse dans le domaine linguistique 1 4 Conclusion Le distributionnalisme classique outil plus que th orie Nous avons d velopp dans cette premi re partie deux approches des faits langagiers partant des observables que nous avons choisi de qualifier de distributionnalisme classique d une part probabiliste d autre part Nous avons tent de montrer quelle vision des faits linguistiques constituait le fondement de ces deux approches et quel int r t pr sentait l tude des observables linguistiques tant dans le cadre d une construction th orique que dans un cadre applicatif Nous avons expos la question sous tendant l ensemble des tudes sur corpus en linguistique qui est celle de la scientificit un mod le construit partir des observables peut il aspirer au statut de th orie linguistique Pour tenter de r pondre cette question centrale nous avons expos les objections du courant g n rativiste une science du langage constitu e partir des observables ains
147. ation 3 3 2 2 TREC 5 une remise en cause du protocole d valuation Nous l avons vu la mesure d utilit introduite au cours de TREC 4 est loin d tre intuitive notamment en raison de l absence de donn es de r f rence issues d une pratique r elle de FI qui simplifieraient l valuation les seuls points discutables resteraient les pond rations appliqu es aux diff rentes cat gories de documents i e pour TREC 4 pertinents non pertinents Ainsi en extraction d information les protocoles d valuation se basent sur des donn es tri es la main par des relecteurs humains autrement dit une r f rence quasi absolue gold standard Il est vrai que par exemple la reconnaissance d entit s nomm es ex des noms propres une des sous t ches de l extraction d information n cessite une expertise moindre de la part des relecteurs que l valuation de syst mes de cat gorisation de textes tels qu valu s dans TREC En effet les th mes abord s par TREC sont tr s vari s de la finance l cologie en passant par l ind pendance du Qu bec ou l impact des pluies acides sur l environnement Par ailleurs les techniques d chantillonnage employ es dans certaines conditions sont susceptibles de produire des r sultats inutilisables pour l valuation Ces conditions sont celles rencontr es au cours de TREC 5 des corpus tr s dispers s en termes de th mes et des effectifs trop rest
148. ation Dans cette partie nous nous penchons sur les probl mes li s l valuation de syst mes automatiques de FI Nous pr sentons tout d abord quelques m triques utilis es en recherche d information puis nous nous concentrons sur les m triques d velopp es dans le cadre de TREC pour la t che de filtrage 3 3 1 Quelques m triques de la recherche d information La majorit des m triques utilis es en RI d velopp es dans une perspective d valuation quantitative des syst mes supposent la constitution d un ensemble de r ponses de r f rence comparer avec les r ponses des syst mes valu s Ce cadre d valuation s inscrit dans une logique behavioriste o seules la correction des r ponses fournies est mesur e ind pendamment de la fa on dont ces r ponses sont labor es Par ailleurs ce type d valuation suppose qu il n y ait qu une bonne ou une mauvaise r ponse possible pour chaque question pos e ce qui n est pas toujours compatible avec la r alit 159 CHAPITRE 3 LE FILTRAGE D INFORMATION 3 3 1 1 Pr cision et Rappel La diff rence observ e entre les r ponses attendues et les r ponses effectives fournit les indices essentiels de bruit et de silence qui se d finissent comme suit e le bruit est le nombre de r ponses incorrectes fournies par le syst me valu e le silence est le nombre de r ponses correctes absentes des r ponses fournies Ces deux i
149. ation constitu d un num ro d index unique e une phrase de titre e une phrase de sous titre e des codes de contr le sp cifiant la date et l heure a laquelle la d p che a t diffus e e le corps de la d p che e un code de contr le pr cisant lorsque cela est possible le lieu de rattachement g ographique de la d p che ex FR pour un document traitant d op rations ayant eu lieu en France 211 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL Par ailleurs une structuration l g re des documents est effectu e gr ce des balises de type HTML identifiant par exemple les auteurs de d clarations rapport es balises lt i gt lt i gt ou encore certains noms d entreprises balises lt b gt lt b gt ainsi que les fronti res de paragraphe balises lt br gt 13565 Generix s duit le march sLe titre affiche une performance positive depuis le d but de l ann e les investisseurs semblent convaincus par les objectifs de la soci t NEW 2001 04 19 11 47 00 000 L diteur de logiciels de CRM Gestion de la Relation Clients lt b gt G n rix lt b gt attire nouveau les bonnes gr ces des investisseurs Il se n gocie aujourd hui 22 05 euros en progression de 4 75 Cette semaine aura t b n fique pour le titre qui voit sa performance depuis le d but de l ann e repasser dans le vert 17 en quatre mois lt br gt Il f
150. ation Theoretic definition of similarity Proceedings of International Conference on Machine Learning Madison b Extracting collocations from text corpora First Workshop on Computational Terminology Montreal c Using collocation statistics in information extraction Losee R M 1996 How part of speech tags affect text retrieval and filtering performance Rapport de recherche Luhn H P 1958 A business intelligence system JBM Journal of Research and Development vol 2 n 4 pp 314 319 Malone T W Grant K R Turbak F A Brobst S A Cohen M D 1987 Intelligent information sharing systems Communications of the ACM vol 30 n 5 pp 390 402 245 Malrieu D Rastier F 2001 Genres et variations morphosyntaxiques TAL n 42 Linguistique de corpus Herm s Sciences Publications Paris Manning C D 1993 Automatic acquisition of a large subcategorization frame dictionary from corpora 31 Annual meeting of the Association for Computational Linguistics pp 235 242 Manning C D Schiitze H 1999 Foundations of statistical natural language processing MIT Press Manning C D 2002 Probabilistic syntax Probabilistic Linguistics Bod Hay amp Jannedy eds MIT Press Manzi S King M Douglas S 1996 Working towards user oriented evaluation Proceedings of the International Conference on Natural Language Processing and Industrial Applications NLP IA 96 Moncton New Brunswick Canada Mariani J
151. ations aux grammaires locales probabilistes Au del des applications en RI il est possible de consid rer l extraction de collocations partir de textes sp cialis s comme une tape pr liminaire dans un processus plus g n ral d induction de grammaires partir d exemples positifs En effet les techniques d extraction voqu es ci dessus tendent mettre en vidence la coh sion existant entre plusieurs lex mes en d autres termes leurs contraintes compositionnelles au sens large Cette coh sion peut traduire Voir Fourour 2002 Ces marqueurs ont une valeur d pendante du contexte historique Ainsi dans le courant de l ann e 2000 la mention de Microsoft ou de Bill Gates dans des textes journalistiques notamment des d p ches pouvait tre associ e de fa on quasi cat gorique un th me la proc dure anti trust men e contre Microsoft 140 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION e des contraintes de s lection ex un verbe et ses compl ments habituels des expressions quasi fig es e des contraintes idiomatiques privil giant la cooccurrence de certains termes e des ph nom nes de composition en termes de morphologie compositionnelle Toutefois la constatation d une certaine coh sion lexicale ne reste qu une description d une r gularit constat e en corpus tant qu aucune proc dure de g n ralisation n in
152. aut dire que les d crochages du Nouveau March avait provoqu la m fiance du march sur tout le secteur des diteurs de logiciels Cependant m me si elles restent modestes par rapport d autres les performances et perspectives du groupe sont rassurantes lt bR gt En effet en 2000 la croissance des ventes s est tablie 17 pour un chiffre d affaires de 14 5 millions d euros De plus la soci t est en passe de retrouver une situation d quilibre la perte nette 2000 tait de 1 8 million d euros mais au deuxi me semestre le groupe d gageait un b n fice net de 0 2 million lt bR gt Les dirigeants se disent confiants pour l avenir ils pr voient un doublement de l activit tous les deux ans et ont pour ambition d augmenter le niveau de rentabilit r guli rement Voil qui pourrait s duire durablement le march 21 FR Globalement le corpus Firstinvest se caract rise par l emploi majoritaire du mode indicatif pr sent et pass compos le mode conditionnel tant d volu aux information demandant une confirmation La voix active semble la plus courante suivie des formes nominalis es avec ou sans verbe support et de la voix passive Des contraintes locales semblent toutefois faire pr f rer telle voix telle autre ainsi les op rations d achat sont la voix active ou passive selon que l op ration est valoris e voix active ou non voix passive Ainsi les mises en faillites sont au passif ISL d cla
153. autres termes la reconnaissance de formes ex phon mes graph mes visage se caract risent tout d abord par une variabilit tant interindividuelle deux sujets ne voient pas les m mes formes dans un m me signal qu intraindividuelle un m me sujet verra plusieurs formes diff rentes dans un m me signal des intervalles de temps distincts Ce ph nom ne est bien connu dans le domaine de la documentation il a donn lieu plusieurs strat gies pour l indexation de documents traditionnelle visant cadrer l espace de cat gorisation ex indexation contr l e Cette double variabilit nous para t fondamentale pour le probl me qui nous occupe en ce qu il rapproche d autant le domaine de la linguistique sur corpus et de la rechercher d information On peut objecter cette hypoth se que les experts sont susceptibles tout simplement de commettre des erreurs Nous r pondons cette objection en soulignant le fait que lorsqu un document aborde plusieurs th mes il n existe pas de bonne ou mauvaise d cision de cat gorisation il n existe que des r ponses violant plus ou moins un ensemble de contraintes antagonistes Voir ce sujet Coyaud 1972 177 CHAPITRE 3 LE FILTRAGE D INFORMATION 3 4 2 3 D cision de s lection binaire et satisfaction de contraintes Le filtrage d information est d fini comme une t che o un syst me op rateurs humains logiciel prend
154. bal des syst mes La fonction de redimensionnement vise donc remplacer l algorithme de tri en deux passes exp riment au cours de TREC 6 elle est d finie comme suit u S T max u S T U s U s MaxU T U s o u S T et u s S T sont respectivement la mesure d utilit d origine et la mesure redimensionn e scaled utility pour le syst me S et la requ te ou th me topic T U s est l utilit associ e la s lection de s documents non pertinents et MaxU T est le score d utilit maximal th orique pour le theme T Le param tre s d finit une borne inf rieure pour cette fonction de redimensionnement de son c t MaxU T d finit la borne sup rieure d utilit La fonction d utilit dans son ensemble se trouve ainsi born e et normalis e entre 0 et 1 ce qui rend les comparaisons entre syst mes plus ais es qu avec l algorithme de tri vu plus haut tant donn e l importance du param tre s qui fixe un seuil de performances minimal i e qui permet de distinguer les syst mes les moins performants plusieurs valeurs ont t mesur es pour TREC 7 et TREC 8 afin d viter de fixer ce seuil minimal de fa on trop arbitraire En effet un seuil inf rieur relativement bas permet de mieux s parer les syst mes qui enregistrent de bonnes performances sur des th mes dont les effectifs de documents pertinents sont bas ainsi que d viter de trop p naliser les syst mes moins perform
155. cadre industriel Cette pr sentation sera l occasion de statuer sur la faisabilit d un syst me de filtrage d information reposant sur des proc dures d analyse linguistique automatis es visant r pondre une demande de diffusion cibl e d information Au cours de cette pr sentation nous tenterons d valuer l apport d une telle analyse automatis e en nous basant aussi bien sur des donn es chiffr es que sur une r flexion plus qualitative Enfin nous tenterons dans une derni re partie de mettre en perspective les probl mes abord s au cours de notre expos notamment au sujet du statut des tudes sur corpus des rapports entre linguistique et recherche d information ainsi que des relations entre la linguistique et les cat gories Cette derni re partie sera galement l occasion d esquisser des pistes de recherche sur les sujets abord s au cours de cette th se 22 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS CHAPITRE 1 Pour une linguistique des corpus Quels sont les fondements m thodologiques et conceptuels d une linguistique attach e aux observables linguistiques D un point de vue pist mologique quel statut conf rer aux donn es linguistiques attest es produites dans un contexte particulier destination d un public particulier par rapport des nonc s construits produits par les chercheurs La linguistique structurale europ enne dans un premier temps am
156. cation as stated above is then tantamount to the statement that language is the collective term for linguistic engrams phonemes word engrams together with their particular probabilities of occurrence The engrams concept is thus inseparably connected with that of frequency of occurrence and if by linguistic normative laws we understand something which regulates the relative frequency of linguistic forms belonging to a certain class then our statistical conception of la langue implies such normative laws as whose realisation we must regard the empirically determined frequencies of la parole Herdan 1962 pp 18 19 Ce passage est clairant a plus d un titre il donne les cl s des conditions d ad quation explicative de la th orie linguistique propos e par Herdan Il propose une conception quantitative de l opposition saussurienne Langue Parole tout en s inscrivant dans un cadre structuraliste classique En effet ce passage permet de comprendre l objectif poursuivi par l auteur aboutir partir d une base empirique la d termination des lois normatives r gissant la Parole c est dire les r gles d une grammaire cat gorique La conception herdanienne des rapports entre langue et Parole est celle de la distinction entre population 59 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS statistique et chantillon tir de cette population En tant que la Parole est un chantillon de la Langue
157. cations of the ACM n 25 vol 3 pp 163 165 Dias G Guillor S Bassano J C Pereira Lopes J G 2000 Extraction automatique d unit s lexicales complexes un enjeu fondamental pour la recherche documentaire TAL n 41 Traitement automatique des langues pour la recherche d information Hermes Sciences Publications Paris Dister A 2000 R flexions sur l homographie et la d sambiguisation des formes les plus fr quentes Actes des 5 mes Journ es d Analyse des Donn es Textuelles JADT Lausanne Dubois D 1991 S mantique et cognition Cat gories prototypes et typicalit ditions du CNRS Paris Dumont J P 1962 La philosophie antique Presses Universitaires de France Paris Dunning T 1993 Accurate methods for the statistics of surprise and coincidence Computational Linguistics n 19 vol 1 pp 61 74 MIT Press Dutoit D 2000 Quelques op rations Texte Sens et Sens Texte utilisant une s mantique linguistique universaliste apriorique th se de doctorat Universit de Caen Elman J L 1990 Finding structure in time Cognitive Science n 14 Evert S Krenn B 2001 Methods for the qualitative evaluation of lexical association measures Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics Toulouse France Faloutsos C Oard D 1995 A survey of Information Retrieval and Filtering methods Technical report CS TR 3514 Department of comp
158. ce exp rimentale chez les Anciens C est gr ce lui et son cole qu il y a eu dans l Antiquit en dehors Nous n gligeons d ordinaire le fait que la description la plus commun ment donn e de la nouvelle discipline la m taphysique aristot licienne est la science recherch e la diff rence de toutes les autres sciences elle ne part pas d un objet donn mais de la question de savoir si son objet existe Bourdeau 2000 p 3 Dans la conception Platonicienne le monde et les objets qu il contient ne sont qu apparence Platon recherche des Principes essentiels non par l observation du monde mais par l exercice de la philosophie Par ailleurs cette philosophie est impr gn e d une mythologie postulant l acc s au savoir comme une r miniscence d un savoir perdu Dans cette conception le monde et les observables qu il contient ne peuvent fournir la base d aucune connaissance v ritable 25 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS de l astronomie une certaine somme des connaissances sur les ph nom nes naturels et quelque soup on de la m thode propre aux sciences de la nature Hamelin 1985 p 79 Nous cherchons montrer ici que le choix d une vis e abstrayante oppos e une vis e discr tisante donne n cessairement deux positions antagonistes sur le monde comme lieu d observation des ph nom nes donc deux approches dans la construction d une th ori
159. ce qui am ne examiner en ayant recours notre intuition linguistique la ee j 73 validit d nonc s non disponibles en corpus Par l che nous entendons non cat gorique On peut envisager une probabilit d association entre la place consid r e sujet objet syntaxique et le r le casuel effectif toutefois en l tat actuel LIZARD n int gre pas ce type d information 7 Ainsi la construction semi fig e mettre la main sur observ e l indicatif NO met la main sur N1 dans les corpus ne semble pas pouvoir subir la transformation passive la main a t mise sur NI par NO N1 a t mis la main sur par NO 124 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION e des entr es lexicales dans les cas o les arguments et les entr es verbales sont indissociables malgr des possibilit s d insertions ex adverbes adjectifs On se trouve alors devant des expressions haut degr de figement telles que mettre la main sur synonyme acheter e des entr es lexicales dans le cas de nominalisations disponibles en langue g n rale telles que achat acheter acquisition acqu rir Une fois les phrases noyaux constitu es reste choisir un format de repr sentation ainsi que le langage formel ad quat Dans le cadre de nos travaux le langage formel tait impos par l application destin e utiliser les ressou
160. ces de l Information et de la Communication Universit Lumi re Lyon II Miles O 1999 DCG Induction using MDL and Parsed Corpora Learning Language in Logic Cussens J ed pp 63 71 Bled Miller G A Beckwith R Fellbaum C Gross D Miller K J 1990 Introduction to Wordnet an on line lexical database International journal of lexicography special issue vol 3 n 4 pp 235 313 Milner J C 1985 De l inutilit des arbres en linguistique Laboratoire de Linguistique Formelle Unit de Formation et de Recherches Linguistiques Mohri M 1995 On some Applications of Finite State Automata Theory to Natural Language Processing Natural Language Engineering vol 1 Cambridge University Press Mohri M 1993 Analyse et repr sentation par automates de structures syntaxiques compos es th se de doctorat universit Paris VII Mohri M 1997 Finite state transducers in language and speech processing Computational Linguistics vol 23 n 2 pp 269 311 MIT Press Mohri M 2001 Language processing with weighted transducers Actes de la huiti me conf rence sur le Traitement Automatique des Langues Naturelles 2 5 juillet 2001 pp 5 14 Tours Morin E 1999 Extraction de liens s mantiques entre termes a partir de corpus de textes techniques th se de doctorat universit de Nantes MUC 3 1991 Proceedings of the Third Message Understanding Conference MUC 3 Morgan Kaufmann San Mateo CA
161. che d Information Nous empruntons Bar Hillel 1964 une d finition du cadre de la recherche d information s inscrivant dans une r flexion critique sur les pratiques du domaine au sein des syst mes d information existants examinant l apport d une automatisation des proc dures standardis es d archivage ou d indexation et de recherche de documents pertinents L auteur a consacr son ouvrage une r flexion sur les sp cificit s de l activit de recherche d information tant dans le cadre des syst mes manuels qu automatiques Ce faisant il a entrepris de fournir l ensemble du domaine des d finitions des sp cifications et des contraintes tant dans une optique de fixer la terminologie employ e que dans celle de recenser les m thodes et les techniques les plus appropri es ses yeux Le cadre de l ouvrage cit d passe cependant la simple d finition conceptuelle d un domaine mergent l poque de sa parution la recherche d information automatis e Bar Hillel voque galement les perspectives du domaine et pose par exemple d s les ann es 1960 la question Is information retrieval approaching a crisis L auteur peut tre consid r comme un des th oriciens d un domaine mergent la m canisation l automatisation des syst mes d information regroup es sous la d nomination de sciences de l information Information Science L auteur d finit l objet de
162. cherche d information Cette normalisation est principalement effectu e par la comparaison des performances quantitatives de syst mes adoptant des approches diff rentes pour un ensemble de probl mes dans un cadre quasi exp rimental En effet tant les t ches que les donn es et les m triques utilis es dans les valuations font l objet d une standardisation Ainsi les conf rences TREC d finissent le filtrage d information comme la d cision de s lection d un document pris parmi un flux d information Cette d cision de s lection est binaire dans le cas du filtrage par lots qui constitue le cas dans lequel nous nous situons Les conf rences TREC constituent par l ampleur des valuations men es et la diversit des syst mes test s un recueil d exp riences capital pour le domaine du FI notamment dans l optique d une adaptation de ce type de campagne d valuation une conception europ enne des probl mes de RI En effet ainsi que le montrent les publications consacr es aux initiatives comparables tant au plan national qu europ en la conception am ricaine de l valuation montre une pr f rence envers les valuations quantitatives de type bo te noire alors que la conception europ enne et plus encore fran aise accorde une pr f rence aux valuations dites qualitatives o la compr hension fine des performances des syst mes valu s est primordiale Ces deux conceptions se traduisen
163. ches de l AFP La 7 Nous adoptons ici une typologie neutre d un point de vue distributionnel se s parer de commute avec des verbes construction transitive directe tels que vendre acheter etc 176 CHAPITRE 3 LE FILTRAGE D INFORMATION d cision de s lection r alis e par l op rateur humain doit donc prendre en compte les diff rents th mes abord s r aliser une sorte de pond ration de chacun d eux et aboutir une prise de d cision autrement dit une prise de risque classer l ensemble du document comme relevant du th me 18 plut t que 19 Cet exemple nous permet d illustrer l id e que nous d veloppons en d tail plus bas en situation r elle le filtrage d information fait appel en plus de comp tences explicitables des connaissances sur le monde acquises au cours d une pratique effective ainsi qu un processus de d cision capable de faire interagir plusieurs contraintes ventuellement antagonistes 3 4 2 2 Filtrage d information et cat gorisation Le FI autrement dit l activit consistant d cider pour un document donn qu il traite d un th me donn doit tre per u essentiellement comme un probl me de cat gorisation Poser le probl me en termes de cat gorisation nous para t permettre de mieux saisir la nature des probl mes inh rents la formalisation de cette t che pour des syst mes automatiques En effet les t ches de cat gorisation en d
164. ci dessous Voir Riloff 1994 pour une pr sentation exhaustive des proc dures et des sch mas conceptuels consid r s 113 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION SI l amorce murder est trouv e SI une construction la voix passive est identifi e SI un sujet syntaxique de type humain est identifi O SI un compl ment d agent de type humain est identifi OU SI un compl ment circonstanciel de type arm st identifi ALORS construire un sch ma conceptuel de type MURDER Proc dure 1 instanciation d un sch ma conceptuel MURDER pour le syst me Autoslog L approche adopt e par Riloff passe donc par la d finition d un sch ma conceptuel g n rique de nature heuristique sp cifiant des r les fonctions assimil s des places ex sujet grammatical Le syst me Autoslog cherche ainsi remplir les l ments libres slots de chaque sch ma conceptuel avec des l ments extraits d un document partiellement tiquet Cette approche vise extraire des corpus de MUC 4 non pas des mots cl s ou amorces isol s mais bien des ensembles de mots cl s structur s par les relations pr vues par les diff rents sch mas conceptuels envisag s agent victime victime vis e instrument utilis ou encore nombre de bless s Ces ensembles de mots cl s structur s sont appel s signatures de pertinence relevancy signatures en ce qu il
165. continue des corpus sp cialis s Ainsi que nous l avons vu plus haut les tudes sur corpus de sp cialit men es dans un cadre distributionnelle font l hypoth se d une sp cialisation tant lexicale que syntaxique i e des sch mas de phrases en nombre fini voire pragmatique Autrement dit ces tudes postulent une diff rence fondamentale entre sous langages de sp cialit et langue g n rale Nous voyons dans cette sp cialisation la possibilit de mettre en uvre des langages formels moins contraints que ceux pr conis s pour la description de la langue g n rale notamment des grammaires dites context free voire des automates tats finis Cette sp cialisation permet galement d envisager l induction des r gularit s constat es en corpus soit par des approches inductives symboliques statistiques ou encore subsymboliques r seaux de neurones artificiels dans un cadre non supervis 2 2 1 1 laboration d une grammaire d un domaine de sp cialit La d marche harrissienne vise aboutir une grammaire d un sous langage de sp cialit en suivant les tapes suivantes 1 Analyse distributionnelle visant tablir les contraintes de cooccurrence de certains l ments lexicaux si possible en interaction avec un expert du domaine Cette analyse repose sur les principes distributionnels harrissiens voqu s dans le premier chapitre notamment la mise en relation d l ments
166. ction d un comportement similaire sur l axe syntagmatique La construction de ces classes d l ments repose sur les op rations classiques de segmentation et de substitution qui d coulent des axes syntagmatique et paradigmatique Or bien que ces op rations soient justifi es dans le cadre d une simple description ex description d un syst me phonologique ou morphologique Chomsky rejette la validit du principe de substitution comme moyen d acc der aux propri t s notamment s mantiques des unit s In any example of linguistic material no two words can be expected to have exactly the same set of contexts On the other hand many words which should be in different contexts will have some context in common Thus substitution is either too narrow if we require complete mutual substitutability for co membership in a syntactic category or too broad if we require only that some context be shared Chomsky 1955 pp 129 145 En rejetant le principe de substitution Chomsky rejette toute approche partant des observables et cherchant a identifier la fonction phonologique morphologique syntaxique des l ments tudi s Or ce principe est la base de l ensemble des approches automatiques les plus r centes dans le domaine de l apprentissage de contraintes de s lection et de sous cat gorisation des l ments lexicaux servant de base a l induction de grammaires partir de donn es obse
167. ctionnellement proches des unit s de la terminologie dans le sens o ces unit s sont fortement associ es un domaine de sp cialit ex le 158 CHAPITRE 3 LE FILTRAGE D INFORMATION domaine financier Les signatures th matiques sont des grammaires locales d crivant un ensemble d expressions associ es un th me Ces grammaires locales sont d crites sous la forme de transducteurs tats finis elles sont par ailleurs lacunaires seuls les l ments pertinents en termes de th me sont d crits Ces signatures th matiques sont extraites de corpus sp cialis s elles sont centr es sur les cadre de sous cat gorisation des verbes trouv s dans les documents ex lt Nom de soci t gt acheter lt Nom de soci t gt Elles permettent une certaine forme de variation par le biais d un tage transformationnel ex transformation actif passif Par ailleurs elles sont construites partir de ressources linguistiques a large couverture les dictionnaires lectroniques du LADL et le Dictionnaire Int gral DI de la soci t Memodata pour les signatures labor es pour le fran ais Ces deux ressources sont compl mentaires les dictionnaires du LADL servent essentiellement l tiquetage robuste des corpus par le biais de la plate forme Intex le DI la recherche de termes s mantiquement proches de ceux trouv s dans les corpus 3 3 Probl mes d valuation des syst mes de filtrage d inform
168. ctronique con u sur des bases psycholinguistiques 35 Tels que Cue Mason 2000 un outil de gestion des corpus Voir Martin et al 1999 202 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL ressources linguistiques que d utilisateurs non experts Dans l tat actuel LIZARD n offre que les services orient s vers les experts la fonctionnalit principale de l assistant est l extraction de patrons de sous cat gorisation rudimentaires partir de textes tiquet s et d sambiguis s Cette extraction repose sur plusieurs phases dites de g n ralisation elle vise a fournir un ensemble d expressions typiques et non ambigu s d un domaine de sp cialit en fonction d un corpus et d une application particuli re vis e les signatures th matiques Ces phases ont pour but de ne s lectionner que les unit s potentiellement int ressantes au regard de l application vis e de fa on param trable Ainsi la Figure 12 donne un aper u d une phase de g n ralisation visant ne conserver que la forme lemmatis e des entr es verbales suivie d un certain nombre de compl ments essentiels Par ailleurs les mots mal tiquet s sont conserv s tels quels 4 2 2 2 Extraction de formes sch matiques La fonctionnalit principale de LIZARD est l extraction d expressions typiques d un domaine que nous appelons signatures th matiques en plusieu
169. cularit de l approche de Klavans amp Kan 1998 est la dimension r duite de l espace de classification les d p ches journalistiques analys es sont suppos es se r partir suivant 8 types d articles standard ex profils d p ches n crologie interpr tation statistique ou encore anecdotes Par ailleurs les auteurs fondent leur approche essentiellement sur les verbes dits de communication say report les verbes supports be ainsi que les ressources lexicales que sont la caract risation des contraintes de s lection et de sous cat gorisation des verbes de l anglais tablie par Levin 1993 ainsi que leurs propri t s big 60 s mantiques telles que d crites dans le r seau s mantique Wordnet L ensemble des classifications automatiques d crites dans Klavans amp Kan 1998 repose donc sur des ressources lexicales labor es manuellement par des tudes sur corpus traditionnelles men es dans une perspective lexicographique reprenant des analyses existantes Wordnet ou adaptant des principes d analyse au domaine particulier des d p ches journalistiques analyse des 100 verbes les plus fr quents selon les principes tablis par Levin Les auteurs aboutissent ainsi une bauche de typologie textuelle en fonction des pr dicats verbaux d tect s dans les documents par exemple e verbes de communication add say announce et ditos rapports ou bulletins d opinion e verbes de mo
170. cupera pas toutefois le point 3 est abord dans l ensemble de notre expos par la question portant sur l indexation en tant que processus de cat gorisation Ainsi que le montre Sp rck Jones amp Kay 1973 l ambition initiale de l alliance entre linguistique et recherche d information tait la mise profit de l appareil formel mod les descriptions linguistiques d velopp par la premi re dans une optique de capitalisation de la connaissance et d am lioration des performances des syst mes et des applications de la seconde We began this survey with two questions since linguistics and information science are both concerned with the product of linguistic behaviour namely discourse we may ask first what linguistics can or should be able to offer information science and second what information science can offer linguistics Sp rck Jones amp Kay 1973 p 195 Dans la conclusion du bilan de cette exp rience les auteurs insistent sur la difficult de cette alliance 102 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION Our initial hypothesis was that the information scientist or documentalist would be assisted in his attempts to devise linguistic processing procedures for retrieval if he could exploit the findings of linguists It is not unreasonable to suppose that while his use of linguistic theory will be influenced by his specific purpose he needs a s
171. d informations apport es par les diff rentes phases de traitement les s quences validant un profil sont mises en vidence gr ce l insertion de balises de marquage de type HTML comme le montre la figure ci dessous 28 eo P gt si A notre connaissance seules des ressources explicites telles que mises en uvre ici permettent le partage que suppose le filtrage collaboratif 197 CHAPITRE 4 FILTRAGE D INFORMATION PAR MISE EN UVRE EN MILIEU INDUSTRIEL 1 Documents AFP 2001 03 30 0339 E pizootie Epizootie Dossier Netscape SIGNATURES TH MATIQUES Fichier Edition Affichage Aller Message Communicator Ajde corbmail icr thomson csf com ED Inbox Sent Trash Autre Demo Demo CORAIL V1 ESS Demo CORAIL V2 March s publics March s publics Service public Profil 5 Profil 6 Service public amp Dynamic filters MyTrash LULULbE Documents AFP 2001 03 23 01 35 E pi Documents AFP 2001 03 30 0376 E pi Documents AFP 2001 03 28 0554 E pi J Documents AFP 2001 03 28 051 S E pi Documents AFP 2001 03 28 0408 E pi Documents AFP 2001 03 28 0202 E pi Documents AFP 2001 03 28 0061 E pi Documents AFP 2001 03 26 00S3 E pi Documents 4FP 2001 03 26 0068 E pi Documents AFP 2001 03 23 0816 E pi Documents AFP 2001 03 30 0335 E pi Documents AFP 2001 03 23 0779 E pi Documents AFP 2001 03 23 0765 E pi Documents AFP 2001 03 23 0698 Epi Documents 4FP 2001 03 23 06
172. d composable en morph mes pr fixe suffixe ou non tel groupe de mot fonctionne t il comme un seul mot ou non telle phrase est elle bien form e ou non tel nonc fait il sens ou non En tant qu entreprise int ress e fondamentalement par l tablissement de classes d l ments nous qualifions l tude des faits langagiers men e dans le cadre structural comme tant essentiellement une entreprise cat gorisante fond e sur la m taphysique aristot licienne structur e par les deux contraintes de ce mod le classique loi de contradiction et loi du tiers exclu d o d coulent l ensemble des contraintes additionnelles qui ont donn naissance aux diff rents courants issus de la souche structurale voir infra 1 1 2 2 Le mod le classique de la cat gorisation Le mod le classique de la cat gorisation c est dire le processus qui permet d tablir des classes dans la perspective d une activit scientifique d y inclure ou d en exclure des objets du monde pris au sens large objets mat riels conceptuels afin d aboutir une vision coh rente de celui ci peut tre synth tis comme suit Il repose principalement sur des 1 De m me l ensemble des questions scientifiques dans d autres domaines tels que la physique classique ou l astronomie est d ordre m taphysique par exemple tel corps c leste est il une toile ou non tel l ment ex un lectron est il une onde
173. de l tre et il vise d finir le statut logique de chacun d eux Or il nous semble que ces distinctions sont d abord des cat gories de langue et qu en fait Aristote raisonnant d une mani re absolue retrouve simplement certaines des cat gories fondamentales de la langue dans laquelle il pense Benveniste 1966 p 66 5 Pour Aristote une cat gorie repr sente tout ce qu il est possible d attribuer un objet du monde autrement dit toutes les pr dications m diatis es par le langage Ainsi Aristote est amen proposer un syst me dix cat gories ex substance quantit qualit lieu temps possession etc qui constituent de toute vidence un inventaire des pr dications possibles dans sa langue 34 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS Cette influence de la langue grecque sur le syst me de cat gories propos par Aristote remet en cause la validit de ce syst me en dehors du contexte dans lequel il a t labor Ceci tant il n en reste pas moins que le mode de constitution d une hi rarchie conceptuelle des objets du monde obtenue par l observation de leurs propri t s mat rielles structur e par les deux contraintes loi de contradiction et loi du tiers exclu nous appara t fondamentalement inchang Ce mode de constitution de classes d objets semble avoir t repris sans discussion dans le cadre de l tude des faits langagiers en d pit de l voluti
174. de profil distributionnel similaire dont la similarit est valu e gr ce des proc dures d approximation La dimension po tique et les jeux de langue par exemple sont relativement absents des corpus financiers au profit de la dimension informative 8 Voir Cussens et al 1997 Voir notamment van Zaanen 2001 Voir Finch 1993 108 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION 2 Description de s quences l mentaires destin es constituer les phrases noyaux kernel sentences du domaine de sp cialit 3 Constitution d une grammaire du domaine de sp cialit int grant des r gles de formation des phrases noyaux ainsi que les op rations transformationnelles valides ex transformation passive nominalisation chaque tape la confrontation avec le corpus permet de s assurer de la conformit de la grammaire labor e au sous langage tudi Quelques travaux fondateurs dans le domaine sont ceux de Harris notamment Harris ef al 1989 dans le domaine immunologique Sager amp Friedman 1987 dans le domaine m dical ainsi que ceux de Gross 1968 Gross 1975 Le r sultat vis de ce processus d analyse est pour Sager 1987 notamment ou encore pour Gross 1975 ou Habert 1998 la constitution de classes s mantiquement homog nes partir des r gularit s de construction constat es en corpus Nous avons vu
175. de promotion de leur c t sont autant d hypoth ses faites sur l appartenance cat gorielle des l ments consid r s confirm es ou infirm es par l observation de nouveaux corpus Tant les proc dures d approximation que celles de promotion sont prisonni res du cadre cat gorique adopt par Harris qui rend d autant plus difficile toute extrapolation que tout contre exemple y compris unique permet de remettre en cause l ensemble du syst me en construction 1 2 2 5 Ad quation explicative Nous nous sommes pench s sur les conditions d ad quation descriptive et pr dictive de l approche distributionnaliste Quelle peut tre l ad quation explicative d une d marche centr e sur le comportement distributionnel des l ments auxquels elle s int resse La question du sens vient rapidement ainsi que le souligne Martinet Fonder les classes d unit s significatives sur les compatibilit s c est dire sur un comportement strictement mat riel se heurte la conviction que ce qui fait l unit d une telle classe est ce qu il y a de s mantiquement commun toutes les unit s qui y figurent Martinet 1985 p 109 Qu en est il de la conviction dont parle Martinet chez Harris En effet une th orie linguistique tiendrait l une explication au moins partielle des effets de sens ainsi que des contraintes de distribution relev es le sens d un nonc pourrait tre envisag comme une repr sen
176. des domaines de sp cialit dont les principes sont suffisamment stables pour permettre d tablir des r gles g n rales Ces r gles peuvent tre mises profit dans le cadre de la recherche d information au sein de bases de documents en vue d aboutir des descripteurs plus pertinents que ceux issus des proc dures d indexation classiques en ce qu ils sont bas s sur une analyse linguistique m me partielle des observables et non plus seulement de la prise en compte de propri t s statistiques de ces observables 2 1 4 1 Analyses linguistiques automatis es et Recherche d Information une difficile int gration Le bilan que constitue Sp rck Jones amp Kay 1973 de l int gration de techniques issues du domaine mergent du TALN l poque de parution de l ouvrage souligne plusieurs reprises les difficult s rencontr es Il est int ressant de se pencher r trospectivement sur la conclusion de l ouvrage qui repr sente encore aujourd hui la position dominante sur le sujet outre Atlantique It is difficult when considering syntax in information retrieval to avoid a feeling of puzzlement Many apparently convincing arguments for its use have been advanced and many apparently sensible syntactic procedures have been proposed But insofar as systematic comparative experiments have been carried out they show that syntactic information contributed little to retrieval performance and may even detrac
177. distinguer les traits essentiels des objets consid r s 1 e des concepts v hicul s par des documents de leurs accidents En premier lieu on peut s interroger sur la pertinence d une telle repr sentation fig e du contenu des documents alors que les connaissances voluant n cessairement 1l appara t in vitable que la valeur des descripteurs choisis un moment donn au sein du syst me que constitue l ensemble de la base documentaire doive tre remise en cause en fonction de la mise jour d une collection de documents afin de suivre cette volution Cette remise en cause n est possible que dans une perspective m taphysique faible c est dire une d marche structurante n cessairement imparfaite et connue comme telle qui nous para t tre la position dominante en Recherche d Information Cette position se traduit d ailleurs par des choix lexicaux particuliers on parle rarement en indexation d Ontologie au singulier mais bien plut t d ontologies au pluriel c est dire de structuration n cessairement locales et imparfaites de concepts On peut voir dans la stabilisation d un espace conceptuel que constitue cette d marche un mouvement partag par toute d marche posant une abstraction n cessaire par rapport un ensemble d observables On retrouve toute la difficult soulign e au chapitre pr c dent dans le domaine des tudes linguistiques partant de la Parole entre point de vue sub
178. donn es cens es fournir une r f rence pour l valuation En effet nous consid rons que face des volumes de plusieurs Gigaoctets de textes h t rog nes couvrant des th mes diff rents chaque dition aucune relecture humaine n est possible Cette impossibilit d un contr le par des experts du domaine nous para t tre la cause principale de l inconstance constat e dans les protocoles d valuation de TREC pour le filtrage d information Signalons que en raison de cette inconstance aucune tude longitudinale n est possible pour les syst mes ayant particip TREC En effet les donn es de r f rence et les m triques d valuation changeant chaque dition il est impossible d valuer l volution d un m me syst me au cours du temps Autrement dit les campagnes d valuation TREC ne semblent pas vou es s inscrire dans une dur e tout du moins dans le domaine du FI ce qui au regard de l ampleur des investissements n cessaires peut para tre surprenant Par ailleurs un des effets de ce type d valuation centr sur les performances chiffr es est un effet de convergence Cet effet est visible aussi bien dans le cadre de l extraction d information MUC que dans celui du FI la technique la plus efficace en termes de performances se r pand dans l ensemble des quipes participantes Ceci aboutit au bout de plusieurs ditions une uniformit des approches va
179. dre ce que la d cision de s lection pour un th me donn soit plus difficile Par ailleurs d autres contraintes peuvent tre envisag es la premi re phrase d une d p che de type journalistique vise g n ralement fournir un condens th matique du document En d autres termes le fait de trouver une signature th matique en premi re ou en derni re phrase peut tre pertinent On peut traduire cette diff rence de statut par des contraintes de textualit titre d veloppement conclusion par exemple On pourrait ainsi envisager un processus de cat gorisation th matique des documents ou filtrage d information reposant sur un principe d optimisation de contraintes Signalons toutefois que la d termination d une telle hi rarchie de contraintes ne peut se baser que sur des situations de filtrage d information contr l es ce qui pose le probl me de l acc s une expertise dans un domaine o la comp tition entre experts rend difficile la divulgation de ce type d information Par exemple les liens entre les soci t s m res et leurs filiales ou les soci t s dans lesquelles elles ont des participations Attribution d un document plusieurs th mes 179 CHAPITRE 3 LE FILTRAGE D INFORMATION 3 5 Conclusion Nous avons pr sent une partie de l activit de filtrage d information en nous fondant sur les conf rences TREC visant structurer l ensemble du domaine de la re
180. du monde Ainsi au bas de l arbre taxinomique se trouvent les individus ou l ments les moins g n riques dont l essence est la moins partag e Le haut de la hi rarchie est domin par les genres les plus g n riques auxquels Aristote impose la contrainte de disposer d un contenu ce qui vite l inclusion la hi rarchie des classes les principes platoniciens tels que l Un et l tre tellement g n riques qu ils peuvent s appliquer tout On peut voir dans la construction d un mod le scientifique guid par les observables la reprise de la d marche aristot licienne conf rant la logique formelle le r le d instrument de m thode Il convient toutefois de distinguer le processus de construction de classes partir des propri t s des objets du monde des classes propos es par Aristote proprement dites En effet l instar des mod les scientifiques forg s au cours de l Antiquit le mod le en dix classes tel que l expose Aristote a fait l objet d une remise en cause justifi e au cours du d veloppement des sciences de la nature Dans le domaine de la linguistique structurale Benveniste notamment a d nonc l influence du syst me conceptuel de la langue grecque sur les classes propos es par Aristote voir ci dessous l occasion d une r flexion sur l interd pendance entre langue et pens e Aristote pose la totalit des pr dicats que l on peut affirmer
181. duction automatique 92 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION nos yeux aux remarques faites par les deux auteurs familiers des grands projets en recherche ons 24 d information sur des bases linguistiques The conventional view of the documentation process is that it involves the analysis of each document s content a formulation of this content in a set of descriptors and an organization of descriptors such that enquirors can match their search request and not miss any documents relevant to that request Hutchins 1967 Sp rck Jones amp Kay 1973 p 45 Nous avons vu plus haut que le choix des descripteurs en indexation humaine d pendait du type d indexation Dans le cas de proc dures automatis es les descripteurs d un document donn c est dire l ensemble des termes inscrits dans la base d indexation sont choisis uniquement parmi ceux pr sents dans le document On le voit cette situation est propre l indexation automatique en indexation manuelle il n existe pas de lien n cessaire entre les termes d un document et les descripteurs Tout l effort porte donc sur le choix de ces descripteurs partir des mots typographiques observables consid r e comme une population en termes statistiques dont les occurrences vont tre consid r es comme autant d v nements Les principes directeurs de l indexation automatique s
182. e une th orie linguistique En effet elle implique non seulement le recours la notion d homonyme mais galement une complexification des mod les construits devant m nager un plan surfacique et un plan profond Cette complexit n est envisageable que dans l hypoth se o on recherche des jugements tranch s sur l appartenance cat gorielle d un l ment ce qui est la marque des approches cat goriques En ce qui concerne la grammaticalit le point de vue cat gorique implique qu un nonc appartient forc ment l ensemble des phrases de la Langue ou non Or dans la 232 CHAPITRE 5 CONCLUSION ET PERSPECTIVES pratique effective d une langue le jugement de grammaticalit est plus affaire d opinion d attentes de vision plus ou moins normative sur la langue que de r elle comp tence linguistique Ainsi que le montre Manning 2002 attestabilit et grammaticalit ne sont pas synonymes Une linguistique de corpus non cat gorique doit donc prendre en compte la variation dans les jugements de grammaticalit Est ce dire que tous les nonc s sont per us de la m me fa on par les locuteurs Non et c est l objet du mod le probabiliste de la grammaticalit propos par Manning 2002 fond sur la th orie de l optimalit appliqu e la syntaxe Dans ce cadre non cat gorique on peut envisager une grammaticalit graduelle avec des nonc s violant plus ou moins de c
183. e certaine ad quation peut tre observ e entre les signatures th matiques extraites des corpus et la r partition th matique des documents Nous avons donc montr quel pouvait tre l apport d une tude linguistique des corpus dans un domaine applicatif Toutefois les bons r sultats enregistr s dans l exp rience d crite ne doivent pas occulter le fait que bien que l ad quation entre signatures th matiques et th mes soit bonne elle n est pas parfaite L imperfection de l ad quation signatures th mes peut tre due une couverture insuffisante des grammaires locales utilis es Elle peut galement tre due la notion m me de signature th matique telle que nous l utilisons dans nos exp riences une signature th matique pr sente dans un document est vue comme caract risant l ensemble du domaine th matique du document Or bien souvent les signatures th matiques ne repr sentent qu une partie des nonc s pr sents dans les documents Il est envisageable que bien que les signatures th matiques soient de bons marqueurs th matiques ils ne soient qu une g n ralisation utile qu une strat gie efficace En d autres termes nous ne pr tendons pas avoir d crit l essence de la comp tence des experts financiers dans le domaine des cessions et acquisitions de soci t par les grammaires locales pr sent es en annexe II Qui plus est nous soulignons le caract re irr ductible de cette comp t
184. e l activit de Recherche d Information d sormais RI Le FI se caract rise par un contexte de mise en uvre particulier une RI en temps contraint op r e sur un flux d information partir d un besoin en information stabilis Le FI est donc essentiellement une situation de diffusion cibl e d information dans laquelle l valuation de la pertinence se fait document par document et non pas sur une collection de documents en cons quence les documents trait s sont soit s lectionn s soit rejet s sans aucune autre alternative ex classement d un ensemble de documents Sous la pression du gouvernement f d ral nord am ricain le domaine du FI automatis s est essentiellement constitu autour des syst mes d velopp s pour l indexation automatique ex SMART Nous tentons d tablir dans le pr sent chapitre que l activit de FI est loin de constituer une t che facilement mod lisable malgr le parti pris simpliste de la vision nord am ricaine notamment de l automatisation de t ches de RI Nous posons en effet que le FI tel que r alis par des humains est une t che cognitive complexe qui repose sur un ensemble de comp tences cognitives l expertise acquise sur un ou plusieurs domaines ainsi que le contexte dans lequel est r alis le filtrage qui repr sentent autant de contraintes qu un processus de cat gorisation menant la d cision de s lectionner un document ou non
185. e scientifique de ces ph nom nes savoir une approche rationnelle abstraction oppos e une approche qualifi e dans la tradition anglo saxonne d empirique discr tisation La filiation que nous tentons d tablir ici entre linguistique structurale distributionnalisme et m taphysique aristot licienne est motiv e par le fait que le cadre fourni par cette m taphysique est porteur de limitations intrins ques en ce qui concerne les th ories scientifiques qu il permet de construire Ces limitations sont explor es plus bas notamment par le biais du postulat cat gorique et logique 1 1 1 2 L apport saussurien L ceuvre de Saussure fondatrice de la linguistique comme tude des structures apparait essentiellement comme un mouvement vers les ph nom nes langagiers donc un mouvement vers les observables pour l tude desquels l auteur d finit un cadre conceptuel et m thodologique L une des avanc es th oriques de l uvre saussurienne a trait a la n cessaire abstraction par rapport aux donn es empiriques voqu e plus haut les ph nom nes langagiers sont pris comme r sultant essentiellement d un compromis social Cette notion de compromis est essentielle en ce qu elle fonde deux domaines d observation linguistique e le domaine de la Parole lieu des particularismes domaine le plus descriptif le plus proche des donn es observables gt Nous modulerons plus bas cet antagonisme l
186. e Langue soit comme des extraits de Langue elle m me 52 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS On distinguera donc deux types de raisonnement fondamentalement diff rents Ou bien on raisonne sur un texte fini par exemple L illusion Sachant que dans ce texte le substantif a une fr quence relative de 0 18 on est parfaitement fond tirer de cette fr quence une probabilit Mais cette probabilit ne s applique qu a un tirage non exhaustif ou a la rigueur a un tirage exhaustif de tr s faible amplitude par rapport a l tendue du texte Ou bien on raisonne sur la langue de ce texte sur la population parente dont ce texte est un chantillon et dont on ne connait les caract res qu a travers ce texte Muller 1973 p 112 La position de Harris par rapport aux corpus donc aux observables est celle de donn es empiriques tir es du domaine de la Parole prises comme refl tant des contraintes g n rales relevant du domaine de la Langue Cette position est justifi e par la centration dans les travaux ult rieurs sur les sous langages ceux ci sont vus comme refl tant des contraintes plus fortes que celles de langue g n rale Ainsi les conditions d ad quation pr dictive du distributionnalisme harrissien concernent essentiellement les degr s de libert d occurrence des unit s linguistiques Elles reposent essentiellement sur l induction de r gles partir des e
187. e ajustement de ces deux repr sentations pose de fa on empirique la question de la pertinence qui vient de celle plus fondamentale de l association d un contenu une somme de connaissances un ensemble de formes linguistiques 2 1 1 Notion d information Que recouvre le terme g n rique d information En effet les th oriciens de la notion d information labor e dans le cadre de l ing nierie de la transmission des signaux Shannon 1948 ainsi que leurs pr d cesseurs n ont eu de cesse de distinguer l information v hicul e par les suites de caract res d un document transmettre ex un t l gramme de son contenu ex annonce d un v nement Nous aborderons donc deux d finitions de la notion d information afin de pr ciser la valeur du terme ainsi que le cadre m thodologique qui en d coule dans le cadre d une activit de recherche d information La recherche d information sur des documents multim dias constitue un domaine de recherche part enti re que nous n voquerons pas ici 7 Quels crit res permettent de garantir qu un document est pertinent Cette pertinence est elle absolue ou relative 81 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION 2 1 1 1 D finition quantitative La d finition quantitative de la quantit d information repose sur l estimation de la probabilit d occurrence d
188. e cat gorique La logique doit elle tre au c ur d une th orie linguistique Les unit s d une telle th orie que Herdan pose comme discr tes en reprenant les acquis saussuriens et distributionnalistes n en auraient pas moins des propri t s relevant du continu exprim es par exemple par des probabilit s dans les contraintes de s lection entre unit s plus que comme r gles On voit d embl e la difficult pour une th orie visant une d marche objective de se baser sur des probabilit s donc un d terminisme empirique plut t que sur des r gles De m me comment envisager l laboration d un syst me linguistique reposant sur des unit s seulement probables La question pos e au sujet du syst me tient en fait celle de l quilibre comment concevoir une stabilit d ensemble partir d l ments potentiellement non stables La r ponse tient en l adoption d une conception dynamique plut t que statique de l tat d quilibre En ce sens la r flexion apport e par Herdan constitue un v ritable changement de paradigme comparable celui induit par le passage d une conception classique de la physique une conception relativiste Cependant l auteur ne tire pas notre connaissance toutes les cons quences tant m thodologiques que conceptuelles du changement de paradigme qu il appelle En effet l objet d tude privil gi de Herdan est la stylistique partageant avec l
189. e non supervis nomm ABL Alignment Based Learning 49 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS This volume presents methods of research used in descriptive or more exactly structural linguistics Starting with the utterances which occur in a single language community at a single time these procedures determine what may be regarded as identical in various parts of various 30 utterances Harris 1951 On le voit pour Harris linguistique structurale et descriptive semblent quasiment synonymes le programme que se donne le distributionnalisme est la d termination des l ments qui peuvent tre consid r s comme identiques L objet de la m thode harrissienne rappel plusieurs reprises est la d tection des r gularit s de comportement distributionnel que nous interpr tons comme la d tection d un m me face la variation c est dire une tache de cat gorisation Par sa centration sur les observables le distributionnalisme vise une bonne ad quation descriptive Cependant l ouvrage fondateur de 1951 est impr gn d une prudence vis vis des notions les plus fondamentales telles que mots ou morph mes En effet la particularit du distributionnalisme de 1951 qui se retrouve d ailleurs dans d autres crits tels que ceux de Herdan est de consid rer les diff rents l ments que sont les phon mes les morph mes et les l ments phrastiques comme autant d unit s pourvues d
190. e possibles c est le cas notamment pour l indexation automatique dans laquelle le comportement distributionnel des descripteurs de documents n est consid r que dans une version simplifi e Ainsi le contexte d occurrence consid r est celui du document tout entier et non pas une phrase voire un groupe de mots d o d coule que la distribution de ces l ments n est envisag e que sous l angle de leur occurrence effective La RI et la linguistique de corpus sont donc conceptuellement proches ces deux domaines partagent le m me objet d tudes ainsi qu une partie de la m thode distributionnelle Cette parent peut s expliquer par les origines communes de la linguistique informatique et de la RI en effet la naissance du TALN a t provoqu e par une volont de ma trise de l information en tant que contenu par des organismes gouvernementaux dans 4 102 un contexte de guerre froide Nous avons vu quels espoirs mais galement quelles d ceptions taient attach s une telle alliance notamment par le bilan dress par Sp rck Jones amp Kay 1973 dont les conclusions nous apparaissent toujours valables aujourd hui le recours des repr sentations linguistiques de haut niveau ex arbres de d pendance syntaxique dans les phases d indexation ne se traduit pas par une augmentation significative des performances des syst mes d information Bien au contraire les approches adop
191. e propri t s distributionnelles Cette unit de traitement permet Harris d aborder avec les m mes m thodes et la m me simplicit aussi bien des ph nom nes phonologiques que morphologiques ou syntaxiques dans des langues appartenant des groupes diff rents comme par exemple l anglais le fran ais les langues bantoues ou encore les langues s mitiques Une lecture superficielle du programme distributionnel pourrait faire croire que le but poursuivi par Harris est la constitution d une hi rarchie d l ments linguistiques sur le mod le taxinomique binaire de la phonologie de l poque Or d s l introduction son ouvrage Harris insiste sur la relativit de l identit de comportement distributionnel recherch e ainsi il dit what may be regarded as identical et non pas what is identical Ttaliques ajout s Tps Voir infra 50 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS au sujet de ce comportement L ensemble de l ouvrage est crit sur le m me ton par ailleurs un certain nombre des proc dures destin es regrouper des l ments linguistiques sur la base de leur comportement distributionnel sont autant de contournements de l imp ratif cat gorique sous tendant le processus de d couverte Il mentionne ainsi dans l ensemble des tapes d analyse d une langue visant en isoler les diff rents l ments une phase pr liminaire jug e indispensable d nomm e
192. e que lors des cinqui me et sixi me ditions suivant l impulsion donn e par GE Corporate Research amp Development notamment la sixi me dition se concluant sur un constat d chec en termes de gain en qualit malgr une d monstration de la viabilit d une approche mixte quantitative linguistique Les checs rencontr s dans le cadre d une approche linguistique des probl mes de recherche d information nous paraissent majoritairement dus l adoption d outils linguistiques informatiques non adapt s la t che principalement dans la profondeur d analyse mise en uvre Abney 1996 a Grefenstette 1996 et Roche amp Schabes 1997 2 Voir Bar Hillel 1964 Coyaud 1972 et Sp rck Jones amp Kay 1973 5 Au cours des ditions ult rieures GE Corporate Research amp Development est l une des seules quipes proposer une approche linguistique informatique en marge des approches quantitatives dominantes Voir les conclusions de Strzalkowski amp Lin 1997 189 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL nous semblent montrer une adaptation n cessaire de la profondeur d analyse en fonction de la t che certaines applications dont la recherche d information pouvant tr s bien se satisfaire d analyses partielles et locales 4 1 2 2 Principes d une analyse locale Les analyses locales telles que le chunki
193. e routage d information la forte dilution des documents pertinents propre aux corpus de TREC 5 n a fait que souligner l inad quation d une valuation reposant sur des donn es la fois trop simples et trop complexes En fournissant des corpus d apprentissage contenant une forte densit de documents pertinents avec des effectifs d passant largement ceux observ s au cours d une pratique r elle le param trage des syst mes en comp tition est artificiellement facilit Par ailleurs les donn es de test ne pr sentant que peu de ressemblance avec celles des corpus d apprentissage des performances d cevantes sont enregistr es Lewis mentionne par ailleurs les critiques adress es l encontre de la m thode de constitution des donn es de r f rence la m thode dite de pooling que nous aborderons plus bas On le voit cette cinqui me dition est l occasion de difficult s importantes qui remettent en cause l ensemble des choix adopt s en mati re de protocole d valuation D ailleurs Lewis semble ne plus s investir dans la d finition de protocoles d valuation apr s TREC S Hull et Robertson prenant la responsabilit des valuations 3 3 2 3 Association de l utilit et d autres mesures la suite des difficult s rencontr es au cours de TREC 5 la notion de filtrage est amend e afin d inclure la dimension temporelle et l interactivit qui lui faisaient jusqu alors d faut Les donn
194. e syntaxique les op rateurs et leurs arguments au sein d un domaine donn essaient souvent de le faire sans ce recours un premier d grossissage conceptuel du domaine L conomie de ce recours s explique en partie par la difficult d obtenir ce type de renseignements on dispose de textes d un domaine sp cialis mais pas forc ment d informateurs comp tents dans ce domaine On rencontre aussi la conviction qu il suffit de disposer d un ensemble suffisamment vaste de documents du domaine pour que le retraitement d analyses syntaxiques fasse merger les r gularit s syntactico s mantiques La question demeure donc peut on induire les sch mas d un domaine sans le recours une expertise humaine soit au d part soit pour valider les regroupements produits automatiquement Habert 1998 p 151 Prince amp Smolensky 1993 Par exemple les relations entre entreprises m res et filiales Italiques ajout s 231 CHAPITRE 5 CONCLUSION ET PERSPECTIVES la question pos e par Habert au sujet du recours l expertise humaine notre exp rience dans le domaine du filtrage d information nous inciterait r pondre n gativement Remarquons cependant que le recours une expertise ext rieure n est pas synonyme d objectivit ni de r gularit ni de validit scientifique le caract re souvent non tranch des avis d experts ainsi que la difficult d expliciter toute expertise
195. e terme empirique tant pist mologiquement marqu comme synonyme de non science par des auteurs tels que Comte notamment Une st rile accumulation de faits incoh rents c est ainsi que Comte caract rise l empirisme La formulation d hypoth ses est donc pr alable l observation et l exp rimentation tout aussi n cessaires venant cependant en cons quence Il ne s agit de rien de moins que de r concilier les deux modes d tablissement de la v rit rationnel exp rimental Comte 1996 p 9 26 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS e le domaine de la Langue lieu des r gularit s visant un maximum de coh rence dans les observations En posant ces deux domaines d observation la linguistique structurale saussurienne pose les conditions d une r flexion d passant le niveau empirique descriptif Elle pose galement deux cadres m thodologiques le premier ayant trait au recueil des donn es le deuxi me leur interpr tation La deuxi me avanc e que nous souhaitons souligner est celle ayant trait la caract risation des unit s linguistiques les signes comme essentiellement et n cessairement arbitraires On peut rattacher cette caract risation la prise en compte de la dimension sociale du langage humain elle a pour cons quence de nier toute relation naturelle entre la face signifiante la forme et la face signifi e le contenu conceptuel des signes
196. eignement mais galement dans celui de l apprentissage automatique La port e explicative du distributionnalisme a donc trait aux notions saussuriennes de valeur de syst me d unit d axes paradigmatique et syntagmatique c est l objet du passage ci dessous Harris suggested how the structural and distributional regularities could work together to support language acquisition and use when only a small percentage of all possible sound sequences actually occurs in utterances one can identify the boundaries of words and their relative likelihoods from their sentential government Pereira 2000 p 1241 La position exprim e par Pereira est int ressante plus d un titre elle s inscrit dans le cadre d un renouveau du programme distributionnel par l abandon d une vision cat gorique dont nous avons vu les difficult s qu elle comportait pour une linguistique partant des observables Pereira voit dans le programme distributionnel les conditions de l mergence de syst mes linguistiques tant dans la phase d acquisition que dans l ensemble de l utilisation de la comp tence linguistique Cependant Pereira note l insuffisante formalisation et syst matisation des principes distributionnels d bouchant sur de tels syst mes qui rejoint les remarques faites ci dessus au sujet des conditions d ad quation pr dictive du programme de Harris 4 C est l id e sous tendant le recours
197. ence devant laquelle les approches base de r gles d analyse explicites sont fondamentalement limit es 230 CHAPITRE 5 CONCLUSION ET PERSPECTIVES C est l objet de la mod lisation propos e dans le chapitre 4 bas e sur une conception alternative du processus de filtrage d information aboutissant une classification th matique des documents nous proposons l esquisse d un mod le de la d cision de s lection base d un principe de satisfaction de contraintes hi rarchis es ventuellement contradictoires inspir du mod le OT Ce mod le qui int gre les connaissances encyclop diques n cessaires aux experts financiers constitue une piste explorer dans l optique d une am lioration des syst mes de diffusion cibl e d information Cette proposition de mod le de la d cision de s lection constitue la reconnaissance du recours n cessaire l expertise humaine en l occurrence les connaissances encyclop diques sur le monde de la finance Nous sommes conscients de la difficult de collecter cette expertise soulign e par Habert dans le passage ci dessous Harris s appuyait sur un informateur du domaine et utilisait les cat gories d entit s fournies par cet informateur comme point de d part pour d terminer les classes d op randes en fonction des op rateurs utilis s Cependant une partie des recherches actuelles en TALN qui visent d gager partir d une analys
198. eprise Entreprise lt E gt changer 4 14 lt E gt lt E gt lt change gt 6 Entreprisd Entreprise Entreprise Ref engager 44 1 lt E gt Capital lt engagement gt 4 14 7 Entreprisq Entreprise Entreprise lt E gt entrer 4 1 7 lt E gt Capital lt entr e gt 4 14 8 Entreprisd Entreprise Entreprise lt E gt fusionner _ 4 1 1 7 lt E gt lt E gt lt fusion 9 Entreprisd Entreprise Entreprise lt E gt investir__ _ lt E gt Capital lt investissement gt 10 Entreprisd Entreprise Entreprise Refll marier_ lt E gt lt E gt lt mariage gt 11 Entreprisd Entreprise Entreprise lt E gt mettre lamainsur_ lt E gt E gt 12 Entreprisq Entreprise Entreprise Refll porter__ _ acqu reurde lt E gt lt E gt 13 Entreprisd Entreprise Entreprise lt E gt prendre lt E gt Capital lt prise gt 14 Entreprisd Entreprise Entreprise lt E gt acheter lt E gt lt E gt lt rachat gt 15 Entreprisq Entreprise Entreprise lt E gt racheter 4 lt E gt Capita lt rachat gt 14 16 Entreprisg Entreprise Entreprise lt E gt recapitaliser lt E gt lt E gt lt recapitalisation gt Figure 15 base de signatures th matiques extraites d un corpu
199. er d ENT O E ee dt 232 R F RENCES BIBLIOGRAPHIQUES sms 235 ANNEXE I LE SYST ME CORA UD issssssvscesssssosesnsovesavssovoonsvanvosussssonsesvossvssovaneshscvssansenvobassaovoossnsovneasvenvsensnsd 253 INTERFACE D EDITION DE FILTRES EN MODE CLIENT SERVEUR APPLET JAVA ses 254 TABLE DES CAPTURES D ECRAN DU SYST ME CORAIL dire 254 MANUEL UTILISATEUR DU MOTEUR DE FILTRAGE EXPERIMENTAL CORAIL 269 INTRODUCTION 655 45 eeno see nes EE Tee Ge RTE A Mh E ER es Reh SN UT ee ot La Misco cece 269 TABLE DES FIGURES DU MANUEL D UTILISATEUR ss 291 EVALUATION EROONOMIQUEL AA re A ne TN na O ek he 292 GRAMMAIRES LOCALES UTILIS ES POUR L VALUATION ERGONOMIQUE ssesccssssseeseeseeseesessecseesecseeeeessesenseeneeaes 293 TABLE DES GRAMMAIRES LOCALES UTILIS ES POUR L EVALUATION ERGONOMIQUE usure 293 ANNEXE II GRAMMAIRES LOCALES POUR LE FILTRAGE D INFORMATION ss 312 TABLE DES GRAMMAIRES LOCALES UTILIS ES PAR LE SYST ME CORAIL 312 TABLE DES AUTOMATES PATRONS UTILIS S PAR LE SYST ME CORAIL 314 TABLE DU LEXIQUE GRAMMAIRE POUR LE TH ME 19 DU CORPUS FIRSTINVEST serrer 314 Table des Figures Figure 1 un sch ma conceptuel pour l extraction d information par le syst me Autoslog 113 Figure 2 un extrait d une base de donn es lexico grammaticales du domaine financier 126 Figure 3 automate patron g n rant les grammaires locales correspondant aux constructions fig es acceptant la forme ACTIVE etreninnnnnnnenathnanltiii
200. ertise d op rateurs humains sur de tels volumes de donn es Le rem de qui s impose naturellement est le recours des techniques d chantillonnage statistiques visant d grossir le travail de validation humaine des corpus de r f rence Autrement dit TREC vise essentiellement produire des donn es de r f rence quantitativement pertinentes statistiquement quilibr es afin de ne favoriser aucun syst me a priori Lewis 1996 est d ailleurs le lieu d un expos de haut niveau sur les techniques d chantillonnage mises en uvre pour la constitution de corpus de r f rence pour la t che de filtrage dont nous avons vu qu elles ont t abandonn es d s l dition suivante Ce qui semble faire d faut aux campagnes successives de TREC ce sont des corpus de r f rence issus d une pratique effective de filtrage d information par des op rateurs humains En effet on ne peut comprendre le recours une m trique absolue l utilit normalis e et born e entre 0 et 1 deux ans seulement apr s leur introduction que par l absence d un ensemble born de documents parmi lesquels un sous ensemble connu seulement est pertinent De m me le recours des estimateurs d utilit plut t qu des scores d utilit effectifs mesur s sur le sous ensemble de documents pertinents ne peut se comprendre que par cette absence Nous ne faisons ici que reprendre la d finition de la t che de filtra
201. es ex la couverture d un dictionnaire est per ue comme fondant la valeur ajout e des applications d velopp es Avec l av nement du g n rativisme deux linguistiques se dessinent d un c t une linguistique empirique de l autre une linguistique th orique rationaliste La seconde s est fond e en m me temps que l appareil formel sur lequel elle repose En posant la question de la scientificit d une linguistique th orique les tenants du g n rativisme ont galement contraint la linguistique empirique prendre position sur la question En cela l un des apports essentiels de la linguistique rationaliste et th orique l ensemble du domaine est de nature pist mologique En posant la question des conditions d mergence d une comp tence 228 CHAPITRE 5 CONCLUSION ET PERSPECTIVES linguistique le g n rativisme a d fini un cadre pour toute th orie linguistique reposant sur les notions de conditions d ad quation descriptive pr dictive et explicative de mod les cens s rendre compte de la grammaticalit La linguistique empirique a le plus souvent t caract ris e par les tenants d une linguistique th orique comme une simple m thode de description arguant du fait qu elle ne pouvait ni pr dire induire des r gles partir des observables ni expliquer fournir les conditions d mergence d un syst me linguistique la grammaticalit Qui plus est l extr me
202. es de s lection entre unit s lien entre unit s documentaires et fonction informative 2 1 2 Les marqueurs th matiques en Recherche d Information Quelque soit l application le contexte d utilisation la nature des proc dures manuelles automatiques semi automatiques visant archiver des documents de fa on ce que des utilisateurs puissent retrouver ceux qui les int ressent l objectif central de la RI est de trouver une repr sentation abr g e du contenu desdits documents ainsi que des requ tes des utilisateurs et d apparier ces deux objets de fa on choisir le document de la base le plus proche de la requ te Autrement dit toutes les recherches en RI tendent vers le m me but trouver les bons descripteurs de contenu ou termes associ s de fa on syst matique un th me donn jouant le r le de marqueurs de th me C est l objet de l extrait ci dessous dans lequel les indices clues mentionn s par Bar Hillel doivent tre compris comme un terme g n rique pour la notion utilis e ici de descripteurs de contenu ou de marqueurs th matiques The obvious general solution to our main problem how to select out of a given collection of documents those documents that are relevant to a given topic is to assign to each document a clue or rather a set of clues and to assign likewise to each topic a set of topic terms in such a way that by comparing the set of topic terms with the S M
203. es documents de type journalistique des profils d v nements ainsi qu un type Par exemple la signature lt dead found dead passive gt associ e l ensemble des phrases construites autour de find et dead la voix passive 58 Par exemple les amorces Thales EADS racheter et la grammaire locale NO V N1 qui reconna t l ensemble des phrases o Thales est l agent d un v nement au cours duquel EADS est rachet e Thales rach te EADS ou encore Le groupe Thales malgr une conjoncture difficile s appr te racheter son concurrent EADS Le principe d une telle ontologie est repris par d autres approches telles que Pustejovsky 1996 116 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION textuel discussion rapport argument D apr s les auteurs les profils v nementiels tir s des documents sur la base des pr dicats verbaux peuvent galement tre utilis s dans une optique de classification en genre textuel Biber 1989 par exemple propose un syst me de classification en genre textuel reposant sur 5 dimensions qui sont autant de param tres L une de ces dimensions a trait aux propri t s verbales mode et temps passifs avec et sans agents formes infinitives Ces param tres fournissent galement la base d un processus de classification automatique en genre textuel dans le cas de Karlgren amp Cutting 1994 La parti
204. es rach te sa filiale EADS Dassault 203 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL discriminants et par l m me pertinents dans le cadre de l application vis e LIZARD ne pouvant extraire directement des signatures th matiques compl tes met en place plusieurs phases dites de g n ralisation visant permettre le rapprochement d l ments apparaissant dans des contextes proches L ensemble des phases de g n ralisation sont men es bien gr ce aux fonctionnalit s d extraction de concordances de Intex Ces phases visent uniformiser par exemple les contextes d occurrence d l ments consid r s de fa on g n rale comme potentiellement porteurs d information tels que les substantifs les verbes pleins la plupart des d terminants des pronoms et des pr positions Chaque phase de g n ralisation constitue une vision diff rente du corpus tudi L extraction de candidats signatures th matiques passe tout d abord par la phase des formes sch matiques illustr e par la figure ci dessous qui pr sente l utilisateur un corpus partiellement g n ralis e les verbes conjugu s sont figur s sous leur forme canonique ex lt racheter gt pour le lex me de d part rach te ainsi que les substantifs e les entit s nomm es sont pr sent es sous une tiquette unifi e N NPropre regroupant aussi bien les toponymes e
205. es the linguist first faces the problem of setting up relevant elements To be relevant these elements must be set up on a distributional basis x and y are included in the same element A if the distribution of x relative to the other elements B C etc is in some sense the same as the distribution of y Since this assumes that the other elements B C etc are recognized at the time when the definition of A is being determined this operation can be carried out without some arbitrary point of departure only if it is carried out for all the elements simultaneously The elements are thus determined relatively to each other and on the basis of the distributional relations among them Harris 1951 Methodological preliminaries p 7 Dans cet extrait le passage que nous soulignons vise mettre en vidence l aspect syst matique de l analyse harrissienne condition d une absence d arbitraire dans les observations men es sur corpus 1 2 1 2 Notion de distribution L un des postulats essentiels de l approche distributionnaliste est que le mat riau linguistique pr sente des r gularit s Ce postulat est la base de toute approche raisonn e d un probl me linguistique qui reste le m me quelle que soit la nature des unit s cherch es re trouver les unit s d une langue donn e par une tude portant sur un chantillon de cette langue Harris donne la d finition suivante de la notion de distribution The distributi
206. escripteurs de documents ceeseceteeeceeeeeeneeeees 92 5 2 1 3 Limites des approches bas es sur des descripteurs en Recherche d Information 95 2 1 3 1 L approche sac de mots inner 96 2 1 3 2 Pertinence d une base de descripteurs fig s 98 2 1 3 3 Prise en compte du point de vue des utilisateurs 98 2 1 4 Recherche d information bas e sur des unit s lexicales complexes n se 100 2 1 4 1 Analyses linguistiques automatis es et Recherche d Information une difficile int gration 101 2 1 4 2 Un retour l empirisme siennes 105 22 EXTRACTION DE MARQUEURS TH MATIQUES LINGUISTIQUES PAR ANALYSE DISTRIBUTIONNELLE 107 2 2 1 Analyse distributionnelle discontinue des corpus sp cialis s 108 2 2 1 1 laboration d une grammaire d un domaine de sp cialit c cccccscsssessessseessesstessessesseesseess 108 224 2 Extraction t rmiMmologique esien a EE lesen aes 110 2 2 1 3 Extraction d information partir de sch mas conceptuels 111 2 2 1 4 Analyse th matique automatique fond e sur une ontologie s mantique 116 2 2 1 5 LIZARD un assistant linguistique pour l extraction de signatures th matiques 118 2 2 2 Ressources linguistiques issues d une analyse classique 123 2221 Thesaurietontologie s ciccsessectudesdesssssseecies E
207. est g n ralement per ue comme d crivant le passage d un tat al atoire o tous les v nements sont quiprobables un tat d ordre relatif Cette mesure est donc g n ralement consid r e comme caract risant l organisation des syst mes ensembles d v nements Cette d finition ne s applique que dans le cadre de l observation d v nements distincts des suites de caract res de mots quantifiables formant un signal dans la perspective de transmettre de fa on optimale rapidit de la transmission int grit du signal transmis ce signal via un canal susceptible d tre bruit une ligne t l graphique Cette mesure de la r duction de l incertitude quant la survenue d un v nement pris parmi un ensemble d v nements possibles a cependant connu une forte popularit en dehors du cadre strict de l ing nierie des t l communications En effet par l laboration d une m trique de la complexit d un signal constitu d v nements quantifiables Shannon a fourni au domaine des sciences humaines par exemple les outils quantitatifs qui leur faisaient jusque l d faut Ainsi en psychologie exp rimentale il est possible d valuer la complexit d une exp rience ex reconna tre une forme en d nombrant les v nements possibles Cette quantification permet ainsi de pr dire des diff rences de performance aux diff rentes exp riences en fonction du nombre de d cisi
208. et La pr pond rance des approches sur corpus dans le monde anglo saxon est mettre en relation avec la disponibilit de corpus annot s pour l anglais de volume et de nature diff rente autorisant aussi bien les approches classiques que les approches statistiques ou mixtes Les ressources linguistiques ainsi constitu es sont toutes le r sultat d une analyse distributionnelle classique m nageant g n ralement une forte part d intervention humaine dans les applications les moins sp cialis es men s dans une perspective lexicographique Inversement dans les applications les plus proches de l ing nierie linguistique le co t que repr sente l intervention humaine tend tre r duit une phase de validation des ressources constitu es Quelque soit la couverture vis e la structure argumentale c est dire les contraintes de sous cat gorisation entre un ensemble de verbes et leurs compl ments habituels constitue g n ralement la cible de ces tudes sur corpus 123 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION 2 2 2 2 Une base de signatures th matiques sous la forme d une table du lexique grammaire Notre approche des corpus de sp cialit marqu e par des objectifs applicatifs imm diats se concentre sur les contraintes de s lection et de sous cat gorisation des verbes dont on suppose une association avec un th me informationnel donn ex cessio
209. et de la diversit de la base indexer ainsi que de la disponibilit 7 5 129 d op rateurs humains et de leur expertise Un cas particulier cet gard est l indexation n cessairement compl tement automatis e des documents disponibles sur Internet la taille la diversit et la rapidit de mise jour de cette base documentaire particuli re interdisent toute intervention humaine 95 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION 2 1 3 1 L approche sac de mots L indexation partir de descripteurs g n ralement des mots typographiques isol s c est dire des mots simples pr sente quelques limites ayant trait essentiellement au principe de pertinence adopt dans la constitution des index Les limites de l indexation automatique par descripteurs tir s des documents sont l objet du passage ci dessous Short of comparing the request formulation with the original document one could think of comparing this formulation with a set of clues obtained from the documents by some mechanical procedure Such procedures have come to be known as automatic indexing However the chances that thereby a satisfactory set of clues will be obtained are rather slim I t is rather unlikely that the set obtained thereby will be of a quality commensurate with that obtained by a competent indexer First there will be serious difficult
210. et restent le plus souvent des produits de laboratoire l exception des syst mes de routage vus plus haut Certains auteurs tels que Oard et Marchionini avancent que l une des raisons de cette diffusion d faillante est li e au domaine de pr dilection du filtrage d information le courrier lectronique les serveurs de news et flux d information apparent s pour lesquels l acc s l information par chaque utilisateur est intime fortement subjectif changeant donc difficile contr ler en termes exp rimentaux ce qui s accorde mal avec l impulsion normalisatrice de TREC par exemple Nous ajoutons pour notre part que le petit volume des donn es concern es quelques M gaoctets comparer aux quelques Gigaoctet fournis par TREC des fins d valuation encourage une approche artisanale du filtrage d information Cette approche est mettre en parall le avec le recours massif du grand public des moteurs de recherche et d indexation n offrant que des fonctionnalit s limit es qui sont cependant jug es suffisantes dans la plupart des cas Les syst mes de FI base de mots cl s reprenant dans l ensemble les principes de SIFT sont limit s dans les fonctionnalit s de filtrage qu ils proposent En effet dans ce genre de syst mes la d finition des profils reste limit e la constitution de liste de mots reconna tre sur lesquelles des op rations de logique bool enne sont effect
211. explicitement approximation L approximation se d cline en proc dures bas es sur une similarit grossi re rough similarity of environment sur des simplifications des g n ralisations ou encore sur une identit distributionnelle partielle partial distributional identity Il donne l exemple de l l ment root en anglais dans les contextes suivants watch it grub for s those s look withered to me the eleventh of 2048 is 2 that s the of the trouble Harris souligne que la mise en rapport de ces diff rents contextes d occurrence est une prise de d cision qui ignore d lib r ment les diff rences de d pendance de root par rapport au reste de l nonc les l ments suivants grub for roots the root of the problem et the nth root of x sont des expressions fig es en anglais alors que dans les deux autres nonc s root pourrait tre remplac par n importe quel mot appartenant la classe des parties de v g taux La forte ad quation descriptive recherch e par Harris ne se fait cependant pas dans le sens d un empirisme qui hypoth querait toute construction scientifique partir des observables Harris rejoint en effet Saussure sur ce point en affirmant que t he elements of linguistics are not direct descriptions of portions of the flow of speech Harris 1951 The status of linguistic elements p 18 Cette position n est pas r serv e au domaine de la phonologie
212. extes traduits sous la forme de grammaires locales ou patrons pour l extraction d information d pendants d un domaine de sp cialit Riloff propose une approche mi chemin des approches base de descripteurs et de celles fond es sur une analyse linguistique en profondeur We propose that information extraction techniques can be used to support text classification This approach represents a compromise between keyword based and in depth natural language processing Information extraction technology is powerful enough to make discriminations that are difficult to make with keyword based techniques yet it is more robust and practical than in depth natural language processing Riloff 1994 p 4 Le syst me Autoslog vise principalement raccourcir le temps de d veloppement de ce que l auteur nomme un dictionnaire de patrons pour l extraction d information autrement dit un ensemble de grammaires locales l auteur avance une r duction de la charge de travail d un facteur 300 Par ailleurs l auteur vise la mise disposition de techniques d analyse linguistique automatis e pour des utilisateurs non linguistes et propose de ce fait un syst me dit presse bouton o l utilisateur n intervient que dans la s lection des donn es analyser et dans la validation des patrons d extraction g n r s La diff rence essentielle entre Autoslog et les approches expos es ci dessus outre le doma
213. f the theory of grammar Word vol 17 n 3 pp 241 292 241 Hamelin O 1985 Le syst me d Aristote Librairie philosophique J Vrin Paris Harman D 1992 The DARPA TIPSTER project ACM SIGIR Forum vol 26 n 2 pp 26 28 Harman D 1993 Overview of the First Text REtrieval Conference TREC 1 NIST Special Publications Gaithersburg MD Harman D 1994 Overview of the third Text REtrieval Conference TREC 3 TREC 3 NIST Special Publications Gaithersburg MD Harman D 1995 Overview of the fourth Text REtrieval Conference TREC 4 TREC 4 NIST Special Publications Gaithersburg MD Harris Z S 1951 Structural Linguistics University of Chicago Press Harris Z S 1968 Mathematical Structures of Language Interscience Publishers John Wiley amp Sons Harris Z S 1988 Language and Information Columbia University Press New York Harris Z S Gottfried M Ryckman T Mattick JR P Daladier A Harris T Harris Z 1989 The form of information in science Analysis of immunology sublanguage Boston studies in the philosophy of science vol 104 Kluwer Academic Publisher Harris Z S 1991 A theory of language and information a mathematical approach Clarendon Oxford Hayes B P 1997 Phonetically driven phonology the role of Optimality Theory and inductive grounding Milwaukee conference on formalism and functionalism in linguistics Herdan G 1962 The calculus of linguistic observations
214. ficilement g n ralisables des corpus non sp cialis s Voir par exemple Klein amp Manning 2001 Soderland 1997 ou van Zaanen 2001 76 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION CHAPITRE 2 D tection d unit s linguistiques et th matiques pour la recherche d information I t is evident that too little is known about either linguistics or information science to justify dogmatic assertions about the relation between them This conclusion immediately leads to one recommendation go and find out more about them Sparck Jones amp Kay 1973 p 200 Nous avons vu dans le chapitre pr c dent quel pouvait tre le statut scientifique d une tude des ph nom nes langagiers centr e sur leur face observable A ce sujet nous avons voqu un cadre th orique et m thodologique mergent int grant des ph nom nes tels que la variation intra et interindividuelle dans la production d nonc s relevant d un domaine de sp cialit la th orie de l optimalit dans sa variante probabiliste Nous avons galement vu comment ce cadre th orique et m thodologique permettait de concilier les deux points de vue identifi s par Saussure le point de vue objectif collectif c est dire le domaine de la Langue et le point de vue subjectif individuel c est dire le domaine de la Parole La Recherche d Information d sormais RI partage avec
215. fonction que celle des mod les en physique par exemple ils constituent une version simplifi e d un objet du monde dont les param tres sont contr l s En quelque sorte ils entretiennent un rapport d analogie avec l objet du monde tudi i e la Langue Malgr les limites qu il reconnait aux tudes sur corpus la position harrissienne n est pas limit e a la simple description des langues tudi es when the linguist offers his results as a system representing the language as a whole he is predicting that the elements set up for his corpus will satisfy all other bits of talking in that language Harris 1951 p 17 Il est possible d interpr ter cette remarque de deux fa ons diff rentes d un point de vue limit l tude des phon mes d une langue ou bien d un point de vue plus large adopt ici tendant les principes d crits dans Harris 1951 l ensemble des domaines d tude du langage Nous avons pos dans la partie pr c dente que les analyses de Harris taient issues d une quilibration entre deux contraintes oppos es l abstraction par rapport aux donn es linguistiques visant une coh rence maximale par la g n ralisation de r gularit s constat es sur des exemples particuliers et la discr tisation par la prise en compte des propri t s les plus particuli res des l ments tudi s dans l optique d une recherche de compl tude maximale garante d
216. fondamentale des corpus A major reason for the use of approximation techniques here is the inadequacy of the usual linguistic corpus as a sample in respect to the distribution of morphemes even a corpus large enough to yield almost all the morphemes of the language will fail to give us anything like all the environments of each morpheme The number of mathematically statable sequential permutations of the morphemes in a language is very great Some of these sequences will practically never occur Harris 1951 p 253 Par ailleurs Harris est conscient du comportement idiomatique de certains l ments qui constitue une deuxi me justification pour la mise en oeuvre de proc dures d approximation The impracticability of obtaining an adequate corpus is increased by the fact that some utterances are rare not merely because of the great number of possible morphemically different utterances but also because of a special rarity which we may call a culturally determined limitation In view of all this it would be desirable in grouping the morphemes into classes to devise such an approximation as would disregard at least these culturally determined limitations idem Harris prend donc position sur un probl me soulev plus tard en linguistique quantitative au sujet duquel nous citons Muller 1973 concernant la validit des tests statistiques r alis s sur des corpus consid r s soit comme des chantillons d
217. fusion s lective d informations financi res nous nous trouvons dans une situation radicalement diff rente de celle des conf rences TREC nos corpus d apprentissage et de test constituent des ensembles born s pour lesquels nous connaissons exactement la r partition en th mes de chaque document Par ailleurs le volume de donn es trait de l ordre du M gaoctet reste manipulable contrairement aux volumes titanesques de TREC qui justifient les m thodes d chantillonnage notamment pooling chantillonnage simple et stratifi que nous critiquons Pour toutes ces raisons nous choisissons deux m triques de performance standard en recherche d information la pr cision et le rappel Les scores de silence et de bruit sur lesquels reposent la pr cision et le rappel sont donc calcul s simplement en faisant la diff rence entre les r ponses observ es et les r ponses attendues l id al th orique tant de minimiser les deux taux conjointement taux de silence et de bruit tendant vers 0 La figure ci dessous pr sente les performances en rappel et pr cision de deux versions du syst me CORAIL avec et sans l assistant linguistique par rapport une borne inf rieure 100 PRECISION 90 80 RAPPEL Ei E 70 60 50 40 MANUEL 30 20 RANDOM SYSTEMES TESTES Figure 17 scores de rappel et de pr cision pour deux versions du syst me CORAIL compar s un syst me al a
218. ge telle que d finie dans TREC que nous consid rons valide en ce qui concerne le filtrage par le contenu Introduits d s Lewis 1995 173 CHAPITRE 3 LE FILTRAGE D INFORMATION 3 4 1 2 Des donn es observables le vocabulaire sp cialis Une fois soulign e la n cessit de disposer de donn es de r f rence indiscutables se pose la question du contenu de ces donn es de leur utilit pour une entreprise normalisatrice telle que TREC visant isoler et contr ler les variables d pendantes dans un cadre exp rimental bien d fini TREC dans cette optique de contr le de variables vise logiquement rendre explicites des comp tences humaines en vue de les formaliser et de les traduire dans un format interpr table par une machine Cependant ainsi que l chec des syst mes experts en Intelligence Artificielle l a montr il semble vident que seule une partie du savoir faire humain est susceptible d tre ainsi explicit Les raisons sont essentiellement que les op rateurs humains lorsqu ils ont d cider si un document parle d un th me donn prennent cette d cision en se servant aussi bien de crit res objectifs que subjectifs Les crit res objectifs utilis s en FI sont les donn es observables dans les corpus en l occurrence un ensemble d expressions typiques pour chaque domaine ou phras ologie sp cialis e Les approches valu es dans TREC s appuient d ailleurs implicitement sur l
219. gue ainsi que les applications concr tes ex ing nierie linguistique p dagogie semblent bien loign es de la vision id ale d une langue constitu e d nonc s dont les condition de bonne formation les intentions pragmatiques et la charge s mantique sont clairement identifiables Nous ajoutons qu on ne peut comprendre autrement la d saffection de la part de l ing nierie linguistique des mod les et de l approche chomskyenne des faits langagiers visible dans le recours aujourd hui massif aux approches statistiques partielles et locales chunking cascades de transducteurs pour la construction de syst mes de traitement automatique des langues ex traduction automatique recherche d information syst mes de question r ponse syst mes de reconnaissance de la parole La faillite du g n rativisme dans le champ des applications nous semble tre attribuable un point de vue objectiviste implicite sur les faits langagiers alors que les performances de ces applications sont tributaires des d tails linguistiques que sont les gt Voir Abney 1996 a Vergne 2002 et Roche amp Schabes 1997 74 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS h sitations la violation de certaines contraintes syntaxiques pragmatiques s mantiques dans la formulation des nonc s le recours l implicite voire la communication non verbale autrement dit un point de vue subjectif Vers une li
220. guistique 64 1 3 3 1 Th or me de Gold et apprentissage partir d exemples positifs 64 1 3 3 2 L argument de la Pauvret du Stimulus 00 ee eeceseeseeecesecsecneeeseeseceaecaeeesesseceaecaeeeeeeaeenaeeneens 66 1 3 3 3 Grammaticalit et probabilit s 67 1 3 4 Crit res d ad quation d un mod le probabiliste des faits langagiers c e 68 1 3 4 1 Ad quation descriptive user 68 1 3 42 Ad quation predictive ssc n s a a nn Rhea pan mines 69 1 3 4 3 Ad quation explicative tshirt tente net nes rt ht MTS dr 70 1 4 CONCLUS ON are nt ten nn rte Re ne Art eme vetting Woe Art Ale 71 CHAPITRE 2 DETECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION csccsscsssssscssscssscsssssssssssssesnsesssessssssenesessssesssesenesssesssssssssseesecsssesssosseesens 77 2 1 EARECHERCHE D INFORMATION caor Toia en nn Reeth eens seas eee noel oes 80 2 1 1 Notion d information ccccceccccccsccseeccseesceesscesecseseecuseesceceeseesecsesecneseecnseeseeseeeeeeeneeeeenaes 81 21 11 Definition quantitative ives gedaan Mann Aue Wa Nae Marne Mint 82 2 1 1 2 D finition fonctionnelle session eut eee 84 2 1 2 Les marqueurs th matiques en Recherche d Information 87 2 1 2 1 Indexation manuelle et marqueurs th matiques ccceceesceescesceeceeseceecaecseeeeceeceaecaeeeseeeees 88 2 1 2 2 La variation dans l indexation humaine 90 2 1 2 3 Indexation automatique et s lection de d
221. hat we are sampling for i e the individual sounds of the language or the letters of the alphabet 57 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS Herdan 1964 p 6 Herdan tire la cons quence sur le plan statistique du lien arbitraire entre la face signifiante et la face signifi e des signes il d coule de ce lien arbitraire que les productions linguistiques textes discours constitu es de s quences non al atoire d unit s mots faisant sens doivent fournir un chantillon al atoire random sample de ces unit s Herdan exprime en termes statistiques l id e suivante si le lien entre signifiant et signifi n tait pas arbitraire un m me concept devrait toujours tre exprim de la m me fa on Ce premier axiome est fondateur plus d un titre il appelle n cessairement consid rer les ensembles de productions linguistiques tudi s autrement dit les corpus comme autant d chantillons au sens statistique de la Langue D autre part la cons quence logique de ce premier axiome est la prise en compte et la quantification de la variation 1 e stylistique dans les productions linguistiques En d autres termes Herdan prend position contre la grammaire g n rative d j f conde d objections toute approche statistique des ph nom nes langagiers Il pose les bases d une linguistique centr e sur la Parole mais visant la Langue travers les observables consid r s comme des v neme
222. hes rel vent donc plut t des techniques op ratoires en ing nierie linguistique que des outils d exploration des corpus en vue d une analyse linguistique Notamment le souci de g n ralisation des r gularit s constat es en corpus est le plus souvent absent dans ces approches Voir Biber et al 1998 T scores are useful when trying to contrast the use of two words not for compiling a list of the most important collocates for a single word 135 CHAPITRE 2 D TECTION D UNIT S POUR LA RECHERCHE D INFORMATION LINGUISTIQUES ET TH MATIQUES 2 2 3 4 Quelques r sultats d une fouille de corpus sp cialis Nous avons appliqu quelques unes des mesures voqu es plus haut au corpus financier auquel nous consacrons notre tude Nous avons notamment calcul pour chaque sous ensemble des paires de mots possibles la probabilit associ e la survenue d une A 7 93 expansion en fonction d une t te donn e Ainsi par exemple pour la t te AOL les expansions possibles sont donn es par le tableau ci dessous AOL Exemple 3 expansions associ es la t te AOL Ainsi pour la t te consid r e chaque expansion a une probabilit gale 1 8 Cette probabilit permet de calculer gr ce la formule donn e plus haut un score d entropie conditionnelle pour chaque expansion d une t te voir ci dessous x
223. i ean Effectif Probabilit Entropie fete Expansion Fer TELS Expansion Expansion T te Expansion T te AOL 8 1 0 125 0 375 AOL 8 1 0 125 0 375 AOL dans 8 1 0 125 0 375 AOL et 8 1 0 125 0 375 AOL Europe 8 1 0 125 0 375 AOL France 8 1 0 125 0 375 AOL pour 8 1 0 125 0 375 AOL Time 8 1 0 125 0 375 Exemple 4 scores d entropie conditionnelle des expansions de la t te AOL Les termes t te et expansion d signent respectivement le premier et le deuxi me mot d une paire Cet emploi ne fait donc pas directement r f rence la notion de t te et d expansion dans le domaine syntaxique 136 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION Le sous corpus financier consid r sur lequel nous basons l ensemble de nos tudes comporte un effectif total de 22558 2grammes Muni des probabilit s et des scores d entropie conditionnelle il est possible d valuer la coh sion lexicale des paires de mots grace des mesures telles que l information mutuelle vue plus haut ou encore une mesure tir e de Ferret amp Grau 2001 Cette mesure baptis e coh sion lexicale est mise en uvre dans le cadre de l laboration d une base de collocations partir de textes journalistiques dans un but de segmentation automatique par d tection de changement de th me La coh sion lexicale est donn e par la formule coh x y log2 N fx
224. i que les contre arguments ces objections manant essentiellement des tenants d une nouvelle linguistique probabiliste non cat gorique et non logique Au cours de ce premier chapitre nous avons tent de mettre en lumi re les motivations tant techniques qu pist mologiques des tenants de chaque approche Nous souhaitons ici consid rer le d bat opposant 71 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS essentiellement les tenants g n rativistes d une linguistique rationnelle ceux d une linguistique guid e par les observables sous un angle plus essentiellement pist mologique Les deux positions harrissienne versus chomskyenne peuvent tre vues comme deux d marches scientifiques part enti re plut t qu une d marche empirique oppos e une d marche scientifique Ces deux positions peuvent tre con ues comme un quilibre dynamique r sultant de l interaction entre les contraintes d ad quation descriptive explicative et pr dictive qui refl tent les contraintes premi res de compl tude versus de coh rence En d autres termes il est possible d adopter une position m diane conc dant aux deux approches le statut de th orie scientifique en consid rant que l opposition g n ralement affirm e au sujet de ces deux approches tient une pond ration diff rente de ces deux contraintes fondamentales Ainsi le g n rativisme approche rationaliste logiciste et principielle
225. ich given the word list of a language and a set of axiomatic sequences obtains the sentences more precisely the sentence structures of the language Harris 1968 p 20 Dans cette conception th orique la d termination d couverte des l ments est aussi importante que celle des op rations stochastic process axiomatic theory qui permettent d aboutir aux structures de phrases the determination of the elements is as important as the operations upon these elements Harris 1968 p 20 Cette identification se base sur la d tection par des locuteurs d une r p tition entre deux s quences donn es the elements are determined by speakers identical recognition of a relation of repetition between utterances idem autrement dit la d termination des unit s repose 45 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS fondamentalement sur un processus de discr tisation du r el de cat gorisation qui regroupe les l ments assurant la m me fonction dans une m me classe 1 2 2 2 L objection chomskyenne au processus de substitution L ensemble de la d marche distributionnelle repose sur l hypoth se structuraliste des axes syntagmatique et paradigmatique Le premier en effet permet d aborder le mat riau linguistique dans sa lin arit et ainsi d aboutir a la description des relations de contiguit entre unit s Le second permet de construire des classes d l ments en fon
226. ichel 1999 distingue en effet une structure g n rale dans les documents de laquelle diff rentes unit s documentaires participent Ces unit s documentaires sont de nature diverse ex l ments typographiques syntaxiques leur charge informative d pend de leur fonction au sens pr sent ici elle d pend d un utilisateur particulier et de son besoin en information 87 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION set of clues a decision as to the probable or possible relevance of the document can be reached Bar Hillel 1964 p 335 Le principe d appariement voqu plus haut entre le besoin en information d un utilisateur du syst me d information et les documents archiv s susceptibles de satisfaire ce besoin repose donc sur un appariement entre les indices assign s chaque document et les termes associ s un th me fopic terms Cette d finition a le m rite de r soudre partiellement la question de la pertinence mentionn e en introduction au pr sent chapitre est consid r comme probablement ou possiblement pertinent par rapport une requ te d utilisateur tout document dont les indices correspondent aux topic terms contenus dans la requ te Si elle r sout au moins partiellement la question de la pertinence cette d finition reprise par l ensemble des approches dans le domaine ne r sout pas celle du choix des to
227. ies as to what is to be regarded as instances of the same word Second there arises again the problem of synonyms Third and most important this procedure will yield at its best a set of words and word strings exclusively taken from the document itself Bar Hillel 1964 pp 338 339 Bar Hillel identifie notamment la variation tant stylistique tournures de phrases voix privil gi es active passive que lexicale choix des mots comme limites une approche automatis e de l indexation des documents et consid re n cessaire la mise en uvre d une th orie de l information s mantique autrement dit une th orie du contenu des documents comme pr alable une automatisation de l indexation cette conception plut t n gative de l apport des approches automatiques dans le domaine de la recherche d information on peut opposer les exp riences entreprises par Salton comparant les performances d une des premi res versions de son syst me d indexation automatique par approche vectorielle SMART celles d op rateurs humains Les r sultats de ces exp riences ont eu comme effet de conforter les approches peu th oris es tenantes d une position linguistique faible Ttaliques ajout s 3 Connues sous le nom de ASLIB Cranfield Research Project d crites dans Cleverdon 1966 96 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION En effet la
228. ilarit de profil distributionnel qui ne remet pas pour autant en cause la validit de l approche partant des observables Sur ce point l argument est justifi c est d ailleurs la principale critique qu il est possible d adresser l encontre de l ensemble de la m thode expos e dans Harris 1951 La cons quence que doit en tirer une linguistique partant des corpus est de tenter de formuler des principes syst matiques et explicites de regroupement d l ments en classes partir de leur profil distributionnel Signalons galement que l argument s applique d autres cas qui ne font pas appel une repr sentation fine des r les casuels Ainsi dans les deux nonc s ci dessous construits sur le m me sch ma NO V N1 les indices formels ne permettent de dire rien de plus que les deux verbes consid r s voir et manger partagent au moins une partie de leur profil distributionnel 3 Le chat voit la souris 4 Le chat mange la souris Quelle conclusion tirer de cet exemple beaucoup plus simple que le premier et qui ne permet pas non plus de distinguer la diff rence essentielle existant entre le signifi attach voir et celui attach manger Une premi re conclusion pourrait tre la r affirmation de l objection chomskyenne contre la proc dure de substitution et le rejet de toute approche guid e par les observables seuls Cependant qu a t on vraiment dit au sujet de ce type d
229. ils d acc s l information textuelle les exp riences am ricaines TREC et fran aise Amaryllis Aupelf Uref John Libbey Eurotext Levin B 1993 English verb classes and alternations University of Chicago Press Lewis D 1996 The TREC 5 filtering track TREC 5 NIST Special Publications Gaithersburg MD 244 Lewis D Hill M 1995 The TREC 4 Filtering Track TREC 4 NIST Special Publications Gaithersburg MD Lewis D D 1991 Evaluating text categorization Proceedings of the speech and natural language workshop Asilomar Morgan Kauffman Lewis D D 1992 Representation and learning in Information Retrieval th se de doctorat university of Massachussets Lewis D D Croft B W 1990 Term clustering of syntactic phrases Proceedings of the thirteenth annual international ACM SIGIR Conference on research and development in Information Retrieval SIGIR 90 pp 385 404 Bruxelles Lewis D D Sparck Jones K 1996 Natural Language Processing for Information Retrieval Communications of the ACM vol 39 n 1 pp 92 101 Lewis D D Tong R M 1992 Text filtering in MUC 3 and MUC 4 Fourth Message Understanding Conference MUC 4 Morgan Kauffman Li W 1992 Random texts exhibit Zipfs law like word frequency distribution ZEEE Transactions on information theory vol 38 n 6 pp 1842 1845 Lin D 1992 Obvious abduction th se de doctorat university of Alberta Lin D 1998 a An Inform
230. imposent des limites au type d approche discut ici des analyses linguistiques des corpus sp cialis s int grant une part d expertise du m tier Cependant le recours l expertise ainsi qu des corpus issus d une pratique effective nous paraissent tre le garant d un compromis acceptable entre vis e objectivante et insaisissable essence de la connaissance d un domaine 5 3 Linguistique et cat gories Nous avons examin l influence de deux conceptions de la structuration des observables linguistiques sur les th ories linguistiques d velopp es Nous avons vu quelles limites taient attach es au cadre cat gorique logique h rit de la m taphysique aristot licienne Ces limites ont essentiellement trait l imp ratif de monocat gorialit un l ment donn ne peut appartenir plusieurs classes en vertu des principes de non contradiction et du tiers exclu Dans les cas o un l ment semble manifester une polycat gorialit il est n cessaire d introduire des op rations invisibles supposant par exemple une structure apparente et une structure profonde qui constituerait en quelque sorte la vraie nature de l l ment consid r Ainsi dans un cadre monocat goriel les cas de polycat gorialit apparente sont trait s par l homonymie la similarit formelle est pens e comme cachant une diff rence profonde essentielle La contrainte de monocat gorialit est elle n cessair
231. incipe comparer des valeurs observ es ex des fr quences d occurrence de paires de mots sur un chantillon des pee r c85 valeurs th oriques Dans le cas du Khi les valeurs compar es sont des effectifs alors que dans le cas du t test ces valeurs sont des moyennes La formule du t test est la suivante o moy est la moyenne de l chantillon o la variance N la taille de l chantillon et y la moyenne d une distribution dont on suppose qu est issu l chantillon t moy u Ko N Formule 1 t test Dans le cas du t test l hypoth se nulle c est dire l hypoth se que l on cherche infirmer est la suivante l chantillon consid r est pris d un ensemble de donn es de distribution yu Dans le cas du test du Kh l hypoth se nulle est la suivante les deux s ries de mesures consid r es observ es et th oriques ne sont pas corr l es Dans les deux cas des valeurs de r f rence permettent d infirmer ou de confirmer l hypoth se nulle avec une probabilit d erreur connue D autres approches sont possibles telles que celle de Smadja 1993 bas e sur des distances entre l ments collocationnels 35 Voir le chapitre IV pour une application du test du Khi l valuation des performances d un syst me de filtrage d information Tir e de Manning amp Sch tze 1999 130 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQ
232. industrie que du domaine public universit s entit s gouvernementales laboratoires priv s Le projet TIPSTER lanc en 1990 sous l impulsion du DARPA fut la principale source de financement des conf rences MUC qui a surtout t l occasion de concr tiser la mise au point de syst mes de s lection de messages gr ce aux techniques issues du domaine de l extraction d information TIPSTER mettait l accent sur le recours des techniques statistiques pour la pr s lection des messages document detection phase consid r e comme essentielle et devant pr c der toute autre technique plus sophistiqu e TALN notamment Le DARPA se basant sur les r sultats du projet TIPSTER et l exp rience des conf rences MUC finan a et organisa d s 1992 en collaboration avec le NIST les conf rences TREC qui reprennent les principes directeurs expos s plus haut 3 1 2 2 Des d buts h sitants Sous l impulsion de la d marche normalisatrice des conf rences TREC le domaine de la fouille de textes s est sp cialis des t ches principales et des sous t ches organis es en une hi rarchie la plus coh rente possible ont t d finies Toutefois tous les sous domaines de la fouille de textes n ont pas connu le m me d veloppement c est le cas du filtrage d information entre autres Ainsi d s Novembre 1991 un atelier sur le filtrage d information haute performance High Performance Information Filtering sponsoris
233. ine d application tient au recours aux amorces qui guident la construction des patrons d extraction ainsi qu la recherche d une forte corr lation th matique pour les unit s extraites Ainsi les patrons g n r s donc les unit s lexicales extraites des corpus visent une ad quation th matique forte contrairement l extraction terminologique Par ailleurs Autoslog et les syst mes d riv s visent acc l rer l laboration de patrons syntaxiques sur 55 De 1500 hommes heures seulement 5 On peut voir l approche adopt e par Riloff comme cherchant ne retrouver que les termes associ s des th mes clairement d finis ex attentat enl vement 115 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION une base pr existante le syst me de Riloff vise essentiellement apporter une meilleure couverture i e des taux de rappel plus lev s un syst me d extraction d information existant Autoslog g n re donc autant de sch mas conceptuels que de contextes d occurrence diff rents pour les amorces consid r es aucun regroupement n est op r notre connaissance entre contextes d occurrence proches L apport essentiel des travaux de Riloff en ce qui concerne une approche linguistique du filtrage d information est la notion de signature th matique que l auteur d finit comme 1 Pour la suite de notre l
234. initi par des auteurs tels que Herdan des faits langagiers et de la construction d un syst me linguistique autrement dit une th orie partir des observables L uvre de Herdan nous para t centrale en ce qu elle fonde avec ses ouvrages The calculus of linguistic observations 1962 et Quantitative linguistics 1964 une approche probabiliste de probl mes phonologiques morphologiques syntaxiques et stylistiques dans le prolongement de la linguistique structurale europ enne notamment dans la lign e de Saussure 35 Empirique au sens anglo saxon 56 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS Dans cette partie nous nous pencherons donc tout d abord sur les ouvrages de Herdan cit s plus haut puis nous examinerons les cons quences d une approche non cat gorique et non logique des faits langagiers telle que propos e r cemment par Manning Enfin nous tenterons de d terminer les conditions m me de constituer une telle approche en tant que th orie linguistique notamment gr ce au regain d int r t pour les approches probabilistes sous l impulsion de l ing nierie linguistique 1 3 1 Herdan le glissement vers un distributionnalisme probabiliste 1 3 1 1 Motivations linguistiques pour une approche probabiliste Le programme que se donne Herdan est ambitieux de la phonologie la stylistique en passant par la syntaxe la morphologie mais galement la linguistique comparative l auteur
235. ion envisag es sous langle d une automatisation n est rendue possible que par l mergence d une linguistique formelle et les premi res exp riences en traduction automatique autrement dit la naissance du TALN 78 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION historique qu ils apportent sur un domaine cumulant les difficult s li es l tude des corpus zy x i f ror 3 et celles li es l laboration de repr sentations abr g es du contenu des documents Dans ce chapitre nous nous int ressons a la recherche d information int grant des analyses linguistiques en tant que celles ci reposent sur des principes distributionnels tels que nous les avons voqu s dans la partie consacr e au distributionnalisme discontinu et continu Nous tenterons de donner dans un premier temps un cadre a la notion d information puis nous nous pencherons sur les principes de l indexation par unit s th matiques Ceci nous am nera examiner les principes de l indexation automatique par descripteurs de contenu extraits des documents Nous voquerons donc bri vement les principes g n raux de l indexation et de la recherche de documents en tant qu ils reposent sur une conception distributionnaliste de la valeur informative Nous soulignerons les insuffisances constat es de fa on unanime des approches les plus courantes restant dans le domaine du mot t
236. ion contre le g n rativisme formulant d j cette poque ses premi res objections une approche probabiliste en linguistique Sur ce point pr cis la position fondamentalement antagoniste entre les approches chomskyenne et herdanienne est visible dans le postulat fait par la premi re du caract re non essentiellement linguistique des outils statistiques De son c t Herdan voit justement dans le caract re universel des contraintes traduites par les lois statistiques les conditions d une pens e v ritablement scientifique On voit l uvre d une part une conception reposant sur des principes premiers une nature essentiellement linguistique des faits langagiers que seule une th orie linguistique peut expliquer et d autre part une conception posant l universalit de certaines contraintes applicables tous les ph nom nes y compris linguistiques Herdan voit dans le recours une formalisation linguistique sous tendue par une approche probabiliste les conditions de l extension r ussie des principes structuraux Autrement dit il se donne comme mod le la r volution de la phonologie structurale sous l impulsion de Troubetzkoy l ensemble des domaines d tude linguistiques En termes pist mologiques l ambition herdanienne est comparable la r volution relativiste dans le domaine de la physique Herdan compare la prise en compte de la dimension probabiliste du langage au changement de
237. ion du syst me INTEX LADL Paris Silberztein M 1999 Traitement des expressions fig es avec INTEX Linguisticae Investigationes XXIL pp 425 449 Fairon C d John Benjamins B V Amsterdam Slonim N Tishby N 2001 The power of word clusters for text classification 23 European colloquium on Information Retrieval research Smadja F 1993 Retrieving collocations from text Xtract Computational Linguistics vol 19 n 1 pp 143 177 Soderland S 1997 Learning text analysis rules for domain specific Natural Language Processing th se de doctorat university of Massachussets Amherst Sparck Jones K 1995 Reflections on TREC Information processing and management vol 31 n 3 pp 291 314 Sparck Jones K Kay M 1973 Linguistics and information science Academic Press New York 250 Sp rck Jones K Van Rijsbergen C 1975 Report on the need for and provision of an ideal information retrieval test collection British Library Research and Development Report 5266 Computer Laboratory University of Cambridge Sta J D 1997 Acquisition terminologique en corpus aspects linguistiques et statistiques th se de doctorat universit Paris VII Stevens C 1992 Automating the creation of information filters Communications of the ACM vol 35 n 12 p 48 Stricker M 2000 R seaux de neurones pour le traitement automatique du langage conception et r alisation de filtres d informa
238. is o le rep rage d expressions typiques d un domaine permet de s lectionner des documents pertinents parmi un flux d information dynamique Nous insistons sur les aspects techniques du syst me CORAIL ainsi que de LIZARD un assistant linguistique pour l laboration de grammaires locales destin es la Recherche d Information Nous d taillerons la cha ne de traitement de l acquisition d un nouveau document la pr sentation des filtrats en passant par le filtrage par reconnaissance de signatures th matiques Enfin nous donnerons quelques mesures chiffr es de performance pour le syst me CORAIL sur un corpus professionnel 4 1 Le syst me CORAIL Nous donnons ici une pr sentation du projet CORAIL Composition de Requ tes par Agents Intelligents Linguistiques partiellement financ par le secr tariat d tat l Industrie suite l appel de 1997 filtrage d information lanc conjointement par le minist re de la Thales Research amp Technologies ex Thomson CSF 183 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL Recherche et le minist re de l Industrie et men par Thomson CSF LCR Informatique CDC DTA et l universit Paris X CRIS Ce projet d une dur e de deux ans s est achev en Septembre 2000 4 1 1 Une plate forme industrielle de gestion des documents lectroniques PRIAM CORAIL s int gre au sein d
239. isager les observables et l tat cognitif comme deux contraintes dans un cadre formel proche de celui de la th orie de l optimalit voqu au pr c dent chapitre dans le domaine de la linguistique de corpus Par ailleurs en tablissant une analogie avec le domaine linguistique et la distinction entre le plan de la Langue et celui de la Parole les l ments qui rel vent d un point de vue collectif sont chercher du c t des r gularit s les l ments relevant d un point de vue individuel tant chercher du c t des singularit s En poussant l analogie on peut envisager le recours une approche non cat gorique de la valeur informative des documents en RI bas e sur une conception probabiliste du distributionnalisme Cette conception fonctionnelle de la valeur informative rapproche plus encore les domaines de la linguistique de corpus et celui de la recherche d information on peut envisager l application de la m thode distributionnelle dans les deux cas centr e sur les donn es linguistiques observables L ensemble des applications en RI reprennent souvent implicitement la conception distributionnelle de la valeur en partie d termin e par les Par exemple une strat gie personnelle de recherche d information Voir les exp riences relat es dans Coyaud 1972 142 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION contextes d occurrenc
240. issance du concept de filtrage d information et de fa on plus large celle de recherche d information repose sur un besoin concret assurer une diffusion d information cibl e dans le cadre d une activit conomique intense en partant d une infrastructure documentaire existante i e les centres de documentation ou biblioth ques classiques 3 1 1 2 De la SDNI la SDI La notion de Diffusion S lective d Information est n e des efforts d un groupement d int r ts sp ciaux Special Interest Group nord am ricain sur la SDNI abr g e en SDI Housman dans son rapport technique d livr en 1969 effectue un recensement des syst mes utilisant la SDI aux tats unis Il en identifie une soixantaine neuf d entre eux totalisent plus de 1000 utilisateurs au moment de l tude Ces syst mes suivaient g n ralement les tapes Dans l histoire du d veloppement des nouvelles technologies aux tats unis les SIG jouent un r le pr pond rant En identifiant un besoin et des techniques susceptibles d y r pondre les SIG ont souvent permis d valuer la faisabilit d une approche tout en quantifiant les retomb es conomiques par des tudes de march 147 CHAPITRE 3 LE FILTRAGE D INFORMATION d crites par Luhn l exception de la mise jour automatique des profils d utilisateurs que seule une infime minorit d entre eux 4 sur 60 mettait en uvre Ainsi d s la fin des ann es
241. it Paris Croft W B Lewis D D 1987 An approach to Natural Language Processing for Document Retrieval Proceedings of the tenth annual international ACM SIGIR Conference on research and development in Information Retrieval SIGIR 87 pp 26 32 New Orleans Cullingford R E 1978 Script application computer understanding of newspaper Stories these de doctorat universit de Yale Cussens J Page J Muggleton S Srinivasan A 1997 Using Inductive Logic Programming for Natural Language Processing Workshop notes of the ECML MLnet workshop on empirical learning of Natural Language Processing tasks Daelemans W van den Bosch A amp Weijters A eds Prague Daille B 1994 Approche mixte pour l extraction automatique de terminologie statistique lexicale et filtres linguistiques th se de doctorat universit Paris VII Daille B 2002 D couvertes linguistiques en corpus th se d habilitation universit de Nantes 238 Daille B Royaut J Fabre C 2000 valuation d une plate forme d indexation de termes complexes TAL n 41 Traitement automatique des langues pour la recherche d information Herm s Sciences Publications Paris de Saussure F 1972 Cours de linguistique g n rale Payot Paris D jean H 1998 Concepts et algorithmes pour la d couverte des structures formelles des langues th se de doctorat universit de Caen Denning P J 1992 Electronic junk Communi
242. itions de l mergence d une d marche exp rimentale dans le cadre de la construction d un appareil scientifique bas sur des ph nom nes observables Dans la conception aristot licienne en effet le monde et sa structuration sont pens s comme accessibles travers les propri t s des objets de ce monde voire de leurs propri t s en tant que m diatis es par le langage De plus la science des tres en tant qu tres est vue comme une science recherch e donc en construction Pour cette raison nous qualifions la position aristot licienne comme celle d un monde conna tre plut t qu reconna tre motivant l observation des objets de ce monde effectu e de la fa on la plus m thodique possible de mani re aboutir une caract risation de ces objets dans les termes de leur essence c est dire les propri t s qui leur sont la fois habituelles et n cessaires La caract risation de la position aristot licienne sur le monde comme origine de la d marche exp rimentale en tant qu instrument de la connaissance est l objet du passage ci dessous Aristote fait une part l exp rience soit en tant que la sensation est pour la raison une mani re d exercer son pouvoir d intuition soit m me en tant que la sensation a pour fonction de saisir le contingent L esprit exp rimental est m me si d velopp chez Aristote qu il faut voir en lui le plus puissant des promoteurs de la scien
243. ive de la paraphrase th se de doctorat d tat Universit Paris VII France Fuchs C 1982 La paraphrase Linguistique Nouvelle collection dirig e par Guy Serbat Presses Universitaires de France Paris Fuchs C 1991 Les typologies de proc s Actes et Colloques Fuchs C ed Klincksieck Paris Fuchs C 1993 Linguistique et traitement automatique des langues Hachette Paris Fuchs C 1994 Paraphrase et nonciation Ophrys collection L Homme dans la langue Paris Galliers J R Sp rck Jones K 1993 Evaluating Natural Language Processing systems Technical report 291 Computer laboratory University of Cambridge Gold E M 1967 Language identification in the limit Information and control n 16 pp 447 474 Goldsmith J 2001 Unsupervised learning of the morphology of a natural language Computational Linguistics vol 27 n 2 pp 153 198 MIT Press Goujon B 1999 Utilisation de l exploration contextuelle pour l aide a la veille technologique th se de doctorat Universit Paris IV 240 Grefenstette G 1993 Evaluation techniques for automatic semantic extraction comparing syntactic and window based approaches Workshop on acquisition of lexical knowledge from text SIGLEX ACL Columbus Grefenstette G 1996 Light Parsing as Finite State Filtering Workshop on Extended Finite State Models of Language ECAI 96 Budapest Gross M 1966 On the equivalence of models of language used i
244. j connu Or justement les approches guid es par les donn es se placent dans une telle position de d couverte de la valeur des l ments linguistiques uniquement partir de leur comportement distributionnel c est dire uniquement partir des places dans lesquelles on les trouve le sens de ces l ments n est utilis que d un point de vue distinctif De ce fait l objection soulev e par 1 et 2 est d autant plus amoindrie qu elle se place l ext rieur du domaine que les approches distributionnelles entendent explorer 1 2 2 3 Ad quation descriptive Les corpus collect s et transcrits se trouvent de fait au centre de l approche distributionnelle envisag e principalement comme m thodologie descriptive syst matique L introduction l ouvrage de 1951 est loquente DT Et A 5 R Ainsi machin respecte l accord en genre et en nombre s il remplace un substantif un machin deux machins Machine est venue Dans les cas o il remplace un verbe machin est employ comme le radical d un verbe du premier groupe je machine tu machines ils machinent 8 Autrement dit 4 n est pas per u comme une r p tition de 3 par un locuteur natif La r futation de l objection chomskyenne au principe de substitution est d velopp e dans van Zaanen 2001 dans le cadre d un apprentissage de r gularit s structurelles guid uniquement par des exemples positifs gr ce un algorithm
245. jectif inscrit dans un contexte temporel et point de vue objectif atemporel 2 1 3 3 Prise en compte du point de vue des utilisateurs La pratique de l indexation des documents pose de fa on empirique plusieurs questions fondamentales La premi re a trait d un c t la structuration d un fonds documentaire suivant une hi rarchie de concepts suppos e fixe premi re et universelle de 3 Coyaud 1972 p 130 Le probl me de la documentation ne se laisse pas mettre en forme et r soudre par des m thodes math matiques ou m me simplement scientifiques Lorsqu on emploie l expression Information Science propos des activit s documentaires il ne faut pas oublier qu il ne s agit pas d une science exacte 98 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION l autre une mise jour en fonction de l volution des connaissances On retrouve dans ce domaine les deux positions fondamentalement oppos es voqu es au premier chapitre entre un point de vue objectif vis e scientifique et un point de vue subjectif Les probl mes pos s par l activit d indexation sont abord s ci dessous Certaines motivations erron es que l on aper oit dans des langues naturelles se retrouvent dans des LD Langages Documentaires par exemple dans le LD WRU le mot baleine est cod dans la classe des poissons avec l infixe Z
246. l hypoth se d une coquille isol e soit retenue 233 CHAPITRE 5 CONCLUSION ET PERSPECTIVES L hypoth se propos e par Dubois est celle de l existence de contraintes de port e plus g n rale que les principes de non contradiction et de tiers exclu les contraintes de g n ralisation et de discrimination Th ories linguistiques cat goriques et non cat goriques peuvent ainsi tre con ues comme deux points de vue sur la langue dont le premier favorise la contrainte de discrimination alors que le second favorise celle de g n ralisation 234 R F RENCES BIBLIOGRAPHIQUES Abney S 1991 Parsing by chunks Principle Based Parsing Berwick R Abney S Tenny C eds Kluwer Academic Publishers Abney S 1996 a Partial parsing via finite state cascades Proceedings of the ESSLLI 96 Robust Parsing Workshop b Statistical methods and linguistics The balancing act Klavans J Resnik P eds MIT Press Amardeilh F 2001 Extraction d information tude de faisabilit appliqu e au domaine boursier m moire de DEA universit de Troyes Apte C Damerau F Weiss S M 1994 Automated learning of decision rules for text categorization ACM Transactions on information systems pp 233 240 Arampatzis A van Bommel P Koster C H A van der Weide Th P 1997 Linguistic Variation in Information Retrieval and Filtering Technical Report CSI R9701 University of Nijmegen Auroux S 1994 La r
247. l indexation des documents l interrogation vocale de bases de donn es en passant par le filtrage d information Elle a donn lieu la diffusion de variantes des moteurs d indexation et de recherche PRISE et SMART pour l ensemble des t ches de fouille de textes 16 Liste des sigles et abr viations ARPA Advanced Research Projects Agency autre appellation du DARPA AP Associated Press agence de presse diffusant des d p ches journalistiques en langue anglaise AFP Agence France Presse diffusant des d p ches journalistiques en langue fran aise CORAIL Composition de Requ tes assist e par Agents Intelligents Linguistiques syst me de filtrage d information base d analyse locale par application de cascades de transducteurs tats finis Ce syst me a t mis en uvre au laboratoire Thales Research amp Technologies par le d partement DAS HIT Department of Advance Software Human Interaction Technologies il a permis d valuer la faisabilit industrielle d une approche linguistique pour le filtrage d information DARPA Department of Advanced Research Projects Agency dependant du gouvernement f d ral am ricain FI Filtrage d Information voir TREC LIZARD Linguistic wiZARD assistant linguistique pour l laboration de grammaires locales mises en uvres dans le cadre de syst mes de recherche d information bas s sur des cascades de transducteurs tats finis
248. la recherche d information comme visant la r ponse la question pos e ci dessous Assuming that there exists somewhere a body of recorded knowledge in technical terms a collection of documents and assuming that someone has a certain problem for the solution of which this collection might contain pertinent material how shall he decide whether there are in fact documents in this collection that contain such pertinent material and if so how shall this material be brought to his attention Bar Hillel 1964 p 331 Autrement dit la recherche d information suppose 80 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION e une collection de documents existante ou en cours de constitution dans laquelle des connaissances sont enregistr es sous la forme de textes en langue naturelle principalement e un principe de repr sentation du contenu les connaissances v hicul es par chaque document e un principe d appariement entre les repr sentations de contenu existantes et une demande d information manant d un individu e des moyens de pr sentation du r sultat satisfaisant le besoin en information de l utilisateur La recherche d information est donc le lieu d une tension entre une repr sentation individuelle et subjective d un besoin en information et une repr sentation collective vis e objectivante de la r ponse ce besoin Le n cessair
249. le dans ces approches tant de d cider ce qui constitue un mot trivial d un mot porteur de sens Soulignons que tout comme c tait le cas au moment de la parution de l ouvrage cit ci 7 Voir par exemple Zipf 1945 qui a servi de fondement th orique aux approches dominantes en indexation automatique de documents Pour une discussion des exp riences de Zipf voir Herdan 1964 ainsi que Li 1992 Cette g n ralisation a souvent fait l objet de critiques notamment de la part d auteurs tels que Coyaud militant pour une approche linguistique de l indexation des documents 27 Signalons au passage combien cette approche se distingue de la d finition fonctionnelle de l information donn e plus haut centr e sur la perception de cette fonction pour un utilisateur donn Dans ces approches statistiques la fonction donc la pertinence d un ensemble de mots est associ e leur fr quence d occurrence 8 Ttaliques ajout s 94 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION dessus la plupart des approches statistiques en indexation automatique restent cantonn es au domaine du mot typographique Cependant on comprend tout l attrait de ces approches r sum par les auteurs looking only at the surface of a document it is clear that prominent physical features reflect important features of its content so we need not examine the latter directl
250. le Text Classification Systems th se de doctorat universit du Massachussets Amherst Riloff E 1995 Little words can make a big difference for text classification Proceedings of the 18 annual international conference on research and development in information retrieval SIGIR 95 pp 130 136 Seattle Riloff E 1996 Using learned extraction patterns for text classification Connectionist statistical and symbolic approaches for Natural Language Processing Wermter S Riloff E amp Scheler G eds pp 275 289 Springer Verlag Berlin Robertson S Hull D A 2001 The TREC 9 Filtering Track Final Report TREC 9 NIST Special Publications Gaithersburg MD Robin L 1973 La pens e grecque et les origines de l esprit scientifique Albin Michel Roche E 1993 Analyse syntaxique transformationnelle du francais par transducteurs et lexique grammaire th se de doctorat Universit Paris VII Roche E 1993 Une repr sentation par automate fini des textes et propri t s transformationnelles des verbes Linguisticae Investigationes XVII vol 1 pp 189 222 John Benjamins B V Amsterdam Roche E Schabes Y 1997 Finite State Language Processing Cambridge MIT Press Rungsawang A 1997 Distributional Semantis based Information Retrieval th se de doctorat ENST Paris Sager N Friedman C 1987 Medical language processing computer management of normative data Addison Wesley Salton G 1968 Automa
251. les tudes linguistiques sur corpus un m me objet d tudes les observables linguistiques Ces deux domaines d tude partagent galement la n cessit de r concilier les deux points de vue sur ces observables ainsi en RI la d termination de la valeur fonction informative d un document peut tre vue comme relevant d une conciliation entre point de vue objectif et individuel de fa on analogue la d termination de la valeur fonction d un l ment dans le domaine linguistique Boersma amp Hayes 2001 TT CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION La RI comprenant diff rentes sous t ches sp cialis es est centr e sur les documents un terme englobant aussi bien les documents textuels que multim dias ex archives sonores Elle s est constitu e en tant que science de l information information science partir des syst mes d information traditionnels tels que biblioth ques ou centres de documentation par l adoption de normes et de proc dures standardis es pour l archivage et la recherche de documents pertinents ex une liste d ouvrages correspondant des crit res d finis par un utilisateur du syst me Ces proc dures standardis es visent essentiellement e obtenir une description abr g e du contenu des documents lors de leur archivage e apparier une requ te d utilisateur du syst me d information avec les
252. les deux s ries de donn es observ es et th oriques ne sont pas corr l es Plus cette hypoth se nulle a une probabilit faible plus les chances de se tromper en r futant l hypoth se nulle sont faibles Le test du Khi 2 s applique uniquement sur des effectifs r els ou th oriques Le tableau ci dessous regroupe donc les mesures de performance pour chaque syst me exprim es en nombre de documents pertinents retrouv s hits manqu s missed ou non pertinents noise Hits 76 56 5 19 5 6 7300885 Missed 27 56 5 29 5 15 4026649 Noise 9 23 16 1024 Cd Total 323727434 9 34003E 08 Lizard Hits 103 565 465 382699115 Missed 0 s565 565 HHT Noise 13 235 12 GO Total CT 100 529912 1 47981E 22 Random Hits 532 565 33 019274336 Missed 498 565 67 079451327 Noise 248 235 02 00m6 Total 1 098885664 0 60991949 Figure 18 r sultats du test du Khi 2 pour 3 syst mes de filtrage d information Pour chaque syst me pour chaque type de r ponse les effectifs observ s figurent dans la colonne observ s La colonne th oriques donne le nombre de documents attendus 219 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL dans chaque cat gorie de r ponse hits missed et noise calcul s sur la base du syst me
253. les objectifs fix s par Maning Pereira Abney et autres partisans d une linguistique continue restent du domaine du programme ainsi que la conclusion de Manning 2002 le montre There are many phenomena in syntax that cry out for non categorical and probabilistic modeling and explanation The opportunity to leave behind ill fitting categorical assumptions and to better model probabilities of use in syntax is exciting The frequency evidence needed for parameter estimation in probabilistic models requires a lot more data collection and a lot more careful evaluation and model building than traditional syntax where one example can be the basis of a new theory but the results can 75 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS enrich linguistic theory by revealing the soft constraints at work in language use This is an area ripe for exploration by the next generation of syntacticians Manning 2002 Manning insiste sur le lourd investissement n cessaire une approche probabiliste des ph nom nes langagiers notamment dans la collecte de corpus quilibr s repr sentatifs d une pratique effective des langues naturelles seule m me de fournir les donn es n cessaires l laboration d une syntaxe probabiliste En effet dans les domaines sp cialis s les r alisations men es dans le cadre de l induction de grammaire partir de donn es textuelles ont montr leurs limites en ce qu elles sont dif
254. les th mes du corpus OHSU voir annexe 400 pour le corpus MeSH En compl ment de ces m triques les mesures d efficacit suivantes sont utilis es MnT9P valeur moyenne de T9P sur l ensemble des th mes MacP moyenne de la pr cision d ensemble mean set precision MacR moyenne du rappel d ensemble mean set recall MnT9U valeur moyenne de T9U MnSU moyenne normalis e de T9U sur le maximum possible pour chaque th me i e 2 total des documents pertinents Zeros nombre de th mes pour lesquels aucun document n est retourn AveP pr cision moyenne non interpol e P S0 pr cision 50 documents Les r sultats des valuations bas es sur les mesures num r es plus haut sont consign s dans les actes de TREC 9 on trouvera galement une discussion de ces r sultats dans l annexe consacr e aux campagnes TREC 170 CHAPITRE 3 LE FILTRAGE D INFORMATION 3 4 Probl mes de mod lisation d une t che complexe le filtrage d information Ainsi que nous l avons vu pr c demment les diff rentes ditions de TREC de la quatri me la neuvi me l valuation des syst mes participant aux t ches de filtrage semble avoir pos un probl me conceptuel aux responsables successifs Lewis puis Hull et enfin Hull et Robertson En effet tant les m triques utilis es que les corpus de r f rence ou encore les m thodes de constitution de corpus de test statistiquement quilibr
255. locations partir des corpus visent ne conserver que les mots dits s mantiquement pleins au d triment des mots grammaticaux rep rables par leur comportement distributionnel Une fois les n grammes index s le comportement distributionnel particulier de certains d entre eux peut tre mis en valeur gr ce des outils statistiques s lectionnant par exemple les paires dont la fr quence d occurrence effective est sup rieure une fr quence 91 2 A A Une fr quence d occurrence lev e 134 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION th orique valu e par extrapolation d une loi de distribution donn e ex la loi normale Nous voyons essentiellement deux types de mesures statistiques pour l extraction de collocations les mesures globales visant rep rer les n grammes d viants par rapport l ensemble du corpus et les mesures locales visant mesurer le degr d association d une amorce donn e avec plusieurs candidats au titre de collocation Ces deux types de mesure correspondent deux cas de figure dans l exploration des corpus dans le premier cas on cherche dresser la liste de toutes les collocations d un corpus donn e dans le second cas on chercher distinguer parmi un sous ensemble de candidats ceux dont la coh sion lexicale est la plus importante Dans les mesures globales on trouve g n ralement des mesure
256. lu es Bien que cette uniformit puisse tre vue comme l un des objectifs de ce type de campagnes visant la diffusion dans le domaine industriel des techniques les plus efficaces en recherche appliqu e 37 Dans le domaine de l extraction d information les analyses locales et les techniques d analyse base de cascades de transducteurs tats finis constituent l approche dominante aujourd hui Dans le domaine du FI la plupart des syst mes valu s utilisent des moteurs d indexation et de recherche d riv s du syst me SMART Salton 1971 comme moteurs de filtrage 181 CHAPITRE 3 LE FILTRAGE D INFORMATION il est peu probable qu une telle uniformit soit souhaitable dans le domaine de la recherche conventionnelle 182 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL CHAPITRE 4 Filtrage d information par signatures th matiques mise en uvre en milieu industriel Cette partie est consacr e la description de CORAIL Composition de Requ tes assist e par Agents Intelligents Linguistiques un syst me de filtrage d information mis en uvre dans le cadre du laboratoire de recherche du groupe Thales En effet cette plate forme constitue une implantation dans un contexte industriel d une approche linguistique du filtrage d information Elle repose sur le principe d une analyse partielle par cascades de transducteurs tats fin
257. lus langagier auquel est soumis l apprenant comme intrins quement pauvre et am ne supposer un principe grammatical inn universel g n tiquement d termin une Grammaire Universelle GU Le d veloppement d une comp tence linguistique pour Chomsky passe non pas par un apprentissage mais bien plut t par un param trage de cette GU c est dire une s lection parmi un ensemble de primitives On voit quel point cette conception top down de l mergence d un syst me linguistique est incompatible avec l ensemble des approches guid es par les observables bottom up distributionnalisme cat gorique ou non linguistique de corpus p dagogie acquisition des langues ou encore ing nierie linguistique How poor is the stimulus that the language learner exploits to acquire its native language L inguistic experience is not just a string of words but it is grounded in a rich perceptual and motor environment that is likely to provide crucial clues to the acquisition 66 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS interpretation and production processes if for no other reason than for the functional one that much of the linguistic experience is about that non linguistic environment However this points to a fundamental weakness in much of the work discussed so far both in formal grammar and in most computational models of language language is taken as a completely autonomous process that can be independe
258. main et mat riel propice la recherche tout en me confiant des responsabilit s dans le cadre du projet CORAIL qui m ont permis de valider certaines des hypoth ses centrales de cette th se Enfin les troisi me et quatri me chapitres de cette th se doivent beaucoup la rigueur avec laquelle ric Laporte a relu et comment mon travail Mes remerciements vont galement Max Silberztein et Dominique Dutoit les auteurs des principaux outils mis en uvre pour ce travail respectivement Intex et le Dictionnaire Int gral En effet sans les conseils et l aide que m ont apport e Max Silberztein et Dominique Dutoit cette th se dans ses aspects techniques li s au syst me CORAIL n aurait pas pu tre men e bien Les membres de l UMR MoDyCo notamment Marcel Cori Benoit Habert Sophie David Ali Tifrit et Ren Lavie ont toute ma gratitude pour leur relecture attentive de mes travaux leurs conseils et les discussions informelles qui m ont permis d affiner certains points d velopp s ici Je souhaite galement remercier Maurice Gross Blandine Courtois et Christian Lecl re pour leur accueil au sein du LADL la promptitude et la patience avec laquelle ils ont toujours r pondu mes questions m me les plus na ves Merci galement l ensemble des membres du groupe DAS HIT de Thales Research amp Technologies pour leur aide au quotidien ainsi que leurs critiques constructives tout au long de ma th
259. matic extraction of argument structure from corpora Proceedings of the 5 conference on Applied Natural Language Processing ANLP 97 Washington DC Charniak E 1993 Statistical language learning MIT Press Charniak E 1997 Statistical techniques for Natural Language Processing AJ Magazine vol 8 n 4 pp 33 44 Chomsky N 1955 The logical structure of linguistic theory Plenum Press New York Chomsky N 1957 Syntactic structures Mouton The Hague 237 Chomsky N 1965 Aspects of the theory of syntax MIT Press Church K W Hanks P 1990 Word association norms mutual information and lexicography Computational Linguistics vol 16 n 1 pp 22 29 MIT Press Cleverdon C W Mills J Keen E M 1966 Factors determining the performance of indexing systems Cranfield ASLIB Research project Cohen W 1996 Learning rules that classify E mail Papers from the AAAI Spring Symposium on Machine Learning in Information Access Comte A 1996 Philosophie des sciences pr sentation choix de textes et notes par J Grange Gallimard Courtois B 1990 Un syst me de dictionnaires lectroniques pour les mots simples du fran ais Langue Fran aise n 87 Larousse Paris Courtois B Silberztein M 1990 Les dictionnaires lectroniques du fran ais Langue Frangaise n 87 pp 11 22 Larousse Paris Coyaud M 1972 Linguistique et documentation collection Langue et langage Larousse univers
260. mentation de la F d ration Internationale de Documentation FID Un des points voqu s dans le passage cit ci dessus est le caract re incomplet des sp cifications de l activit de recherche d information fournies par les professionnels eux m mes lacune laquelle les auteurs attribuent une partie de l insucc s des approches int grant des analyses linguistiques automatis es Ainsi que nous le verrons plus loin pour le On comprend ais ment qu une position plus tranch e en d faveur du recours des analyses linguistiques automatis es dans le domaine de la documentation aurait mis les auteurs en position de porte faux vis vis du commanditaire de ce bilan 104 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION cas particulier du filtrage d information cette remarque s applique encore aujourd hui aux tentatives d alliance entre linguistique et recherche d information 2 1 4 2 Un retour P empirisme Il est int ressant de noter que la position d une alliance entre linguistique et recherche d information reposant sur une linguistique forte ne semble avoir t abandonn e qu au d but des ann es 1990 avec le retour en force des approches surfaciques chunking shallow parsing dans le domaine des approches cat goriques et statistiques ou probabilistes dans celui des approches non cat goriques Ce retour de ce que
261. mes s mantiquement proches 157 CHAPITRE 3 LE FILTRAGE D INFORMATION Les travaux de Riloff sont une application pratique d une approche visant d passer les limites des syst mes base de mots cl s gr ce une mise en uvre raisonn e de techniques issues du TALN pour des t ches de classification automatique de textes Riloff d finit une notion de signature de pertinence relevancy signature bas e sur des suites de termes propres un th me ex les actions terroristes d crits sous la forme d une grammaire limit e aux seuls contextes pertinents au regard de la t che L auteur a test son approche sur les corpus de la campagne d valuation MUC 4 d di e aux actions terroristes La t che d volue aux syst mes d extraction d information participant cette campagne tait la mise jour automatique d une base de donn es relationnelles comportant des champs telles que auteur de l attentat lieu de l attentat ou encore nombre de victimes partir de d p ches journalistiques Dans le cadre de cette t che d extraction d information Riloff a cherch montrer la pertinence d une approche par analyse locale centr e sur des patrons d extraction autrement dit des s quences reconna tre construits sur des sch mas de sous cat gorisation simplifi s un verbe et ses compl ments typiques Ainsi plut t que de consid rer des termes ou listes de termes isol s comme
262. mons des formes sch matiques dans lesquelles par exemple seuls les pr dicats verbaux et leurs compl ments substantifs sont gard s Les contraintes de s lection op rant sur les verbes tudi s sont donc ainsi mises jour cette proc dure permet d tablir une liste des compl ments habituels du verbe vendre ex filiale groupe parts actions POUR CHAQUE mot tiquet SI le mot appartient a la class des l ments g n ralisables G n raliser en ne gardant que l tiquette morphosyntaxique Proc dure 3 g n ralisation visant extraire des sch mas de sous cat gorisation pour l assistant LIZARD Dans sa version actuelle LIZARD n examine que des groupes verbaux Cette classe est param trable en fonction du corpus de l application ou encore de l utilisateur Elle sp cifie quels l ments classes d l ments d terminants pronoms sont discriminants pour chaque phase de g n ralisation Voir le chapitre IV consacr au syst me CORAIL pour une pr sentation plus d taill e de LIZARD et des proc dures de g n ralisation 121 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION Cette proc dure a pour r sultat des patrons de sous cat gorisation propres chaque corpus en fonction des param tres de g n ralisation choisis Cette proc dure permet de d terminer sur le corpus de param trage
263. n acquisition de soci t Les phrases noyaux ainsi constitu es comprennent e des places fonctions courantes telles que agent patient destinataire Ces fonctions sont de fa on l che associ es aux places canoniques des sujets et compl ments respectivement direct indirect et d attribution des verbes De ce fait nous utilisons la notation peu marqu e suivante NO N1 N2 o l indice 0 1 2 symbolise la place au sein de la phrase noyau Ainsi NO signifie le premier syntagme nominal gauche du verbe La phrase noyau NO acheter N1 pour N2 d crit ainsi l ensemble des phrases construites autour du verbe acheter admettant trois syntagmes nominaux le premier ayant la fonction de sujet grammatical le deuxi me celle de compl ment direct le troisi me comme compl ment facultatif pr cisant le montant de la transaction e dans les cas o les arguments des pr dicats verbaux comme nominaux les Ni constituent une classe suffisamment restreinte une description sous la forme d une grammaire locale en est donn e e des contraintes de formation pr cisant les constructions attest es et les transformations syntaxiques autoris es Ces contraintes sont en premier lieu tir es des corpus puis g n ralis es ou suppos es pour les cas non probl matiques Ainsi par exemple il peut se trouver que le corpus de r f rence ne comporte qu une partie des constructions ou des transformations envisag es
264. n cessaire d envisager une d finition fonctionnelle de l information Suivant Bar Hillel 1964 on peut affirmer qu aucune ad quation entre entropie ou n guentropie et contenu v hicul par un message n est possible il faudrait pour cela num rer les v nements possibles en termes de contenu ce qui reviendrait vouloir dresser une liste exhaustive de tous les v nements possibles Ainsi pour reprendre l exemple de Bar Hillel en se limitant au domaine des t l grammes il serait n cessaire pour repr senter le contenu d un message v nement par rapport l ensemble des messages v nements possibles de d nombrer e les heureux v nements tels que naissances mariages anniversaires r ussite un examen etc e les v nements malheureux tels que d c s ruptures checs etc e les v nements ni heureux ni malheureux tels que bonne r ception d un colis r servation d un billet de train etc De toute vidence un tel d nombrement est une entreprise utopique de m me que l ensemble des phrases possibles est un ensemble ouvert potentiellement infini l ensemble des v nements du monde possibles ne peut tre d crit de fa on exhaustive moins d imposer une norme ne s lectionnant qu un sous ensemble fini de ces v nements Voir le chapitre 15 Bar Hillel 1964 84 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFOR
265. n d une r f rence si possible indiscutable est la premi re tape logique d une campagne d valuation de syst mes automatiques Nous aborderons ainsi dans cette partie les notions de repr sentativit qualitative et quantitative ainsi que l effort d explicitation d une comp tence 1 e filtrer de l information c est dire d cider de la pertinence d un document que demande la constitution d un ensemble de donn es de r f rence Nous serons amen par ce biais d terminer quelles parties de la comp tence humaine sont susceptibles de figurer ou pas dans l ensemble de r f rence 3 4 1 1 Repr sentativit quantitative qualitative des corpus Les campagnes TREC mettent l accent sur les aspects quantitatifs des syst mes valu s Dans cette logique scientifique visant la reproductibilit des r sultats les organisateurs passent outre les aspects qualitatifs li s au domaine du FI Nous posons qu une premi re cause de l chec de TREC pour ce domaine vient justement de cette obsession quantitative Historiquement les campagnes TREC furent principalement mises en place pour valuer les syst mes d indexation et de recherche d information sur des bases documentaires importantes Plusieurs Gigaoctets de donn es textuelles constituent ainsi les corpus d apprentissage et de test fournis aux participants quelque soit la t che Ainsi les participants la t che de filtrage pour laquelle no
266. n de s lection et pertinence et affecte une pond ration chaque document en fonction de l ad quation de la d cision de s lection automatique op r e par chaque syst me Les variables R R N N renvoient au nombre de documents dans chaque cat gorie respectivement documents s lectionn s non s lectionn s pertinents non pertinents Les param tres d utilit A B C D qui sont autant de coefficients de pond ration d terminent la valeur relative de chaque cat gorie possible Un param tre d utilit positif correspond au gain apport par chaque document un param tre n gatif repr sente le co t entra n par l attribution erron e d un document une cat gorie De ce fait pour un profil consid r plus le score d utilit est lev meilleur est le syst me Pour TREC 6 les param tres suivants ont t test s e Fl 3 R 2 N e F2 3 R N R De son c t l ASP est d finie comme suit e ASP Pr cision Rappel 165 CHAPITRE 3 LE FILTRAGE D INFORMATION Les deux m triques utilit et ASP sont utilis es conjointement afin de fournir des indicateurs de performance pour chaque syst me En ce qui concerne l utilit les trois sc narios initiaux ont t r duits deux le premier F1 p nalise fortement le bruit dans les r ponses fournies 2 N le deuxi me F2 p nalise galement le silence R Hull souligne le fait que la mesure d utilit
267. n des ressources pour le filtrage du syst me CORAIL 195 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL Bel Login CORAIL n monstrateur CORAIL Session File Graph Primitives My primitives public 3 Gauche 5 animaux i Shared primitives E Filters E My filters Y March s publics Y Service public Y Elections_France M Animal_malade_abattu Y Nouveau_cas_fievre_aphteuse Shared filters E Profiles E My profiles GB Marches publics Semice pubi E March s public ET serice publi A sauche_Remporter_Etections mo Shared profiles LLL TE LP TL TT OL Y Figure 9 interface utilisateur du syst me CORAIL dition de grammaires locales pour le filtrage d information Cette capture d cran montre la structure de l interface utilisateur principale de CORAIL les diff rentes ressources pour le filtrage sont regroup es dans le cadre de gauche hi rarchis es en e primitives priv es MyPrimitives public Gauche animaux et partag es Shared primitives e filtres priv s My filters March s publics Service public Elections France Animal malade abattu Nouveau cas fi vre aphteuse et partag s Shared filters e profils priv s My profiles March s publics OU Service public OU March s publics ET Service public OU Gauche remporter lections OU Epizootie et partag s Shared profiles
268. n the fields of mechanical translation and information retrieval Automatic Translation of Languages W10 Oxford Pergamon Press pp 123 137 Reprinted in Tefko Saracevic ed Introduction to Information Science New York R R Bowker Company 1970 pp 210 218 Gross M 1967 Linguistique et documentation automatique Revue de l Enseignement Sup rieur 1 2 Gross M 1968 Grammaire transformationnelle du fran ais vol 1 syntaxe du verbe Cantil ne Gross M 1975 M thodes en syntaxe Hermann Paris Gross M 1986 Grammaire transformationelle du fran ais vol 3 syntaxe de l adverbe CERIL Universit Paris 7 Gross M 1986 Grammaire transformationnelle du fran ais vol 2 syntaxe du nom Cantil ne Gross M 1988 Les limites de la phrase fig e Langages n 90 pp 7 22 Larousse Paris Gross M 1990 Le programme d extension des lexiques lectroniques Langue Fran aise n 87 pp 123 127 Larousse Paris Gross M 1993 Les phrases fig es en fran ais L information grammaticale Paris Guillet A Lecl re C 1992 La structure des phrases simples en fran ais constructions transitives locatives Librairie Droz Gen ve Habert B Fabre C 1999 Elementary dependency trees for identifying corpus specific semantic classes Computer and the humanities n 33 vol 3 207 219 Habert B Nazarenko A Salem A 1997 Les linguistiques de corpus Masson Halliday M A K 1961 Categories o
269. na est une t che quasiment impossible pour des algorithmes prenant en compte des seuils de fr quence d occurrence de certains l ments alors qu une approche explicite est intrins quement ind pendante de la fr quence d occurrence des l ments recherch s 4 3 2 Mesure des performances Nous discutons ici des r sultats mesur s au cours d une valuation quantitative du syst me CORAIL 4 3 2 1 Protocole d valuation quantitative Pour cette valuation nous avons suivi un protocole de type bo te noire o seule la diff rence entre le nombre de r ponses attendues sur des donn es de r f rence et celles observ es pour chaque syst me valu est prise en compte Dans ce type d valuation il est n cessaire de disposer d un ensemble de donn es de r f rence gold standard r parti en corpus d apprentissage ou de param trage et corpus de test Le principe d une telle r partition est de fournir aux syst mes valu s un sous ensemble des donn es de r f rence qui servira au param trage sans limite de temps ou d it rations ex un syst me r alisant de l apprentissage automatique peut subir plusieurs pr sentations du m me corpus d apprentissage ainsi qu un sous ensemble de test constitu de donn es inconnues du syst me Le corpus de test sert v rifier l ad quation du param trage il est donc n cessaire 215 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MA
270. ndices essentiels vont tre utilis s par l ensemble des m triques cit es pr cision rappel F mesure et variantes La pr cision et le rappel se d finissent comme suit e Pr cision R ponses correctes R ponses attendues e Rappel R ponses correctes R ponses fournies Le rappel et la pr cision fournissent des indices relatifs alors que bruit et rappel sont des indices absolus Le taux de rappel mesure la capacit des syst mes valu s couvrir le probl me alors que le taux de pr cision mesure la qualit des r ponses fournies Les deux indices sont n cessaires l valuation en effet un syst me fournissant en r ponse l ensemble des documents trait s aurait fatalement un taux de rappel maximal Une valuation ne prenant en compte que le taux de rappel serait incapable de se prononcer sur la proportion de r ponses correctes parmi celles fournies 3 3 1 2 F mesure P amp R partir des taux de pr cision et de rappel d autres mesures ont t d velopp es qui visent g n ralement affecter d une pond ration l un ou l autre des deux taux Ces mesures correspondent la n cessit de distinguer entre syst mes quilibr s fournissant des taux de rappel et de pr cision proches et syst mes privil giant l un ou l autre de ces taux En effet les syst mes quilibr s sont recherch s pour certaines t ches alors que d autres t ches mettent l accent soit sur la qualit pr
271. ne dizaine d nonc s une grammaire locale Les grammaires locales pr sent es comprenaient des leurres plus ou moins complexes et taient labor es de mani re m nager une gradation dans la complexit de lecture e grammaires plates sans appel des sous grammaires e grammaires plates utilisant la notion de lemme ex toutes les formes conjugu es d un verbe toutes les formes d un substantif e grammaires 1 2 n sous niveaux avec ou sans lemmes Pour chaque preuve taient mesur es le temps d ex cution les erreurs commises et leur r paration le cas ch ant ainsi que les commentaires de chaque sujet Un entretien individuel suivait chaque exp rience permettant aux ergonomes de disposer d un retour sur les difficult s rencontr es au cours des preuves ainsi que d l ments de nature qualitative sur le syst me CORAIL L valuation men e sur le site de ICDC DTA visait essentiellement analyser les modes op ratoires d utilisateurs du syst me de filtrage propri t de ICDC Exoweb confront s au syst me CORAIL La diff rence essentielle entre les deux syst mes tant la d l gation versus l autonomie dans le processus de cr ation de filtres les filtres Exoweb sont 5 La plupart des sujets utilisaient des outils informatiques toutefois seul un sujet tait informaticien professionnel 54 Voir l annexe consacr e au projet CORAIL 222 CHAPITRE 4 FILTRAGE D
272. ne un exemple de param trage de cet algorithme pour une t che d acquisition de patrons lexicaux utilis s pour l extraction d information 4 2 3 Une base de donn es lexicales pour la recherche d information Le r sultat des op rations de fouille de texte et d expansion des candidats signatures th matiques est une base de donn es lexicales codant le comportement syntaxique de chaque entr e ainsi qu un certain nombre d informations s mantiques ex termes proches La Figure 15 donne un aper u d une base de signatures th matiques extraites d un corpus financier destin es tre utilis es par CORAIL Pour plus de d tails sur le Dictionnaire Int gral voir Dutoit 2000 La table compl te pour le th me 19 du corpus Firstinvest se trouve dans l annexe II 209 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL A B C D EFH K B M NOP z z 3 FE a i alt c asak A 4 A SIE gt BRES 5 5 Bee i i Pre Oo j E 2 Per 1 2 Entreprisd Entreprise Entreprise lt E gt acheter__ 4 Ss lt E gt lt E gt lt achat gt 1 3 Entreprisd Entreprise Entreprise lt E gt acqu rir 7 lt E gt lt E gt lt acquisition gt 4 Entreprisd Entreprise Entreprise lt E gt augmenter_ 7 lt E gt Capital lt augmentation gt 5 Entreprisd Entr
273. ng ou l analyse par grammaires locales et cascades de transducteurs tirent parti de la forte redondance d information port e par les nonc s analys s Cette redondance permet de cibler l analyse aux seuls constituants jug s pertinents pour la t che Les analyses locales peuvent tre qualifi es d opportunistes en ce qu elles tirent parti de tous les indices disponibles typographiques ex caract res en majuscule ponctuation lexicaux classes de mots syntaxiques s mantiques ou stylistiques Contrairement aux approches d claratives dominantes il y a quelques ann es dans le domaine du TALN les analyses locales poss dent un caract re plus proc dural en ce qu elles reposent sur des classes de contextes les plus ferm es possibles et des r gles d analyse ordonn es Ainsi dans le domaine de l tiquetage syntaxique le travail de Vergne est repr sentatif de l efficacit des analyses locales class premier au cours de la campagne d valuation GRACE l tiqueteur syntaxique de l quipe de l universit de Caen repose sur des ressources lexicographiques tr s pauvres ainsi que sur un ensemble de r gles d tiquetage tr s restreint Cette approche est en compl te opposition avec les approches classiques reposant sur des lexiques de plusieurs milliers d entr es et plusieurs centaines de r gles d claratives d tiquetage l tiqueteur de Vergne tire parti de la structuration en
274. nguistique continue Nous avons vu plus haut les difficult s pos es tant dans le champ strictement linguistique que dans celui des applications pratiques d une adh sion trop stricte au paradigme cat gorique et logique autrement dit une vision discontinue des ph nom nes langagiers Nous voyons dans l mergence d une syntaxe probabiliste alli e aux acquis de la linguistique cognitive l acte fondateur d une science du langage non cat gorique non logique qualifi e par ses d fenseurs de linguistique continue Le d veloppement d une nouvelle approche des observables linguistiques permet non seulement de d passer les limites pratiques du paradigme cat gorique mais galement de faire voluer l ensemble du champ des recherches linguistiques En effet la question pist mologique que pose la constitution d outils th oriques non cat goriques est la suivante la science est elle n cessairement logique Pour tre scientifique une science doit elle tre n cessairement cat gorique De fa on plus large le mod le classique des cat gories r gies par les lois de non contradiction et du tiers exclu est il le seul viable en tant que support d une science La question des rapports entre observables et abstraction r solue au XIX me si cle par le positivisme comtien sur le plan philosophique trouve ainsi des chos dans l mergence d une linguistique scientifique continue Soulignons cependant que
275. nn es tant au niveau national qu international 3 Le domaine de l ing nierie linguistique de son c t devant r pondre de fa on pragmatique des besoins op rationnels par l laboration de syst mes logiciels automatiques d analyse linguistique a toujours favoris les tudes sur corpus consid r es comme des chantillons si possible repr sentatifs des donn es linguistiques traiter Autrement dit l ing nierie linguistique passant outre l anath me chomskyen de l tude de la Parole comme chasse aux papillons s est toujours appuy e sur des donn es linguistiques attest es Ce mouvement n a fait que s accentuer sous la pression d une demande toujours plus importante de la part des utilisateurs finaux allant dans le sens d une meilleure couverture d une plus grande fiabilit des syst mes fournis conjugu e l int r t grandissant en Europe notamment pour des corpus multilingues issus de pratiques effectives en quantit suffisante pour le param trage desdits syst mes Ce constat am ne les questions suivantes Quel statut ont aujourd hui les tudes sur corpus Sont elles capables de r pondre aux objections chomskyennes Au sens saussurien c est dire des productions linguistiques pr sentant les marques d une individualit Autrement dit des productions pr sentant les marques d un fonctionnement collectif gt Voir Habert B et al 1997 co
276. ns 183 4 1 1 Une plate forme industrielle de gestion des documents lectroniques PRIAM 184 ARLI Archit ct re foncuonnell s 282 rs nn TR nude ets 184 4 1 1 2 Phases de veille phases de crise 186 4 1 1 3 L alliance filtrage extraction d information 187 4 1 2 TALN et recherche d information par analyse locale ss 188 4 1 2 1 La recherche de la qualit en recherche d information cceecceseeseeeecetecesecseeeeceeeneeeneees 188 4 1 2 2 Principes d une analyse locale ss 190 4 1 2 3 La technique des cascades de transducteurs 191 4 1 3 CORAIL un syst me de FI par cascades de transducteurs ccccccccscceceeseesetsessetneeseens 192 4 1 3 1 Intex pour le filtrage d information 192 415322 Pretraitements 3 3 a een ia Shea A aed A tn Ad 193 4 1 3 3 D cision de S lection issesaonassovadocsosasbotes aston EE AE E ETETEA 195 4 2 LIZARD UN ASSISTANT LINGUISTIQUE POUR LA D COUVERTE DE SIGNATURES TH MATIQUES 4 198 ADA MOUVAHON rare te data ited ksi hee ee 199 4 2 1 1 Automatiser l analyse distributionnelle des corpus 199 4 2 1 2 Harmoniser et centraliser les ressources lexicales ccsccecesscseesesseeseseeseseeeseeecsaeseeneeseeateas 199 4 2 2 Fonctionnalit s principales ss 200 4 2 2 1 Une plate forme multi agents distribu e 200 4 2 2 2 Extraction de formes sch matiques
277. nsacr aux linguistiques de corpus Par exemple corpus align s pour la traduction automatique corpus oraux pour la reconnaissance de la parole ou encore corpus professionnels pour la recherche d information 19 INTRODUCTION Autrement dit r unissent elles les conditions pour d passer le domaine de l empirie dans lequel elles taient jusqu ici confin es Les tudes sur corpus sont elles capables d tre autre chose que des sources de mod les op rationnels utilisables en ing nierie linguistique autrement dit peuvent elles fournir la base d une th orie linguistique Ces questions posent de fa on d tourn e celle de la place d une tude scientifique de la Parole en tant qu acte individuel oppos e de fa on classique la Langue et au Langage dans la conception structuraliste saussurienne Pour r pondre ces interrogations nous tenterons de voir dans quelle mesure les d veloppements r cents dans le domaine des approches linguistiques guid es par des donn es observables et attest es fournissent les conditions d une approche scientifique des ph nom nes relevant de la Parole Deux probl matiques traverseront l ensemble de notre expos La premi re a trait aux tudes sur corpus passage oblig dans la conception d un syst me d analyse linguistique automatis envisag es sous l angle de leur statut c est dire en tant que th orie linguistique Nous tenterons dans l
278. nsion individuelle une d finition fonctionnelle de l information peut tre exprim e comme suit Deux l ments apportent la m me information si pour un individu donn un moment donn ils remplissent la m me fonction par rapport son besoin en information D finition 2 une d finition fonctionnelle de l information Une fois pos e cette d finition reste d finir la notion de fonction On peut adopter une d finition simple de la fonction informative un l ment de contenu r pondant un besoin en information Cette d finition n a de simple que l apparence puisqu elle implique de d finir le besoin en information d un utilisateur de syst me d information effectuant une t che de recherche un moment donn dans un contexte donn Autrement dit aucune 13 r AE 7 Dans cette conception deux v nements i e acoustiques de nature distincte observ s dans des contextes similaires peuvent tre consid r s comme deux mat rialisations d une m me unit fonction 85 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION caract risation absolue n est possible pour la notion de fonction informative Ainsi dans le cadre du filtrage d information que nous d taillons plus loin nous prendrons comme d finition approch e d un besoin en information la caract risation succincte donn e par les th mes pris en compte par rapport
279. nt au point un syst me prenant des d cisions de s lection binaires de fa on al atoire ind pendamment du contenu des documents Nous faisons l hypoth se que le syst me CORAIL avec ou sans LIZARD devrait enregistrer des performances largement sup rieures au syst me RANDOM qui constitue notre borne inf rieure L ad quation entre les r ponses fournies par CORAIL et la cible la r f rence est mesur e par le test du Khi qui fournit une estimation de la probabilit de corr lation entre deux s ries de donn es 4 3 2 2 Indicateurs de performance Ainsi que nous l avons vu dans le chapitre consacr aux conf rences d valuation TREC le domaine du FI se caract rise par un flottement terminologique et conceptuel qui se traduit par une absence regrettable de cadre m thodologique stable pour l valuation des syst mes automatiques de filtrage Nous l avons montr aucune m trique d valuation TREC ne semble faire l unanimit essentiellement selon nous en raison de l absence d un Voir Muller 1973 pour des applications des diff rents tests de corr lation dans le domaine de la linguistique de corpus 216 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL ensemble de donn es de r f rence issu d une pratique effective du filtrage d information Or nous affirmons que muni du corpus Firstinvest qui repr sente environ deux mois de dif
280. nt employ pour qualifier la d marche consistant partir des donn es attest es Nous consid rons en effet que la notion d empirie est trop marqu e dans le domaine pist mologique comme synonyme d approche non scientifique 72 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS ensemble maximal de connaissances pr alable des principes universels g n tiquement d termin s parmi lesquels les stimuli langagier vont s lectionner les plus adapt s Points de vue objectif et subjectif pour une science du langage Au del de l quilibration des deux contraintes de compl tude versus de coh rence la 1 E r question fondamentale que pose l mergence d une approche raisonn e des faits langagiers bas e en partie sur la prise en compte de ph nom nes de Parole est celle de l accommodation d une vis e objective versus subjective Cette question trouve une r ponse dans la position exprim e par Saussure L analyse des unit s de la langue faite tous les instants par les sujets parlants peut tre appel e analyse subjective il faut se garder de la confondre avec l analyse objective fond e sur l histoire Le grammairien est souvent tent de voir des erreurs dans les analyses spontan es de la langue en fait l analyse subjective n est pas plus fausse que la fausse analogie La langue ne se trompe pas son point de vue est diff rent voil tout Il n y a pas de comm
281. nt pr sente ce qui assure aux cha nes de Markov cach es aux automates dits pond r s ou encore aux PCFG Italiques ajout s 106 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION Probabilistic Context Free Grammars un regain d int r t tant dans le domaine applicatif que dans celui du TALN En effet le caract re non n cessaire des repr sentations linguistiques de haut niveau dans le domaine applicatif pose en retour la question de leur utilit dans le domaine th orique Autrement dit ainsi que nous l avions voqu dans le premier chapitre la question de la validit d un point de vue uniquement objectivant est pos e par le succ s des approches centr es sur la Parole dans le domaine applicatif Cette remise en cause justifie pour des auteurs tels que Manning Abney ou Pereira le recours une d marche inductive dans l optique de l laboration d une grammaire tant dans des domaines sp cialis s que dans celui de la langue g n rale Nous ne traiterons pas ici de l automatisation ni des param tres de cette automatisation d une proc dure de construction de grammaire de type inductif nous nous contenterons de d crire les r sultats d une analyse des corpus guid e par les principes distributionnalistes s appuyant aussi bien sur une approche cat gorique classique base de r gles explicites que non cat gorique Par ailleurs no
282. nt tri s par ordre d croissant sur le score de coh sion normalis Sur le sous corpus consid r la mesure de coh sion telle que tir e de Ferret amp Grau 2001 permet surtout de d tecter des entit s nomm es telles que des noms de soci t ex Pernod Ricard des noms de personne ex Marie Messier ou encore des associations habituelles pour le domaine ex hauteur de dirig par L utilisation conjointe des scores d entropie conditionnelle et de coh sion lexicale projet s sur des 4grammes par exemple permet d tudier des sous domaines tels que celui des noms propres commen ant par Jean Lex1 Entropie Coh sion Entropie Coh sion Entropie Coh sion Lex4 Lex2 Lex1 Lext Lex2 LexslLex2 Lex2 Lex3 Lex4 Lex3 Lex3 Lex4 RAE 1 1644 sie re 1 034575 Jean 0 1 1644 here pee 0 8233732 Claude 0 5283208 1 034575 Jean 0 1 1644 ES 0 8233732 claude 0 5283208 0 9452001 fel ee PRG Jor fou ue fo fr fel o ee PR frases or fous fel o see PRG foram pee flee FR recast os pree e Exemple 6 les noms propres construits sur la t te Jean extrait Cet extrait permet d estimer les relations de d pendance entre les diff rents l ments constituant une famille de noms propres construits sur la t te Jean Cet exemple limit permet a nos yeux d envisager l laboration de grammaires locales de sous domaines tels que celui des entit s nomm es sur la base du
283. nte g n ralement fixe partant d une position p dans le texte jusqu p n 1 Dans le cas pr sent les fr quences d occurrence n ont qu une valeur indicative 133 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION 12172 12172 La La Fnac Fnac lance lance DigiFnac DigiFnac Pour Pour r pondre r pondre a a l l offre offre tout tout num rique num rique j 7 la la Exemple 2 tapes principales du pr traitement d un corpus en vue d en extraire des collocations De m me que pour la liste des mots du texte les n grammes du texte sont index s et associ s une fr quence d occurrence Notons que l ensemble des tapes d taill es ci dessus peuvent tre adapt es en fonction d un genre textuel particulier d une application ou encore d une langue donn e Ainsi le d coupage des mots peut tre plus ou moins fin jusqu inclure des exceptions au principe du mot typographique ex en fran ais aujourd hui d coup en aujourd hui ou non en fonction de l application Il en va de m me pour les principes d indexation les index peuvent contenir ou non certains mots dont les fr quences d occurrence sont jug es plus ou moins int ressantes ex en fran ais la pr position de est l un des mots les plus fr quents ainsi que la ponctuation La plupart du temps les tentatives d extraction de col
284. ntly analysed Pereira 2000 pp 1246 1247 Cette pauvret suppos e du stimulus fait aujourd hui l objet d une remise en cause par l ensemble des linguistes cognitivistes d une part Lakoff Langacker et Taylor notamment D autre part l ensemble des d fenseurs des approches probabilistes en TALN tant dans leurs applications en ing nierie que dans le domaine de la recherche th orique militent pour l abandon d une conception pauvre du stimulus linguistique envisag uniquement sous la forme de suites de caract res par exemple Tant les linguistes cognitivistes que des auteurs tels que Finch Manning ou Pereira voient dans l ensemble des param tres des situations de communication ex contexte situationnel social motionnel des stimuli riches rendant possible l apprentissage proprement parler de la facult de langage En d autres termes la pauvret du stimulus linguistique viendrait de la conception de stimulus linguistique elle m me plus que des informations utilisables dans le cadre de l apprentissage d une langue 1 3 3 3 Grammaticalit et probabilit s Le probl me des rapports entre grammaticalit et probabilit s peut tre r sum par les deux nonc s improbables suivants oppos s par Chomsky aux tenants d approches non cat goriques en linguistique 5 Colorless green ideas sleep furiously 6 Furiously sleep ideas green colorless L objection chomskyenne vis vis
285. nts suivant une loi de distribution donn e Toutefois de l aveu de l auteur l application de m thodes statistiques l ensemble des ph nom nes langagiers semble impossible en l tat des moyens informatiques disponibles au milieu des ann es 1960 De fa on g n rale les limitations d ordre technique constitueront un frein l approche probabiliste des ph nom nes langagiers elle justifiera d ailleurs comme nous le verrons plus bas les principales objections formul es par le courant g n rativiste l encontre de ces approches non cat goriques et non logiques 1 3 1 2 Une vision quantitative de l opposition Langue Parole Herdan se donne comme objectif principal de traduire en termes statistiques et quantitatifs les concepts cl s du CLG de Saussure assurant toute tude linguistique men e dans un cadre structuraliste le statut de d marche scientifique Ainsi tant dans son ouvrage de 1962 que dans celui de 1964 la conception d une linguistique scientifique quantitative 3 Herdan propose dans les faits plusieurs lois de distribution correspondant autant de sous domaines de la Langue la loi de distribution normale pour les l ments grammaticaux les plus fr quents la loi de Poisson compos e et celle de Waring Herdan pour les l ments lexicaux et la loi de Poisson pour les hapax legomena 58 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS s appuie sur la constatation de l
286. obuste surfacique shallow parsing Grefenstette 1996 Roche 1996 font na tre l hypoth se que sur le plan syntaxique au moins le langage articule des fonctionnements r guliers et simples dominants avec des zones de complexit restreintes Habert 1998 p 156 Nous avons vu au cours du premier chapitre quelles avanc es avaient eu lieu en linguistique de corpus dans le domaine de l induction automatique de grammaires partir des seuls observables linguistiques L ensemble des recherches men es dans ce sens tend remettre en cause la caract risation formelle du langage naturel tablie par Chomsky les grammaires hors contexte int grant une dimension probabiliste par exemple sont vues comme g n ralement suffisantes dans la plupart des applications d velopp es en ing nierie linguistique Cette pr pond rance des approches linguistiquement faibles dans les domaines centr s sur les productions linguistiques effectives pose de fa on g n rale la question de la n cessit des approches linguistiquement fortes bas es sur des syst mes de r gles explicites 103 A 2 A 2 En somme le recours des langages formels plus contraints ne semble n cessaire que dans le cas des nonc s construits par les linguistes eux m mes 144 CHAPITRE 3 LE FILTRAGE D INFORMATION CHAPITRE 3 Le filtrage d information Ce chapitre est consacr au Filtrage d Information d sormais FI une sous tache d
287. oci t Analyse de surface shallow parsing Analyse syntaxique minimale fond e sur des s quences d tiquettes morpho syntaxiques ce niveau le syst me d tiquetage n a g n ralement pas acc s aux informations de sous cat gorisation Analyse locale Analyse syntaxique minimale fond e sur la description de s quences inf rieures la phrase Ce type d analyse est souvent r serv aux domaines sp cialis s dans lesquels la phras ologie est plus fixe que dans la langue g n rale Ainsi par exemple l expression des dates ou d un montant pour une transaction peuvent tre d crits par une grammaire dite locale Apprentissage automatique Param trage d un syst me automatique par des donn es partir desquelles le syst me induit des r gles Dans le cas d un apprentissage supervis les donn es traiter sont accompagn es de la r ponse d sir e au cours de la phase de param trage Dans le cas d un apprentissage non supervis les r gles induites le sont partir des seules donn es fournies au syst me Bruit Indicateur de performance utilis dans l valuation de syst mes de recherche d information proportion de documents non pertinents parmi les r ponses des syst mes valu s Cascade d automates ou de transducteurs tats finis finite state automata transducers cascades Processus it ratif d analyse d un texte au cours duquel les l ments reconnus au cou
288. oins explicitement linguistiques afin de r pondre aux besoins d une population d utilisateurs h t rog ne les uns ma trisant les principaux concepts de l analyse automatique du langage naturel et adoptant des strat gies analytiques recensement des l ments pertinents les autres ayant une vision plus conceptuelle d finition d un besoin en information en des termes g n riques agressions entre Isra liens et Palestiniens par ex Autrement dit malgr la validation d une approche du FI par grammaires locales ces exp riences ont galement montr la n cessit de mettre en uvre des interfaces utilisateurs intelligentes adaptables en fonction du type d utilisateur ex novice expert et de la situation d utilisation ex phase de veille phase de crise Ainsi une interface conceptuelle appara t n cessaire gr ce 224 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL laquelle les d tails des op rations linguistiques resteraient cach s l utilisateur n aurait par exemple qu renseigner des champs Qui autrement dit l agent et le patient Quoi l v nement ex une attaque terroriste Ou et ventuellement Comment ex voiture pi g e pour qu un filtre base de grammaires locales soit g n r On est proche d une conception telle qu expos e dans Kalgren ef alii 1994 de syst mes bo te noire dans une bo te de ver
289. ois la question du contenu reste tout aussi pineuse que celle du sens En effet la d termination du contenu informatif d un document tant par des m thodes manuelles classiques indexation manuelle qu automatiques se heurte au probl me de la 7 Voir les travaux de Finch 1993 McMahon 1994 et van Zaanen 2001 141 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION d termination des l ments informatifs qui rel vent d un point de vue objectif par rapport ceux qui rel vent d un point de vue individuel et subjectif Cette diff rence de points de vue engendre une tension dont les effets se font sentir notamment par une variation in vitable dans le choix de descripteurs de contenu par des indexeurs humains autrement dit un d saccord profond et in vitable sur des crit res de classification Nous avons adopt une d finition fonctionnelle de l information qui permet de concilier ces deux points de vue la fonction informative d un document peut tre envisag e en termes de valeur au sein d un syst me au sens saussurien Pour chaque utilisateur d un syst me d information cette valeur peut tre vue comme d termin e e par des observables linguistiques tels que les choix lexicaux et syntaxiques e par un tat cognitif ex des attentes une exp rience du domaine propre a chaque utilisateur Il est possible d env
290. olinguistes et acquisitionnistes notamment et d nonc e par les tenants des approches antiempiriques induit une n cessaire remise en cause de ce postulat cat gorique Cette remise en cause touche l ensemble des domaines d une th orie linguistique des unit s ex les phon mes les mots donc des cat gories ex parties du discours aux r gles postul es et donc l ensemble du syst me ainsi construit Dans une telle approche rien n est jamais d montrable au sens o on l entend habituellement puisque les r gularit s observ es d pendent des donn es utilis es On comprend ais ment le refus d une linguistique non d montrable mais seulement probable par les tenants de la linguistique cart sienne de Chomsky amalgamant positivisme et logicisme 1 3 2 2 Vers une th orie non cat gorique et non logique L ambition d une linguistique scientifique parce que fond e sur la reconnaissance de contraintes universelles visibles dans le comportement distributionnel des unit s linguistiques 62 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS se pose clairement contre la position cart sienne du g n rativisme Cette derni re reste une linguistique cat gorique construite gr ce la logique formelle utilis e comme instrument scientifique conform ment aux principes aristot liciens Dans ce contexte la parution des travaux de Herdan pose les questions suivantes Une th orie scientifique doit elle tr
291. omatique par extraction de descripteurs de contenu tir s du stock lexical des documents trait s pr sente des lacunes La principale d entre elles est d oblit rer compl tement l information structurelle donn e par les contraintes d ordre syntaxique Ainsi comme Bar Hillel le fait remarquer des documents traitant de th mes diff rents mais pr sentant un m me profil apr s indexation seront consid r s galement pertinents L int gration d une phase de d tection de collocations la proc dure d indexation permet de restaurer une partie de l information linguistique perdue au cours du processus de s lection des termes descripteurs La notion de collocation regroupe comme nous l avons vu des l ments aussi divers que des expressions fig es des tournures idiomatiques ou des termes techniques Les techniques de d tection des collocations permettent galement de retrouver des entit s nomm es ex noms de soci t noms propres toponymes Or ces entit s nomm es constituent des marqueurs th matiques utilisables dans un contexte de RI men e sur des corpus de type journalistique En tant que s quences particuli rement coh sives sur le plan syntagmatique les collocations pr sentent g n ralement une coh sion th matique forte Cette coh sion peut fournir la base de syst mes de segmentation th matique tel que le syst me ROSA pr sent dans Ferret amp Grau 2002 2 2 4 2 Des colloc
292. ompl ments possibles les transformations valides etc 206 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL E jnix Fichier Aide EEE Texte amp structures sch matiques Candidats Tables du Lexique Grammaire V gt V gt lt PREP gt lt avis gt lt Y gt lt une gt PREP gt lt DET gt N gt lt DET gt N N gt lt PREP gt lt N NPropre lt V gt lt DET gt N gt lt N NPropre gt a gt Y gt Y gt DET N gt lt V gt lt fin gt lt PREP gt lt DET gt N gt lt V gt lt DET gt N gt lt PREP gt N gt lt DET gt lt eaux gt lt PREP gt lt N NPropre gt V gt lt PREP gt lt N gt lt de gt lt cleints gt lt PREP PCDN gt lt DET gt N gt lt Y gt PREP gt lt DET gt N gt lt PREP lt actifs lt PRO gt Y gt lt V gt lt PREP gt lt N NPropre gt lt V gt lt DET gt lt conomies lt PREP gt lt DET gt N gt lt PREP gt lt DET gt N lt V gt lt PREPDET gt lt capital gt lt PREP gt lt N NPropre gt lt N Top gt W gt lt PREP lt DET gt N lt PREP gt lt V gt lt pour Y gt lt DET gt lt relations Y gt lt N NPR gt lt N NPropre gt Y PREP gt lt V gt lt DET gt N gt V gt DET gt N gt lt PREP gt lt DET lt radio gt lt PREP gt lt DET gt N gt lt PREP gt lt DET gt N gt lt V gt lt serein gt lt V gt lt DET gt N g
293. on Dans le cas o figurent un ou un l tat appelant constitue une porte logique tous les appels aux informations de la table situ s apr s cet tat sont restreints par la contrainte nonc e En l occurrence pour le m tagraphe ci dessus les appels aux entr es lexicales E sixi me tat sont restreints celles qui v rifient la contrainte sp cifi e en I NO V Const N1 autrement dit seules des constructions fig es sont recopi es dans le sixi me tat la compilation Le recours aux m tagraphes permet la sp cification de grammaires tr s g n riques des grammaires patrons instanci es par les entr es lexicales contenues dans une table Ce dispositif fait ainsi l conomie d une dition manuelle de grammaires locales pour chaque entr e lexicale consid r e Il permet de plus de donner un caract re moins proc dural aux grammaires locales construites partir de transducteurs tats finis une m me table peut tre associ e diff rents m tagraphes ex un m tagraphe pour les formes au passif un autre pour les nominalisations des donn es lexicales parses peuvent tre regroup es dans une base centrale ce que les transducteurs classiques ne permettent pas de r aliser 2 2 3 Distributionnalisme probabiliste pour la d couverte de signatures th matiques d tection de collocations Dans la partie pr c dente nous avons expos une m thode distributionnelle
294. on historique de la d marche exp rimentale en science essentiellement suite la transition cart sienne Bien que nous souscrivions la remise en cause des mod les aristot liciens ne sauvant les ph nom nes qu imparfaitement nous soulignons le fait que la logique aristot licienne ne semble pas remise en cause en tant qu instrument organon de science La structuration du monde laquelle tendent toutes les sciences exp rimentales reste sous tendue par les deux contraintes fondamentales de la logique et des cat gories aristot liciennes le principe de non contradiction et celui du tiers exclu Ainsi Auroux attribue cette fondation logique l mergence d une position cat gorique reposant sur des cat gories fond es sur les lois cit es plus haut et logiciste sur les ph nom nes langagiers reprise de fa on plus ou moins explicite par l ensemble de la linguistique structurale C est dans l uvre logique d Aristote que trouve son point de d part la th orie des parties du discours qui formera le c ur de la tradition grammaticale occidentale Auroux 1994 p 34 Ce fondement cat gorique et logique des th ories linguistiques s tend au domaine de l tude des distributions des l ments linguistiques Auroux 1994 p 175 Derri re la th orie des parties du discours il faut reconna tre quelque chose qui est la propri t essentielle du langage humain et qu on peut noncer comme
295. on qui reste comparable celle du syst me Manuel Si on garde l esprit les effectifs tr s limit s 101 documents de test 50 documents de bruit pour lesquels l influence individuelle de chaque document est tr s sensible on constate que l approche du filtrage d information par grammaires locales semble tr s discriminante et permet de fournir des r sultats de haute qualit sur le corpus consid r tout du moins Des valuations men es selon les m mes principes que ceux expos s ici sur d autres types de corpus permettraient de pr ciser davantage quelles performances peuvent tre attendues d un syst me de filtrage d information bas sur une analyse linguistique de corpus sp cialis s 4 3 3 Questions d utilisabilit Au del des aspects purement quantitatifs il est n cessaire de se poser la question de la qualit du syst me valu L valuation qualitative de syst mes de recherche d information automatiques est un domaine de recherche part enti re c est pourquoi nous nous limiterons aux exp riences r alis es dans le cadre du projet CORAIL sous la conduite d une quipe d ergonomes 4 3 3 1 bauche d une valuation ergonomique Le consortium CORAIL comprenait l quipe CRIS Paris X constitu e de deux ergonomes qui ont dirig une exp rience visant valuer l utilisabilit abord e sous l angle ergonomique du syst me de filtrage d information par cascades de tran
296. on linguistique Nous examinons notamment l argument de l impossibilit d un apprentissage bas sur des exemples positifs tir d une interpr tation du th or me de Gold l argument de la pauvret du stimulus et l incompatibilit entre probabilit et grammaticalit 1 3 3 1 Th or me de Gold et apprentissage partir d exemples positifs Le distributionnalisme qu il soit cat gorique ou non est fondamentalement une proc dure de d couverte du fonctionnement linguistique des unit s observ es au sein d chantillons de Langue En tant que tel il sert de fondement th orique et m thodologique l ensemble des approches automatiques dans le domaine de l apprentissage des r gularit s linguistiques partir de corpus Or le g n rativisme de son c t se caract rise par une position du d veloppement d une comp tence linguistique ne faisant pas appel des m canismes d apprentissage L un des arguments les plus d cisifs en d faveur d un apprentissage partir des donn es observables est celui d velopp dans Chomsky 1957 1965 prenant appui sur le th or me de Gold Dans la conception chomskyenne l objectif d une th orie linguistique tant de rendre compte d un ensemble de phrases grammaticales d crites par un langage formel il est amen examiner les diff rents langages existants afin d valuer leur ad quation descriptive et pr dictive au regard de la t che
297. on of an element is the total of all environments in which it occurs i e the sum of all the different positions or occurrences of an element relative to the occurrence of other elements Harris 1951 p 15 43 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS La notion de distribution respecte le caract re arbitraire entre signifiant et signifi elle constitue une propri t observable voire quantifiable des unit s linguistiques tudi es Par cette notion de distribution sont introduits les deux axes d analyse qui jouent le m me r le qu en linguistique structurale classique les axes syntagmatique et paradigmatique En effet on peut traduire la somme de tous les environnements d un l ment donn comme les contraintes observ es sur l axe syntagmatique chaque profil distributionnel particulier d finit un paradigme une classe d l ments particulier 1 2 1 3 Notion d unit linguistique Comme le signe saussurien une unit ou un l ment dans le sens de Harris est donc constitu e d un ensemble de propri t s observables i e une forme et un profil distributionnel et d un ensemble de propri t s non directement observables un sens Cependant Harris d laisse quelque peu le sens au profit de la forme en toffant la notion m me de forme l o elle semblait parfois tre vidente chez Saussure Harris se caract rise par une approche prudente du probl me du relev des unit s d
298. on v ritablement linguistique concernant l tude de la langue orale comment distinguer dans un flux ininterrompu des accidents un signal continu les Dans le passage cit il s agit de la polycat gorialit par d rivation impropre 7 Du moins pour les langues poss dant une tradition ancienne d dition et de diffusion d crits fondamentaux l gislatifs religieux ou encore philosophiques 39 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS unit s l essence de la Langue Cette question revient poser le probl me de la reconnaissance du m me une unit donn e telle qu un phon me dans l autre un signal acoustique variable et difficile segmenter c est dire le probl me de la discr tisation cat gorisation du r el En posant la notion d unit la linguistique pose n cessairement celle de la repr sentation mentale de ces unit s relativement stable et qui permet de guider la reconnaissance des phon mes par exemple La phonologie pose dans le m me mouvement la n cessaire abstraction par rapport au mat riau linguistique premier qui m nag e en degr s fournira l ensemble des unit s linguistiques morph mes phrases s mes et des angles d approche de la Langue correspondants Ce faisant elle pose n cessairement les deux plans introduits par Saussure celui de la Parole et celui de la Langue La notion d unit dans le cadre de la construction d un mod le de
299. onnaliste puis nous revenons sur quelques notions fondamentales h rit es du structuralisme classique saussurien Dans un deuxi me temps nous nous centrons sur la m thode distributionnelle telle qu expos e par Harris dans son ouvrage paru en 1951 ainsi qu ses volutions notamment le recours des algorithmes statistiques tels qu expos s dans les travaux pr curseurs de Herdan Ce faisant nous tentons de voir comment le changement de paradigme que repr sente le passage d une conception cat gorique et logiciste du distributionnalisme une conception probabiliste est susceptible de fournir les bases d une th orie linguistique part enti re guid e par les observables 1 1 Linguistique structurale et distributionnalisme 1 1 1 La recherche d une d marche scientifique La linguistique structurale dans laquelle nous voyons les germes du distributionnalisme tente de concilier deux imp ratifs antagonistes face aux ph nom nes qu elle cherche organiser en une th orie scientifique un mouvement d abstraction 24 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS n cessaire afin de se d tacher de la contingence empirique les faits dans leur seule mat rialit et un mouvement discriminant s attachant aux particularit s les plus fines des ph nom nes observ s 1 1 1 1 Le monde conna tre Historiquement nous voyons dans les principes exprim s dans la m taphysique aristot licienne les cond
300. ons prendre par exemple 1 Les justifications du recours au logarithme de base 2 se trouvent dans Shannon 1948 signalons simplement qu elle est li e l adoption du bit comme unit d information pouvant prendre deux valeurs 0 ou 1 83 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION Au del du domaine des sciences humaines tous les domaines d activit manipulant de l information mission r ception stockage codage en tant que s quences d v nements possibles ont repris et d velopp la notion de quantit d information associ e un signal Bar Hillel note par ailleurs que la popularit de la notion d information est principalement li e la confusion entretenue par la plupart des auteurs du domaine de la Transmission des Signaux Hartley Shannon amp Weaver ou encore Wiener entre quantit d information v hicul e par une s quence d v nements parmi un ensemble d v nements possibles d une part et contenu repr sentations s mantiques pragmatiques v hicul par un signal ou message d autre part Cet auteur propose d ailleurs une Th orie de l Information S mantique afin de distinguer information et contenu 2 1 1 2 D finition fonctionnelle Nous l avons vu d apr s Bar Hillel la d finition quantitative de l information n est pas une d finition de la fonction informative d un document il est donc
301. ont la crois e de deux disciplines la statistique notamment les techniques d chantillonnage et l tude des distributions des v nements langagiers Dans cette optique le contexte d occurrence des descripteurs retenus est le document dont la segmentation est r alisable sur des crit res objectifs ex marques de d but et de fin de document marques de paragraphes contrairement aux d limitations linguistiques pour lesquelles aucun crit re objectif non d pendant de l application du domaine et de l approche n est disponible Dans les approches les plus r pandues la s lection des descripteurs se traduit essentiellement par l limination des mots jug s peu repr sentatifs du contenu du document La repr sentativit d un terme dans cette perspective ne peut tre bas e que sur sa pr sence ou son absence au sein d un document et plus pr cis ment sa fr quence d occurrence dans ce document Le principe de s lection commun ment admis dans le domaine se fonde sur les Signalons que Sp rck Jones est l un des organisateurs des conf rences d valuation TREC Text REtrieval Conference que nous pr sentons plus loin 93 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION recherches d auteurs tels que Zipf ayant montr quelque soit la langue que les mots d un document peuvent tre class s en fonction de leur fr quence d occurrence qui
302. ontr l e par un espace conceptuel pr existant Trait s par un module d indexation d velopp par la soci t Sinequa Intuition param tr pour r aliser une t che de routage 186 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL 4 1 1 3 L alliance filtrage extraction d information Au del des contraintes li es aux besoins op rationnels que PRIAM vise satisfaire la particularit de cette architecture est l inter relation constante entre filtrage extraction et routage d information Ceci vaut d tre soulign en effet la conception classique des champs d action de chaque domaine se caract rise plut t par un d couplage de chacun d eux Les figures ci dessous illustrent deux conceptions des liens entre filtrage extraction et routage d information Recherche d information e Routage e Extraction e Filtrage e Fouille de textes Figure 7 conception classique des rapports entre activit s de push et de pull Cette conception classique des rapports entre les deux domaines d activit principaux de la Recherche d Information le push et le pull est celle qui guide notamment les conf rences d valuation nord am ricaines TREC et MUC Or en situation r elle le d couplage de ces deux activit s n a pas lieu d tre PRIAM met donc en uvre une conception des rapports entre push et pull bas e sur l interd pendance entre
303. ontraintes de bonne formation Soulignons par ailleurs que dans la pratique d une langue grammaticalit et intelligibilit ne sont pas n cessairement synonymes il est possible de comprendre des nonc s agrammaticaux Une th orie linguistique qui vise rendre compte uniquement des nonc s grammaticaux ne vise donc pas n cessairement rendre compte de la compr hension du langage naturel Une fois pos le caract re non n cessaire des principes de non contradiction et de tiers exclu pour une th orie linguistique reste proposer des principes alternatifs Le passage ci dessous peut ce titre fournir des indices quant la nature des principes recherch s L organisation cognitive ne r sulterait pas d op rations logiques effectu es sur le r el par un esprit a priori rationnel mais d activit s plus primitives telles que les deux processus l mentaires et antagonistes de g n ralisation n gliger les diff rences sur la base de la ressemblance et de la discrimination ne pas confondre qui s appliquent sur les plans perceptif moteur comportemental et symbolique Dubois 1991 p 42 L auteur rapporte des cas d nonc s attest s tir s de corpus journalistiques violant des contraintes de bonne formation tels que Steven P Jobs has reemerged as a high technology captain of industry as least as the stock market is concerned Manning montre que ce type d nonc s est trop fr quent pour que
304. ormation par des experts humains du domaine de la finance Ce corpus sp cialis nous servira param trer un syst me de filtrage d information pr sent plus loin Nous tenterons de montrer comment tant par une approche cat gorique classique que par une approche probabiliste linguistiquement motiv e il est possible d extraire de ce corpus un 21 INTRODUCTION ensemble d unit s lexicales complexes associ es des th mes et des sous th mes du domaine financier des signatures th matiques La troisi me partie consacr e un sous domaine de la recherche d information le filtrage d information nous permettra d aborder la question de l laboration d un syst me automatique de filtrage d information reposant sur des analyses partielles faisant appel aux signatures th matiques extraites des corpus sp cialis s Nous examinerons ainsi les r sultats des conf rences d valuation nord am ricaines TREC Text REtrieval Conference notamment en ce qui concerne les proc dures d valuation de syst mes de filtrage d information Cette partie sera notamment l occasion d une r flexion sur les probl mes rencontr s au cours des diff rentes ditions de TREC pour l valuation des syst mes de filtrage d information La quatri me partie de notre expos est consacr e la pr sentation d un prototype de syst me de filtrage d information en temps contr l CORAIL d velopp dans un
305. otre connaissance de version commerciale de SIFT Cette remarque vaut pour la plupart des syst mes de FI que nous avons rencontr l exception de fonctionnalit s tr s restreintes incluses dans des logiciels grand public telle que la fonctionnalit de filtrage offerte par Netscape Messenger Infoscope Stevens 1992 est proche de SIFT dans le sens o il est galement destin au filtrage des serveurs de news Cependant ce syst me offre une fonctionnalit de param trage automatique des profils d utilisateurs reposant sur un algorithme d apprentissage Le principe de cr ation de profils avec Infoscope est bas sur l interaction entre le syst me qui propose des solutions et l utilisateur qui valide corrige ou refuse ces propositions Infoscope induit ainsi des r gles de s lection binaires partir des r ponses de l utilisateur et sur des param tres simples tels que le temps d di la consultation d un message donn Infoscope fut con u dans le but d viter l utilisateur d expliciter son expertise et de fa on plus g n rale afin de fournir un syst me convivial capable de s adapter chaque utilisateur De plus le syst me con u par Stevens prenait en compte la structuration informative des documents toujours dans une perspective de centration sur l utilisateur Infoscope tait ainsi capable de reconstruire l espace d information repr sent par les serveurs de news de mani re
306. ots cl s pour aborder la question des expressions typiques d un domaine de sp cialit 3 2 2 1 Principe des expressions rationnelles Les expressions rationnelles qui forment la base des syst mes de FI par reconnaissance de mots cl s constituent des r gles explicites de reconnaissance de caract res ou s quences de caract res Elles reposent sur la th orie des automates et transducteurs tats finis leur mise en uvre informatique est bien ma tris e et elles pr sentent des garanties en termes de ma trise des temps de traitement qui en font un outil privil gi dans le cadre d applications informatiques Les expressions rationnelles reposent sur un alphabet de symboles d entr e et un alphabet de sortie dans le cas des transducteurs Cet alphabet comprend aussi bien des caract res atomiques que des op rateurs bool ens i e ET OU NON ainsi que des caract res sp ciaux Ces derniers permettent de coder des r p titions ex repr sente 0 ou plusieurs r p titions d une m me s quence de sp cifier des ensemble ex repr sente l ensemble de l alphabet d entr e et des sous ensembles de caract res reconna tre ex a z repr sente l ensemble des caract res alphab tiques en casse minuscule de a jusqu z Les expressions rationnelles permettent ainsi de d finir des patrons de recherche qui peuvent soit servir une recherche litt rale soit
307. p cification de l argument obligatoire dans le cas d une construction fig e a main sur pour mettre 7 Voir le chapitre IV pour une pr sentation plus d taill e du corpus financier utilis Pour une pr sentation des grammaires locales utilis es dans l ensemble de nos travaux voir l annexe II 126 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION e colonne L compl ment circonstanciel habituel d crit par une grammaire locale Capital e colonne M sp cification de la forme nominalis e correspondant la forme verbal tir e de ressources lexicales existantes telles que le Dictionnaire Int gral e colonnes N P sp cification des transformations possibles constat es sur corpus ainsi que d termin es hors corpus La table ci dessus peut tre consid r e comme une base de donn es lexicales gr ce auxquelles le syst me Intex permet de g n rer des grammaires locales sous la forme de transducteurs tats finis La g n ration de ces grammaires locales interpr tables par Intex se fait gr ce des transducteurs particulier les m tagraphes qui permettent de sp cifier des contraintes sur les grammaires g n r es Ainsi par exemple il est possible de ne g n rer que la grammaire locale correspondant aux entr es verbales pouvant se trouver la forme passive La figure ci dessous donne un aper u d un m tagraphe Figure
308. pic terms ni des indices associ s aux documents En effet pour qu il y ait des termes associ s des th mes il faut d une part qu un ensemble de th mes ex un thesaurus une ontologie ait t identifi et d fini comme couvrant l ensemble des documents archiv s D autre part il faut qu un principe syst matique associant des documents traitant du m me th me les m mes indices ou descripteurs de contenu eux m mes associ s aux topic terms Deux approches dans l assignation de marqueurs th matiques a des documents ou processus d indexation sont possibles une approche manuelle bas e sur un langage de description et une approche automatique bas e sur l extraction de marqueurs th matiques partir des documents indexer 2 1 2 1 Indexation manuelle et marqueurs th matiques En indexation manuelle on trouve essentiellement deux types de descripteurs correspondant deux types d indexation e indexation libre 16 r Ces deux approches ne sont pas n cessairement exclusives cependant autant l approche manuelle est susceptible d utiliser des marqueurs th matiques tir s des documents indexer autant l approche automatique ne peut se substituer l op rateur humain dans le processus de description du contenu d un document par un langage normalis En effet cette op ration quivaut en complexit un processus de traduction 88 CHA
309. pplications Qui plus est cette vis e n appara t pas forc ment n cessaire L exp rience effective des approches surfaciques linguistiquement faibles dans le domaine applicatif am ne g n ralement des constats tels que les erreurs d tiquetage ou d attachement ne perturbent que tr s mod r ment l image qui est fournie des fonctionnements syntactico s mantiques des mots du corpus Ou pour le dire autrement a redondance est suffisante pour garantir une stabilit correcte des rapprochements s mantiques sur la base des comportements distributionnels partag s On peut donc composer avec l imparfait sans trop de risques Habert 1998 p 159 Ce constat d une inutilit des repr sentations linguistiques de haut niveau dans le domaine applicatif justifie le recours des descriptions parcellaires contextuelles d pendantes d un domaine de sp cialit telles que les grammaires dites locales Ces grammaires se caract risent par un abandon du paradigme d claratif dominant et un retour vers une conception plus proc durale de la description des nonc s possibles Ce type de descriptions se contente en termes de langage formel de grammaires beaucoup moins contraintes que celles requises dans le cadre d une linguistique forte principalement grammaires dites context free CFG Context Free Grammars voire automates ou transducteurs tats finis Une composante probabiliste est galement souve
310. pproche du probl me du FI par reconnaissance de signatures th matiques 4 1 3 2 Pr traitements La phase de pr traitements d signe l ensemble des op rations destin es normaliser les textes trait s Cette normalisation affecte autant les niveaux les plus bas ex segmentation en phrases que les plus lev s ex reconnaissance et tiquetage d expressions fig es Dans le cas du syst me CORAIL les diff rentes phases de normalisation sont les suivantes illustr es sur un extrait du corpus Firstinvest 1 segmentation en phrases gr ce une version modifi e de la grammaire locale Sentence livr e en standard 2 tiquetage des mots dits compos s non ambigus tels que aujourd hui ou a priori gr ce un dictionnaire d di ce type de lex mes 3 normalisation de certaines formes lid es ou contract es telles que au en le le et d limitation des s quences de chiffres par une version adapt e de la grammaire locale Replace Ces trois premi res phases constituent des pr traitement habituels pour tout travail sur corpus la particularit du logiciel Intex tant de pouvoir d finir des grammaires locales et des dictionnaires de normalisation ex tiquetage de a priori comme un adverbe traduits sous la forme de transducteurs tats finis appliqu s de fa on s quentielle sur les documents normaliser Toutes les tapes de pr traitement sont param trables ainsi que l en
311. pr sente environ deux mois d activit il traite une vingtaine de th mes diff rents Chaque th me peut tre associ une phras ologie que nous d taillons dans le chapitre consacr au syst me CORAIL Il en va ainsi du th me 197 cessions acquisitions de soci t un th me classique en veille conomique Cependant cette phras ologie est parfois galement partag e avec des documents class s par les op rateurs humains dans d autres cat gories que le th me 19 La d p che ci dessous dans laquelle nous soulignons la phras ologie typique du th me 19 est class e par les experts de Firstinvest dans le th me 18 accords partenariats contrats 13420 Satellites l am ricain Loral veut se s parer d Alcatel Alcatel refuse ce divorce et porte plainte pour violation d accords NEW 2001 04 11 12 05 00 000 L am ricain amp lt b amp gt Loral amp lt b amp gt a d cid de mettre fin sa coop ration de dix ans avec amp lt b amp gt Alcatel amp lt b amp gt dans les satellites rapportent ce matin amp lti amp gt Les Echos amp lt i amp gt amp lt br amp gt L am ricain a demand le 22 f vrier au Fran ais une s paration en bonne et due forme celle ci devrait tre op rationnelle en f vrier 2002 compte tenu du pr avis d un an pr vu dans les accords entre les deux groupes amp lt br amp gt Mais Alcatel Position adopt e par Coyaud 1972 entre autres 27 Voir la liste des th mes dans le chapitre IV
312. propositions refl t e par la ponctuation afin de d limiter grossi rement les principaux syntagmes Ce premier d coupage est affin au cours de phases d analyse ult rieures en se basant par exemple sur des indices morphologiques pour rep rer les verbes conjugu s et leurs compl ments Dans le cadre de la recherche d information une approche par analyse locale est 5 18 s x compatible avec la notion de signatures th matiques Ces signatures centr es autour d un Voir Abney 1991 Voir Abney 1996 a ou encore Roche amp Schabes 1997 7 Voir Vergne 2001 8 Voir le chapitre II 190 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL pr dicat r alis par un verbe ou un nom et de ses arguments compl ments habituels constituent la cible atteindre des lots de certitude Dans une telle approche seuls les passages contenant de tels flots seront analys s 4 1 2 3 La technique des cascades de transducteurs Les transducteurs tats finis constituent un des formalismes grammaticaux les moins contraints de la hi rarchie d finie par Chomsky En ce sens ils ont t consid r s comme inadapt s dans le cadre d une th orie grammaticale compl te telle qu envisag e par le g n rativisme En effet en raison de leur caract re peu contraint les automates tats finis sont susceptibles de reconna tre et d
313. que d une t che de classification de textes dont le filtrage d information constitue une sp cialisation Nous nous pencherons dans une premi re partie sur le domaine le plus formalis des tudes sur corpus le distributionnalisme Nous tenterons de d finir le cadre pist mologique du courant initi par Harris dans les ann es 1950 ainsi que les limites en termes de th orie linguistique impos es par ce cadre originel Nous verrons comment par des approches refusant le postulat cat gorique et logique commun ment admis ces limites peuvent tre d pass es Cette premi re partie sera ainsi l occasion d examiner deux approches compl mentaires des donn es linguistiques observables dans une perspective tant th orique que pratique la mise au point d un syst me linguistique automatis e une approche classique restant dans un cadre cat gorique o les l ments linguistiques d limit s en corpus entretiennent des relations r gies par des principes logiques e une approche non classique abordant de front l ensemble des ph nom nes rejet s par les linguistiques abstraites le g n rativisme notamment savoir des ph nom nes ayant trait principalement la variation dans les productions langagi res Dans une deuxi me partie nous tenterons de mettre en uvre les deux approches compl mentaires ci dessus sur un corpus sp cialis issu d une pratique effective de diffusion s lective d inf
314. r en faillite le num ro I mondial du marketing sportif le suisse lt b gt ISMM Group lt b gt a t d clar en faillite alors que les rachats sont majoritairement l actif Par ailleurs bien qu on se trouve dans le cadre d un langage de sp cialit on note un recours massif des m taphores conventionnelles ayant trait l ingestion l attaque et les Ainsi sur le corpus d apprentissage constitu des 200 premi res d p ches du corpus du th me 19 sur 54 phrases contenant le verbe racheter 8 seulement sont au passif 212 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL alliances faire main basse sur mettre la main sur s allier a lancer une offensive absorber etc Le champ notionnel de la comp tition est galement largement d velopp dans le corpus notamment dans le cas du th me 19 bien que la tonalit neutre adopt e pour la r daction des d p ches se traduise par l occultation des cons quences logiques d une telle comp tition i e la victoire et la d faite les deux groupes tant au coude coude le groupe fran ais lt b gt Thales lt b gt va renforcer ses positions aux Etats Unis Les d p ches sont g n ralement structur es de la fa on suivante exposition de la nature de l op ration dans les en t tes de titre ainsi que dans une partie du corps de d p che ex Ingenico met la main sur I
315. r s comme des v nements pr sentant une certaine probabilit d occurrence Le d nombrement de ces diff rents types d v nements permet d associer chaque v nement x x2 x caract re syllabe mot phrase les 8 Shannon 1948 Voir notamment Bar Hillel 1964 pp 288 290 pour une pr sentation historique de la notion d information et la n cessit de distinguer entre quantit d information et contenu associ s un document 10 On peut en effet envisager de coder l information au niveau des mots voire des type de message les plus fr quents ex f licitations pour un heureux v nement ainsi que cela se pratiquait chez les compagnies t l graphiques Bar Hillel 1964 p 278 82 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION probabilit s p p2 Pn que nous d signerons par p L entropie H c est dire l incertitude li e la survenue d un v nement i est donn e par la formule H p pi log 2 pi D finition 1 entropie associ e la survenue d un v nement x L entropie associ e l ensemble p des probabilit s est donn e par la formule H p pi log 2 pi L entropie ainsi que son inverse la n guentropie usuellement confondue avec la notion de quantit d information sont mesur es en bit ou unit s binaires Une diminution de l entropie associ e des v nements
316. r fourni les bases d une r flexion plus g n rale tentant de d passer le seul cadre applicatif En amor ant une r flexion sur le statut des unit s traditionnelles de la linguistique structurale dans un cadre probabiliste l uvre de Herdan nous semble poser une question pist mologique fondamentale dans quelles conditions une th orie linguistique non cat gorique et non logique peut elle exister Par extension quelles sont les conditions d ad quation d une th orie linguistique guid e par les observables langagiers c est dire l mergence d un Syst me supposant une abstraction n cessaire par rapport aux observables partir de stimuli langagiers dont le courant g n rativiste s vertuera d montrer la pauvret 1 3 2 1 Du cat gorique au probable La linguistique structurale classique et par la suite le courant g n rativiste se caract rise par le postulat cat gorique et logique des mod les construits ainsi que des unit s linguistiques int gr es ces mod les Nous l avons vu on peut attribuer ce postulat cat gorique et logique la reprise d une conception de la logique formelle comme instrument de science position h rit e d Aristote et confort e par la position cart sienne revendiqu e par Chomsky Or l mergence d approches probabilistes car guid es par les observables dont la variabilit a tour tour t revendiqu e par les tenants des tudes sur le terrain soci
317. rage des entit s nomm es essentiels au rep rage des signatures th matiques du th me 19 e quelques ressources pour l tiquetage des mots compos s essentiellement les mots compos s grammaticaux En raison des contraintes de temps de traitement r duits inh rentes la t che de filtrage en milieu industriel le choix des ressources mises en uvre se fait sur la base de leur int r t pour la t che on ne vise pas un tiquetage parfait mais bien plut t un tiquetage suffisant De ce fait des ressources dont la couverture est imposante telles que le dictionnaire lectronique des noms compos s du LADL i e le Delacf sont d lib r ment cart es leur contribution dans le cadre du FI n est pas apparue suffisante au regard de l augmentation du temps de traitement qu elles entra nent Pour cette m me raison dans les premiers essais la r duction d ambigu t s n tait pas mise en uvre la strat gie de filtrage par rep rage de signatures th matiques suffisant viter la plupart des ambigu t s g nantes 3 Voir Gross 1990 Courtois 1990 et Courtois amp Silberztein 1990 Voir Poibeau 2002 gt Voir le chapitre II ainsi que Habert 1998 pour une r flexion sur la compl tude de l tiquetage Voir Dister 2000 77 Cette phase de r duction d ambiguit s fait d sormais partie des traitements appliqu s en standard tous les documents
318. raisonn e telle que mise en uvre dans le cadre g n rativiste tient la part de s mantisme que l auteur attribue aux tiquettes de parties du discours ainsi qu l ensemble des unit s traditionnellement distingu es ex les substantifs d signent pr f rentiellement des choses les verbes des actions Pour l auteur ce reliquat s mantique viole la contrainte saussurienne posant la n cessit d un lien arbitraire entre signifiant et signifi violation vit e par une approche probabiliste de la distribution des unit s linguistiques Autrement dit Herdan voit dans cette approche les conditions d une tude scientifique du langage respectant les principes du structuralisme passant par la possibilit de d crire les signifiants de toute langue ind pendamment de leur signifi La d marche initi e dans son ouvrage de linguistique quantitative reprend les acquis du structuralisme notamment l uvre de Saussure en tant que fondatrice d une m thodologie scientifique dans l tude du langage Cette d marche reprend galement les acquis du courant distributionnaliste classique par la centration sur les observables et l accent mis sur l tude des nonc s effectivement produits Cependant Herdan prend position contre Harris en d plorant la formalisation insuffisante entreprise dans le cadre distributionnel Naturellement 60 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS Herdan prend galement posit
319. rces linguistiques constitu es par tudes sur corpus Il s agit en l occurrence des variantes de transducteurs tats finis utilis s dans l ensemble des traitements par le syst me Intex Dans ce cadre applicatif le choix du format de repr sentation d pend du degr de r utilisabilit souhait pour les ressources linguistiques consid r es En l occurrence la repr sentation sous forme de transducteurs graphiques Intex bien qu utile dans une phase exploratoire doit tre abandonn e au profit d une repr sentation sous forme de tables du lexique grammaire telles que d crites dans Gross 1975 L int r t de ce format de repr sentation r side dans sa souplesse peu de contraintes induites par le formalisme et sa simplicit du texte Ascii Une repr sentation sous forme de tables permet de garantir un degr lev de r utilisabilit tant les applications compatibles avec le syst me Intex que des applications trang res sont susceptibles d avoir acc s aux ressources linguistiques ainsi constitu es En effet ainsi que le montre l extrait ci dessous l adoption de ce type de repr sentation nous place d embl e dans le cadre classique de bases de donn es i e lexico grammaticales auxquelles des requ tes sont susceptibles d tre adress es afin de r cup rer les informations cod es Voir le chapitre IV consacr la mise en uvre industrielle pour plus de d tails sur le s
320. rd assistant linguistique SES Texte amp structures sch matiques Candidats Tables du Lexique Grammaire lt V gt lt aussi lt DET gt N gt ARR Nene opre Nene ropre Ej Table du Lexique Grammaire ioj x lt V gt lt pas lt PREP gt lt DET gt lt N NPropre me lt V gt lt PREP lt V gt lt DET gt lt dossier lt N NPropre gt GECI bos Y gt lt DET gt lt N gt lt PREP gt N gt AE lt V gt lt DET gt N gt PREP gt lt DET gt lt homologues V gt lt DET gt lt N gt lt V gt lt DET gt lt dossier lt N NPropre gt acc l rer chose lt gt lt a gt acc l rer recentrage lt V gt lt N NPropre gt lt N NPR gt lt N NPropre gt acquenr t ou amorcer r organisation lt PRO lt Y gt PREP gt DET N gt lt PREP lt ferrites apporter pr cision lt V gt DET gt lt actifs lt PREP gt lt N Top gt appr cier march lt V gt lt critique gt attiser convoitise lt gt DET lt N gt lt PREP gt N gt lt PREPDET gt N Top gt compl ter offre lt v gt lt PREPDET gt lt capital gt lt DET gt lt N gt sonner sesengagement lt V gt lt DET gt lt N gt d croiser participation lt V gt lt DET gt lt capacit s gt lt PREP gt lt DET gt lt N gt lt Carbone gt lt N NPR gt d croiser participation lt V gt lt PR
321. re a black box in a glass box dans lesquels les objets et la complexit du domaine reste cach e l utilisateur n ayant acc s qu aux niveaux conceptuels les plus lev s 4 4 Conclusion Dans cette partie consacr e au syst me de filtrage d information par analyse locale CORAIL reposant sur des cascades de transducteurs tats finis nous avons abord les aspects techniques op rationnels et ergonomiques de l implantation du syst me r alis e au sein du laboratoire Thales R amp T ainsi qu la Direction des Travaux Avanc s de Informatique CDC membre du consortium Nous avons d taill le cahier des charges d une plate forme op rationnelle de gestion lectronique des documents PRIAM dans laquelle le syst me CORAIL est int gr Nous avons montr quelles performances un syst me de recherche d information tel que CORAIL tait m me de r aliser et quel profondeur d analyse de la langue naturelle vue comme support d information privil gi tait n cessaire Les exp riences men es sur un corpus professionnel du domaine financier nous ont permis d une part de valider e le recours aux grammaires locales traduites sous forme de transducteurs pour le filtrage d information tant pour la qualit des r sultats que pour la ma trise des temps de traitement e approche par signatures th matiques e apport d un assistant linguistique LIZARD automatisant certaines tapes
322. re n est pas applicable le lexique dont disposent des syst mes automatiques est par nature limit De plus l o la subjectivit peut tre tol r e dans la mesure o elle refl te l exp rience du domaine des op rateurs humains une prise d initiative par un syst me automatique semble difficilement acceptable en l tat actuel des techniques Le domaine de l indexation automatique se caract rise donc par une volont de prendre le minimum d initiatives donc de risques ce qui se traduit par le recours exclusif aux observables autrement dit les mots pr sents dans les x 22 documents a indexer A propos du processus d indexation nous citons ci dessous Sp rck Jones amp Kay 1973 qui vise dresser un bilan de l interdisciplinarit dans le domaine de la recherche d information entre linguistique et plus particuli rement linguistique de corpus et indexation 7 23 x automatique de documents Le contexte historique de parution de l ouvrage n enl ve rien Ainsi Pindexation automatique d un document ne prend g n ralement pas en compte les relations connues ex synonymie simple entre les termes d un document donn et ceux d autres documents voire des parties du m me document 3 Une p riode sombre pour la linguistique informatique apr s la remise du rapport ALPAC au congr s am ricain remettant en cause les efforts entrepris dans le domaine de la tra
323. reints pour chaque th me Ainsi sur les 49 th mes valu s pour TREC 5 plus de 30 totalisent moins de 100 documents pertinents entre 0 et 92 pertinents Ces effectifs insuffisants ont une cons quence directe sur les indices statistiques employ s tels l Pour un expos plus complet des techniques d chantillonnage employ es et les mesures de pertinence statistiques des estimateurs d utilit voir Lewis 1996 163 CHAPITRE 3 LE FILTRAGE D INFORMATION que l intervalle de confiance calcul pour la mesure d utilit associ e chaque th me Dans le cas d effectifs inf rieurs 100 cet intervalle est inutilisable pour l valuation Lewis le concepteur du protocole d valuation en FI va m me jusqu affirmer que pour la cinqui me dition de TREC tant donn e la dispersion des documents pertinents travers le corpus la meilleure strat gie tait dans certains cas de ne fournir aucun document les syst mes adoptant cette strat gie auraient ainsi vit d tre trop p nalis s Lewis propose d ailleurs pour les ditions ult rieures d ajuster les donn es et ou les m triques servant l valuation afin d viter les probl mes rencontr s pour TREC 5 L auteur envisage m me d avoir recours des m triques autres que l utilit Par ailleurs les probl mes de repr sentativit des donn es fournies pour l valuation sont abord s tant pour le filtrage que pour l
324. ri t s observables auquel nous nous int resserons sera constitu des mots contenus dans des textes de sp cialit vocation informative L ensemble des propri t s non observables directement sera constitu par l expertise d op rateurs humains explicit e dans la mesure du possible qui servira de base la construction des signes Cette expertise permet d associer un ensemble de formes un ensemble de th mes ex finance terrorisme vache folle d un domaine de sp cialit Le distributionnalisme comme l ensemble de la linguistique structurale s est fond sur les acquis du mod le aristot licien notamment dans son versant classique tel qu initi par Harris et perp tu par ses h ritiers On peut donc raisonnablement s attendre ce que le distributionnalisme classique rencontre les m mes difficult s que ceux voqu s plus haut savoir le recours des op rations invisibles une structure cach e et la n cessit de devoir d cider de l appartenance cat gorielle de certains l ments Cependant ainsi que nous avons tent de le montrer la conception classique des cat gories ne constitue pas le seul mod le disponible des cat gories ce qui nous servira instaurer dans la suite de notre expos une distinction entre un distributionnalisme fond sur une vision cat gorique et logiciste que nous qualifions comme s inscrivant dans un cadre discontinu d un distributionnalisme fond sur
325. roupe nominal construit autour d un nom de soci t et comme premier compl ment N1 un groupe nominal de m me nature est typique d une op ration de cession de soci t Sans contexte et sans connaissances du monde concernant les deux soci t s mentionn es on peut interpr ter cette phrase comme une intention de la part de Loral de vendre Alcatel qui serait ainsi une filiale ou une soci t d tenue par Loral Dans les faits il s agit bien d une rupture d alliance entre Loral et Alcatel ainsi que le montre le reste du document qui sont deux soci t s distinctes Cette premi re phrase ne peut donc tre comprise avec certitude comme traitant du th me 18 que gr ce des connaissances qui ne figurent pas explicitement dans le document autrement dit des connaissances sur le monde de la finance Dans la derni re phrase en revanche le passage soulign correspond bien une r f rence au th me 19 le fait qu Alcatel et Loral investissent respectivement dans Cyberstar et SkyBridge correspond une op ration d acquisition partielle de soci t Ce document traite donc de plusieurs th mes ce qui est courant malgr le soin apport leur r daction par des professionnels Cette dispersion th matique qu on peut galement envisager sous l angle d une collision de points de vue s observe d ailleurs pour d autres corpus tudi s tels que les articles du journal Le Monde ou encore les d p
326. roupes de mots sont ils des mots Les r sultats de ces exp riences visant valuer l utilisabilit d un syst me de filtrage d information reposant sur une analyse linguistique locale militent en faveur de la diffusion de tels outils la plupart des sujets ont voqu l usage qu ils feraient d un tel syst me en des termes tels que all ger ma charge de travail ou encore ne garder que les messages importants Par ailleurs certains sujets ont fait preuve d une comp tence inattendue en mati re d analyse du langage naturel notamment en ce qui concerne les concepts de parties du discours ex nom verbe de transformation actif passif et d analyse en constituants imm diats ex groupe verbal Il est int ressant de noter pour l valuation Thales R amp T notamment que les taux d erreur sur les diff rentes t ches ont t particuli rement bas malgr leur complexit tel point qu un partage entre les t ches n a pas t possible Les exp riences r alis es dans le cadre du projet CORAIL semblent donc militer pour la diffusion de syst mes de filtrage d information visant une haute qualit d une part ainsi que celle de syst mes d analyse du langage naturel reposant sur des ressources explicites telles que les cascades de transducteurs tats finis Cependant ces exp riences soulignent galement la n cessit de disposer d une gamme de fonctionnalit s plus ou m
327. rs d une premi re analyse sont marqu s et utilis es par les analyses ult rieures Les d finitions du glossaire sont inspir es pour partie de celles donn es dans Poibeau 2002 Les termes anglais correspondants sont mentionn s entre parenth ses dans les cas o ils font partie des termes utilis s en fran ais 13 Corpus Ensemble de productions linguistiques ex discours transcrit textes formant un chantillon d une langue donn e Les corpus peuvent tre construits de fa on tre le plus repr sentatifs de la langue tudi e ils peuvent tre consid r s sous deux points de vue en tant qu chantillons ou bien comme extraits d une langue Dans les exp rimentations on distingue g n ralement entre corpus d entrainement et corpus d apprentissage Le corpus d entra nement sert au param trage des syst mes le corpus d apprentissage sert a tester la validit des r gles induites au cours de l apprentissage il est constitu de donn es inconnues du syst me valu D sambiguisation lev e d ambiguit s syntaxiques disambiguation Proc dure visant limiter le nombre d hypoth ses labor es au cours d une analyse syntaxique automatique Entit nomm e named entity Ensemble des noms de personnes d entreprises et de lieux pr sents dans un texte donn Etiquetage tagging Op ration visant assigner chaque mot d un texte une tiquette ex une partie
328. rs phases d analyse distributionnelle prenant en compte les contextes syntaxiques d occurrence des candidats signatures th matiques Cette extraction repose sur les modules Intex et Memodata et vise produire des bases de donn es lexicales proches dans leur format des tables du lexique grammaire Les signatures th matiques recherch es se distinguent des termes Bourigault 1993 des unit s lexicales complexes Habert ef al 1997 ou encore des collocations ou r seaux de collocations Ferret amp Grau 2001 en ce qu elles sont centr es autour d un pr dicat et de ses compl ments habituels Cependant elles se rapprochent de l ensemble de ces l ments en ce qu elles ne valent que pour un domaine un corpus de sp cialit et une application donn s Les pr dicats autour desquels ces signatures sont construites sont r alis s soit par des verbes pleins l actif et au passif ex racheter la filiale XY soit par des formes nominalis es ventuellement associ es des verbes support ex se porter acqu reur de la filiale XY Le rep rage et l extraction de telles signatures ne n cessite pas d analyse syntaxique profonde il est possible d utiliser la strat gie des lots de certitude connue en extraction d information et de limiter l analyse aux seuls constituants v ritablement Bi Principalement des Noms des D terminants des Pr positions quelques Adverbes 38 Par exemple Thal
329. rvables Quelle est r ellement la port e de cet argument Voir par exemple Abney 1996 b Goldsmith 2001 van Zaanen 2001 Osborne 1999 McMahon 1994 Finch 1993 Hutchens 1995 Lee 1997 ou encore Schulte im Walde 1998 46 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS Afin de pr ciser la port e de l argument chomskyen au principe de substitution examinons les deux nonc s ci dessous 1 John is eager to please 2 John is easy to please Les opposants au principe de substitution avancent que la diff rence essentielle entre ces deux nonc s savoir le renversement de r le pour John agent dans 1 patient dans 2 ne peut pas tre corr l e avec une diff rence observable dans la r partition des formes En effet les deux nonc s sont construits sur le m me sch ma NO is Adj to V Autrement dit on se trouverait dans les deux cas face une m me forme de surface alors que les formes profondes l interpr tation de ces nonc s sont diff rentes Cet exemple a servi remettre en cause de fa on cat gorique la validit des approches guid es par les observables en tant qu approches scientifiques le structuralisme europ en le distributionnalisme de Harris et les approches statistiques Sans remettre en cause compl tement l objection soulev e ci dessus il est possible d en att nuer la port e Signalons une premi re r futation pratique de cet argument l
330. s r organisation N fs lt apporter gt lt PREP gt lt N NPropre gt DET lt actifs gt lt PREP gt lt N NPR gt annonc annoncer Kms la le DET fs cession N fs de PREP lt apporter gt lt DET lt pr cision ses son DET mp fp participations participation N fp dans PREP lt apporter lt DET lt titre gt lt PREP gt lt DET gt offre KTennex N NPropre Corp N NPropre lt approuver gt applique appliquer V P35 83s pas PREP la le DET fs lt appr cier lt DET gt lt march gt Dresdner N NPropre lt attendre gt lt maintenant gt lt DET gt lt r alisation gt apporte apporter V P1s P3s 515 83sY2s PREP lt attendre gt Mobilcom N NPropre les le DET mp fp actifs de PREP lt attiser gt lt DET gt convoitise Hutchinson N NPR lt baptiser lt consortium gt fapporter VW quelques quelque DET mp fp lt changer gt lt PREP gt avis pr cisions pr cision N fp SL scirculer gt Non Sauvegard Figure 12 LIZARD extraction de formes sch matiques A ce stade un certain nombre d observations sur les pr f rences de s lection des verbes s lectionn s sont possibles on voit que pour le corpus consid r un corpus financier au moins deux constructions sont possibles pour le verbe acqu rir acqu rir Nom Propre un nom de soci t et acqu rir groupe nominal Det usine soci t groupe nom propre
331. s choses int gr es un mod le scientifique en construction selon un principe binaire vrai faux 0 1 Dans ce mod le les cat gories poss dent des fronti res bien d finies loi de contradiction par ailleurs tous les membres d une cat gorie donn e sont per us comme ayant le m me statut par exemple dans la cat gorie des mammif res aucune gradation n est envisageable dans ce mod le entre deux membres de la cat gorie tels qu un chien et un ornithorynque Le binarisme en linguistique peut aussi tre vu comme une repr sentation optimale des propri t s des l ments d crits voir ce sujet Herdan 1962 p 132 Des pr cautions semblent devoir tre prises quant cette affirmation notamment dans le cadre de l induction chez Aristote autrement dit la g n ralisation d une loi partir de quelques individus d une classe jug s les plus saillants l induction est une condensation de l exp rience analogue celle qui s op re machinalement quand des sensations se groupent autour de l une d entre elles qui est plus intense Robin 1973 p 291 italiques ajout s 33 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS Dans la vision classique le monde est n cessairement structur de fa on taxinomique les classes d objets hi rarchis es selon que leur essence est plus ou moins g n rique les traits sont plus ou moins partag s par l ensemble des objets
332. s lection de descripteurs de contenu se fonde le plus souvent sur une telle position linguistiquement faible le contexte d occurrence des l ments retenus est le document et non pas le contexte syntaxique ex phrases paragraphes De ce fait le profil distributionnel des descripteurs de contenu n inclut aucune information syntaxique telle que la constituance par exemple Pour cette raison les approches d indexation automatique sont g n ralement per ues comme repr sentant le contenu des documents sous la forme d un sac de mots bag of words Bar Hillel poursuit son analyse des lacunes des approches automatiques en indexation en critiquant la repr sentation peu structur e des informations linguistiques qu elles laborent If a certain document collection contains both documents dealing with the Export of Cars from France to the USA and the Export of Cars from the USA to France and if both kinds of documents are indexed in uniterm or descriptor fashion by export cars France USA then clearly any request for a list of documents dealing with one topic will be answered by a reference list containing also references to documents dealing with the other topic False drops of the above mentioned kind in a request for a reference list of documents dealing with the export of cars from France to the USA can be avoided if the indexing terms are taken to be export of cars from France to USA B
333. s textes dits de langue g n rale et les textes sp cialis s Cette diff rence peut tre interpr t e dans le cadre d une approche reposant sur la notion de hi rarchie de contraintes telle que d crite dans Mannning 2002 notamment comme une diff rence de statut des contraintes de amp Le principe de tels outils recyclant les tiquettes information morphosyntaxiques apport es par des analyseurs morphosyntaxiques est d crit entre autres dans Habert 1998 D autres tiqueteurs morphosyntaxiques que Intex sont envisageables par exemple Lexter Bourigault 1994 ou QTag Mason 2000 Le principe d un tel recyclage est repris entre autres par les outils Zellig Habert 1998 Cam l on S gu la 2002 Asium Faure 2002 et Upery Bourigault 2002 6t Qui s oppose un processus presse bouton o l utilisateur intervient surtout la fin pour valider ou corriger les signatures extraites 119 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION s lection passant de contraintes fortes ou de haut niveau dans le cas des textes sp cialis s des contraintes faibles dans le cas de la langue g n rale Prenons l exemple du verbe vendre Il est certain qu en langue g n rale la description exhaustive des compl ments possibles de ce verbe est difficilement pr visible elle d pend essentiellement d une r alit du monde la classe des objets
334. s d riv es de la th orie de l information ex calcul de l entropie maximale de l information mutuelle qui permettent d identifier les collocations pr sentant le plus fort degr d association par rapport l ensemble des collocations possibles Dans les mesures locales on trouve entre 92 autres le t score le z score et leurs variantes En termes linguistiques la recherche de collocations consiste isoler les l ments dont les d pendances syntagmatiques sont les plus fortes Traduits en ces termes on retrouve les principes de l analyse distributionnelle harrissienne Toutefois l o le distributionnalisme est une analyse syst matique en vue de la d limitation d unit s linguistiques des paradigmes la plupart des techniques de rep rage de collocations bas es sur des approches statistiques qui constituent notre connaissance l crasante majorit des approches dans ce domaine limitent l analyse aux franges les plus coh sives des paires de mots trait es Ces approches font par ailleurs le pari d une absence de connaissances linguistiques telles que constituance ou classement des mots en parties du discours elles ne cherchent donc pas explicitement constituer des classes d l ments linguistiques en tant que telles mais bien plut t isoler des termes d un domaine sp cialis ou encore am liorer le processus d indexation automatique d une base de documents Ces approc
335. s disponibles De plus le co t entra n par le temps n cessaire au param trage des analyseurs automatiques joue en d faveur de ces approches Par ailleurs l int r t des approches pauvres en connaissances ainsi que nous l avons vu dans Par exemple la sp cification d un montant pour une transaction dans le domaine financier Voir Manning amp Sch tze 1999 p 151 pour une pr sentation des diff rentes techniques statistiques d extraction de collocations 129 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION le cas de l indexation automatique est une ind pendance relative par rapport aux types de textes trait s en comparaison des approches base de r gles explicites Parmi les approches probabilistes pour l extraction de collocations nous traiterons essentiellement de celles bas es sur des m triques visant infirmer une hypoth se de cooccurrence entre deux l ments Autrement dit nous examinerons plus particuli rement les techniques visant d tecter des associations de mots dans une proportion en contradiction avec une r partition al atoire Ces approches font appel un ensemble de coefficients valuant la probabilit ou encore le degr de corr lation entre plusieurs l ments collocationnels tels que test du Khi coefficient de Pearson t test et information mutuelle Le test du Khi et le t test sont similaires dans leur pr
336. s financier Cette base est le r sultat d une quinzaine d heures de travail elle regroupe environ quatre vingts entr es lexicales et repr sente une partie des contraintes de s lection et de construction associ es chaque entr e ex nombre type de compl ments transformations autoris es formes nominalis es Le format de la base elle m me est libre bien que les informations contenues doivent tre en l tat actuel compatibles avec Intex On peut envisager une repr sentation XML de ces donn es traduites par la suite dans les formats compatibles avec d autres plateformes 4 3 Mesure des performances du syst me CORAIL Cette partie est consacr e l valuation des performances du syst me CORAIL Nous d taillons dans un premier temps le corpus utilis un corpus professionnel issu d une pratique effective de diffusion cibl e d information Dans un deuxi me temps nous donnons quelques mesures de performance de l approche du FI par signatures th matiques puis nous compl tons l valuation quantitative du syst me CORAIL par des l ments qualitatifs Les aspects qualitatifs sont en effet compl mentaires des aspects quantitatifs ceux que nous Par exemple structures de qualia dans le cadre du lexique g n ratif Pustejovsky 1996 ou encore structures de traits typ s dans le cadre de formalismes grammaticaux a unification 210 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES
337. s les communications sur le sujet sont ainsi consacr es la discussion des performances relatives des moteurs d indexation et de recherche utilis s d une part et des seuils fix s d autre part On le voit le flou terminologique des d buts de TREC correspond un flou conceptuel et technique induit par le recours massif des moteurs d indexation et de recherche tels que SMART Bien qu au niveau terminologique toute confusion soit d sormais impossible entre routage et filtrage d information dans les faits la confusion reste r elle Nous consid rons cette confusion persistante comme la marque du peu de maturit du domaine du FL 153 CHAPITRE 3 LE FILTRAGE D INFORMATION 3 2 2 Filtrage d information par reconnaissance de mots cl s La reconnaissance exacte de mots cl s ou de s quences de mots cl s constitue un moyen simple dont la mise en uvre informatique est bien ma tris e de fournir une d cision de s lection binaire pour un document trait par un syst me de FI Toutefois rares sont les syst mes de filtrage industriels bas s sur cette technique notre connaissance aucun syst me de ce type n a d ailleurs particip aux conf rences TREC Ainsi que nous l avons fait pour les syst mes de routage nous nous pencherons sur quelques aspects techniques sous jacents aux syst mes de FI par reconnaissance de mots cl s Nous tenterons de souligner les limites d une approche restreinte aux m
338. s mesurable a priori Cependant une telle mesure par son caract re absolu rend difficile la comparaison avec des syst mes utilisant des donn es diff rentes que celles de TREC La mesure d utilit ainsi d finie suppose qu il soit possible de comparer les scores obtenus par les syst mes valu s avec l utilit effective pour chaque document d un ensemble de r f rence issue d une pratique r elle ex FI sur un des th mes de TREC Or les 15 Un poids maximal sur le rappel 162 CHAPITRE 3 LE FILTRAGE D INFORMATION conf rences TREC se caract risent par l absence de telles donn es de r f rence En effet tant donn e la quantit de donn es textuelles fournies par TREC plusieurs Gigaoctets il est impossible d envisager un tri manuel par des experts de chaque domaine couvert par les donn es De ce fait les valuations TREC se caract risent galement par le recours massif des techniques d chantillonnage visant r duire la masse de donn es textuelles communiqu es des relecteurs humains Ces techniques d chantillonnage sont galement mises en uvre pour la comparaison entre la valeur d utilit des documents fournis par un syst me donn e pour une exp rience et la valeur d utilit r elle des documents de r f rence impossible obtenir pour les raisons voqu es Ainsi seuls des estimateurs d utilit r elle sont utilis s pour l valuation en filtrage d inform
339. s sont compar s il permet de d terminer la probabilit de corr lation entre les r sultats th oriques et les observations La formule du test de Khi est la suivante o o repr sente une valeur observ e ou r elle et c une valeur calcul e ou th orique Khi o c c Formule 5 test du Khi 2 Dans notre cas nous proposons de consid rer les performances d un syst me al atoire id al comme des valeurs th oriques attendues nous proposons donc de consid rer les r ponses fournies par les syst mes valu s comme des observations effectives En effet la t che consid r e ici revient pr dire l issue d un tirage pouvant donner deux v nements 7 Voir Bizouard 2001 pour plus de d tails 48 Voir Amardeilh 2002 218 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL pour chaque document d un corpus corpus de test et corpus de bruit d cision de s lection ou non Autrement dit nous consid rons que la probabilit th orique associ e chacun des deux v nements est gale a 2 pour l ensemble des documents de chaque corpus Ainsi le syst me th orique pr sente les performances suivantes e Effectif du corpus de test 2 103 2 56 5 e Effectif du corpus de bruit 2 50 2 25 Lors de l utilisation de tests tels que le Khi 2 on cherche valuer la probabilit d une hypoth se nulle en l occurrence que
340. s sont mieux corr l s avec les th mes trait s dans les corpus de MUC 4 que des mots cl s isol s Ainsi Riloff donne l exemple de dead qui pourrait constituer un descripteur a priori valide d un document traitant d un attentat Toutefois apr s confrontation avec les corpus MUC 4 dead appara t insuffisamment corr l avec les descriptions d attentat alors que was found dead par exemple est un bien meilleur marqueur th matique L ensemble des travaux de Riloff vise donc extraire des corpus des unit s lexicales complexes centr es autour de verbes associ s des v nements particuliers i e des attentats pour lesquels une repr sentation abstraite inspir e des frames et des scripts peut tre labor e 114 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION L approche d crite par Riloff rel ve d une application du distributionnalisme classique dans le sens o les travaux de l auteur peuvent tre vus comme une proc dure un algorithme de d couverte d ensembles de mots cl s structur s par des relations syntaxiques ex l agent occupe souvent la place du sujet syntaxique Par ailleurs les r gles de g n ration des sch mas conceptuels sont explicites cod es par le concepteur du syst me L analyse distributionnelle se limite dans le cas du syst me Autoslog aux contextes positionnels syntaxiques d occurrence d un ensemble d amorces cont
341. s syntaxiques d occurrence Ainsi ces travaux font g n ralement appel une analyse syntaxique plus ou moins profonde puis des regroupements d l ments en fonction des contextes qu ils partagent Le rapprochement des unit s lexicales peut faire appel des op rations de normalisation et de g n ralisation ex r duction des expansions d un syntagme nominal des transformations ex cancer de l intestin gt cancer intestinal ainsi qu des proc dures r gles symboliques ou des indices statistiques ex estimation de la proximit en fonction du nombre de contextes communs La particularit des travaux en terminologie est la place laiss e l mergence spontan e d l ments linguistiques pertinents supports de concepts sp cialis s Ainsi les unit s lexicales complexes extraites bien qu associ es des domaines de sp cialit n ont pas vocation servir de descripteurs dans le cadre de la RI mais bien plut t former la base d une ontologie du domaine tudi L utilisateur terminologue est g n ralement inclus dans la boucle des traitements il s lectionne les candidats termes en fonction de leur pertinence Les travaux tels que Grefenstette 1993 ou encore Daille 1994 2002 sont comparables dans leur vis e malgr la combinaison d approches symboliques classiques et statistiques la Voir notamment Habert 1998 48 Voir Bourigault 2002 110
342. s syst mes selon un maximum de bonnes performances estim es d apr s les scores d utilit obtenus sur l ensemble des requ tes trait es des algorithmes de tri op rant en deux passes ont t introduits Pour chaque syst me une premi re passe prend en compte les scores d utilit Fl F2 Fn obtenus pour une requ te donn e Dans une deuxi me passe une moyenne de ces scores est calcul e sur l ensemble des requ tes Hull souligne les avantages et les inconv nients de cet algorithme qui masque les diff rences entre syst mes en accordant la m me importance toutes les requ tes ind pendamment de leur score d utilit maximal estim Au cours de TREC 6 le paradigme d valuation est pass d une m trique isol e l utilit des m triques associ es Cette voie sera poursuivie au cours des ditions ult rieures avec l introduction notamment de mesures d utilit non lin aires 166 CHAPITRE 3 LE FILTRAGE D INFORMATION 3 3 2 4 Fonctions lin aires non lin aires d utilit et m triques associ es Les fonctions non lin aires d utilit apparaissent au cours de TREC 8 elles sont employ es en parall le aux fonctions lin aires telles que d finies plus haut Les fonctions d utilit non lin aires reprennent les cat gories de documents d finies plus haut documents pertinents et non pertinents respectivement R et N Celles test es au cours de TREC 8 sont les suivantes
343. sation 2 2 2 Ressources linguistiques issues d une analyse classique Les analyses distributionnelles men es dans un cadre cat gorique classique permettent d aboutir des descriptions des r gularit s observ es en corpus Ces r gularit s peuvent fournir la base de thesauri et d ontologies dans le cadre de la terminologie ainsi que des bases de donn es int grant des descriptions du fonctionnement lexico grammatical des unit s retenues 2 2 2 1 Thesauri et ontologie s Le domaine des tudes sur corpus visant des applications concr tes telles que des syst mes d ing nierie linguistique ou encore la p dagogie ou la lexicographie est riche d une profusion de travaux visant constituer de fa on semi automatique des descriptions les plus exhaustives possibles des usages dans leurs param tres les plus fins Ces travaux se caract risent g n ralement par le recours des approches hybrides statistiques et symboliques reposant sur des ensembles de r gles ils visent fournir des thesauri r serv s un domaine de sp cialit dans le cas de l ing nierie ou encore des ontologies d un domaine Dans le cas des applications relevant de la p dagogie la couverture des thesauri constitu s vise tre la plus tendue possible jusqu constituer la base d ouvrages de r f rence notamment pour le monde anglo saxon tels que le Longman Dictionary of Contemporary English ou encore le thesaurus Rog
344. scriptions de oral dans des langues appartenant a des groupes linguistiques diff rents deviennent accessibles rendant du m me Ce mouvement est d une telle importance que des organismes supranationaux tels que PELRA Evaluation and Language Resources Agency pour l Union Europ enne ont vu le jour afin de f d rer et de standardiser les donn es linguistiques disponibles 229 CHAPITRE 5 CONCLUSION ET PERSPECTIVES coup envisageables voire indispensables des approches guid es par les observables Nous mettons donc en parall le le d veloppement d approches empiriques avec la disponibilit en donn es linguistiques La question des relations entre scientificit et empirie se pose avec d autant plus d insistance que d autres domaines ayant pour objet les productions linguistiques effectives adoptent un point de vue linguistique faible ainsi que des approches non cat goriques 5 2 Linguistique de corpus et recherche d information Nous avons voqu les liens historiques troits entre recherche d information et TALN et nous avons examin une application d un principe d analyse automatis e reposant sur une position linguistiquement faible au probl me du filtrage d information En effet nous avons tent de d terminer la relation entre discrimination th matique et occurrence d unit s lexicales complexes les signatures th matiques Dans l exp rience d crite au chapitre 4 un
345. sducteurs tats finis CORAIL Deux campagnes d valuation ont eu lieu la premi re sur le site de Thales R amp T la deuxi me sur le site de ICDC DTA Ces deux campagnes ont concern des publics d utilisateurs diff rents L valuation men e en collaboration avec le laboratoire Thales R amp T visani analyser l appropriation du concept de grammaire locale pour le filtrage d information par des Les d tails des valuations ergonomiques sont consign s dans Viard 2000 a 221 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL utilisateurs non linguistes Le protocole d valuation comportait l origine deux volets d exp riences e des exp riences de compr hension dans lesquelles la lisibilit des grammaires locales utilis es par le syst me CORAIL tait valu e e des exp riences de production dans lesquelles les sujets devaient laborer eux m mes des grammaires locales pour le filtrage d information Seule la lisibilit des grammaires locales a pu tre valu e sur 13 sujets recrut s sur le site de Thales R amp T Aucun des sujets n tait familier des concepts linguistiques de grammaire formelle et d analyse du langage naturel la plupart n tant par ailleurs pas informaticiens La t che consistait apr s familiarisation avec l outil et les conventions utilis es associer pour chaque phrase d un corpus d u
346. se en particulier Thierry Poibeau Fr d ric Meunier et Nathalie Richardet Merci galement Olivier Grisvard Rodrigo Reyes et Pascal Bisson d avoir bien voulu partager leurs comp tences sans oublier Claire Laudy B n dicte Goujon David Faure et Camal Tazine Une th se est faite de chemins d tourn s de voies qu on abandonne en se jurant de repasser par l plus tard Merci Alain Polgu re et Sylvain Kahane d avoir bien voulu clairer ces chemins de traverse L ensemble du point de vue adopt dans cette th se doit beaucoup aux discussions informelles avec Dani le Dubois et Sophie David qui m ont fait d couvrir une vision non cat gorique des probl mes linguistiques qu elles en soient remerci es Je souhaite galement exprimer ma gratitude envers Karine Baschung qui m a toujours encourag au cours de mon parcours universitaire et professionnel Enfin cette partie ne serait pas compl te sans la mention des personnes avec qui j ai partag interrogations astuces et savoir faire au sujet de Intex principalement C drick Fairon Anne Dister Nathalie Friburger S bastien Paumier Matthieu Constant Jean Senellart et Elisabeth Ranchod Table des Mati res REMERCIEMENTS aai a Et EE ler tree nd teens sde 2 FABLE DES MATI RES nienie ee nl ln dt nt tri tint les rner etes tete tates 4 TABLE DES FIGURES 5255 es vided eas es EaR STANE etd sienne either lens eaten dete 10 TABTE DES EXEMPL
347. se nnn tenants Minime ntu nn ins ne 147 3 1 2 TREC et le filtrage d information ss 148 3 1 2 1 Une conf rence d valuation internationale 148 3 1 2 2 Des d buts h sitants ssh Bastien tanins Radish Ne AR eas 149 3212 3 Une stabilisation tardive sente ue een ist dn eee ee 150 3 2 APPROCHES POUR LE FILTRAGE D INFORMATION cine eee 151 3 2 1 Filtrage d information bas sur un moteur de recherche et d indexation 151 3 2 1 1 Principes d indexation automatique 151 32 12 PRISE SMART et d riv s asset AS 153 3 2 2 Filtrage d information par reconnaissance de mots cl s ccecccccccseesseteete tess teteteteenees 154 3 2 2 1 Principe des expressions rationnelles 154 3 2 2 2 SIFT et Infoscope deux syst mes fondateurs 155 3 2 3 Filtrage d information par reconnaissance d expressions typiques d un domaine 157 3 2 3 1 Notion de signature th matique ss 157 3 2 3 2 Des unit s lexicales complexes comme descripteurs cccceesceesceseesseeseeseeeeceseeeeeseeeeeeaeente 158 3 3 PROBL MES D VALUATION DES SYST MES DE FILTRAGE D INFORMATION ss 159 3 3 1 Quelques m triques de la recherche d information ss 159 3 3 1 1 _ Pr cision etRappel sseriessse chilerhnt hriedernmens M Lab Goa a nan a 160 3 3 1 2 Fmesur PERS nn Se ARR M ne Re ENEE 160 3 3 2 Les m triques TREC pour le filtrage d information ss 161 232
348. semble des phases de traitements ult rieures ce qui permet d adapter CORAIL diff rents types de corpus ex corpus journalistique litt raire courrier lectronique Une fois la normalisation du texte achev e l tiquetage des mots simples et compos s ainsi que des expressions fig es le cas ch ant peut avoir lieu Cet tiquetage repose principalement sur les dictionnaires lectroniques mis au point dans le cadre des travaux 2 Voir l annexe II 193 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL men s par le LADL De m me que pour les phases pr c dentes de normalisation les phases d tiquetage sont param trables il est possible d ajouter des dictionnaires sp cifiques un domaine de s lectionner l ensemble des dictionnaires appel s par d faut ainsi que l ordre dans lequel ils sont appliqu s Intex fait appel un syst me de priorit s qui permet d viter d s les premi res phases la prolif ration d tiquettes qui rendent d autant plus difficiles les traitements ult rieurs Pour le probl me qui nous occupe les dictionnaires lectroniques utilis s sont essentiellement e l ensemble des dictionnaires des mots simples livr s en standard i e les Delaf dans la terminologie Intex e des ressources listes dictionnaires et grammaires locales d velopp es essentiellement au sein de Thales R amp T pour le rep
349. semble du syst me d une langue Nous basant sur le postulat de cette tension nous interpr tons l ensemble des analyses linguistiques saussuriennes comme issues d un quilibre d une harmonisation de ces deux contraintes fondamentales Le distributionnalisme influenc par les principes structuralistes nous appara t lui aussi parcouru de cette tension entre abstraction et discr tisation se r percutant jusque dans les analyses propos es par Harris 1 1 1 3 Bloomfield la science du langage Le distributionnalisme de Harris toute comme le structuralisme saussurien se caract rise par une position fondant ouvertement l tude des observables linguistiques comme d marche scientifique Notamment la r affirmation par Harris du caract re fondamentalement arbitraire de la relation entre la face mat rielle et la face immat rielle des signes donne lieu une d marche centr e uniquement sur les observables la face signifiante des l ments linguistiques dans laquelle le sens de ces l ments n intervient qu en tant que crit re distinctif En effet le distributionnalisme est marqu par l h ritage bloomfieldien nourri de l exp rience acquise au cours des campagnes d tude des langues indiennes nord am ricaines ainsi que des principes du behaviorisme pr dominant cette poque aux tats unis Structuralisme europ en et am ricain doivent cependant tre distingu s en ce que l ouvrage de Sauss
350. sition de la facult de langage 68 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS argument la n cessit d une th orie fond e sur le paradigme Principes et Param tres il est ESS ADE i S a amen postuler des structures abstraites inn es et universelles ainsi qu un m canisme organique sp cialis d acquisition du langage LAD Language Acquisition Device Les tenants des approches probabilistes ainsi que l ensemble des linguistes cognitivistes remettent en cause la notion de stimulus pauvre ils ne nient pas que le langage consid r sous l angle d une cha ne de caract res ou de sons constitue un stimulus insuffisamment riche pour permettre un r el apprentissage toutefois ils remettent en cause cette vision triqu e du langage en plaidant pour l int gration de l ensemble des stimuli associ s ainsi que pour la r int gration des processus cognitifs dans la construction d une th orie linguistique Pereira insiste sur l information apport e par l ensemble du contexte dans lequel s inscrit une production linguistique ainsi que sur le d terminisme grounding cognitif et perceptif de cette production linguistic experience is not just a string of words but it is grounded in a rich perceptual and motor environment that is likely to provide crucial clues to the acquisition interpretation and production processes Manning et Pereira posent que l insuffisance constat e des m
351. stes d autre part fournir un service personnalis aux utilisateurs de services de documentation en leur apportant une information cibl e en fonction de leurs besoins Dans cet aper u historique de la notion de FI nous nous appuierons essentiellement sur les crits fondateurs de Luhn ainsi que sur les actes des conf rences d valuation am ricaines TREC telles que publi es par le NIST De ce fait la pr sente partie a pour but de pr ciser quelle d finition du terme filtrage d information nous adoptons En effet le domaine de la recherche d information subit les influences crois es des diff rents corps de m tier desquels il a merg documentation informatique ou encore renseignement militaire qui se traduisent par un certain flou terminologique 3 1 1 Naissance d un concept la veille conomique Dans son article paru en 1958 Luhn pose les bases conceptuelles des syst mes d information modernes Il propose un concept que nous traduisons en fran ais par veille i pe a sr 4 conomique afin de mieux souligner l aspect strat gique li cette activit gt Voir Luhn 1958 Pour une pr sentation historique du domaine voir galement Oard amp Marchionini 1996 Le terme Intelligence en anglais est li aux activit s de renseignement strat gique qu on d signe habituellement en fran ais par veille strat gique 146 CHAPITRE 3 LE FILTRAGE D INFORMATI
352. syst mes commerciaux les plus r pandus du march Lors des premi res conf rences TREC les donn es de r f rence constitu es de corpus textuels vari s ex journaux d bats la chambre des d put s d p ches journalistiques sp cialis es furent index es gr ce PRISE en vue de simplifier la t che des relecteurs assessors humains Du c t des participants la plupart des syst mes reposaient sur des variantes de SMART adapt es en fonction de chaque t che ou sous t che Filtrage et routage d information taient donc logiquement confondus jusqu TREC 4 la t che de routage consistant en l adaptation d un moteur pens pour le pull recherche d information dans une base stable de documents une t che de push recherche d information dans une base non stabilis e de documents Depuis TREC 4 filtrage et routage se distinguent par la nature de la d cision de s lection binaire pour le filtrage continue pour le routage Par ailleurs la diff rence essentielle entre les deux t ches est que seuls les documents jug s pertinents sont pr sent s aux utilisateurs dans le cas du filtrage alors que l ensemble de la base tri e selon un score de pertinence est pr sent e aux utilisateurs dans le cas du routage Cependant dans les faits l crasante majorit des syst mes participant aux t ches de filtrage se contentent de fixer un seuil permettant d muler la d cision de s lection binaire Toute
353. t lt PREP gt lt DET N gt lt V gt lt PREP gt Y gt lt DET gt N gt lt PREP gt lt N NPropre V gt lt DET lt solde lt PREP gt lt gt G n rer Table G n ration d une table du lexique grammaire Figure 13 LIZARD deuxi me phase de g n ralisation 4 2 2 4 G n ration de bases de donn es lexicales La phase de g n ration de bases de donn es lexicales a partir des sch mas de sous cat gorisation s lectionn s et ventuellement corrig s par l utilisateur constitue la derni re tape du travail sur corpus Elle vise regrouper les entr es lexicales en l occurrence des verbes en fonction de propri t s syntaxiques et s mantiques de surface communes Les entr es s lectionn es seront enregistr es et cod es dans un format proche des tables du lexique grammaire tel que pr sent dans Gross 1975 exploitable par le logiciel Intex La figure ci dessous pr sente deux tables correspondant aux deux sch mas de sous cat gorisation s lectionn s V Prep NPropre et V Det N En l tat actuel la validation des tables g n r es partir des corpus est r alis e manuellement toutefois nous 207 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL envisageons de l automatiser en utilisant les fonctions de calcul de distance s mantique de Memodata E LiZa
354. t visant re trouver et pr senter l information pertinente chaque utilisateur des syst mes de recherche d information La recherche d information peut tre mise en uvre de fa on manuelle semi automatique interactive ou compl tement automatique Routage d information routing S lection et acheminement de documents tir s d un flux d information textuelle ex fil de d p ches journalistiques L ensemble des documents sont valu s en termes de pertinence par rapport un besoin en information donn En routage d information l ensemble des documents trait s sont ordonn s en fonction de leur score de pertinence et achemin s vers les utilisateurs 15 Silence Indicateur de performance utilis dans l valuation de syst mes de recherche d information proportion de documents pertinents non trouv s parmi les r ponses des syst mes valu s Transducteur tats finis finite states transducer Graphe repr sentant un ensemble de s quences ex caract res mots en entr e et qui leur associe des s quences produites en sortie Les transducteurs peuvent tre utilis s pour associer aux s quences reconnues des informations structur es balises HTML XML mots cl s TREC Conf rence internationale d valuation de syst mes de fouille de textes text retrieval Cette conf rence reprend le fonctionnement de MUC elle est consacr e diff rentes activit s de RI de
355. t les mots tr s fr quents ex de pour le fran ais que les hapax sont consid r s comme peu porteurs d information De ce fait ils sont g n ralement absents des bases d indexation De plus les diff rences de casse majuscules minuscules ne sont g n ralement pas prises en compte afin de r duire le risque de silence ce qui entra ne l indexation des entit s nomm es A 11 ex les noms propres sur les m mes bases que les autres mots Une fois les documents d barrass s des mots consid r s comme peu porteurs d information l indexation elle m me consiste construire un vecteur n dimensions pour chaque document n tant gal au nombre de mots diff rents contenus dans le document Ainsi chaque document est repr sent par un sous ensemble des mots qu il contient consid r s comme des descripteurs suffisamment fiables du contenu du document La base de documents elle m me repr sente un espace N dimensions N tant gal l effectif total de mots diff rents contenus dans la base Ainsi chaque document repr sente un vecteur dans l espace de la base La phase de recherche initi e par une requ te d utilisateur consiste comparer le profil de la requ te dont les mots sont consid r s de la m me fa on que pour la phase d indexation avec les profils des documents de la base index e Autrement dit la phase de recherche consiste essentiellement mesurer la distance entre deux vec
356. t dit l ontologie des types d articles prise en compte n ont pas vocation pr senter des fronti res floues ni un gradient d appartenance cat gorielle 2 2 1 5 LIZARD un assistant linguistique pour l extraction de signatures th matiques L approche que nous avons suivie et implant e par le biais de l assistant linguistique LIZARD tente de concilier les avantages des travaux voqu s ci dessus Ainsi nous cherchons extraire des expressions typiques associ es des corpus de sp cialit tels que le corpus Firstinvest gr ce une analyse distributionnelle prenant en compte les contextes syntaxiques d occurrence d l ments privil gi s les verbes conjugu s Le but de cette analyse est l laboration de ce que Riloff appellerait un dictionnaire de patrons pour l extraction et que nous appelons une base de signatures th matiques d crites sous la forme de grammaires locales Cette base vise tre utilis e dans le cadre du filtrage d information t che qui s apparente la classification automatique de textes pour laquelle Riloff a test la validit de son approche 6l Voir Balvet 2002 b Voir le chapitre consacr au syst me CORAIL 118 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION LIZARD est essentiellement un dispositif de recyclage d tiquettes morpho syntaxiques associ au syst me Intex En ce sens LIZARD
357. t from it It may be that all the experiments to date have been inadequate Other possible explanations are 1 that retrieval needs are not properly understood 2 that the value of the syntactic component of an index description is affected by other system components it may either be that the correct relationships between different components have not been established or that other components are defective and 3 that essentially inadequate or inappropriate methods of handling syntax have been adopted We are reluctant to consider the possible fourth explanation namely that an indexing language cannot materially contribute to a good retrieval performance Sparck Jones amp Kay 1973 p 119 Sparck Jones amp Kay 1973 examine les liens entre recherche d information et plus particuli rement processus d indexation et linguistique sous l angle 101 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION 1 des m thodes servant l identification des unit s pertinentes dans les documents indexer 2 de la d rivation d une description de contenu partir de ces unit s pertinentes 3 de la construction et de l utilisation de classifications et autres formes de structuration des langages d indexation On peut comprendre la d marche expos e tout au long du pr sent chapitre comme relevant essentiellement du point 1 Le point 2 en revanche ne nous oc
358. t par une propension avoir recours de grands volumes de donn es h t rog nes du c t des initiatives am ricaines Du c t des valuations fran aises on observe une tendance marqu e vers le recours des donn es en quantit plus maitrisables issues de pratiques effectives valu es par des relecteurs humains Par ailleurs ces valuations ont donn lieu des r flexions d passant le cadre de l valuation sur la nature l utilit et la repr sentativit des corpus L un des enseignements fondamentaux que nous tirons des valuations TREC est la n cessit de recourir des donn es issues d une pratique effective Nous nous pla ons donc dans la continuit de la conception fran aise des valuations en RI En effet nous avons tent de montrer quel point les difficult s rencontr es au cours des ditions successives de TREC Voir notamment Landi et al 1998 Lespinasse et al 1999 et Mariani 1999 Voir par exemple Habert 2001 180 CHAPITRE 3 LE FILTRAGE D INFORMATION dans le domaine du FI une repr sentation inadapt e d un protocole d valuation reposant sur des donn es h t rog nes non maitrisables Ainsi la succession de m triques jug es inadapt es quasiment chaque dition ainsi que celle des techniques d chantillonnage tant des corpus de param trage que des corpus de test nous semble principalement due au manque de repr sentativit des
359. t s y attendre enregistre de bonnes performances tant en rappel 74 qu en pr cision 88 elles sont largement sup rieures aux performances du syst me Random La qualit du syst me Manuel tient au recensement des signatures th matiques du th me 19 tabli sur corpus sous la direction d experts du domaine Cependant les manques observ s notamment en rappel semblent dus une Les effectifs attendus font donc toujours r f rence au m me syst me th orique 5 Le nombre de degr s de libert pour chaque syst me est donn par la formule v n 1 k 1 o n repr sente le nombre de colonnes et k le nombre de lignes Pour chaque syst me on a donc v 3 1 2 1 2 5l Les valeurs de la probabilit associ e l hypoth se nulle ont t obtenues gr ce aux fonctions statistiques int gr es Excel TM 220 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL application non syst matique de principes d tudes sur corpus certaines grammaires sont incompl tes trop lacunaires car elles ne prennent pas suffisamment en compte la variation syntaxique diversit des constructions et lexicale diversit des choix lexicaux du corpus Les performances du syst me Lizard montrent clairement qu une meilleure couverture est possible notamment en int grant des connaissances g n riques tir es du DI de Memodata sans d gradation de la pr cisi
360. t sur les travaux de Cullingford 1978 pour une t che similaire Les sch mas conceptuels utilis s par Autoslog repr sentent des patrons pour l extraction d information c est dire un ensemble de s quences pertinentes d crites sous la forme d une grammaire restreinte autrement dit une grammaire locale Autoslog se base dans la construction de patrons d extraction partir de corpus sur des amorces autrement dit des termes simples tels que murder bomb ou encore terrorist Ces amorces forment la base de patrons syntaxiques ou phrases noyaux tels que NO was Ved by N1 ou encore NO V N1 La figure ci dessous donne un exemple de sch ma construit par Autoslog 5l Voir Schank amp Abelson 1977 pour une pr sentation d taill e Les frames constituent des repr sentations abstraites labor es dans un cadre cat gorique et logique identifiant les agents typiques de situations donn es ex une vente un mariage Les scripts sont plus particuli rement centr s sur les successions typiques d v nements de situations donn es ex lors d un repas au restaurant la prise de commande pr c de le repas qui pr c de le r glement de la note et la remise d un pourboire Ces deux objets conceptuels sont issus des recherches en Intelligence Artificielle et sont cens s constituer des unit s cognitives fondamentales Dans la pratique actuelle en extraction d information ces repr sentations abstrai
361. tamment que les grammaires d cidables qui constitueraient le niveau n cessaire la mod lisation de la grammaticalit ne peuvent pas tre apprises la limite partir des seuls observables quel que soit le paradigme d apprentissage Les seules grammaires apprenables la limite sont les grammaires dites hors contexte context free les grammaires sensibles au contexte context sensitive et les automates tats finis Finch 1993 ainsi que Pereira 2000 et Manning 2002 remettent en cause l argument chomskyen en d faveur de l apprentissage qui plus est en ce qui concerne Finch l auteur se positionne en faveur de l apprentissage partir des seuls exemples positifs dans un cadre non supervis En d autres termes Finch remet en cause le paradigme d apprentissage d crit par Gold et repris par Chomsky dans un cadre non supervis aucun oracle n est n cessaire 4 Pour une pr sentation plus d taill e de l argument goldo chomskyen voir Finch 1993 qui pose la constitution mod les linguistiques guid s par les observables dans les termes de la construction d une th orie scientifique 4l Cette conception de l apprentissage partir d exemples positifs et ou n gatifs est d nomm e identification de langue la limite language identification in the limit La position de la grammaire apprendre au sein de la hi rarchie de Chomsky 65 CHAPITRE 1 POUR UNE
362. tant la position d une linguistique faible semblent fournir les meilleurs r sultats La pr pond rance de ces approches est manifeste ce qui pose la question de l utilit des repr sentations linguistiques de haut niveau en tant que moyen d acc der au contenu informatif des documents L adoption de ce point de vue linguistique faible en RI est mettre en parall le avec la m me tendance observ e en TALN soulign e par Habert 1998 100 Les d veloppements r cents de la s mantique distributionnelle distributional semantics dans le domaine de VIR DSIR constituent une tentative plus aboutie que ce que nous avons pr sent ici d application des principes distributionnalistes d autres domaines que la linguistique de corpus Voir ce sujet Rajman ef al 2000 101 Que nous consid rons comme une branche de la linguistique de corpus 102 Outre Atlantique les premiers travaux dans le domaine de la linguistique formelle sont le plus souvent financ s par des organismes d pendant du Minist re de la D fense nord am ricain Chomsky 1957 par exemple a t financ en partie par US Army l Air Force Office et le Navy Office 143 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION Le TALN pratiquement depuis ses origines a cherch d terminer la complexit en termes de grammaires formelles du langage humain Les travaux r cents en parsage r
363. tant sa nature cat gorielle une expression linguistique ne correspond pas simplement la concat nation d unit s indiff renci es c est dire que le langage humain n est pas simplement un monoide libre Les mots doivent tre cat goris s et leurs possibilit s 14 Notamment dans le domaine de l astronomie dans lequel les observations de Galill e ont permis de remettre en cause les mod les aristot liciens 35 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS d association d pendent de leur appartenance aux diverses cat gories Il s agit l d une d couverte essentielle on peut l attribuer Platon et voir en Aristote son premier th oricien pour l histoire scientifique de l humanit Le conditionnement soulign par Auroux entre possibilit s d association axe syntagmatique et appartenance aux diverses cat gories axe paradigmatique constitue en effet la base des tudes distributionnelles 1 1 2 3 Influences du mod le classique sur une science du langage Nous avons pos la cat gorisation comme question centrale de la linguistique Il en d coule naturellement que le mod le de la cat gorisation sous jacent aux recherches linguistiques rev t une importance capitale L adoption de l approche classique de la cat gorisation est consid r e par certains auteurs notamment les linguistes cognitivistes comme la condition du d veloppement d une linguistique th orique Pour ces auteurs
364. tation reposant au moins pour partie sur la repr sentation des contraintes distributionnelles des l ments inversement ces contraintes pourraient tre vues comme des effets de contraintes de sens Cependant Harris ne parle du sens qu en tant qu l ment distinctif quelque soit le niveau d analyse phon tique morphologie syntaxe la position harrissienne semble tre la m me ne consid rer le sens des nonc s qu en tant qu il est le 54 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS A 34 ry os Cer r m me ou non le d tail des diff rences restant hors de port e On reconna t l influence behavioriste de l h ritage bloomfieldien dans cette position Le sens des nonc s n est donc pas ce dont Harris cherche rendre compte premi re vue l ouvrage fondateur de 1951 para t vide quant la port e explicative de l approche distributionnelle Il est n cessaire de prendre une voie d tourn e pour appr hender ce que le distributionnalisme permet d expliquer qui est contenu dans l objet m me de l ouvrage de 1951 promouvoir des objets du monde linguistique au rang d l ments construire un syst me des l ments d une langue Ainsi ce que permet d expliquer le distributionnalisme c est l mergence d un syst me d l ments linguistiques Pour cette raison la d marche distributionnelle a pu tre reprise dans le domaine de l acquisition des langues de l ens
365. tenainieni 127 Figure 4 mesures d utilit pour trois sc narios d valuation eceeeeeeceseceteeeeeeeeeeeeneeenee 162 Figure 5 d cisions de s lection d un syst me de filtrage d information et mesures d utilit COT SS OLAV 8025 Fa RS Ne A Tr A Nc 165 Figure 6 architecture fonctionnelle de la plate forme PRIAM 185 Figure 7 conception classique des rapports entre activit s de push et de pull 187 Figure 8 PRIAM une interd pendance entre push et pull 188 Figure 9 interface utilisateur du syst me CORAIL dition de grammaires locales pour le filtrage d Information ntm int iiaeiai anai anii darida 196 Figure 10 visualisation des filtrats achemin s par courrier lectronique 198 Figure 11 architecture de l assistant linguistique LIZARD 0 ee cc eecceeeeeceeeeeetseeeeenteeeees 201 Figure 12 LIZARD extraction de formes sch matiques ssceesceseceteceeeseeeseeeeeeeenaes 205 Figure 13 LIZARD deuxi me phase de g n ralisation 207 Figure 14 LIZARD g n ration de noyaux de bases de donn es lexicales 208 Figure 15 base de signatures th matiques extraites d un corpus financier sssssseseeseeee 210 Figure 16 tableau synth tique de la r partition en th mes du corpus Firstinvest 214 Figure 17 scores de rappel et de pr cision pour deux versions du syst me CORAIL compar s
366. tervient Le distributionnalisme classique de Harris visait essentiellement par le recours des proc dures d approximation et de promotion d l ments au rang d unit s op rer une telle g n ralisation Le but poursuivi d taill dans Harris 1951 est la mise en uvre d une analyse en constituants imm diats en partant des r gularit s observ es en corpus L ensemble des travaux dans le domaine de l induction grammaticale op r e aussi bien par des proc dures statistiques que symboliques vise une telle analyse en constituants imm diats partir de classes construites automatiquement sur corpus Dans ce domaine la mise en uvre de proc dures non cat goriques de d couverte d l ments coh sifs peut permettre d envisager cette coh sion sous la forme d un continuum Reprenant la distinction tablie par Herdan les l ments coh sifs les plus fr quents peuvent tre associ s au domaine grammatical donc de la Langue les moins fr quents au domaine lexical donc de la Parole 2 3 Conclusion Nous l avons vu le domaine de la recherche d information partage avec les tudes sur corpus l objet d tude que constituent les productions linguistiques Ces productions ne sont cependant pas envisag es sous l angle de leur sens mais de leur contenu informatif Cette pr cision permet de contourner le probl me de la d termination du sens partir des seuls observables linguistiques toutef
367. tes sont d nomm es des sc narios d extraction 5 Les travaux de Riloff portent majoritairement sur les corpus de MUC 3 d crivant des actions terroristes 112 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION Name MURDERED Event type MURDER Trigger word murder Activating conditions passive verb Slots VICTIM lt subject gt human PERPETRATOR lt prep phrase by gt human INSTRUMENT lt prep phrase with gt weapon Figure 1 un sch ma conceptuel pour l extraction d information par le syst me Autoslog Dans ce sch ma conceptuel l v nement d crit est typ MURDER les amorces sont identifi es murder ainsi que les conditions d activation du sch ma consid r voix passive Ce sch ma comporte trois champs s ots instanci s par les l ments extraits des documents trait s les champs VICTIM PERPETRATOR et INSTRUMENT Chacun de ces champs correspond un r le casuel identifi par un comportement syntaxique typique e la position de sujet syntaxique occup e par un syntagme nominal typ en tant que humain e la position de compl ment d agent rep r e par la pr position by e celle de compl ment circonstanciel de type arme rep r e par la pr position with L instanciation de ce sch ma conceptuel doit tre vue comme l application de la 7 54 proc dure algorithmique
368. teurs dans un espace N dimensions celui repr sentant la requ te et celui d un document de la base op ration r p t e pour tous les documents de la base L ensemble des documents est ainsi tri en fonction d une m trique de distance calcul e entre le vecteur de la requ te et leur vecteur d indexation Les variantes de cette approche reposent sur des algorithmes propri taires destin s optimiser les phases d indexation et de recherche ou en fixant de fa on plus ou moins 10 Toute s quence de caract res d limit e par deux s parateurs typographiques espace ponctuation 1 Un exemple trivial est celui de V Poutine pr sident actuel de la Russie que des moteurs d indexation classiques consid rent de la m me fa on que la poutine sp cialit qu b coise alors qu un certain nombre d indices typographiques permettraient de les distinguer 152 CHAPITRE 3 LE FILTRAGE D INFORMATION empirique des seuils en dessous desquels les documents ne sont plus consid r s comme pertinents D autres approches consistent par exemple supposer un espace d indexation fixe d termin par une hi rarchie de concepts consid r s comme universels 3 2 1 2 PRISE SMART et d riv s SMART le moteur de recherche et d indexation originel de Salton constitue le syst me duquel d coulent entre autres PRISE le moteur utilis par le NIST pour les conf rences TREC ainsi que l ensemble des
369. th orique pr sent plus haut associant une probabilit de s lection de 1 2 pour chaque document du corpus consid r Le tableau donne la diff rence entre effectifs observ s et attendus ainsi que la valeur du Khi correspondante La derni re colonne pr sente la probabilit associ e l hypoth se nulle calcul e en fonction du nombre v nu de degr s de libert du tableau de contingence ci dessus v 2 Pour v 2 le seuil de pertinence est atteint probabilit gale 0 05 pour un score de 1 On le voit le seul syst me pour lequel l hypoth se nulle ne Khi sup rieur ou gal 5 99 peut tre cart e est le syst me Random Khi 0 98885664 Le test du Khi permet donc d infirmer l hypoth se nulle pour les syst mes e Manuel avec une probabilit d erreur de 9 34 10 valeur arrondie e Lizard avec une probabilit d erreur de 1 48 10 Le test du Khi permet donc de compl ter l valuation classique reposant sur des scores de pr cision et de rappel en pr cisant la probabilit d erreur associ e au rejet de l hypoth se nulle Dans le cas des deux variantes du syst me CORAIL cette hypoth se nulle peut donc tre infirm e Une deuxi me remarque peut tre faite au sujet de ces r sultats elle concerne l apport d un assistant linguistique dans le processus d laboration de grammaires locales pour le filtrage Le syst me Manuel ainsi qu on pouvai
370. that document retrieval systems are necessarily crude Abbreviated document descriptions are presumed and ill designed requests are probable or even certain Some simplicity in the characterization of information if therefore inevitable and it is unlikely that performance for poor requests can be much improved by sophisticated simplicity It is more productive to maintain that the difficulty of relating linguistics and information retrieval comes from the fact that linguistic theories are still far from adequate and that the design of good information retrieval systems is not at all understood We may then hope that even if simplicity is all that is linguistically needed it had better be sophisticated simplicity we should surely be able to do better in providing 35 Ttaliques ajout s 103 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION document summaries that mere keyword lists and we may legitimately believe that linguistics should help us here Sp rck Jones amp Kay 1973 p 198 La difficult principale de l alliance entre ing nierie linguistique et recherche d information dans le bilan que dressent Sp rck Jones amp Kay semble provenir de l incompl tude des mod les linguistiques disponibles ainsi qu leur manque de robustesse Les passages cit s r sument toute l ambivalence des tentatives d alliance entre linguistique et recherche d information
371. tic Information Organization and Retrieval McGraw Hill Book Co New York Salton G 1971 The SMART retrieval system Prenctice Hall Sapir E 1921 Language an introduction to the study of speech Harcourt Brace New York 249 Schulte im Walde S 1998 Automatic semantic classification of verbs according to their alternation behaviour th se de doctorat Institut fiir Maschinelle Sprachverarbeitung Sekine S Carroll J Ananiadou S Tsujii J I 1992 Automatic Learning for Semantic Collocation 3rd Conf on Applied Natural Language Processing 1992 Trento Senellart J 1999 Outils de reconnaissance d expressions linguistiques complexes dans de grands corpus th se de doctorat universit Paris VII S gu la P 2002 Construction de mod les de connaissances par analyse linguistique de relations lexicales dans les documents techniques th se de doctorat universit Toulouse II Shannon C E 1948 A mathematical theory of communication Bell system technical journal n 27 pp 379 423 623 656 Silberztein M 1989 Dictionnaires lectroniques et reconnaissance lexicale automatique th se de doctorat universit Paris VII Silberztein M 1990 Le dictionnaire lectronique des mots compos s Langue Fran aise n 87 pp 71 83 Larousse Paris Silberztein M 1993 Le syst me INTEX Dictionnaires lectroniques et analyse automatique des textes Paris Masson Silberztein M 1999 Documentat
372. tions th se de doctorat en informatique Universit Paris VI Strzalkowski T Guthrie L Karlgreen J Leistensnider J Lin F Perez Carballo J Straszheim T Wang J Wilding J 1996 Natural language information retrieval TREC 5 report TREC 5 NIST Special Publications Gaithersburg MD Strzalkowski T Lin F Perez Carballo J 1997 Natural language information retrieval TREC 6 report TREC 6 NIST Special Publications Gaithersburg MD Strzalkowski T Perez Carballo J 1995 Natural Language Information Retrieval TREC 4 Report TREC 4 NIST Special Publications Gaithersburg MD Strzalkowski T Perez Carballo J Marinescu M 1994 Natural language information retrieval TREC 3 report TREC 3 NIST Special Publications Gaithersburg MD Tapanainen P Jarvinen T 1994 Syntactic analysis of natural language using linguistic rules and corpus based patterns Proceedings of the Fifteenth International Conference on Computational Linguistics COLING 94 vol 1 pp 629 634 Kyoto Taylor J R 1995 Linguistic categorization prototypes in linguistic theory second edition Clarendon Press Oxford Trotignon P 1968 Aristote L Analytique Presses Universitaires de France Paris Turenne N 2000 Apprentissage statistique pour l extraction de concepts partir de textes application au filtrage d informations textuelles th se de doctorat universit Louis Pasteur Strasbourg 251 Vergne J 2
373. tiquement homog nes partir de contraintes distributionnelles Signalons toutefois que l ouvrage visait la langue g n rale non les langues de sp cialit comme c est le cas pour Harris ef al 1989 Habert 1998 et Sager 1987 109 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION exprim e quant la constitution de classes s mantiques partir de r gularit s de comportement distributionnel tient essentiellement aux corpus tudi s dans lesquels les contraintes fortes du domaine de sp cialit 1 e la finance se heurtent des contraintes d ordre stylistique dans la r daction des d p ches En cela notre objet d tude se distingue des corpus plus contraints tels que ceux de l immunologie Harris et al 1989 de la m decine Habert 1998 ou encore de l agronomie Morin 1999 2 2 1 2 Extraction terminologique Parmi les approches directement inspir es du distributionnalisme classique men s dans une optique terminologique les travaux de Bourigault 1994 Bourigault 2002 de Bouaud et al 1997 Habert 1998 Habert amp Fabre 1999 se distinguent par leur fid lit aux principes nonc s par Harris Ces travaux ont pour vocation d extraire des unit s lexicales complexes rattach es des domaines de sp cialit ex m decine agriculture sur la base de leur comportement linguistique c est dire sur la base de leurs contexte
374. toire 217 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL Le syst me d nomm Manuel repose sur des grammaires locales labor es manuellement en interne Thales R amp T en se basant sur un recensement des signatures th matiques tabli par une entreprise partenaire E XML Media sous la supervision d experts financiers Le syst me d nomm LIZARD int gre l assistant linguistique dans la phase d laboration de grammaires pour le filtrage et permet de constituer de fa on interactive une base de donn es lexicales pour le domaine de sp cialit vis Ce syst me se base galement sur le recensement des expressions typiques du domaine financier tabli par E XML Media Le syst me Random sert de borne inf rieure il s lectionne les documents ind pendamment de leur contenu de fa on al atoire Les scores de rappel et de pr cision donn s ici pour ce syst me ont t mesur s sur 10 exp riences les r ponses variant chaque essai 4 3 2 3 Discussion des r sultats La discussion des r sultats d gag s de l valuation ci dessus repose sur la mise en ceuvre du test du Khi ou test de Pearson afin d valuer la corr lation des r ponses fournies par les diff rents syst mes et la cible constitu e par les donn es de r f rence Le test du Khi s applique dans le cas o des r sultats th oriques et des observations effective
375. tre probl me en ce qu elle fait le postulat raisonnable que les objets du monde ne sont pas connaissables directement mais bien plut t par les relations qu ils entretiennent entre eux De la notion de syst me d coule d ailleurs la notion de valeur saussurienne qui a l l gance de ne faire appel 40 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS qu des crit res linguistiques assurant par l m me un degr de coh rence interne de l objet mod lis sans faire appel un appareil formel externe ex math matiques logique Nous reviendrons sur cette notion de valeur dans la suite de notre d veloppement notamment au sujet de la m thode distributionnelle Par ailleurs la formalisation de la notion de syst me permet d aborder les probl mes de construction de grammaire ainsi que celle plus large de mod le d un ensemble de donn es linguistiques observables 1 1 3 3 Signe La notion de signe ou association d un ensemble de propri t s linguistiques observables formes et de propri t s non observables directement sens dans une acception large est centrale pour notre propos En effet le probl me qui nous occupe revient re trouver les signes associ s un domaine de sp cialit au moyen d une analyse linguistique afin d en faire un recensement de les organiser en un syst me ou plusieurs sous syst mes traduits en un format interpr table par une machine L ensemble de prop
376. trouve son origine dans le domaine de la linguistique anglo saxonne dans ses applications la p dagogie et aux tudes litt raires Firth 1957 Cette notion jouit actuellement d un regain d int r t de la part de la communaut de la recherche d information int grant des contraintes d ordre linguistique En effet les collocations et les techniques de d tection automatique employ es avec profit rendent compte de r gularit s observables dans le domaine de la Parole ce qui permet d envisager l laboration de grammaires locales de fa on automatique par confrontation avec des exemples positifs tir s des corpus Par ailleurs le recours des bases de collocations en RI permet d envisager l int gration de contraintes compositionnelles et idiomatiques qui correspond nos yeux la simplicit labor e pr n e par Sp rck Jones amp Kay Cette int gration peut tre vue comme un moyen terme entre la position linguistiquement faible dominante dans le domaine et une position linguistiquement plus exigeante visant des analyses syntaxiques compl tes 2 2 3 2 Quelques techniques d extraction de collocations Les principales techniques d extraction de collocations mettent en uvre des techniques statistiques dans le cadre d approches pauvres en connaissances knowledge poor En effet les techniques bas es sur des analyses morphosyntaxiques automatiques sont confront es aux limites des analyseur
377. tute En effet la d claration d un agent OAA passe sch matiquement par la sp cification des services qu il assure en termes de requ tes et de r ponses les changes normalis s entre agents OAA tant contr l s par un agent superviseur L int r t majeur de la plate forme OAA est la possibilit de faire cohabiter des agents h t rog nes en l occurrence pour LIZARD les agents Memodata Interface et tiqueteur sont crits en Java alors que l agent Intex est d velopp en C C En mode multi agent l ensemble des changes entre agents modules ont lieu sous la forme de requ tes adress es au superviseur central qui les aiguille vers le bon service LIZARD peut ainsi tre transform en un syst me multi agents distribu les modules gourmands en ressources tels que Memodata et Intex peuvent tre h berg s sur des serveurs d di s pour ne laisser que l interface utilisateur sur le poste client LIZARD fonctionne comme une surcouche au dessus des composants particuliers int gr s destin e autant faciliter la t che de d veloppeurs experts dans l laboration de Voir Mason 2000 pour une pr sentation de cet tiqueteur reprenant le principe des tiqueteurs de type Brill tagger Brill 1992 ainsi que ceux des tiqueteurs statistiques 33 Jeux de caract res ASCII comprenant ventuellement des balises de type HTML Voir Fellbaum 1998 pour une pr sentation de ce thesaurus le
378. u es Autrement dit ces syst mes restent dans l optique sac de mots adopt e par les syst mes de routage Nous posons qu une approche prenant en compte la structuration du mat riau porteur d information en l occurrence le langage naturel est possible voire souhaitable 156 CHAPITRE 3 LE FILTRAGE D INFORMATION 3 2 3 Filtrage d information par reconnaissance d expressions typiques d un domaine Dans cette partie nous proposons une alternative aux syst mes base de mots cl s L approche d crite reste compatible avec la d finition retenue du filtrage d information elle est bas e sur une analyse syntaxique locale visant rep rer les expressions typiques d un domaine de sp cialit et leurs variantes Nous d finissons en premier lieu la notion de signature th matique puis nous d taillons la constitution d un ensemble d unit s lexicales complexes utilis es comme descripteurs th matiques 3 2 3 1 Notion de signature th matique Le recours des termes isol s comme descripteurs th matiques c est dire des termes pouvant servir l indexation de documents est limit ces termes hors contexte pr sentent g n ralement une forte ambigu t th matique Il en va ainsi de acheter par exemple Ce terme pourrait tre utilis comme descripteur de documents traitant de transactions financi res cependant il para t vident qu utilis seul acheter n est pas un
379. ubstantial general linguistic apparatus The assumption this whole survey has been intended to examine in other words is that the data and objectives of information retrieval do not imply nongeneral purpose oriented linguistic theories which are qualitatively different from those that concern ordinary linguists The most striking fact to emerge from the literature however is the difficulty of marrying linguistic techniques and retrieval objectives The difficulty is indeed so great as to cast doubt on the assertion that general linguistic theories are prerequisites for effective information processing and retrieval As noted linguistically very crude procedures seem to work quite well in retrieval and it is in practice not obvious how more sophisticated ones should be used Sparck Jones amp Kay 1973 p 197 Les auteurs soulignent la difficult d int grer des analyses linguistiques au processus de recherche d information pour aboutir la conclusion que les approches adoptant un point de vue linguistique faible semblent donner les meilleurs r sultats T he tempting general conclusion to draw from experience to date is that for the special purpose of document retrieval general linguistic theories are not required Since comparatively simple approaches like those involving statistically extracted key words simply coordinated seem to work as well as ones relying on richer linguistic information we may conclude
380. uct in one science a detailed description and investigation of all the regularities of a language Cf Rudolf Carnap Logical Syntax of Language 8 Direct analysis of languages must fail just as a physicist would be frustrated were he from the outset to attempt to relate his laws to natural things trees etc He relates his laws to the simplest of constructed forms thin straight levers punctiform mass etc Linguists meet this problem differently than do Carnap and his school Whereas the logicians have avoided the analysis of existing languages linguists study them but instead of taking parts of the actual speech occurrences as their elements they set up very simple elements which are merely associated with features of speech occurrences Harris 1951 p 16 Italiques ajout s 29 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS On voit l oeuvre dans ce passage la m me tension voqu e plus haut pour le structuralisme saussurien entre objets du monde tudi s dans une approche scientifique et n cessaire abstraction par rapport aux choses naturelles natural things On voit galement quel r le jouent les corpus pour Harris en tant qu chantillons de Langue et non comme simple accumulation de faits de Parole les lois ou r gles que le linguiste cherche a tablir doivent tre mis en rapport avec des objets non plus naturels mais bien construits th oris s Ces objets repr sentent la m me
381. un th me que d un autre o la valeur des Coyaud 1972 p 133 21 Nous renvoyons le lecteur Coyaud 1972 pour les r f rences exactes et les d tails de chaque exp rience 91 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION l ments du syst me est sensible au contexte aux attentes aux effets d amorce induisant des points de vue changeants Autrement dit nous reconnaissons la part de subjectivit propre chaque op rateur d un syst me d information comme une donn e prendre en compte Notre exp rience du sous domaine du filtrage d information nous pousse consid rer cette subjectivit comme n cessaire cette activit de recherche d information particuli re de ce fait nous la percevons plus comme la manifestation d une expertise que comme un effet de bord n faste Pour cette raison nous nous d marquons de la vision de Coyaud de l indexation op r e sur des bases linguistiques comme seule garante d une objectivit que nous qualifions d artificielle pour proposer une conception de la recherche d information et plus particuli rement du filtrage d information prenant en compte les relations de d pendance existant entre les l ments inclus dans des structures linguistiques particuli res 2 1 2 3 Indexation automatique et s lection de descripteurs de documents En indexation automatique le concept de descripteur lib
382. une ad quation descriptive du mod le en construction Nous insistons ici sur la notion d quilibre qui nous semble contenir en germe les deux approches distributionnelles possibles des faits de langue d velopp es plus bas l approche classique cat gorique et logique et l approche probabiliste En effet en mati re d quilibre deux conceptions sont possibles celle d un quilibre statique oppos e celle 7 Voir plus bas Italiques ajout s 30 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS d un quilibre dynamique Le premier suppose des objets du monde intrins quement quilibr s et stables tout le moins l chelle temporelle humaine Le second voit dans l tat d quilibre le r sultat d un processus dynamique passant par la neutralisation de contraintes oppos es ex la force de gravitation oppos e la force de frottement Ces deux visions de la notion d quilibre qui conditionnent deux conceptions de la notion de r gle linguistique ont souvent t illustr es par la m taphore du cristal oppos celle de la flamme qui a pour m rite de r concilier deux positions oppos es dans l tude des faits langagiers la premi re cherchant des loi et des r gles cristal la seconde pensant le monde en probabilit s en termes de r gularit s flamme 1 1 2 Classification et linguistique structurale Nous nous attachons ici aux liens troits entre l tude du langage
383. une classe d v nements donn s La Th orie de l Information ou pour reprendre les termes de Bar Hillel 1964 la Th orie de la Transmission des Signaux Theory of Signal Transmission d finit un cadre formel pour la quantification de l information v hicul e par un signal L valuation de la quantit d information apport e par un signal est li e l adoption d un processus de codage optimis pour l information v hiculer dans des conditions o la transmission est susceptible de ne pas tre parfaite ex un c ble t l graphique Le signal transmettre peut consister par exemple en un message compos de caract res pris dans un alphabet Consid rons l exemple suivant e soit un message X transmettre compos d un seul caract re A ou B La variable X dans le cas d une r partition al atoire peut donc prendre la valeur A ou B Dans le cas pr sent la probabilit que X A not e p A est la m me que celle que X B not e p B c est dire p A p B 2 0 5 e dans ce cas l incertitude li e la composition du message est la m me quelque soit le message Cette incertitude est mesur e par la notion d entropie H calcul e sur l v nement X donn e par la formule H X 0 5 Log2 0 5 0 5 0 5 Le m me raisonnement peut s appliquer sur d autres l ments que les caract res les 10 sar ror r syllabes les mots ou encore les phrases consid
384. une d cision de s lection binaire oui non sur un document tir d un flux dynamique en comparant le profil informatif de ce document avec les besoins en informations exprim s par une communaut d utilisateurs Autrement dit on attend d un tel syst me une r ponse d finitive reproductible instaurant une rupture de continuit dans un processus qui s il est pens en termes de t che de cat gorisation ne peut satisfaire ces attentes Plut t que de penser le FI comme un processus fig nous estimons utile d envisager un fonctionnement dynamique proche des syst mes satisfaction de contraintes dont nous donnons ici une esquisse Dans cette vision dynamique plusieurs objets conceptuels sont requis e un ensemble de contraintes e une hi rarchie ordonnant les contraintes en fonction de leur caract re plus ou moins violable e un processus de satisfaction de contraintes Il est possible de reprendre les principes la th orie de l Optimalit introduite en linguistique par Prince amp Smolensky 1993 comme cadre un tel syst me base de contraintes Les contraintes d un syst me de filtrage dynamique peuvent tre distingu es entre e contraintes portant sur les observables des documents essentiellement les expressions typiques d un domaine de sp cialit ou signatures th matiques contrainte ST ainsi que des principes m taphoriques relativement fig s EM analysables par
385. une deuxi me phase qui vise ne produire que des sch mas de sous cat gorisation tels que V Det N V Prep Det N Les sch mas produits sont dans l tat actuel d pendants des textes trait s En cela nous nous rapprochons de Riloff 1994 Dans cette deuxi me phase seules sont pr sent es les tiquettes de partie du discours des extraits s lectionn s sous la forme d une liste qu il est possible de trier ex tri alphab tique sur le premier champ Cette liste est destin e fournir une estimation de la productivit des diff rents sch mas de sous cat gorisation extraits du corpus La figure ci dessus donne un aper u de la liste de sch mas de sous cat gorisation g n r e partir du corpus tiquet de d part La deuxi me phase de g n ralisation sert essentiellement proposer des candidats signatures th matiques qui seront stock es dans la base de donn es lexico grammaticales sous une forme proche des tables du lexique grammaire La proc dure de g n ralisation concerne les traits morphosyntaxiques associ s aux lex mes genre nombre personne ou encore codes s mantiques ex N NPropre pour un nom de personne N Top pour un toponyme pour Les mots mal tiquet s ou inconnus du syst me sont conserv s tels que ex solde avis 4 Une entr e lexicale suivie de traits binaires codant un certain nombre de propri t s syntaxiques et s mantiques telles que le type des c
386. une mesure entre l analyse des individus parlants et celle de l historien bien que toutes les deux usent du m me proc d la confrontation des s ries qui pr sentent un m me l ment Elles se justifient l une et l autre et chacune conserve sa valeur propre mais en dernier ressort celle des sujets importe seule car elle est fond e directement sur les faits de langue L analyse historique n en est qu une forme d riv e Elle consiste au fond projeter sur un plan unique les constructions des diff rentes poques Le mot est comme une maison dont on aurait chang a plusieurs reprises la disposition int rieure et la destination L analyse objective totalise et superpose ces distributions successives mais pour ceux qui occupent la maison il n y en a jamais eu qu une Saussure 1972 pp 251 253 Ainsi la position exprim e par Saussure est celle d une conciliation des deux points de vue dans l optique d une tude scientifique des faits langagiers Nous voyons avec les 5 Ttaliques ajout s 173 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS partisans des approches non cat goriques et non logiques essentiellement les tenants de la linguistique cognitive et ceux d une approche probabiliste des faits langagiers les conditions de l mergence d un nouveau point de vue sur l tude scientifique des faits langagiers apte concilier les deux vis es identifi es par Saussure
387. ure n tait que peu diffus outre Atlantique 28 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS L arbitraire chez Harris rejoint l arbitraire saussurien en tant que fondement d une tude scientifique des faits langagiers The only body of data required for the whole analysis of language is the indication that certain sound sequences out of some large sample are utterances of the language with normal acceptance or less while others are not and that certain ones are repetitions of each other Structural linguistics shows how these utterances can be characterized as a set of constructions on certain discrete elements Mathematical linguistics shows that the characterization can be made in terms of other sets defined by certain relations among these linguistic elements and that entities in the new set are arbitrary and are defined only by the relations among the new sets Harris 1968 p 1 Cette exclusion des ph nom nes s mantiques a t justifi e par le rejet du mentalisme qui peut tre associ la diffusion du courant behavioriste outre Atlantique se superposant aux principes scientifiques existants h ritage aristot licien et structuralisme bloomfieldien La recherche d une scientificit pour une linguistique pens e cette poque comme essentiellement descriptive est palpable dans le passage ci dessous It is widely recognized that forbidding complexities would attend any attempt to constr
388. us avons vu que la distinction avec le routage n est que 7 Les campagnes d valuation CLEF proches de TREC ou encore les campagnes plus centr es sur la qualit telles que celles men es dans le cadre du projet Technolangues du Minist re de la Recherche et de la Technologie 172 CHAPITRE 3 LE FILTRAGE D INFORMATION tardive re oivent les m mes donn es que les participants d autres t ches plusieurs Gigaoctets de textes regroupant des articles de journaux sp cialis s ou non des transcriptions de d bats politiques ou encore des d p ches journalistiques couvrant des domaines aussi divers que la l gislation nord am ricaine l impact environnemental des pluies acides ou encore la baisse des stocks de poisson la disposition des poissonneries commerciales de la Communaut Europ enne Des corpus d une telle ampleur couvrant des domaines aussi diversifi s sont bien adapt s l valuation de moteurs d indexation et de recherche autrement dit des activit s de pull mais pas celle de syst mes de FI ou activit s de push En effet le filtrage est avant tout une activit d experts d un ou plusieurs domaines pr sentant des besoins en information stables travaillant sur des petits volumes de donn es quelques Kilooctets par jour compar s aux Gigaoctets fournis par TREC Il n est de toute vidence pas possible ni faisable ni notre avis souhaitable de mobiliser l exp
389. us nous concentrerons sur un domaine de sp cialit le domaine financier et plus particuli rement le sous domaine des cessions acquisitions de soci t s 2 2 Extraction de marqueurs th matiques linguistiques par analyse distributionnelle Dans cette partie nous nous penchons sur quelques approches que nous jugeons repr sentatives pour le probl me qui nous occupe visant extraire des documents des l ments linguistiques sp cialis s associ s de fa on pr f rentielle des domaines d activit s pr cis Nous aborderons donc dans un premier temps le domaine de l analyse distributionnelle discontinue des corpus visant a en extraire soit des termes soit des marqueurs th matiques ayant un fondement linguistique ex des structures syntaxiques ayant une valeur th matique particuli re Dans un deuxi me temps nous examinerons les descriptions linguistiques formalis es auxquelles cette analyse permet d aboutir des 4l Voir Charniak 1993 pour une pr sentation d une approche statistique du TALN et de l apprentissage de grammaires CFG probabilistes PCFG 107 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION ressources linguistiques utilisables par des syst mes informatiques en tant que ressources Nous examinerons galement l apport d une analyse non cat gorique notamment par le biais de la notion de collocation 2 2 1 Analyse distributionnelle dis
390. uter science University of Maryland Faure D 2000 Conception de m thode d apprentissage symbolique et automatique pour l acquisition de cadres de sous cat gorisation de verbes et de connaissances s mantiques partir de textes le syst me ASIUM th se de doctorat universit Paris XI Fellbaum S 1998 Wordnet an electronic lexical database MIT Press 239 Ferret O Grau B 2001 Utiliser des corpus pour amorcer une analyse th matique TAL n 42 Linguistique de corpus Herm s Sciences Publications Paris Finch S P 1993 Finding structure in language th se de doctorat universit d Edinburgh Finkelztein Landau M Morin E 1999 Extracting semantic relationships between terms supervised vs unsupervised methods nternational Workshop on Ontological Engineering on the Global Information Infrastructure pp 71 80 Dagstuhl Castle Firth J 1957 Papers in linguistics Oxford University Press Grefenstette G 1994 Explorations in Automatic Thesaurus Discovery Kluwer Academic Press Boston MA Fourour N 2002 Nemesis un syst me de reconnaissance incr mentielle des entit s nomm es pour le fran ais Actes de la huiti me conf rence sur le Traitement Automatique des Langues Naturelles 2 5 juillet 2001 pp 265 274 Tours Fuchs C 1980 Paraphrase et th ories du langage contribution une histoire des th ories linguistiques contemporaines et la construction d une th orie nonciat
391. uvement rise fall decline et annonces de b n fices e verbes d accord agree accept et annonces de fusion de transactions L approche d crite par Klavans amp Kan 1998 reprend l hypoth se harrissienne d une sp cialisation linguistique associ e une sp cialisation dans le domaine d activit duquel Miller et al 1990 117 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION mane le corpus tudi La typologie textuelle bauch e repose sur des estimateurs de corr lation th me pr dicats verbaux tout en restant dans une conception relativement classique de l approche distributionnelle En effet la centration sur les pr dicats verbaux donc sur les types d v nements d crits dans les documents analys s repose sur une caract risation des contraintes de s lection et de sous cat gorisation des verbes d apr s les principes d crits dans Levin 1993 Ces propri t s des verbes de l anglais forment la base d une ontologie s mantique en fonction des contraintes mises jour par le biais d un cadre m thodologique tr s contraint Nous voyons un parall le entre les tudes men es par Levin sur les verbes anglais et celles d crites dans Gross 1968 1975 1986 par exemple suivant des principes distributionnalistes pour les substantifs les verbes et les adverbes en fran ais Par ailleurs les genres textuels consid r s autremen
392. variation observ e dans les productions effectives a t consid r e comme fondamentalement incompatible avec l laboration d une th orie linguistique scientifique reposant sur des principes logiques et cat goriques Les r cents d veloppements dans le domaine de la linguistique empirique marqu s notamment par l abandon du principe cat gorique au sujet de la grammaticalit ainsi que la faillite des approches linguistiquement fortes telles que le g n rativisme dans le domaine applicatif font de la question de la scientificit d un fondement empirique d une th orie linguistique une question d actualit c est l objet du passage ci dessous All in all while much still remains to be done we may well be seeing the beginning of a new version of the Harris program in which computational models constrained by grammatical considerations define broad classes of possible grammars and information theoretic principles specify how those models are fitted to actual linguistic data Pereira 2000 p 1250 Le d bat entre fondement empirique et th orique d une science doit tre mis en rapport dans le cas de la linguistique avec la disponibilit accrue de donn es observables depuis le d but des ann es 1990 En effet le regain d int r t pour le programme distributionnel intervient 4 un moment ou au niveau mondial des corpus de toute nature langue g n rale litt rature domaines de sp cialit tran
393. ws Corp True North Etats Unis Pernod Ricard On peut interpr ter ce comportement comme la manifestation d un gradient de compositionnalit des l ments composant une entit nomm e En l occurrence pour les 4grammes consid r s Jean et sont indissociables et les l ments Marie Claude Jacques Louis le sont dans une moindre mesure Soulignons toutefois qu en raison de la taille modeste du corpus tudi ici moins de 1 M gaoctet de texte il est difficile d en extraire des collocations par le biais des mesures pr sent es plus haut De ce fait les observations consign es ici sont prendre comme des perspectives de recherche dans l attente de la disponibilit de corpus sp cialis s repr sentatifs outill s et tiquet s comme le proposent des auteurs tels que Habert 2 2 4 Ressources linguistiques issues d une analyse probabiliste Les approches distributionnelles probabilistes permettent de constituer des bases de collocation autrement dit des bases de termes pr sentant des contraintes de composition Ces bases peuvent tre mises en uvre dans le domaine de la recherche d information afin de d passer les limites des techniques d indexation automatiques classiques 139 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION 2 2 4 1 Des bases de collocations pour la recherche d information Nous l avons vu le principe de l indexation aut
394. x Etats Unis les noms propres ex Marcel Dassault que les noms de soci t ex Thales Dassault ou les noms de produits e la plupart des mots dits grammaticaux ne sont repr sent s que par leur tiquette de partie du discours ex DET pour d terminant PRO pour pronom etc D s cette phase les l ments tels que les adverbes et syntagmes adverbiaux les groupes de chiffres et les commentaires sont limin s de fa on homog n iser les diff rents contextes d occurrence De plus les mots mal tiquet s peuvent tre corrig s ex lt acter gt lt rachet es gt pour actions rachet es et les contextes non pertinents peuvent tre limin s afin de faciliter les phases d analyse ult rieures 39 2 roe Pour l exemple d extraction de signatures th matiques donn ci dessous les concordances sont construites de fa on isoler les portions de phrases contenant des verbes conjugu s D autres concordances peuvent tre envisag es 204 CHAPITRE 4 FILTRAGE D INFORMATION PAR SIGNATURES TH MATIQUES MISE EN UVRE EN MILIEU INDUSTRIEL Ss ox Fichier Aide BEK kacquiert acqu rir V P3s GE N NPropre Americom N NPropre aj zacqu rir lt N NPropre gt N NPropre gt a kacquiert acqu rir V P3s SRAC N NPropre lt acqu rir gt lt N NPropre gt facquiert acque rir v P3s deux DET mp fp soci t s soci t N fp lt acqu rir gt
395. xemples tudi s en corpus qui permettent de pr dire les jugements de grammaticalit de s quences construites partir d l ments dont les comportements distributionnels sont extrapol s En d autres termes l ad quation pr dictive du distributionnalisme doit tre vue sous l angle de la capacit d abstraction par rapport aux donn es empiriques connues Cette abstraction passe essentiellement par deux types de proc dures les proc dures dites d approximation et la promotion setting up d l ments linguistiques au rang d unit s d un syst me En ce qui concerne les proc dures d approximation qui visent permettre la construction de classes d l ments de comportement distributionnel similaire nous avons vu Voir les tudes men es dans le domaine des langues de sp cialit telles que l immunologie Harris 1989 3 La prolif ration des tudes portant sur les sous langages en linguistique de corpus peut tre vue comme le reflet de la position harrissienne sur les corpus Voir par exemple Morin 1999 Daille 2002 Faure 2000 Hamon 2000 ou encore Bourigault 1994 53 CHAPITRE 1 POUR UNE LINGUISTIQUE DES CORPUS plus haut propos de l objection au principe de substitution que la lacune principale du distributionnalisme du moins dans sa forme parue d s 1951 r side dans l absence de syst maticit et de formalisation de ces proc dures Les proc dures
396. y Les approches statistiques apportent en effet une r ponse pragmatique et indirecte une difficult fondamentale valuer le contenu d un document de fa on automatique de la fa on la plus objective possible On peut voir une certaine parent entre l approche visant d terminer de fa on automatique la fonction informative de mots pris comme marqueurs th matiques partir des documents indexer et l approche d crite dans le premier chapitre visant d terminer la fonction linguistique d l ments pris dans un chantillon de langue partir de leur comportement observable Dans les deux cas les approches centr es sur les donn es linguistiques ou corpus visent r pondre des besoins concrets tout en abordant n cessairement des questions th oriques primordiales li s la g n ralisation de r gles par induction partir des observables de l chantillon au lien entre contenu et formes linguistiques ou encore la tension entre une somme de repr sentations individuelles et une repr sentation collective objectivante 2 1 3 Limites des approches bas es sur des descripteurs en Recherche d Information En raison du co t que repr sente une indexation manuelle la plupart des syst mes d information manipulant des bases h t rog nes de documents adoptent des approches automatis es partiellement ou compl tement Le degr d automatisation d pend essentiellement de la taille
397. ypographique pour aborder dans un deuxi me temps les principes d une Recherche d Information bas e sur une analyse linguistique automatis e Nous examinerons tout d abord quelques approches bas es sur un distributionnalisme discontinu visant rep rer dans les documents des marqueurs th matiques consid r s non plus comme des mots cl s mais comme des unit s lexicales complexes Enfin nous voquerons des approches relevant du distributionnalisme continu visant des applications en RI notamment par le biais des techniques d extraction de collocations gt D autres indices t moignent de la vitalit de ce domaine mergent dans les ann es 1960 ainsi que des liens troits en France entre linguistique centr e sur les corpus linguistique formelle et recherche d information Gross 1966 Gross 1967 par exemple ainsi que la cr ation du Laboratoire d Automatique Documentaire et Linguistique LADL savoir la valeur informative d un l ment ex un mot d pend de ses contextes d occurrence phrase document 5 Les collocations sont des expressions constitu es de plusieurs mots pr sentant des contraintes proches de celles des mots compos s Collocations of a given word are statements of the habitual or customary places of that word Firth 1957 p 181 79 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION 2 1 La Recher
398. yst me Intex utilisant les dictionnaires lectroniques mis au point au LADL ainsi que Courtois 1990 Courtois amp Silberztein 1990 et Silberztein 1993 75 Voir Balvet 2001 pour une discussion de l application des tables du lexique grammaire au domaine de la terminologie 125 CHAPITRE 2 D TECTION D UNIT S LINGUISTIQUES ET TH MATIQUES POUR LA RECHERCHE D INFORMATION Figure 2 un extrait d une base de donn es lexico grammaticales du domaine financier L extrait ci dessus repr sente les param tres lexicaux et syntaxiques des phrases rir eee er r 6 noyaux extraites d un corpus de r f rence traitant des cessions et acquisitions de soci t s La table se lit comme suit colonnes A B C sp cification du type des trois arguments les plus courants en l occurrence sujet objet direct et objet indirect colonne D sp cification de la nature de la particule pr verbale un pronom r flexif cod par Refl d crit par une grammaire locale ou une cha ne vide lt E gt colonne E sp cification de entr e lexicale l infinitif colonnes F a J incluse constructions possibles constat es sur corpus ainsi que d termin es hors corpus en l occurrence construction absolue NO V transitive directe NO V N1 construction transitive indirecte NO V Prep N1 construction fig e NO V Const N1 construction maximale NO V N1 Prep N2 colonne K s
Download Pdf Manuals
Related Search
Related Contents
Drake Software User`s Manual PRIMERGY InFocus Switch 165 User's Manual QNAP TS-459 Pro+ 取扱説明書(PDF) NOTICE DE MONTAGE DU VOYAGER II 1m Cup Yacht Réf. T5552 Beckett Burner 24Vdc User's Manual GMH3160-07 - GSG-e-Shop Samsung 14" 500GB HDD Copyright © All rights reserved.
Failed to retrieve file