Home

Extraction d`informations biographiques dans les textes financiers

image

Contents

1. che complexe qui d pend fortement des connaissances acquises sur le domaine analyser Nous avons montr dans cet article l int r t des grammaires locales comme formalisme de repr sentation des variabilit s syntaxiques existantes entre les instances des classes d objets et nous avons pr sent notre processus it ratif bas sur l utilisation de patrons lexico syntaxique et des m thodes de Bootstrapping utiles pour la reconnaissance et l extraction d information dans les textes ainsi que pour l acquisition automatique de terminologie nouvelle Nos r sultats pr liminaires nous incitent poursuivre notre tude en l tendant la description d autres v nements biographiques et surtout l analyse de nouveaux genres textuels afin de d couvrir de nou velles locutions verbales synonymiques nous permettant de r aliser long terme un syst me capable de 27th conference on Lexis and Grammar L Aquila 10 13 September 2008 EXTRACTION D INFORMATIONS BIOGRAPHIQUES g n rer automatiquement la biographie d une personne en extrayant l information pertinente dispers e dans une multitude de documents R f rences AGICHTEIN E et GRAVANO L 2000 Snowball Extracting Relations from Large Plain Text Collec tions in Proceedings of the Fifth ACM International Conference on Digital Libraries San Antonio Texas USA 85 94 BUVET P A et FOUCOU P Y 2001 Classes d objets et recherche sur le web in Lingvistic
2. who retired as lt JD gt resident judge lt JD gt of GEO0 Portsmouth GEO0 crown court last week on health grounds Ces concordances partiellement reconnues sont prises en compte pour le calcul du rappel et de la pr cision comme tant des r sultats n gatifs Du fait de l insertion de l ge entre l entit Personne et la phrase relative contenant le pr dicat tudi la reconnaissance n a pas t possible car cette forme syn taxique n avait pas t apprise ant rieurement A cet tat on peut justifier notre choix de l utilisation des grammaires locales pour la mod lisation de nos patrons d extraction m thode qui nous permet d avoir des r gles visiblement lisibles et compr hensibles et qui facilite par cons quent la maintenance et la mise jour de nos grammaires Une possibilit d am liorer ces r sultats est de construire des grammaires ind pendantes des pr dicats synonymes des constructions verbales initiales et dont la structure syntaxique d crite actuellement se limite celle des pr dicats initiaux A ce jour seule la variante syntaxique de type X served as P est mod lis e comme sous grammaire du pr dicat initial X worked as Pour aspirer une couverture plus large des structures syntaxiques et s mantiques du verbe fo serve il est indispensable de lui consacrer une grammaire propre C est pourquoi il n est pas tonnant que l valuation d un tel pr dicat sur le corpus de test a
3. 1998 John Smith was born in Florida on February 12 1965 Jacob McCandles is six feet under 0o geo sp Gov Greenhalge breathed his last at his home in Lowell Mass Ces exemples montrent que la fonction de pr dicat peut aussi tre remplie par un nom pr dicatif 2a 2b un adjectif pr dicatif 2c ou une expression idiomatique 2d 2e nous parlons dor navant de locution verbale pour d signer n importe lequel de ces types de pr dicats Dans le cadre de ces travaux nous nous sommes int ress s 12 types d v nements biographiques 6 v nements que nous classifions dans les v nements personnels la naissance l enfance la formation le mariage le divorce et le d c s 6 v nements relatifs la carri re professionnelle d une personne l obtention d un emploi l occupation d un poste le licenciement le succession la d mission et le d part en retraite 3 Les grammaires locales et sous langages Nous partons de l hypoth se que l ensemble des nonc s d crivant une information biographique se caract risent par un lexique de taille finie et un nombre de sch mas de phrases limit cette hypo th se est d autant plus v rifi e que nous nous limitons traiter des textes d un genre particulier ici la presse anglo saxonne conomique et financi re En ce sens nous consid rons qu ils constituent un sous langage dans le sens de Harris 1968 Hunston amp Sinclair 2000 montre qu il est possible de c
4. pr sentons nos m thodes utilisant des patrons lexico syntaxiques pour l acquisition semi automatique de nouvelles instances terminologiques et la d couverte de locutions verbales synonymiques partir de verbes initiaux qui nous ont permis d enrichir de mani re cons quente ces deux types de ressources Nous concluons en section 5 et 6 en donnant une valuation de la qualit d extraction de notre syst me 2 L information biographique Retracer la biographie d une personne consiste tablir la liste de l ensemble des v nements qui sont survenus tout au long de sa vie tels que sa naissance son parcours scolaire et professionnel ses relations priv es et professionnelles tablies avec d autres individus sa mort Pour d limiter formellement quels sont les nonc s en langue naturelle dont la s mantique porte une information biographique nous utili sons le mod le des classes d objets Gross 1994 Le Pesant amp Mathieu Colas 1998 Les classes d objets sont des classes s mantiques construites partir de crit res syntaxiques celles ci sont d finies par des pr dicats d finitionnels s mantiquement homog nes de type verbes adjectifs ou noms auxquels cor respondent des domaines d arguments Par exemple la classe Profession tudi e par Buvet amp Foucou 2001 est l ensemble des noms simples et compos s r pondant essentiellement aux pr dicats gagner sa vie comme et exercer la profession de et contie
5. tr s rare de trouver des biographies compl tes sur les personnes d int r t public Les textes journalistiques donnent de nouvelles informations biographiques concernant les personnes cit es mais celles ci demeurent n anmoins sou vent partielles Ainsi pour r pondre un besoin informationnel sur un personnage de notori t mondiale l utilisateur est contraint de lancer une requ te sur un moteur de recherche partir du nom de la personne et de mots cl s associ s l v nement biographique d int r t de parcourir ensuite les multiples docu ments r sultats susceptibles de contenir l information recherch e pour enfin rassembler les diff rents passages associ s son besoin et retracer ainsi la biographie souhait e Cette m thode s av re r p titive et peu fiable car l information pr sente dans les diverses sources lectroniques n est pas index e sur des crit res s mantiques par les moteurs de recherche mais les documents sont pr trait s uniquement sur la base des mots qu ils contiennent C est donc l utilisateur que revient la t che de classer les diff rents documents donn s en r ponse par le syst me et de retrouver dans ceux ci les segments pertinents pour ses besoins personnels lCentrum f r Informations und Sprachverarbeitung Ludwig Maximilians Universitit M nchen michaela geierhos sandra bsiri cis uni muenchen de 2CENTAL Universit Catholique de Louvain olivier blanc uclouvain be M GEI
6. ERHOS O BLANC S BSIRI L extraction des donn es biographiques contenues dans les diverses ressources textuelles non structur es est une t che complexe fortement d pendante de la langue et des ph nom nes linguistiques associ s Poibeau 2003 De nombreux auteurs ont reconnu la complexit du probl me Kanzaki 2007 Davis amp Galbraith 2004 et se sont int ress s l identification des indicateurs sp cifiques internes et externes utiles la reconnaissance des v nements biographiques Agichtein amp Gravano 2000 Dubou et al 2003 Les travaux pr sent s ici se concentrent essentiellement sur le sous langage conomique et financier de la presse financi re en langue anglaise La performance des extractions est d autant plus satisfaisante que les documents analys s se restreignent ce domaine sp cialis Cette t che peut tre utile pour plu sieurs domaines applicatifs distincts comme les syst mes de r sum s biographiques partir de plusieurs documents Schiffman et al 2001 ou encore les syst mes de question r ponse Tsur et al 2004 La notion d information biographique est d finie dans la seconde section de cet article dans laquelle nous d taillons les entit s susceptibles d intervenir dans de telles relations Dans les sections 3 et 4 nous pr sentons les ressources linguistiques grammaires locales et dictionnaires terminologiques que nous avons construites pour l extraction de ce type de relations Nous
7. In vestigationes vol 23 COURTOIS B 2004 Dictionnaires lectroniques DELAF anglais et fran ais in et ric Laporte et Mireille Piot et Max Silberztein C L Ed Lexique syntaxe et lexique grammaire syntax lexis amp lexicon grammar John Benjamins Amsterdam Philadelphia 113 123 COURTOIS B et SILBERZTEIN M 1990 Dictionnaires lectroniques du fran ais in Langues fran caise vol 87 DAVIS I et GALBRAITH D 2004 BIO A vocubulary for biographical information http purl org vocab bio DUBOU P MCKEOWN K et HATZIVASSILOGLOU V 2003 ProGenIE Biographical descrip tions for Intelligence Analysis in Proceedings of the NSF NIJ Symposium on Intelligence and Security Informatics vol 2665 Lecture Notes in Computer Science Springer Tucson Arizona USA 343 345 GEIERHOS M 2007 Grammatik der Menschenbezeichner in biographischen Kontexten Rap port Technique Centrum f r Informations und Sprachverarbeitung CIS Ludwig Maximilians Universit t Munich Allemagne GROSS G 1994 Classes d objets et description des verbes in Langages vol 115 GROSS M 1999 A bootstrap method for constructing local grammars in Contemporary Mathe matics Proceedings of the Symposium University of Belgrad Belgrad Serbie 229 250 HARRIS Z S 1968 Mathematical Structures of Language John Wiley amp Sons New York HUNSTON S et SINCLAIR J 2000 A local grammar of evalua
8. ction automatique des faits biographiques est d autant plus sa tisfaisante que l on dispose de bases de connaissances riches en entr es lexicales Ainsi plus les classes 5http www igm univ mlv fr unitex 27th conference on Lexis and Grammar L Aquila 10 13 September 2008 M GEIERHOS O BLANC S BSIRI d objets sont riches en instances plus les extractions sont pertinentes et les analyses contextuelles n cessaires la lev e d ambig it sont rudimentaires 4 Acquisition automatique de nouvelles entr es lexicales Nous avons ainsi constitu un lexique de sp cialit propre au monde de l entreprise activit profession nelle secteur d activit etc ainsi qu un lexique de noms propres pour les personnes les toponymes et les organisations partir de diverses ressources disponibles sur Internet Wikip dia WordNet Bio graphy com SpecialistInfo com ZoomInfo com Guide to the World of Occupations LabourMarket MapPlanet com Occupational Outlook Handbook Prospects ac uk etc et des lexiques du laboratoire CIS Cependant lors de nos tests pr liminaires d analyse sur corpus nous avons observ qu il exis tait de nombreuses unit s lexicales hyponymes des classes d objets pr sent es ci dessus qui n taient pas encore recens es dans nos dictionnaires lectroniques C est l qu interviennent les patrons lexico syntaxiques ou knowledge patterns KPs Meyer 2001 pour d couvrir de n
9. ction des pr dicats synonymiques Pour chacun des 12 types d v nements biographiques tudi s nous avons s lectionn une liste res treinte de verbes en relation partir desquels nous avons extrait des locutions verbales synonymiques de mani re semi automatique La d couverte des relations synonymiques associ es aux verbes initiaux fut effective l aide de tech niques de Bootstrapping Gross 1999 appliqu es de mani re it rative Le processus complet d extrac tion de candidats synonymiques est assez complexe et implique un enrichissement des contextes internes par la d tection de contextes externes sp cifiques et inversement Pour une description compl te de l en semble du processus nous renvoyons Geierhos 2007 Nous avons ainsi recens un total de 145 locutions verbales ayant une s mantique en rapport avec l une des 16 relations biographiques tudi es cf section 2 parmi celle ci 50 pr dicats sont relatifs des informations dites personnelles telles que la naissance le mariage etc et 95 pr dicats concernent les informations professionnelles mettant en relation un individu avec une entreprise une date d embauche de d part une activit exerc e etc 5 valuation des sch mas pr dicatifs Afin d valuer la qualit d extraction des sch mas pr dicatifs d crits dans notre grammaire nous avons annot manuellement un corpus de test de 4 500 phrases constitu d articles du quotidien Financial Ti
10. iBeCOOL Extraction d informations biographiques dans les textes financiers Michaela Geierhos Olivier Blanc Sandra Bsiri Universit Ludwig Maximilian Munich Universit Catholique de Louvain R sum Ce papier pr sente le contexte linguistique et la mod lisation de notre syst me iBeCOOL Informations Biographiques Extraites l aide de COntextes Observ s Linguistiquement d di l extraction d infor mations biographiques dans les textes de la presse financi re en langue anglaise La notion d v nement biographique tel que la naissance le mariage la carri re professionnelle est caract ris e formelle ment par un sch ma pr dicatif plusieurs arguments dont l un tant une instance de la classe d objets Personne Notre approche consiste d crire ces types de relations l aide de grammaires locales et de lexiques terminologiques Nos r sultats montrent que cette approche semble viable et nous poussent largir cette tude par l analyse de nouveaux genres textuels Mots cl s extraction d informations biographiques relations s mantiques grammaires locales entit s nomm es enrichissement du lexique 1 Introduction La masse toujours croissante de documents disponibles sur Internet rend l acc s l information difficile m me avec l usage indispensable des moteurs de recherche Les informations relatives aux personna lit s qui font l actualit dans le monde ne font pas exception Il est en effet
11. k in Proceedings ACL 2004 Workshop on Question Answering in Restricted Domains Barcelone Espagne 23 30 27th conference on Lexis and Grammar L Aquila 10 13 September 2008 M GEIERHOS O BLANC S BSIRI Annexe R capitulatif des diff rentes classes d objets recens es Classe Sous classe Balise Nombre Exemples d objet d objet s mantique d instances d instances Nome Propre Titre Title 370 Queen Lord PhD Mr Pr nom FirstName 38 500 Lara Marie Luise Ben Nom Surname 1 250 000 Oltay Smith Yildiz de Famille Nom LongName 8 300 000 Henna Nordqvist de Personne Complet R le Social Famille Human 6 400 daughter son aunt Profession JobDescriptor 45 000 cook kitchen helper Habitant Citizen 600 Aucklander Brooklyner Secteur Mati re Discipline 580 art history d activit Branche Sector 38 000 life insurance farming Organisation Type CompanyDescriptor 23 800 car manufacturer d organisation Nom Company 516 000 Fujitsu Siemens d organisation Forme juridique LegalForm 115 ltd inc plc AG d entreprise GmbH s a r l LLC Lieu Pays et Nation 430 South America Continent Continent France Germany Europe Ville City 327 400 s Gravenhage Paris Berlin Date Mois Month 24 May Jul July Jour de semaine DayOfWeek 7 Monday Sunday 27th conference on Lexis and Grammar L Aquila 10 13 September 2008
12. mes du mois de juin 2004 Nous avons choisi ces articles de telle sorte que le maximum des pr dicats tudi s soient repr sent s Le tableau 1 r sume les r sultats obtenus pour l extraction des diff rentes informations professionnelles On peut y lire une pr cision moyenne atteinte de 96 3 et un rappel moyen de 87 7 Sch ma initial Pr cision Rappel X was appointed as P 96 9 92 1 X joint O as P of B in D 97 8 88 4 96 X was employed as P 941 879 X was payed as P by O 91 6 880 X worked as P for O 96 2 90 696 X was dismissed as P 95 8 895 X was replaced as P by Y 984 956 X resigned as P of O 98 8 940 X retired as P in D 972 63 3 96 En moyenne 96 3 87 7 96 TAB 7 R sultats d valuation sur le corpus de test On peut par exemple observer que les variations syntaxiques du pr dicat X retired as P in D sont loin d tre compl tement d crites puisque nous obtenons un rappel de 63 3 pour ces constructions En effet la grammaire correspondante ce pr dicat reconnait des phrases comme lt FN gt Ian lt FN gt lt SN gt McLeish lt SN gt retired as lt JD gt manager lt JD gt with effect from lt DATE gt 31 December 2003 lt DATE gt 27th conference on Lexis and Grammar L Aquila 10 13 September 2008 M GEIERHOS O BLANC S BSIRI mais aussi des segments de phrases o seule une partie de l information recherch e est reconnue comme dans la concordance David Selwood 69
13. nt des instances telles que ing nieur instituteur second de cuisine Dans ce contexte nous d finissons une information biographique comme une relation pr dicative plu sieurs arguments dont l un est une entit de la classe Personne Il n y a pas de restriction de s lection sur les autres intervenants de la relation pour que celle ci portent une information biographique Cepen dant dans les diff rentes relations que nous avons tudi es dans le cadre de ces travaux les autres argu ments sont typiquement des instances de classes Personne Lieu Date Organisation Branche Mati re ou Profession L information biographique est ainsi une relation entre une personne et un v nement biographique qui peut tre exprim e l aide d un verbe pr dicatif retra ant le portrait de quelqu un 1a 1c 1 a Sigman born in Brooklyn in 1909 b Andrew Gilligan graduated from Cambridge with a degree in history c Jim Sweeney will also be joining AmeriQuest as Vice President 27th conference on Lexis and Grammar L Aquila 10 13 September 2008 EXTRACTION D INFORMATIONS BIOGRAPHIQUES La s mantique d v nement biographique n est pas n cessairement port e par un verbe mais peut tre port e par d autres cat gories grammaticales pr dicatives comme le montrent les phrases verbes sup ports suivantes 2 Elizabeth gave birth to a little girl in May 2004 Paul and Claire became man and wife in
14. onsid rer les grammaires locales comme des petits sous langages et que par cons quent pour un do maine donn ici l information biographique il est possible d laborer un ensemble de grammaires locales tendu couvrant au mieux la totalit du sous langage Les grammaires locales que nous consid rons sont des r seaux de transitions r cursifs repr sent s par des graphes dont la construction et la manipulation sont facilit es par le logiciel libre Unit ex Paumier 2004 Silberztein 1993 Elles n ont pas pour vocation de d crire l ensemble de la grammaire d une langue mais d crivent les structures syntaxiques et lexicales des ph nom nes linguistiques propres ce langage sp cialis Nakamura 2005 4 Enrichissement du lexique travers les contextes riches en connaissances Nous d finissons pr c demment la notion d information biographique comme une relation pr dica tive entre plusieurs arguments dont l un est une entit de la classe Personne et les autres intervenants pouvant alternativement appartenir aux classes d objets Lieu Date Organisation Branche Mati re ou Profession Chacune de ces classes a t traduite par un dictionnaire lectronique de la forme DELA Courtois amp Silberztein 1990 Courtois 2004 dont les entr es lexicales reprennent les instances hyponymes du nom de la classe d objets source La pertinence de l analyse contextuelle et par cons quent la qualit du syst me d extra
15. ouvelles instances as soci es ces diff rentes cat gories Nous montrons sur un exemple de la classe Secteur d activit comment un tel gain automatique de connaissance est possible La d signation du secteur d activit res pecte une structure syntaxique o le contexte droit est souvent repr sent par un descripteur comme industry sector ou company qui peut agir en qualit de d clencheur pour reconna tre de nouveaux noms de secteurs 3 a administration sector b automobile industry c arts and leisure sector Ainsi un KP recensant ces descripteurs et d crivant la structure syntaxique interne d un nom de secteur permet d identifier de nouvelles instances de cette classe dans les textes analys s Les noms des secteurs de l exemple 3 peuvent tre galement retrouv s dans les textes accompagn s par des descripteurs diff rents il ne s agit pas de s quences fig es comme le montre le terme automobile de l exemple 3b qui peut aussi apparaitre dans d autres s quences comme automobile industry ou automobile business Pour ce genre de termes nous ne retenons dans les classes d objets correspondantes que la s quence sans le descripteur Ce qui revient ici ajouter le terme automobile aux instances de la classe Secteur d activit et non pas les deux s quences automobile industry et automobile business qui seront reconnues ult rieurement dans les textes travers les grammai
16. res descriptives dot es des d clencheurs business et industry Certains noms de secteurs sont cependant moins flexibles c est notamment g n ralement le cas des termes associ s au descripteur service tels que reparation service ou animal physiotherapy services De telles s quences o service ne peut tre remplac par aucun autre descripteur viennent enrichir les classes d objets en tant que mots compos s fig s Cette m thode nous a permis de d couvrir plus de 40 000 nouvelles entr es partir de 10 000 instances initiales pour la classe Secteur d activit v rifi es manuellement Le tableau pr sent en annexes r sume l ensemble des classes d objets que nous avons identifi es comme tant a priori n cessaires au bon d roulement de l extraction de l information biographique La somme des entr es d passe ce jour les 10 millions d unit s lexicales dont environ 15 taient d couvertes l aide de nos m thodes de Boots trapping Chaque unit est repr sent e dans le dictionnaire accompagn e d une tiquette s mantique correspondante au nom de la classe d objets associ e nttp www occupationsguide cz en abecedni abecedni htm Shttp www labourmarket co nz labourmarket htm http www umsl edu services govdocs ooh20002001 1 htm 27th conference on Lexis and Grammar L Aquila 10 13 September 2008 EXTRACTION D INFORMATIONS BIOGRAPHIQUES 4 2 Bootstrapping et extra
17. tion in Hunston S amp Thompson G Eds Evaluation in Text authorial stance and the construction of discourse Oxford University Press Oxford England 74 101 KANZAKI M 2007 Who s who description vocabulary http www kanzaki com ns whois LE PESANT D et MATHIEU COLAS M 1998 Introduction aux classes d objets in Langages vol 131 MEYER I 2001 Extracting knowledge rich contexts for terminography in Bourigault D Jacque min C amp L Homme M C Eds Recent Advances in Computational Terminology John Benjamins Amsterdam 279 302 NAKAMURA T 2005 Analysing Texts in a Specific Domain with Local Grammars The Case of Stock Exchange Market Reports in Linguistic Informatics State of the Art and the Future vol 1 PAUMIER S 2004 Manuel d utilisation d Unitex http wwwigm univmlv fr unitex POIBEAU T 2003 Extraction automatique d information du texte brut au web s mantique Lavoisier SCHIFFMAN B MANI I et CONCEPCION K J 2001 Producing Biographical Summaries Com bining Linguistic Knowledge with Corpus Statistics in Proceedings of the 39 Annual Meeting of the Association for Computational Linguistics Toulouse France 450 457 SILBERZTEIN M 1993 Dictionnaire lectroniques et analyse automatique de textes Le syst m e INTEX Paris Masson TSUR O DE RIJKE M et SIMA AN K 2004 BioGrapher Biography Questions as a Restricted Domain Question Answering Tas
18. tteigne une pr cision de 97 1 96 semblable celle du pr dicat to work as mais que le rappel en revanche soit tr s bas et n atteigne que les 33 8 Cette observation est valable pour tous les pr dicats synonymiques acquis par Bootstrapping dans la phase d apprentissage Ce r sultat n est en aucun cas une surprise il confirme seulement que les pr dicats s mantiquement semblables usent de structures syntaxiquement diff rentes pour paraphraser un m me v nement Dans une perspective d am lioration des performances de notre syst me nous nous sommes ainsi lanc s dans le d veloppement d autres grammaires autonomes pour les structures pr dicat argument synony miques Notons que ces chiffres ne donnent pas une valuation exacte de la qualit d extraction de notre syst me sur les textes de la presse financi re en g n ral puisque le corpus de test a t pr alablement constitu en fonction de la pr sence de pr dicats pr d finis dans notre syst me En ce sens nous valuons ici la qualit d extraction de ces pr dicats d j d finis et non la qualit d extraction de l information biographique en g n ral En l absence de corpus de r f rence annot s manuellement par des relations biographiques il nous est tr s difficile de faire une telle valuation qui serait par ailleurs plus pertinente du point de vue applicatif 6 Conclusion et perspectives L extraction automatique de l information biographique est une t

Download Pdf Manuals

image

Related Search

Related Contents

Harbor Freight Tools 94531 User's Manual  shop/ProdukteDetails/E-Flite T    User Guide  Bedienungsanleitungen  Tactical Soft Air Rifle OWNER`S MANUAL  `aspect original, elle se montre  I ISTRUZIONI PER L`USO    ASUS GR8 User's Manual  

Copyright © All rights reserved.
Failed to retrieve file