Home
Antelope, une plate-forme de TAL permettant d`extraire les
Contents
1. Ho lt nsub4 p mauz e N Ving L cemara a progressive a progressive L_ P Dano L Ce o B 2o argi _ darui Vv Mari pis Ho N BE Ba ia Ho BE O a progressive J a progressive Figure 66 Extraction de la r gle pour le progressif Nous pr sentons de la m me fa on les r gles obtenues pour le passif figure 67 une relative figure 67 et une extraction non born e figure 67 Le principe est toujours le m me on soustrait une r gle A ce qui permettra d appliquer ensuite la ou les r gle s B Dans le cas de la d pendance born e on soustrait ainsi des fragments de deux r gles B diff rentes nous donnons cette r gle pour le Link Grammar On voit que celui ci ne g re pas les d pendances non born es mais cela n a pas d importance puisqu on les r cup re lors de l ISS Comme on le voit la r gle qui fait ce calcul est en plus particuli rement simple c est une r gle qui s apparente a l adjonction pr dicative en TAG en permettant au verbe pont de venir s intercaler dans la cha ne de d pendance qui lie l ant c dent au verbe recteur 168 lt US O gt ST ET s o jaeren Do Peter is seen by Mary _ Mary sees Peter gt N BE Ved by N Figure 67 Extrac
2. b Recherche de I hyperonyme L analyse syntaxique de la d finition est alors disponible sous forme d un arbre de d pendances Nous cherchons a y reconnaitre le sous arbre caract ristique d une d finition lexicographique en utilisant la m thode d crite dans Chaumartin 2006 Le processus tient compte des conjonctions de coordination afin d extraire correctement les hyperonymes multiples comme dans Australie est un pays et le continent le plus petit Dans une construction comme une esp ce de ou un membre du groupe de nous remontons d une fa on r cursive le long des constituants de l amas nominal en passant au constituant imbriqu suivant c Cr ation de nouveaux synsets Si aucun synset de WordNet ne correspond l article consid r on en cr e un nouveau dont la d finition sera la premi re phrase de l article Ensuite on le relie au synset repr sentant lhyperonyme de l article tudi On est confront ici une probl matique de d sambiguisation lexicale pour identifier le sens correct Par exemple si l hyperonyme est empereur il faut choisir entre les sens dirigeant m le d un empire raisin rouge de Californie ou grand papillon richement color Les hyponymes du meilleur anc tre se situent au m me niveau que le sujet de l article dans la hi rarchie de WordNet Nous cherchons donc des points communs entre l article et ses cousins
3. concepts abstraits objets du monde r el documents les l ments de description des identifiants noms attributs typ s relations s mantiques sont tous exprim s selon le m me sch ma de triplets sujet pr dicat objet RDF d finit donc un mod le de donn es abstrait ind pendant de toute syntaxe ou mode de stockage b Exemple Par exemple le triplet Victor_Hugo auteur_du_livre Les_Mis rables se transpose ainsi en RDF e Sujet dbpedia Victor Hugo e Pr dicat dcterms creator e Objet dbpedia Les Mis rables Cela donne en RDF XML lt rdf RDF xmins rdf http www w3 org 1999 02 22 rdf syntax ns xmins dc http purl org dc elements 1 1 xmins dcterms http purl org dc terms xmlns dbpedia http dbpedia org resource gt lt rdf Description rdf about dbpedia Victor Hugo gt lt de title xml lang fr gt Les mis rables lt rdfs label gt lt dcterms creator rdf resource dbpedia Victor Hugo gt lt rdf Description gt lt rdf RDF gt On peut remarquer que les informations ontologiques un roman est un type de document l ann e de parution est une date l auteur est une personne implicitement associ es ces m tadonn es n apparaissent pas au niveau RDF En effet la structure de RDF est g n rique et sert de base un certain nombre de sch mas ou vocabulaires d di s des applications sp cifiques Une partie de ces vocabulaires est sp cifi e par le W3C comme les
4. european ani zon so River LA f eee ee nSense 1 of people form null Figure 2 Repr sentation s mantique id ale que nous souhaitons obtenir Dans cette repr sentation les unit s lexicales de type nom verbe adjectif ou adverbe sont d sambiguis es par rapport a WordNet avec un trait WNSENSE Par exemple DESCENT WNSENSE 1 3 indique que WordNet propose deux sens du nom DESCENT compatibles avec le contexte de la phrase m me si aucun n est parfaitement adapt ici DESCENT 1 a movement downward et DESCENT 3 the act of changing your location in a downward direction Pour les pr positions notre ressource de r f rence est The Preposition Project Litkowski 2002 L annotation IN TPPSENSE 2 indique qu il s agit ici du second sens de la pr position IN d finie par IN 2 expressing a period of time during which an event happens or a situation remains the case Lorsqu une d finition est trop g n rale nous pouvons m me pointer vers une composante de cette d finition comme dans FIRST WNSENSE 1 TIME ou EUROPEAN WNSENSE 1 OF PEOPLE Une ressource de type DiCou be nous permettrait d indiquer que MAKE est ici la valeur de la fonction lexicale Oper1 MAKE LEXICALFUNCTION OPER1 c est dire un verbe support vide Certains l ments lexicaux ne sont pas dans notre lexique mais peuvent tre reconnus comme des entit s nomm es dont on indiquera le type qui es
5. La Suisse est au carrefour de l Europe Des documents citant un magasin de l enseigne peuvent pr senter un int r t faible Le hold up a eu lieu pr s du Carrefour de Trifouilly les P querettes ou variable selon les attentes du destinataire de l analyse Le son d avoine j en ai trouv chez Carrefour Je trouve les prix bien plus int ressants chez Carrefour que chez Leclerc 3 Analyses effectu es par Ubiq Les traitements s mantiques r alis s par Ubiq permettent d extraire et d associer aux documents de nombreuses m tadonn es marques produits concurrents opinions selon le processus pr sent en figure 51 Non g r e Figure 51 Processus de l analyse s mantique effectu e par Ubiq a D tection de la langue Un premier traitement cherche d tecter la langue de chaque document Ubiq traite ensuite les documents en crits fran ais ou l anglais Cette tape soul ve son lot de difficult s Nous faisons actuellement l hypoth se qu un avis est r dig int gralement dans une langue donn e Or dans certain cas il peut contenir des sections faisant alterner deux langues un verbatim de consommateur portant sur des produits lectroniques est souvent r dig en franglais en m langeant par exemple un avis exprim en fran ais et des citations tir es d un manuel d utilisation en anglais cela entra ne alors une d tection erron e de la langue Nous ne traitons pas
6. Microsoft has bought Medstory because it s an intelligent and intuitive search technology Microsoft Announces Acquisition of Medstory Microsoft acquired Medstory a healthcare search company and added the company to its healthca Microsoft has bought the assets of media video sharing service WebFives for an undisclosed amo Microsoft Buys Assets of Media Sharing Service WebFives Microsoft on Thursday said it has acquired master data management vendor Stratature and plans Microsoft Buys Master Data Management Vendor Stratature Microsoft Bought Massive Inc Now What Tatirenontt armnirod Maceive Ine_romina on han voare ann Groove ID management partner Alacris Kidara _ Internet __ Israeli security software startup Pelican Security Komoku lean product developer eBECS LinkExchange _ Jellyfish Lionhead _ Jump Networks Lookout Siwas i Ki d Madison Wisconsin Iaaro i Microsoft acquired Medstory a he i 7 Korean ISP Microsoft Announces Acquisition c LinkAge Software l Microsoft Announces Planned Acc Linux M d Microsoft has acquired Medstory z Logitech S Medstory Microsoft has bought Medstory be Macromedia _ MessageCast Microsoft Business Solutions Massive Inc Microsoft recently acquired This latest move in the healthcare February this year Microsoft Million MobiComp
7. Monetizer Figure 46 Visualisation de l extraction d information avec regroupement des r sultats Le regroupement des r sultats permet de les rassembler et de les afficher d une fa on plus synth tique ici on obtient 245 soci t s distinctes apr s fusion des doublons Le r sultat peut tre export sous forme de carte heuristique ou mind map en anglais voir figure 46 pour en am liorer la lisibilit La taille de la police de caract re servant afficher les noms de soci t y est proportionnelle au nombre de documents o l information a t trouv e 135 C Acquisition de connaissances sp cifiques un domaine applicatif 1 Objectif L apprentissage des sp cificit s d un nouveau domaine est souvent le point faible des solutions d analyse s mantique En effet cette tape peut n cessiter des semaines voire des mois de travail humain Quand on analyse des avis de consommateurs cette tape est cruciale En effet on ne s exprime pas de la m me fa on ni sur le fond ni sur la forme quand on crit un avis sur sa banque ou sur l enseigne o l on a fait ses courses Les produits et services peuvent avoir des caract ristiques tr s variables par exemple l humidit peut tre un attribut positif si on parle d un humidificateur d air ou n gatif si c est une tente de camping Nous commencerons donc par pr senter ici notre d marche d acquisition des connaissances sp cifiques un
8. c est dire son sujet La figure 41 montre l identification des cha nes de cor f rences calcul e par notre composant sur l article Nile River de l encyclop die en ligne Britannica version 2004 chacune d entre elles est affich e avec une couleur distincte The longest river in the world it is about 4132 miles 6650 km long from its remotest headstream and 3473 miles 5588 km from Lake_Victoria to the Mediterranean_ Sea It flows generally north from eastern Africa through Uganda The Sudan and Egypt It receives major tributaries including the Blue_Nile and the Atbara_ River before entering Lake_Nasser near the Egypt Sudan border After the Aswan_High_Dam impounds the lake it continues northward to its delta near Cairo where it empties into the Mediterranean The first use of the Nile for irrigation in Egypt began when seeds were sown in the mud left after its annual floodwaters had subsided It has supported continuous human settlement for at_least 5000 years with canals and waterworks built in the 19th century The Aswan_High_Dam built in 1959 70 provides flood protection hydroelectric power and a dependable water_supply for both crops and humans The Nile is also a vital waterway for the transport of people and goods Figure 41 Identification des chaines de cor f rences sur un article portant sur le Nil Sur quarante sept anaphores relev es lors d une annotation manuelle de onze a
9. comme dans L Amazone est un fleuve tr s long seul le Nil le d passe en longueur La r solution d anaphores ainsi que son prolongement l identification des cha nes de cor f rence est un probl me riche en linguistique pour la mod lisation des ph nom nes entrant en jeu et en TAL pour l impl mentation de ces mod les et la constitution de ressources lectroniques Une vaste litt rature existe autour de ce sujet proposant de classifier ces ph nom nes anaphore pronominale nominale ou d en proposer des mod lisations Les ambiguit s sont aussi complexes a lever que dans la tache de d sambiguisation lexicale Selon le cas de figure on doit faire appel a des connaissances de nature lexicale syntaxique s mantique et pragmatique ainsi qu une compr hension du contexte Par exemple les trois phrases suivantes partagent la m me construction syntaxique seul l adjectif final varie produisant chaque fois une interpr tation diff rente du pronom ils 14 Voir par exemple Salmon Alt 2002 ou Kleiber 1994 Notons que nous ne proposons pas de r soudre des cas aussi complexes qui font appel une connaissance du monde volu e 155 122 e Les gardiens ont donn les fruits aux singes parce qu ils taient pourris e Les gardiens ont donn les fruits aux singes parce qu ils taient affam s e Les gardiens ont donn les fruits aux singes parce qu ils taient rassasi s 3
10. d tecter les critiques positives ou n gatives sur ses produits en analysant la blogosph re ou les d p ches d agences de presse a WordNet Affect Cr partir de WordNet Domains WordNet Affect Strapparava Valitutti 2004 est une ressource linguistique pour la repr sentation lexicale de connaissances sur les affects WordNet Affect a t d velopp en deux tapes La premi re a consist identifier manuellement un premier noyau de synsets affectifs Un sous ensemble de synsets de WordNet appropri s est d abord choisi pour repr senter des concepts affectifs des informations additionnelles sont ensuite ajout es aux synsets en leur associant une ou plusieurs tiquettes qui pr cisent une signification affective Par exemple les concepts affectifs repr sentant un tat motif sont repr sent s par des synsets marqu s par l tiquette motion Le tableau 9 num re ces tiquettes affectives avec des exemples de synsets associ s La seconde tape a permis en suivant les relations d finies dans WordNet de propager les informations de ce noyau son voisinage Etiquette affective Exemples de synsets associ s Emotion nom ANGER 1 Verbe FEAR 1 Mood nom ANIMOSITY 1 adjectif AMIABLE 1 Trait nom AGGRESSIVENESS 1 adjectif COMPETITIVE 1 Cognitive State nom CONFUSION 2 adjectif DAZED 2 Physical State nom ILLNESS 1 adjectif ALL IN 1 Edonic Signal nom HURT 3 nom SUFFERING 4 Emotion Eliciting
11. fait et v nement d tect l exemple suivant illustre la reconnaissance de la soci t Gazprom dans un article de presse lt rdf Description rdf about http d opencalais com comphash 1 5d25b012 282d 3ace 9299 4b7b144cde9f gt lt rdf type rdf resource http s opencalais com 1 type em e Company gt lt c name gt Gazprom lt c name gt lt c nationality gt N A lt c nationality gt lt rdf Description gt 93 Dans un texte anglais OpenCalais identifie une quarantaine de types d entit s nomm es ainsi que 77 types de relations ou de faits entre ces entit s Notons que les soci t s et lieux g ographiques sont de plus correctement d sambigu s s en g n ral par rapport DBPedia Cf IV A 2 d En francais le service rendu est plus modeste et ne d tecte actuellement que 15 classes d entit s TIME_TOP 4 TIME_TOP _OTHER TIMEX GOE_OTHER Prenons SCHOOL PUBLIC_ TIMEX_OTHER INSTITUTION TIME MARKET DATE MUSEUM DAY_OF_WEEK AMUSEMENT ERA _PARK WORSHIP PERIODX _PLACE _OTHER TATION_TOP LE ora SALON o RAILROAD STATION_TOP 4 WEEK_PERIOD ROAD _OTHER MONTH WATERWAY AIRPORT PERIOD TUNNEL STATION OCCASION YEA
12. quivalent des r les d association dans UML Les propri t s ne sont pas forc ment li es a des classes de ce fait leur nom doit tre unique au sein d un mod le Par d faut une propri t est une relation binaire entre Thing et Thing lt owl ObjectProperty rdf ID travaillePour gt Une propri t l mentaire ayant une valeur scalaire est une DatatypeProperty lt owl DatatypeProperty rdf ID NomSociete gt lt rdfs domain rdf resource Societe gt lt rdfs range rdf resource http www w3 org 2001 XMLSchema string gt lt owl DatatypeProperty gt Une association UML binaire se traduit directement en owl ObjectProperty Notons que comme les associations en UML sont toujours entre types la propri t OWL a toujours un Domain et un Range Une association UML peut tre n aire plus de deux r les ou tre une classe associative Or en OWL DL les classes et propri t s sont disjointes contrairement a ce qu offre OWL Full On devra donc convertir chaque relation n aires UML en un ensemble de n relations binaires en OWL DL avec une classique r ification de la relation UML d origine sous forme de classe OWL Une association UML peut tre navigable seulement dans un sens ou dans les deux sens Elle sera convertie en respectivement une ou deux propri t s qui dans ce dernier cas seront inverseOf l une de l autre Les deux langages permettent l h ritage multiple et de d
13. une relation d acquisition d une soci t Soci t Achet e dans la figure par une autre Acheteur dans la figure La figure 31 illustre l analyse syntaxique en d pendances d une phrase qui contient en gras le sous graphe correspondant la relation d acquisition r lt nsubj dob j gt Acheteur Soci t Achet e buyer acquired company Figure 30 Patron morphosyntaxique de la relation d acquisition d une soci t par une autre maux a aj Ps lt advmod dep gt Acheteur fp are Microsoft has now officially acquired San Francisco based Powerset in ne Figure 31 Analyse en d pendances d une phrase o on reconna t une acquisition Notons que dans l tat actuel de l impl mentation nous ne cherchons pas extraire directement des relations un niveau interphrastique Nous pourrions en revanche utiliser les composants de r solution d anaphores cet effet l impl mentation actuelle de la recherche de sous graphe dans un graphe est bas e sur la g n ration de code PROLOG reconna tre dans le programme PROLOG quivalent Lors de l analyse effective d un texte ce Dans une tape pr paratoire nous traduisons la construction programme s applique un autre programme PROLOG d crivant le graphe syntaxique d une analyse en d pendances de chaque phrase Le m canisme d unification permet alors de trouver ou non la construction cherch e pr compil e
14. 167 construction avec un auxiliaire BE Ving Pour pouvoir appliquer sans probl me une r gle lexicale nous devons nous ramener au cas d une forme simple Pour ramener la construction A au cas d une construction B nous proposons simplement d extraire comme pr c demment des r gles pour A et B puis de soustraire la r gle de B celle de A La soustraction est contr l e par les polarit s selon le calcul suivant m m suppression autrement dit tout objet qui manipul dans A et B est supprim o m un objet uniquement manipul dans B doit tre absolument introduit dans la r gle A B pour tre consomm ensuite par l application de B m o m un objet manipul uniquement dans A doit figurer dans A B a o un objet qui est seulement dans le contexte des r gles A et B reste dans le contexte Dans la figure 66 la premi re ligne contient les exemples A et B dont nous partons La deuxi me ligne montre les r gles obtenues pour le Link Grammar le lien lt mS de B ne correspond pas au lien lt mS de A et donne donc un lien lt oS dans A B La troisi me ligne montre les r gles obtenues pour le Stanford Parser ici les liens lt mnsubj de A et B se correspondent et s annulent donc l un l autre Ho e o o Mary is sleeping Mary sleeps a progressive LU Ss rg I
15. UIMA Ferrucci D Lally A 2004 est l un des efforts les plus aboutis pour rendre interop rables des composants de TAL Cette architecture est n e d un besoin interne d IBM Research qui comptait plus de 200 personnes travaillant sur des sujets tr s vari s de TAL recherche d information d tection d entit s nomm es classification de documents traduction automatique questions r ponses D une part cette diversit a pouss diff rentes quipes r fl chir au meilleur moyen de partager leurs r sultats D autre part la possibilit de r utiliser et de combiner des r sultats d analyse gr ce une architecture commune et un cadre logiciel robuste est de nature permettre d int grer plus rapidement les r sultats des quipes de R amp D dans les produits logiciels d IBM Ces besoins ont conduit l laboration d UIMA Unstructured Information Management Architecture architecture de 35 traitement des informations non structur es qui offre des capacit s de recherche d information et une plate forme de d veloppement de composition et de d ploiement de moteurs d analyse UIMA propose un cadre technique de r f rence centr sur l annotation de documents Son objectif est de d crire les tapes de traitement d un document de type texte image ou vid o afin d en extraire de fa on automatique des informations structur es En revanche UIMA ne d crit ni comment ces informations doivent tre extrait
16. dans le cas o on ne dispose que d exemples mais non d tiquettes et que le nombre ou la nature des classes n est pas d termin e l avance Le corpus est donc fourni brut sans annotation L algorithme est cens expliciter tout seul la structure plus ou moins cach e de donn es h t rog nes en les organisant en sous groupes o les donn es similaires sont regroup es d une fa on homog ne Un humain expert du domaine peut alors ventuellement attribuer manuellement une classe chacun de ces sous groupes Le partitionnement d un corpus en groupes de documents similaires clustering est un exemple d apprentissage non supervis 3 Apprentissage semi supervis L apprentissage semi supervis utilise conjointement un ensemble de donn es tiquet es et non tiquet es L int r t est d une part d am liorer significativement la qualit ou la rapidit de l apprentissage Blum Mitchell 1998 et d autre part de n cessiter moins de temps d annotation des corpus d Utilisation dans le cadre de notre plate forme Les composants d Antelope taient initialement tous d finis par des syst mes de r gles cod es manuellement La reconnaissance d entit s nomm es et le regroupement de documents ont volu pour int grer des techniques d apprentissage automatique la place ou en compl ment des impl mentations pr c dentes L introduction de ces techniques a permis une am lioration des performances et
17. de grands espoirs avant qu ils ne retombent les r alisations n tant pas la hauteur des attentes Toutefois nous pensons nous rapprocher d une situation o extraire le sens du texte deviendra un objectif r aliste En effet chaque grande vague a entra n son lot de progr s Des algorithmes nouveaux ont permis de progresser sur la plupart des t ches Les techniques d apprentissage automatique machine learning en anglais ont montr leur efficacit en remplacement ou en compl ment des syst mes connaissances expertes leur essor a t rendu possible par l apparition d un nombre croissant de corpus annot s manuellement permettant cet apprentissage La puissance de traitement des machines et leurs capacit s de stockage ont r guli rement doubl Nous sommes donc en pr sence d une conjonction de facteurs favorables aux progr s dans ce domaine Notre objectif est d tre capable de d velopper rapidement des applications de TAL sachant comprendre des textes de diff rentes natures crits en anglais ou en fran ais articles de presse dans une perspective de veille conomique textes encyclop diques pour extraire des connaissances sur le monde verbatims de consommateurs de fa on calculer un indice de satisfaction ou encore documents RH pour trouver les profils correspondant au mieux une offre par exemple Nos travaux s inscrivent donc r solument dans un cadre applicatif et op rationnel Not
18. de l APEC FAP Op rationnel des M tiers et des Emplois 2009 nomenclature des Familles Professionnelles de l INSEE Cette tude nous a permis de constater que ces nomenclatures officielles int grent rarement d une fa on directe les comp tences recherch es dans les offres d emploi ou cit es dans les CV Cela a conduit l quipe Proxem lors de la phase d adaptation des analyseurs acqu rir les comp tences et talents associ s un m tier donn avec une approche semi supervis e 3 Similarit entre documents exploitant la taxonomie Gr ce aux informations extraites lors de l analyse s mantique Ubiq dispose d une connaissance fine des m tiers et des comp tences sous jacentes Cela permet de trouver les meilleurs profils correspondant une offre ou d une fa on sym trique les annonces correspondant le mieux un CV donn Une partie importante de l analyse s mantique d un document RH consiste reconna tre des entit s nomm es l int rieur d un document Elles sont organis es en arborescence et forment une taxonomie du domaine RH L exploitation de cette taxonomie avec la prise en compte de la distance entre deux concepts permet d am liorer sensiblement la pertinence des r sultats lors des recherches effectu es par les candidats ou les recruteurs Par exemple un CV qui contient une seule fois le mot Java mais plusieurs termes comme JSP Struts et Hibernate
19. des Wikip dias en anglais et en fran ais et l ontologie SUMO Le tableau 2 montre la progression des citations de ces ressources dans CiteSeer entre juillet 2010 et juillet 2011 On voit que WordNet est probablement aujourd hui la ressource la plus utilis en TAL WordNet Wikip dia CYC Th saurus Ontologie Ontologie Roget SUMO DOLCE Juillet 2010 6 492 3 538 2 650 450 353 323 Juillet 2011 7 367 5 602 2 947 460 414 363 Progression 13 58 11 2 17 12 Tableau 2 Evolution des citations dans CiteSeer de diff rentes ressources lexicales a Th saurus de Roget L une des plus anciennes d velopp es pour l anglais est probablement le th saurus de Roget Dans sa premi re dition 1852 il comptait 15 000 mots anglais organis s en six classes principales La version utilis e en TAL est celle distribu e depuis 1996 dans le cadre du projet Moby elle enrichit la version de 1911 et compte 30 000 mots b Princeton WordNet et autres wordnets WordNet d velopp depuis 1985 l Universit de Princeton constitue un r seau s mantique large couverture de la langue anglaise 206 941 lexies d crivant 117 659 concepts dans la version 3 0 Les entr es y sont structur es par un ensemble riche de relations lexicales et s mantiques Plusieurs projets ont vu le jour pour cr er des wordnets dans d autres langues On peut notamment citer WOLF pour le fran ais Toutef
20. entit s nomm es a d tect AutoCAD comme un LOGICIEL DE CAO et MS Project comme un LOGICIEL DE GESTION DE PROJET Le syst me peut donc inf rer que FreeCAD est aussi une entit nomm e candidate Pour d terminer son type on cherche le plus proche anc tre commun de LOGICIEL DE GESTION DE PROJET et LOGICIEL DE CAO qui sont tous deux des hyponymes de LOGICIEL Le syst me peut proposer LOGICIEL comme type pour FreeCAD Ensuite lors de la validation humaine le linguiste pourra ventuellement requalifier plus finement FreeCAD en tant que LOGICIEL DE CAO 6 Amorce d un plan de classification Pour finir un regroupement automatique des documents du corpus permet d amorcer une proposition de plan de classification th matique Il permet de faire appara tre des groupes de documents qui correspondent par exemple des demandes d informations des f licitations ou encore aux principaux motifs d insatisfaction 140 D Analyse d avis de consommateurs Ubiq 1 Objectif Etre l coute de la voix des clients et g rer sa e r putation sont des enjeux majeurs pour toutes les marques B2C Ubiq est une solution d aide la d cision d di e aux marques de la grande distribution du commerce lectronique des cosm tiques de la banque de d tail ou de la banque en ligne Chaumartin 2011 Son objectif est de permettre d identifier les attentes des consommateurs en les classant par th matiques de d tecter le
21. est loin d tre imm diate ce qui constitue un frein a leur impl mentation D Contributions Notre objectif de recherche n cessitant la prise en compte simultan e de plusieurs t ches et ressources linguistiques ainsi que leur int gration nous avons d adopter une d marche en largeur Une partie de nos travaux a port aussi sur des taches pr cises avec une approche en profondeur Au final notre contribution directe porte essentiellement sur quatre points e La conception d une plate forme industrielle de traitement du langage robuste et relativement simple a mettre en ceuvre qui permet diff rents niveaux de repr sentation La plate forme propose aussi un mod le de donn es linguistiques unifi A notre connaissance il n existe pas d autre plate forme librement utilisable pour l enseignement et la recherche aussi compl te sur le jeu de composants fournis en standard e La constitution d un lexique s mantique multilingue a large couverture par int gration de donn es linguistiques d origines diverses WordNet Wikip dia SUMO e La conception et l impl mentation de composants d analyse s mantique d di s des t ches unitaires reconnaissance d entit s nomm es extraction de relations analyse d opinion et de sentiments r solution d anaphores regroupement de documents e Le prototypage d une interface syntaxe s mantique ISS dans la suite op rationnelle rendu possible par la mi
22. est pas une op ration triviale Grefenstette 1994 Un niveau interm diaire entre la phrase et le document est le paragraphe un segment de texte compris entre deux alin as Le paragraphe est un l ment de structure essentiel du document un changement de paragraphe marque la composition du texte en termes d interlocution ou le d sir de l auteur de mettre en avant un nonc ou une id e Il peut s agir d un titre ou d un l ment d num ration un style est alors associ au paragraphe ou d un ensemble de phrases dans le premier cas la pr sence d un style permet de conna tre l importance du paragraphe dans le second cas la pr sence d un nombre suffisant de mots permet de calculer sa th matique Les paragraphes sont eux m mes organis s au sein d l ments de structure tels que des sections ou parties d un document 5 Corpus Disposer d un grand nombre de documents dans un domaine donn partageant un certain degr d homog n it offre un volume suffisant de texte qui permet de tirer parti des hypoth ses distributionnelles loi de Zipf et de Harris L exploitation endog ne d un corpus permet d extraire les principaux termes du domaine en effectuant une extraction terminologique d effectuer des op rations d apprentissage automatique classification ou encore de regrouper automatiquement des documents en sous ensembles th matiques appel s c usters en anglais 6 Types
23. potentiels Nous commen ons par relever les similarit s au niveau du vocabulaire employ entre l article et chacun des hyponymes de ses anc tres possibles en effet des articles ayant le m me hyperonyme ont une forte probabilit de traiter de sujets voisins et de partager un champ lexical 5 Autres heuristiques Pour finir nous appliquons deux heuristiques suppl mentaires Tout hyperonyme candidat d une entit nomm e personne lieu etc voit son indice de confiance augment s il en d coule des 67 relations de type instance hyponyme ou s il h rite d un groupe social entreprise organisation mouvement c R sultats obtenus sur un sous ensemble de la Wikip dia anglaise La Wikip dia connait depuis plusieurs ann es une progression constante de son nombre d articles certains ne sont que des biographies auto promotionnelles d autres des comptes rendus de films ou de jeux vid o Notre choix a t de ne retenir ici que les entr es correspondant un consensus en termes de connaissances encyclop diques Nous avons donc choisi de travailler sur un sous ensemble des articles de l English Wikipedia recoupant sur la base du titre ceux d une autre encyclop die de r f rence la Britannica online en l occurrence La version de mars 2006 de la Wikip dia en anglais 1 005 682 articles a ainsi t filtr e pour retenir 15 847 articles qui ont t appari s automatiquemen
24. relie un sujet qui est une personne un objet qui est une organisation employeur rdfs domain foaf Person employeur rdfs range foaf Organization A partir de ces d clarations un syst me peut d duire de Francois employeur Proxem que Francois est une instance de foaf Person et Proxem une instance de foaf Organization On voit ici un point important mais d stabilisant pour quelqu un qui aurait d j pris des habitudes de mod lisation avec UML par exemple savoir que les m canismes du Web s mantique sont orient s vers l inf rence et non la v rification des contraintes De notre point de vue c est l un des facteurs qui complexifie l adoption de ces standards mergents 207 1 je ee tg Telles que titre cr ateur diteur sujet description langue 191 3 SKOS SKOS Simple Knowledge Organisation System Syst me simple d organisation des connaissances est une famille de langages formels construits sur la base de RDF et de RDFS permettant une repr sentation standard des taxonomies th saurus et autres types de vocabulaires contr l s Son d veloppement a t fait conjointement par des acteurs de la communaut RDF et des documentalistes experts L objectif principal de SKOS est de permettre la publication facile de vocabulaires structur s pour leur utilisation dans le cadre du Web s mantique Nous pr sentons un exemple de repr sentation de WordNet avec SKOS pa
25. technologies li es Java sera correctement identifi comme tant celui d un profil exp riment dans le domaine Java De m me dans le domaine informatique une comp tence NET est toutes choses gales par ailleurs plus proche d une comp tence Java qu une comp tence COBOL F Autres projets de R amp D utilisant Antelope 1 Une plate forme utilisable et utilis e Nous souhaitons conclure cette partie en montrant que la plate forme Antelope est utilisable et effectivement utilis e non seulement par l quipe Proxem mais aussi par des internautes n ayant eu aucun change direct avec Proxem A nos yeux c est un point essentiel pour juger de la maturit d une plate forme Un pr requis est videmment de disposer d un minimum d l ments qui en 182 http www ilo org public english bureau stat isco isco08 index htm http www pole emploi fr candidat les fiches metiers index jspz id 681 http annuaire metiers jd apec fr http www travail emploi sante gouv fr IMG pdf FAP 2009_Introduction_et_table_de_correspondance pdf 183 184 185 149 facilitent la prise en main Antelope est utilisable sans contrainte pour la recherche et l enseignement et dispose d un programme d installation d une documentation d utilisation de 65 pages d un fichier d aide et de deux programmes de d monstration dont l application de veille conomique pr sent e au chapitre B qui recompilent sans difficult
26. www martinfowler com articles injection html consult en mai 2012 FRANCOPOULO G 2008 TagParser on the way to ISO TC37 conformance Actes de nternational Conference on Global Interoperability for Language Resources Hong Kong FRANCOPOULO G DECLERCK T SORNLERTLANVANICH V DE LA CLERGERIE E MONACHINI M 2008 Data Category Registry morpho syntactic and syntactic profiles Workshop use and usage of language resource related standards LREC Marrakech GAMMA E HELM R JOHNSON R VLISSIDES J 1993 Design patterns Abstraction and reuse of object oriented design In European Conference on Object Oriented Programming Proceedings volume 707 of Lecture Notes in Computer Science Springer Verlag GREFENSTETTE G 1994 What is a word what is a sentence Problems of Tokenization COMPLEX 94 pages 79 87 GRISHMAN R SUNDHEIM B 1996 Message Understanding Conference 6 A brief history Actes de International Conference on Computational Linguistics Gross M 1994 Constructing Lexicon grammars In Computational Approaches to the Lexicon Atkins and Zampolli eds Oxford Univ Press pp 213 263 GRUBER J 1965 Studies in lexical relations Ph D Dissertation MIT HASTIE T TIBSHIRANI R FRIEDMAN J 2001 Hierarchical clustering The Elements of Statistical Learning 272 280 2001 CLUSTERING HEYER L J KRUGLYAK S YOOSEPH S 1999 Exploring Expression Data Identification and Analysis of Coexp
27. 1 deux sens vin et r gion En revanche BOURGOGNE n y figure qu en tant que r gion Pour 10 BORDEAUX 1 a port city in southwestern France BORDEAUX 2 BORDEAUX WINE 1 any of several red wines or white wines produced around Bordeaux 101 BOURGOGNE 1 BURGUNDY 1 a former province of eastern France that is famous for its wines 78 information mais ce n est pas essentiel ici le seul sens pr sent pour CHIANTI 7 RIOJA est celui du vin BEAUJOLAIS MEDOC et Consid rons la phrase Friends don t let friends drink Bourgogne Les deux premiers sens du verbe 1 boire boire de l alcool Ils ont le m me cadre de sous DRINK dans WordNet peuvent convenir cat gorisation associ dans VerbNet sa construction Agent boit Patient pr cise que Patient doit avoir les traits lt concret comestible liquide gt BOURGOGNE 1 est donc incompatible avec ces contraintes de s lection sans information compl mentaire notre m canisme d tiquetage de r les th matiques utilisant VerbNet et WordNet chouera trouver une solution La prise en compte de la m tonymie permet de r soudre ce probl me en autorisant une op ration de coercition de type Pustejovsky 1995 postule que la multiplicit des sens des mots s explique par des m canismes g n ratifs universels Chaque lex me poss derait un certain degr d ambiguit polys mie logique et des m canismes g n raux permettent la s
28. 28 Ou dit autrement vers un Synset de WordNet 24 Nous estimons cet objectif globalement atteint Par exemple le code du composant d extraction terminologique d Antelope fait 400 lignes et traite l anglais et le fran ais avec une version unique A titre de comparaison le programme Acabit Daille 1994 qui rend le m me service compte deux modules distincts un pour l anglais et l autre pour le fran ais qui font chacun 4 000 lignes de code environ Cette comparaison permet de souligner concr tement l int r t d une plate forme disposer d un environnement avec une biblioth que de composants pr ts l emploi disponibles sur l tag re permet de d velopper rapidement des applications de TAL Pour donner un second exemple le composant de r solution d anaphores d Antelope op re sur les deux langues avec une version unique Seulement une dizaine de lignes de code y sont d di es des sp cificit s de l anglais et du fran ais 2 D claration d une nouvelle langue dans Antelope Antelope permet de d finir les caract ristiques associ es chaque langue prise en compte En pratique ce jour seules des langues d Europe de l ouest ont t int gr es la plate forme Nous nous inspirons en cela de Chomsky Lasnik 1993 qui postule que la syntaxe d une langue naturelle repose sur des principes universels modulo des param tres propres chaque langue a Parties du discours Notre approche
29. Dicovalence fond sur l approche pronominale donne les cadres valenciels de 3 700 verbes 79 g Sa 7 z r Un corpus journalistique obtenu par analyse syntaxique des articles de 10 ann es du journal Le Monde 56 Colorado VerbNet regroupe par classe les verbes partageant les m mes comportements syntaxiques et s mantiques C est un prolongement des travaux de Levin 1993 Une classe de verbes regroupe plusieurs verbes et identifie des r les th matiques avec d ventuelles contraintes de s lection Elle d crit plusieurs constructions typiques des frames en anglais des verbes membres La s mantique de l action ou de l v nement est galement pr cis e Des sous classes permettent de d crire d ventuelles sp cialisations d une classe On peut en trouver une description dans Kipper Schuler 2003 La version 2 1 distingue 237 classes de verbes qui regroupent 4991 sens de verbes Un verbe membre d une classe est souvent accompagn d une pr cision sur le synset correspondant qui permet d identifier dans WordNet le sens pr cis du verbe VerbNet dispose aussi d une correspondance vers FrameNet Chaque fichier de VerbNet d crivant une classe de verbes est repr sent en XML et d coup en sections balis es selon une structure arborescente x e lt MEMBERS gt d crit les verbes membres qui appartiennent a la classe en pr cisant l identifiant vers les synsets correspondants de WordNet e
30. Grefenstette 1994 rappelle que de nombreuses ambiguit s existent lors de la segmentation d un document en phrases Les phrases se terminent par une ponctuation mais si le point d exclamation ou le point d interrogation sont g n ralement non ambigus il n en va pas de m me en ce qui concerne le point qui ne marque pas forc ment la fin une phrase Par exemple il peut appara tre dans un acronyme S A R L dans une abr viation ou dans un nom propre John F Kennedy Un syst me de r gles est cod dans Antelope pour prendre en compte les cas les plus fr quents Nous estimons que la segmentation s effectue correctement dans 99 des cas sur les corpus que nous avons eu traiter dans des contextes industriels Ce r sultat nous semblant suffisant nous n avons pas cherch pour l instant g rer d ambiguit de ce type c Reconnaissance de mots compos s Une suite de mots peut repr senter une unit lexicale ou non en fonction du contexte Par exemple je couvre la pomme de terre peut tre compris comme je couvre de terre la pomme ou je couvre la pomme de terre La plate forme contient un composant de reconnaissance d expressions multi mots qui v rifie si une suite donn e de mots existe dans le lexique s mantique et propose alors de les regrouper en une seule unit lexicale Ce composant d l gue la d cision effective de regroupement des mots l application appelante qui dispose g
31. Lawrence Erlbaum IE DESPOTAKIS D 2011 Multi perspective Context Modelling to Augment Adaptation in Simulated Learning Environments Proceedings of User Modeling Adaption and Personalization Lecture Notes in Computer Science Springer Verlag Volume 6787 2011 pp 405 408 cr DIJKSTRA E W 1965 Solution of a problem in concurrent programming control In Communications of the ACM septembre 1965 volume 8 p 569 DING C H Q DING C HE X ZHA H GU M SIMON H 2001 A Min max Cut Algorithm for Graph Partitioning and Data Clustering Actes de 2001 IEEE International Conference on Data Mining 107 114 CLUSTERING Doumit S MINAIA 2011 Online News Media Bias Analysis using an LDA NLP Approach Proceedings of International Conference on Computational Science ICCS 2011 Singapour pp 251 265 cr DUCLAYE F 2003 Apprentissage automatique de relations d quivalence s mantique partir du Web Th se de doctorat T l com ParisTech ESULI A SEBASTIANI F 2006 SentiWordNet A Publicly Available Lexical Resource for Opinion Mining Actes de LREC 2006 fifth international conference on Language Resources and Evaluation pp 417 422 Fass D 1988 Metonymy and Metaphor What s the difference Actes de Coling 88 177 181 FEIGENBAUM L HERMAN l HONGSERMEIER T NEUMANN E ET STEPHENS S 2007 The Semantic Web in Action Scientific American vol 297 pp 90 97 sw FELDMAN R AUMANN Y LIBE
32. Les structures que nous souhaitons obtenir sont des couples form s d un arbre de d pendance syntaxique et d un graphe s mantique nos structures l mentaires sont donc des fragments d arbre syntaxique associ s des fragments de graphe s mantique et notamment des n uds ou des d pendances syntaxiques associ s des n uds ou des d pendances s mantiques La particularit de ce formalisme est un contr le rigoureux de ce que chaque r gle consomme l aide de polarit s associ es aux objets manipul s par les r gles Le jeu de polarit s le plus simple est constitu de deux polarit s que nous appelons noir m et blanc o Chaque objet de la structure re oit une polarit Sont consid r s comme des objets les n uds identifi s avec l l ment lexical qu ils portent les d pendances et les l ments flexionnels ayant une contribution s mantique temps verbal nombre nominal etc Les r gles sont combin es par identification des objets dont les tiquettes peuvent s unifier et les polarit s se combiner Par exemple la figure 62 pr sente un exemple d ISS en GUP En haut gauche se trouve la phrase Mary seems to sleep avec l analyse syntaxique en d pendance qu en propose le Stanford Parser Nous ajoutons des polarit s blanches sur les d pendances L et les mots LI indiquant que ces objets doivent tre consomm s par des r gles d interface Pour les verbe
33. Nous avons capitalis sur le m canisme de gazettes contextuelles d crites en section V B 2 page 95 Prenons l exemple d une liste de lieux Lors de l entra nement on trouvera r guli rement des mots appartenant a cette liste tiquet s comme tant des lieux Lors de la phase d annotation la probabilit pour qu il s agisse d un lieu augmentera pour un mot appartenant cette liste m me s il n appara t jamais dans le corpus d entra nement Ce type de caract ristique permet de modifier les listes sans avoir entra ner nouveau le CRF 8 Etiquetage morphosyntaxique L objectif est ici d utiliser comme caract ristique la partie du discours des mots du corpus d entra nement et du corpus o d tecter les entit s nomm es On peut de cette fa on distinguer les homographes d Evaluation sur un corpus en anglais Nous avons valu l volution du temps d entra nement en fonction de la taille du corpus d entra nement en fixant le nombre de classes et les options choisies puis en effectuant l entra nement sur plusieurs corpus contenant un nombre croissant de mots Nous avons mesur les performances sur un corpus anglais avec trois classes d entit s nomm es personnes lieux g ographiques organisations la taille de corpus variant entre 1 000 et 300 000 mots Ces tests permettent de mettre en vidence l augmentation du temps d entra nement en 128 La charge m moire reste r duite lorsque le nombre de c
34. Nous avons vu dans le chapitre pr c dent comment reconna tre des entit s nomm es de type SOCIETE ou PERSONNE par exemple Nous allons pr sent nous attacher extraire des relations entre les unit s s mantiques que sont les unit s lexicales et les entit s nomm es Chaque unit s mantique est trait e comme un pr dicat logique avec un certain nombre d arguments Les relations s mantiques sont donc des relations pr dicat argument Plusieurs niveaux de finesse sont possibles dans une telle op ration en fonction des objectifs vis s L approche la plus ancienne h rit e des pratiques de la logique des pr dicats consiste diff rencier les arguments simplement en les num rotant arg1 arg2 arg3 ou argO arg1 arg2 en suivant en g n ral un ordre d oblicit croissante sujet lt objet direct lt objet indirect lt compl ment oblique Le r le jou par chaque argument d une unit lexicale est d crit dans l entr e lexicale de celle ci II n y aucune g n ralisation faite sur le lexique un arg2 est simplement le deuxi me argument d une unit lexicale et ne pr suppose pas un r le particulier Seule la consultation du lexique permet de savoir quoi il renvoie exactement Une op ration plus riche consiste non seulement diff rencier les arguments mais aussi les typer et les nommer Nous distinguerons dans la suite deux niveaux de typage des r les l un tr s g n ral s applique
35. Recipient general Theme powers e Transfer during E1 Theme powers e Cause Agent Lincoln El Notre impl mentation de tiquetage des r les th matiques n cessite des d veloppements compl mentaires pour tre r ellement utilisable sur des textes tout venant Aujourd hui nous consid rons qu elle m identifie correctement les r les que sur un tiers des textes Cette limitation nous semble li e principalement deux facteurs d une part la couverture perfectible de la ressource VerbNet et d autre part la complexit intrins que de la t che Notons que pour l instant l tiquetage des r les th matiques dans Antelope ne fonctionne que pour l anglais car il d pend de VerbNet 4 Etiquetage de r les s mantiques a Objectifs Pour calculer un tiquetage plus pr cis qu un r le th matique Antelope int gre un composant d extraction d information orient vers la t che de remplissage de patrons ou template filling en anglais Son but est de d tecter des pr dicats dans un texte et de remplir automatiquement les valeurs des arguments de ces pr dicats Notre objectif est triple nous cherchons d abord privil gier des r ponses pr cises ensuite exprimer aussi simplement que possible les informations cherch es enfin tre ind pendant d une langue donn e ou d un analyseur particulier Le composant utilisant la sortie d un analyseur syntaxique int gr a Antelope l extraction d info
36. Sous projets du Linked Data en septembre 2011 198 E Repr sentation de WordNet avec SKOS WordNet encode 14 types de relations conceptuelles entre synsets Les relations structurelles fondamentales sont l hyponymie hyperonymie pour les noms et verbes traditionnellement repr sent e par un pr dicat isA et la m ronymie holonymie pour les noms traditionnellement repr sent e par un pr dicat hasPart SKOS avec quelques extensions la d finition des types de relations permet de repr senter l information contenue dans WordNet ainsi que sa correspondance avec d aut Les lignes res sources d informations comme Wikip dia suivantes montrent un sous ensemble d une telle description On y voit apr s la d claration des pr fixes d espaces de noms que e La Simple Wikipedia et WordNet 3 0 sont des syst mes de conception e WordNet a ENTITY 1 comme concept racine e Le concept KITTEN 1 s appelle usuellement kitten en anglais et chaton en fran ais e _L hyperonyme du concept KITTEN 1 est le concept YOUNG_MAMMAL 1 e Le prefix g prefix s concepts DOMESTIC_CAT 1 de WordNet et CAT de la Wikipedia sont identiques skos lt http www w3 org 2004 02 skos core gt rdf lt http www w3 org 1999 02 22 rdf syntax ns gt prefix prefix prefix prefix prefix wiki si rdfs lt http www w3 org 2000 01 rdf schema gt owl lt http ww
37. buyer properNoun signs agreement to purchase buy acquire company properNoun buyer properNoun says that it completes its acquisition of company properNoun buyer properNoun says that it buys s part of company properNoun buyer properNoun completes the acquisition of company properNoun company properNoun a subsidiary of buyer properNoun Options Search documents on Google Live Search English Max docs per criterion 203 Timeout sec s N Figure 36 Interfaces de saisie des crit res de recherche Nous avons valu le composant en le testant sur les rachats de soci t s et prises de participations effectu s par Microsoft L application trouve 2 160 documents partir du Web contenant 4 367 136 TA tye ae 1A ae Ces diff rentes paraphrases ont t cr es manuellement par examen d un corpus de d p ches financi res Les mots entre accolades sont des macros qui seront substitu es leur int r t est d all ger l expression des paraphrases en d finissant une fois pour toutes des motifs fr quemment r p t s Le pr fixe indique un GN Disposant d une API comme Yahoo et Microsoft Bing celle de Google a t suspendue en novembre 2010 137 113 phrases candidates et extrait une information partir de 1 353 phrases en un peu moins d une heure de traitement A peu pr s 10 de ces r sultats sont erron s du fait d une segmentation ou d une analys
38. clarer que les sous classes d une classe constituent une partition exclusion mutuelle En pratique OWL rend souvent n cessaire la d claration de classes disjointes en dessous d un anc tre commun pour viter des messages d erreur lors de l application des m canismes d inf rence du raisonneur En UML une association peut avoir une cardinalit minimale et maximale sur chaque r le OWL g n ralise ce m canisme et permet notamment de d clarer une propri t comme fonctionnelle inverse fonctionnelle sym trique transitive 2 alors qu OWL Full autorise une classe tre une UML a une s paration stricte des niveaux m ta instance d une autre classe m taclassification Enfin la notion de paquetage UML correspond la notion d ontologie en OWL 22 UML est organis en une s rie de m ta niveaux M3 M2 M1 et MO de la fa on suivante e M3 est le MOF MetaObject Facility d fini par OMG langage de mod lisation universel e M2 est le mod le d un syst me de mod lisation donn ex m ta mod le UML 196 4 Principes des raisonneurs La logique de description permet de r aliser des inf rences et des raisonnements Les t ches de d duction de base sont la subsomption la v rification d instances la v rification de relations la coh rence de concepts la coh rence de la base de connaissances Ces t ches de d duction de base peuvent tre utilis es pour d finir des t ches plus c
39. crivain de langue latine crivain espagnol du Vile si cle Haut Moyen Age Royaume wisigoth Personnalit de S vile Naissance en 560 Nasssance Carthag ne Espagne D c s en 636 Saint cathobque espagnol Figure 10 Exemple de page de la Wikip dia fran aise article sur saint Isidore 7 En pratique dans la Wikip dia fran aise et l anglaise ce graphe comporte des cycles ce qui en complexifie l exploration par un algorithme en effet il faut d tecter les cycles pr alablement un traitement ce qui n est pas chose ais e dans un graphe de plusieurs dizaines de milliers de n uds 44 d Ressources produites partir des donn es structur es de la Wikip dia DBpedia Auer et al 2007 est un projet collaboratif qui vise extraire des informations structur es partir des InfoBox de la Wikip dia et les rendre disponibles dans les formats et protocoles du Web s mantique sous forme de triplets RDF DBpedia permet donc de faire des requ tes complexes sur les connaissances contenues dans la Wikip dia en les reliant d autres jeux de donn es FreeBase Bollacker et al 2008 vise les m mes objectifs YAGO Suchanek et al 2007 exploite le graphe de cat gories de la Wikip dia et WordNet pour cr er automatiquement une vaste ontologie du sens commun Yet Another Great Ontology La version 2 utilise aussi la base de donn es g ographiques GeoNames et met l accent sur la qualit des
40. des formats et des encodages A la diversit des informations repr sent es s ajoute celle des formats ces ressources sont disponibles sous diff rentes formes allant du simple fichier texte avec une ligne par l ment d crit des repr sentations structur es en XML L encodage m me des caract res a longtemps t source de disparit s avec des cohabitations difficiles ASCII ANSI ISO 8859 1 42 La g n ralisation d Unicode repr sente une solution op rationnelle ce probleme Unicode ambitionne d tre un sur ensemble de tous les autres encodages avec un r pertoire complet contenant mi 2012 autour de 110 000 caract res Pr cisons que les cha nes de caract res sont repr sent es en Unicode dans Antelope en m moire comme dans les donn es persistantes Cela permettra dans le futur la prise en compte de langues utilisant des alphabets non europ ens 2 Survol de ressources large couverture fr quemment utilis es en TAL Quelques ressources sont progressivement devenues des standards de fait en TAL Elles ont pour caract ristiques communes d tre libres de droit de proposer une large couverture d une ou plusieurs langue s et d tre suffisamment structur es pour tre facilement utilis es en TAL Ces diff rentes ressources sont d crites dans cette partie ainsi que leur utilisation dans le cadre de nos travaux Nous avons essentiellement mis en uvre WordNet et des extensions WordNet
41. deux Otoio ein on pouse et ses deux enfants L andre et Florentine p Canonisation 1506 Rome le leur p re En 576 L andre F te L andre devient l abb du m e 0 e son jeune fr re Isidor tuteur depuis la m il instruit R car de 1 et le N concile de de le 8 mai 589 au cours duquel chev que de la B tique Saint patron la conversion du rot wisigoth au catholicisme devient c ant ion de L andre S ville devient un centre culturet particub rement brillant et la bibhoth que piscopale ennchie de nombreux manuscrits apport s de Rome et de Constantinople auxquels s ajoutent ceux apport s par les chr tiens r fugi s d Afrique permet l acc s de nombreuses uvres tant sacr es que o protanes Isidore re oit ainsi une instruction tr s compl te et la mort de L andre le clerg local respecte le souhait de ce demier en lisant Isidore la dignit piscopale lenroules Docteurs de l glise catholique Anselme de Bahasa Indonesia tahano REZ Laina imburgs ths Portail du catholicisme tb Portail du Haut Moyen Age BRE Portail de l histoire de Ia zoologie et de Ia botanique E Portail de l Espagne Nederlands A rsk Dokm al Cat gones Religieux du Moyen ge Religieux espagnol du Moyen ge Archev que de S ville P re de l glise Docteur de l ghkse Saint catholique et orthodoxe Zoologiste L urgiste ques
42. donn Son second objectif est de permettre d effectuer des raisonnements sur les objets du domaine concern pour v rifier notamment que les contraintes sont bien respect es La figure 9 montre titre indicatif un fragment de l ontologie SUMO Ei SUMO owl file C Documents 20and 20Settings frc Bureau SUMO owl C Documents and Setti E File Edit Ontologies Reasoner Tools Refactor Tabs View Window Help SP S SUMO owl file C Documents 20and 20Settings frc Bureau SUMO owl v 88 hu Active Ontology Entities Classes Object Properties Data Properties Individuals OWLViz DL Query OWLYiz Agent 0888 Asserted class hierarchy Agent x AVEHOAKRG CEH Thing Asserted model Inferred model S Entity zi Abstract Co A si m Physical Craie ee Object E a x ti Microorganism CommercialAgent GeopoliticalArea Group ES Organism Animal Invertebrate Vertebrate ColdBloodedVertebr WarmBloodedVerteb Bird Mammal AquaticMammal Carnivore HoofedMammal Marsupial Primate Ape Hominid lt gt _ Plant D Animal es xs GreupofPeople is a Organization is a 7 SentientAgent 1 53 lt CognitiveAgent SE q StateOrProvince Figure 9 Une partie de l ontologie SUMO affich e dans l diteur d ontologie Prot g b Vari t
43. et peut tre introduit par un titre Monsieur Mme pr sident un nom de soci t est ventuellement suivi par sa forme juridique SARL SAS GmbH Ltd Nous avons donc annot les entit s nomm es en utilisant la convention IOB pour inside outside begin propos e initialement par Ramshaw Marcus 1995 pour annoter les chunks Le pr fixe B_ ou _ est ajout selon que le terme courant est le d but ou non de l entit nomm e lorsque le mot courant ne repr sente aucune entit on lui associe l tiquette O Avec cette convention on annote par exemple le pr sident Sarkozy a d cid de la fa on suivante le O pr sident B_PERSONNE Sarkozy I_PERSONNE a O d cid O Notons que d autres sch mas d annotations plus ou moins complexes sont videmment possibles Par exemple le guide d annotation du projet Quaero Rosset et al 2011 pr sente en d tail les principes ayant servi a tiqueter des corpus de presse crite et orale trois millions de mots en tout c D finition des caract ristiques Les caract ristiques ou features en anglais sont d terminantes pour d cider de l appartenance d un mot une classe d entit s nomm es particuli re Il est primordial que les caract ristiques mises en place captent ces particularit s de fa on efficace sans g n rer de bruit pour viter un 124 la biblioth que de code CRF utilise des adaptateurs pour acc der aux donn es
44. extraction d information s appuient sur la sortie d une analyse syntaxique RSyntS ou RSyntP et peuvent acc der aux donn es du lexique s mantique Au moment de leur impl mentation initiale ces composants fournissaient des r sultats l tat de l art Ils sont en cours d adaptation pour b n ficier de m canismes d apprentissage automatique 2 Introduction l extraction d information Les composants d analyse s mantique de notre plate forme traitent des t ches au niveau e De la phrase reconnaissance d entit s nomm es page 93 extraction de relations page 106 et analyse d opinion et de sentiments page 115 e Du document r solution d anaphores et de cor f rences page 122 e Du corpus regroupement de documents page 125 Comme on le voit il s agit de taches d extraction d information que Moens 2006 d finit comme tant l identification effectu e suite ou simultan ment une classification et structuration en classes s mantiques d informations sp cifiques trouv es dans des sources de donn es non structur es telles que du texte en langage naturel fournissant des aides suppl mentaires aux 112 l extraction syst mes d information pour acc der et interpr ter ces donn es non structur es d information ne cherche pas attribuer une valeur de v rit aux informations extraites Elle vise reconna tre des entit s et des relations entre entit s au sein d un
45. f rentiels linguistiques th saurus taxonomie ou ontologie que des graphes complexes comme ceux issus de r sultats d analyse correspondant l extraction d entit s nomm es ou de relations par exemple 19 http www w3 org standards semanticweb RDFa une proposition du W3C permet d annoter des pages HTML existantes avec des donn es RDF 187 Feigenbaum et al 2007 effectue un premier bilan du chemin parcouru six ans apr s l article fondateur Berners Lee et al 2001 Cette publication pr sente des cas pratiques d utilisation des technologies du Web s mantique et les solutions concr tes qu elles apportent en particulier dans les domaines des soins de sant et des sciences de la vie Le choix de ces domaines pour illustrer les applications du Web s mantique n est pas fortuit En effet ils ont depuis longtemps structur les informations qu ils manipulent sous forme de th saurus o d ontologies citons par exemple MeSH et UMLS ce qui en facilite l adaptation vers les technologies du Web s mantique B Standards introduits par le Web s mantique Un l ment qui a fortement contribu au succ s du Web actuel a t la standardisation des protocoles HTTP FTP URI SOAP langages HTML XML XSL CSS et formats PNG SVG Cette normalisation est due au World Wide Web Consortium ou W3C Cet organisme a d fini un ensemble de nouveaux standards ouverts formant la pile d
46. framenet2 icsi berkeley edu FreeBase http www freebase com GATE CUNNINGHAM ET AL http gate ac uk Global WordNet http www globalwordnet org Google Books Ngram http books google com ngrams datasets GrGen http www info uni karlsruhe de software grgen IKVM NET http www ikvm net JLangDetect CHAMPEAU http code google com p jlangdetect Lefff CLEMENT ET AL Lexique des Formes Fl chies du Fran ais http atoll inria fr sagot lefff html LingPipe CARPENTER http alias i com lingpipe LinguaStream BILHAUT WIDLOCHER http www linguastream org Link Grammar Parser SLEATOR TEMPERLEY LAFFERTY http bobo link cs cmu edu link MONO http www mono project com NomBank MEYERS ET AL http nlp cs nyu edu meyers NomBank html NomLex MACLEOD ET AL http nlp cs nyu edu nomlex index html 184 OpenCalais http www opencalais com OpenCyc LENAT http www opencyc org OpenNLP http incubator apache org opennlp PrepLex FORT GUILLAUME http loriatal loria fr Resources PrepLex txt Prot g http protege stanford edu ResearchCyc LENAT http research cyc com Roget s Thesaurus dans le cadre du projet Moby http icon shef ac uk Moby SemCor Corpus http www cs unt edu rada downloads html SentiWordNet ESULI SEBASTIANI http sentiwordnet isti cnr it Stanford Parser MANNING KLEIN http nlp stanfor
47. gt lt comestible solide gt Partie II Formalismes de repr sentation du sens d un nonc A Repr sentations du sens 1 Qu est ce qu une repr sentation du sens D finir le sens n est pas une chose ais e Pour les linguistes le sens des r alisations orales parole ou crites texte s appr hende en premier lieu travers des entit s linguistiques factuelles telles que les mots groupes de mots phrases Ces objets perceptibles renvoient quelque chose de moins perceptible Dans le texte fondateur de la linguistique moderne de Saussure 1916 estime que le signe est un objet double face il a un c t perceptible acoustique dans le cas de la parole et l autre non perceptible qui en constitue la face conceptuelle ou signifi Le linguiste s attache donc d finir l une et l autre de ces faces La recherche du sens passe alors par celle des r gles selon lesquelles les entit s linguistiques de base peuvent se combiner pour permettre la propri t avoir du sens de se transmettre progressivement des objets de plus en plus complexes Le principe de compositionnalit introduit par Frege consiste interpr ter une expression complexe en fonction de l interpr tation de ses parties et de la mani re dont elles sont assembl es Les linguistes s manticiens s attachent donner une interpr tation extra linguistique de cette face non perceptible Pottier 1992 pr
48. large couverture permet aussi d am liorer la pr cision d un analyseur syntaxique capable de produire une for t d arbres quand il traite une phrase qui contient des expressions multi mots Cf section IIl 1 4 page 38 En effet les constituants d une telle expression sont regroup s l expression Battle of Gettysburg est reconnue en tant qu unit lexicale dans l arbre de gauche condition d appartenir un m me sous arbre Comme le montre la figure 61 mais pas dans celui de droite car les diff rents mots n y partagent pas de t te commune 162 prep prep prep dobj dobj pobj pobj a lt detfprer gt rpob i gt a pets an Captured during the Battle of Gettysburg Captured during the Battle of Gettysburg Figure 61 L identification d expressions multi mots permet de lever des ambiguit s syntaxiques Le composant qui identifie les expressions multi mots contribue ainsi la d sambiguisation syntaxique En effet il vote pour am liorer le score de l arbre o il a reconnu une expression et l am lioration du score est proportionnelle au nombre de mots regroup s L hypoth se linguistique formul e ici est qu il faut privil gier toutes choses gales par ailleurs les analyses syntaxiques permettant d identifier les expressions multi mots les plus longues 7 Am liorer la prise en compte des ambiguit s Ce chapitre a pr sent notre approche actuelle de la d sambiguisation la
49. le 7 Emplacement Emplacement est un participant qui exprime une destination une origine un endroit g n ralement introduit par un compl ment circonstanciel de lieu comme dans le bateau appara t l horizon 8 tendue Le r le tendue est utilis pour sp cifier l intervalle ou le degr de changement comme dans le prix du p trole augmente de 10 9 Exp rimentateur Exp rimentateur est un participant caract ris par le fait d avoir conscience de quelque chose ou d exp rimenter quelque chose comme dans Pierre souffre Plusieurs verbes psychologiques ou d motion ont un Exp rimentateur pour sujet aimer admirer ou pour objet amuser perturber 10 Moment Moment est un r le sp cifique la classe begin pour exprimer un horaire comme dans la r union commence 16 heures Pierre arrive dans 3 jours 11 Instrument Instrument est un objet ou une force physique qui provoque un changement dans quelque chose g n ralement par contact direct comme dans il toucha la balle avec la raquette 12 Mat riau Mat riau est le point de d part d une transformation utilis par exemple dans build comme dans Marie a sculpt une jolie statuette avec le bout de bois 13 Montant Montant est utilis pour repr senter une valeur une somme d argent ou l quivalent par exemple yt dans les classes build get obt
50. les th matiques classe ThematicRole des arguments du pr dicat e Chaque mot ou expression multi mots est associ une liste de sens possibles classe WordSense Un syst me de score permet de conserver les ambiguit s un sens possible est donc un lien vers un lemme du lexique s mantique pond r par ce score e Enfin le document contient une liste de cha nes de cor f rences compos es d un ensemble de syntagmes qui font r f rence la m me entit classe ReferringExpression la classe ReferringLink permet de conserver la liste des ant c dents possibles d une anaphore D Prise en compte du multilinguisme 1 Principes Antelope a initialement t d velopp e pour l anglais pour des raisons de disponibilit de ressources dans cette langue sans se pr occuper de multilinguisme Quand nous avons envisag de traiter une deuxi me langue le fran ais nous avons souhait faire d Antelope une plate forme multilingue Notre motivation tait de permettre une mutualisation entre plusieurs langues du code de certains composants ou au moins de certains algorithmes L int r t est une am lioration de la capacit a maintenir du code une plate forme multilingue vite de devoir maintenir plusieurs versions d un m me module chacune d entre elles tant adapt e aux sp cificit s d une langue donn e 3 La classe SyntacticNode est une sp cialisation de la classe Chunk qui ajoute une relation r cursive
51. livebox sim d simlockage r siliation sms tv Une pr position comme chez juste a gauche permet aussi d activer ce sens e Il faut aussi num rer les termes qui activeront les sens qu on ne souhaite pas reconna tre en jouant le r le d inhibiteurs de sens couleur ville code postal d Orange 84100 th tre Le sens ORANGE 3jcouleu Peut tre reconnu si c est un adjectif une pr position spatiale comme juste a gauche permet d activer le sens ORANGE 4ie j habite Orange ou ventuellement ORANGE 2 marque t l com il est abonn Orange En pratique un tel syst me donne d j des r sultats satisfaisants dans le contexte applicatif relativement ferm du syst me d analyse d avis de consommateurs pr sent au chapitre VI D page 141 Voici quelques extraits de verbatim o le sens ORANGE 1 fruit est reconnu uniquement gr ce au syst me de gazettes contextuelles e Le 3 janvier vers 16h30 rayon fruits et l gumes vide Plus d oranges e J ai achet le 21 12 10 vers 11h un filet de 3kg d oranges d guster tiquette et ticket de caisse joint 3 49 or le lendemain je constate que 2 fruits sont pourris et immangeables e Les oranges en promotion super quand nouveau e En l espace d un mois seulement 2 promotions sur des oranges e Dommage que vous n ayez pas de fruits oranges et citrons non trait s en cette p riode o chaque m nage alsacien pr
52. me objet On peut par exemple aussi ajouter une polarit simplement pour contr ler que chaque n ud a au plus un gouverneur et v rifier ainsi que le graphe de d pendances syntaxiques est bien un arbre Kahane 2004 2 Extraire une ISS Une ISS prend en entr e les sorties d un composant d analyse syntaxique Notre unique hypoth se est que nous partons d analyses syntaxiques en d pendance nous ne souhaitons pas faire d hypoth ses sur la nature exacte des tiquettes des n uds et des d pendances des arbres syntaxiques produits Notre id e est donc d crire des demi r gles dont l autre moiti sera calcul e par l analyseur de notre choix La premi re difficult est d identifier les traits de la structure syntaxique correspondant aux l ments s mantiques que nous souhaitons identifier On peut bien s r dresser une table de correspondance la main mais nous pr f rons extraire ces informations partir d exemples Pour cela nous adoptons les m thodes de l analyse distributionnelle et le principe de commutation Supposons qu on veuille savoir quel est le trait indiquant le temps verbal dans l analyse de Mary sleeps il suffit de comparer l analyse de cette phrase avec celle de Mary slept et de consid rer que ce qui a vari est l expression 16 Les analyses pr sent es ont t obtenues avec le Stanford Parser c est le cas pour la figure 62 ou le Link Grammar Parser 197 Voir Kahane La
53. qui peut d concerter un fran ais Nonobstant ces exemples il ne nous semble pas faux d affirmer que toutes les langues occidentales partagent une crasante majorit de concepts E Capacit pr server les ambiguit s La capacit pr server les ambiguit s syntaxiques lexicales r f rentielles aussi longtemps que possible est un point important de la plate forme Par exemple chaque phrase peut tre associ e une ou plusieurs analyses l une de ces analyses indiqu e par la relation BestAnalysis est la meilleure au sens d un syst me de vote pr sent en d tail en VII B page 154 F Architecture technique 1 Environnement de d veloppement NET Antelope est d velopp e nativement en C un langage objet cr par Microsoft dans le cadre de son architecture NET L ensemble constitu par C la biblioth que de classes et la machine virtuelle NET est proche de ce qui est propos par Java C est un langage objet moderne permettant le d veloppement par classes et interfaces une gestion des erreurs par exceptions et une d sallocation automatique de la m moire gr ce un ramasse miettes La version la plus r cente introduit des l ments de programmation fonctionnelle A expressions Par exemple le concept PEOPLE OF COLOR de WordNet nous semble US centric voire WASP centric 8 Riz avant cuisson riz cuit riz du matin riz du soir Neige au sol neige qui tombe bourrasque
54. rer plus facilement e Un article est class dans une ou plusieurs cat gories pr sentes en bas de chaque page 5 les cat gories forment un syst me de classement th matique organis selon un graphe orient e Les articles en diff rentes langues portant sur le m me sujet sont reli s entre eux par l interm diaire d un index interlingue affich gauche 6 amp Cr er un compte ou se connecter Le x A PF Q Article Discussion e Modifier Afficher Fhistorique Qa i u 1 Wixir pA Isidore de S ville L encyclop die libre arthag ne mort le 4 avril 636 est un religieux du vu si cle v que m tropolitain dHispalis S ville une des Isidore de S ville n entre principales villes du royaume wi entre 601 et 636 Accue Portals th matiques Il vient d une famile mMuente 5 L andre ami pape Gr goire le Grand le pr c de l piscopat de S ville qui contribue largement convertir les ndax alphab tique Wisigoths majontairement ariens au christianisme trnitare Artcie au hasard Contacter Wikip dia Sommaire masquer 1 Biographie gt Contribuer _Impamer exporter s le Majeur Bo te outits Autres langue 5 1 Oeuvres Asturian Azorbaycanca Biographie joan Naissance oi wisigoth Athanagild En 552 Carthago Nc S v rien s enfuit av rthag ne jusqu alors occup e par les tr 4 avri 696 couple d hispano romains eut plus tard
55. sente la s mantique comme une science qui se pr occupe des m canismes et op rations concernant le sens travers le fonctionnement des langues naturelles Elle tente d expliciter les liens qui existent entre les comportements discursifs baign s dans un environnement toujours renouvel et les repr sentations mentales qui semblent tre partag es par les utilisateurs des langues naturelles Les logiciens Aristote Montague cherchent formaliser la repr sentation du sens en construisant un syst me m talinguistique logique symbolique math matique etc permettant de parler du sens linguistique des connaissances ou des op rations de construction du sens et des connaissances Apparaissent alors les notions de formalisation de mod lisation et de repr sentation avec parfois pour ce dernier terme une confusion entre le m canisme de production et le r sultat produit Plus pr cis ment l association entre sens et son qui a lieu dans le cerveau ne se fait pas avec le son lui m me mais avec une repr sentation de ce son dans le cerveau que Saussure nomme l image acoustique il faut distinguer les parties physiques ondes sonores des physiologiques phonation et audition et psychiques images verbales et concepts Il est en effet capital de remarquer que l image verbale ne se confond pas avec le son lui m me et qu elle est psychique au m me titre que le concept qui lui est associ de Saussu
56. tesse le sens de serveur d pend en revanche du contexte serveur informatique est un autre sens 4 Exemples concrets d analyse d un document a Contexte bancaire La figure 52 montre l analyse d un verbatim relatif au monde bancaire les tablissements produits et op rations bancaires sont correctement identifi s 179 r P P n P x Attention aux exceptions si la tarte la noix existe effectivement un produit la noix n est pas forc ment un produit composite de m me le collier de mouton et le collier pour chien ne doivent pas tre confondus avec un collier du rayon bijouterie 143 Banque excellente rien redire 2 22 Je poss de depuis quelques temps maintenant un compte chez Boursorama et je dois dire que je suis ravie HHJ ai commenc en douceur en ouvrant un compte perso puis au fur et mesure ont suivi les comptes pargnes actifs en quelques clics Maintenant c est mon compte principal carte bancaire et tous les pr l vements aussi De nombreux avantages Tout d abord le prix je ne paie qu 1 5 euros par mois pour une assurance boursorama protection juste parce que j aime etre rassur e en cas d ventuelle fraude la CB etc J ai une carte visa premier qui ne me co te rien Cette banque est vraiment LA banque du 21e si cle l interface est g niale et on y retrouve toutes les fonctionnalit s possibles Cr ation de comptes tiers pour virement
57. to gt lt NP value Recipient gt lt SYNTAX gt Cette description peut tre utilis e pour cr er automatiquement la r gle lexicale de la figure 65 avec le processus d crit en section V C 3 l exemple de d part construit a partir de VerbNet est gauche la r gle obtenue pour le Stanford Parser est a droite Premi re tape partir de l exemple donn par VerbNet et sa description dans VerbNet la demi r gle s mantique est construite Deuxi me tape l exemple est analys par l analyseur de notre choix ici le Stanford Parser ce qui nous fournit une r gle lexicale pour l interface avec les r sultats de cet analyseur dob jm gt PS iobim gt Ho O Ho O they lent me a bicycle N a ae N N 0 E 0O O Lmgent Recipient Leamaent Recipients Themel gt Themel gt Figure 65 R gle lexicale extraite partir du cadre give 13 1 de VerbNet Cette r gle est par ailleurs utile pour lever des ambiguit s lexicales et syntaxiques en effet d une part la recherche de la r gle la plus couvrante dans la for t d analyses syntaxiques produite pour une phrase donn e permet d augmenter le score des analyses o la r gle est applicable d autre part VerbNet pr cise les sens du verbe compatibles avec le cadre de sous cat gorisation et impose ventuellement des contra
58. 2002 pour une grammaire d unification bas e sur la TST Notamment en milieu industriel parfois en simplifiant le mod le citons par exemple la Cogentex lordanskaja Kittredge Polgu re 1998 Lavoie et al 2000 Lexiquest Coch 1998 et VirtuOz Nous n avons par exemple pas de niveau phonologique ni de distinction th me rh me 14 2 Composants effectuant les transitions entre niveaux de repr sentation Atteindre une repr sentation s mantique n cessite la mise en uvre de plusieurs types de traitements compl mentaires L impl mentation des transitions entre niveaux de repr sentation se fait donc gr ce diff rents types de composants comme pr cis dans le tableau 1 On y remarquera que certains d entre eux r solution d anaphores d sambiguisation lexicale peuvent se retrouver dans plusieurs transitions en effet leur traitement sait s adapter en fonction du niveau o ils s appliquent en donnant un r sultat plus ou moins pr cis Le fonctionnement exact des composants utilis s dans Antelope est d taill au chapitre III I pour les t ches allant du pr traitement jusqu l analyse syntaxique et dans la partie V pour les traitements s mantiques Certains ont t r alis s sp cifiquement pour la plate forme d autres ont une origine ext rieure Transition Type de composant de traitement mis en uvre Texte RMorphS Acc s au lexique Segmentation texte brut ou document H
59. 40 2 pp 25 85 KAHANE S 2002 Grammaire d Unification Sens Texte Vers un mod le math matique articul de la langue naturelle Document de synth se de l Habilitation diriger des recherches Universit Paris 7 Iss KAHANE S 2004 Grammaires d unification polaris es Actes de TALN F z iss KAHANE S 2011 Une mod lisation des dites alternances de port e des quantifieurs par des op rations de combinaison des groupes nominaux Actes de TALN Montpellier KAHANE S LAREAU F 2005 Meaning Text Unification Grammar modularity and polarization Actes de MTT 2005 Moscou Iss KILGARRIFF A GAZDAR G 1995 Polysemous relations In Palmer F R ed Grammar and Meaning Essays in Honour of Sir John Lyons pp 1 25 Cambridge University Press KIPPER SCHULER K 2003 VerbNet a broad coverage comprehensive verb lexicon Th se University of Pennsylvania KLEIBER G 1994 Anaphores et pronoms Duculot Louvain la Neuve LAFFERTY J MCCALLUM A PEREIRA F 2001 Conditional Random Fields Probabilistic Models for Segmenting and Labeling Sequence Data NER ML LANGACKER R 1969 On pronominalization and the chain of command In Reibel and Schane eds Modern studies in English 160 186 178 LAPPIN S LEASS H J 1994 An algorithm for pronominal anaphora resolution Computational Linguistics p 535 561 LAVOIE B KITTREDGE R KORELSKY T RAMBOW O 2000 A Framework for MT and Mu
60. CASCADE 47 Region Domain om Adjectif DE PE nantes DR EUR EC 563 NEUTRALIZATION EUPHEMISM Usage Domain See Also Adjectif Adjectif 2 683 BLACK DARK Tableau 3 Comptage des relations s mantiques de WordNet D autres ressources permettent d tendre ces relations voire de cr er de nouveaux types de relations Par exemple la ressource WordNet Domains voir page 60 permet d ajouter de nouvelles instances de relations de type Topic Domain Region Domain Usage Domain On peut aussi enrichir WordNet avec des relations d un nouveau type nous verrons en IV C 4 page 71 comment nous avons cr d une fa on semi automatique deux nouvelles cat gories de relations concernant les m tonymies et les m taphores c Relations lexicales entre lemmes Le tableau 4 pr sente un comptage des relations lexicales de WordNet 2 1 par cat gorie Relation Entre et Nombre Exemple Adjective Participle Adjectif APPLIED APPLY Antonym Nom Nom 2142 winner Looser Adjectif 4 814 ACADEMIC ACADEMIA Pertainym Adjectif 3 213 BOASTFULLY BOASTFUL Adjectif Adjectif Nom Verbe 21 579 KILLING KILL Adjectif Nom 11 401 DARK DARKNESS Derivation Nom Nom 2931 AUTOMOBILE AUTOMOBILIST Adjectif 1 508 KILL KILLABLE Adjective Cluster Adjectif Adjectif 1 290 STRIDENT NOISY Tableau 4 Comptage des relations lexicales de WordNet d Exemples de relations
61. Importance grandissante de l apprentissage en TAL L utilisation de l apprentissage automatique en TAL n est certes pas nouvelle mais sa progression est tr s nette en une d cennie La figure 23 montre l volution entre 1998 et 2011 du pourcentage des 115 articles d ACL mentionnant le terme machine learning On voit qu on est pass en 14 ann es de moins de 10 pr s de 30 35 30 4 25 4 20 15 ae 10 5 0 T T T T T 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 Figure 23 Progression entre 1998 et 2011 des articles d ACL mentionnant machine learning c Diff rents modes d apprentissage Il existe un grand nombre d algorithmes d apprentissage On peut citer les r seaux de neurones la m thode des k plus proches voisins les arbres de d cision la classification bay sienne les HMM r seaux cach s de Markov les SVM Support Vector Machine et les CRF Conditional Random Fields Une introduction de r f rence ces diff rents algorithmes peut tre trouv e dans Cornu jols Miclet Kodratoff 2002 Il faut donc tre en mesure de choisir celui qui est le mieux adapt une t che particuli re Il existe diff rents modes d apprentissage faisant ou non intervenir une validation humaine en cours de processus 1 Apprentissage supervis L apprentissage supervis a pour objectif de produire des r gles a partir d un
62. M thodes de r solution d anaphores pronominales Les principales m thodes de r solution d anaphores pronominales ne sont pas r centes Hobbs 1978 propose un algorithme utilisant l analyse syntaxique d un texte Lappin Leass 1994 proposent un algorithme en plusieurs tapes n cessitant une analyse syntaxique et revendiquent une pr cision de 86 sur un corpus technique en anglais Mitkov 1998 pr sente une approche robuste et pauvre en connaissance bas e sur plusieurs heuristiques qui exploitent une analyse syntaxique superficielle valu e sur un corpus de manuels techniques en anglais polonais et arabe cette approche donne une pr cision de l ordre de 90 4 Algorithme mis en uvre Antelope propose un composant de r solution d anaphores et d identification de chaines de cor f rence Ce composant fonctionne indiff remment en anglais ou en fran ais avec une version unique les sp cificit s de chacune de ces deux langues sont prises en compte par une dizaine de lignes de code seulement SP Word ITaggedWord y k lt IParsedSentence Y ISentenceCollection x Interface Interface Interface ISerializable gt ISerializable gt IEnumerable lt IParsedSentence gt gt ISerializable a i r I y SF Word E HeadWord IMultiwordExpression Interface 5 Candidates IReferringExpression IR
63. RETOUR PRODUIT 10 QU CONFORMITE DU PRODUIT FRUITS LEGUMES 0 97 a jus 61 SUIVI DE COMMANDE 8 filet d oranges jet es 3 oranges par filet m l gume 49 EDRCRONMENENTSTE EN NENET TER 3 Aff n 455674 via Fiche suggestion AUCHAN POITIERS SUD ni eee MAGASIN OU DEVELOP DURABLE 7 DISPONIBILIT D UN PRODUIT HORS TRACT BOISSONS SANS ALCOOL 0 94 citron 45 m confiture 42 amp OPE COMMERCIALE ET CATALOGUE 4 LE JUS D ORANGE NECTAR D ORANGE N EXISTE PLUS VOIR PJ PAIEMENT CAGNOTTE ACCORD 3 3 one aa Aff n 440555 26 11 2010 via Fiche suggestion AUCHAN OLIVET boisson 35 TEST ECO PRIME 1 mobile 32 PRODUIT CHOIX FRUITS LEGUMES 0 93 1 autres POSSIBILITE D AVOIR DES CLEMENTINES ET ORANGES SANS PEPINS core 32 e Eoen portable 31 Rayons i i livebox 29 PRODUIT CHOIX BOISSONS SANS ALCOOL 0 88 a t l phonie 28 SSL EE POURQUOI N Y A T IL JAMAIS DE POWERADE A L ORANGE chocolat 26 305 M TIERS DE BOUCHE ET STANDS 297 a EE A Ronee UN ee nee 302 VENTE D EQUIPEMENT 222 Aff n 176452 29 10 2009 via Fiche suggestion AUCHAN COGNAC PB QUALIT T a5 CAISSES ET SERVICES 68 OU CONFORMIT DU PRODUIT FRUITS LEGUMES 0 88 A portable 303 MAISON ET LOISIRS 66 SERVICES COMMUNS MAGASIN 44 _AUTRE 23 SAV 13 301 HABILLEMENT BIJOUX BEBE 13 les oranges d Afrique du Sud sont infectent Aff n 90970 25 06 2009 via Carne
64. a community Les noms et verbes sont organis s en hi rarchies Des relations d hyperonymie est un et d hyponymie relient les anc tres des noms et des verbes avec leurs sp cialisations Au niveau racine ces hi rarchies sont organis es en types de base Le r seau des noms est bien plus profond 7 On peut par exemple repr senter WordNet au format SKOS voir page 166 g Synset est la contraction de synonym set ensemble de synonymes 46 que celui des autres parties du discours titre indicatif les deux premiers niveaux de la hi rarchie des noms se composent des concepts abstraits suivants ABSTRACTION ATTRIBUTE MEASURE QUANTITY AMOUNT RELATION SET SPACE TIME HUMAN ACTION ACTIVITY COMMUNICATION DISTRIBUTION INACTIVITY JUDGMENT LEANING LEGITIMATION MOTIVATION PROCLAMATION PRODUCTION SPEECH ACT ENTITY ANTICIPATION CAUSAL AGENT ENCLOSURE EXPANSE LOCATION PHYSICAL OBJECT SKY SUBSTANCE THING EVENT GROUP ACTION NATURAL EVENT MIGHT HAVE BEEN MIGRATION MIRACLE NONEVENT SOCIAL EVENT GROUP GROUPING ASSOCIATION BIOLOGICAL GROUP PEOPLE COLLECTION AGGREGATION COMMUNITY ETHNIC GROUP KINGDOM MULTITUDE POPULATION RACE RARE EARTH ELEMENT PHENOMENON EFFECT RESULT LEVITATION FORTUNE CHANCE REBIRTH NATURAL PHENOMENON PROCESS PULSATION POSSESSION ASSETS CIRCUMSTANCES PROPERTY MATERIAL POSSESSION TRANSFERRED PROPERTY TREASURE PSYCHOLOGICAL F
65. a des classes de verbes r le th matique l autre est sp cifique un pr dicat sp cifique ou une relation particuli re r le s mantique Les r les th matiques Cf page 57 la section IV B 3 b sont un ensemble fini de types de participants utilis s pour d crire les comportements des verbes ind pendamment de leur construction syntaxique Ils caract risent du moins d une fa on superficielle la relation qu un verbe et ses arguments entretiennent Par exemple dans une phrase comme Microsoft rach te Powerset Microsoft joue le r le d Agent et Powerset celui de Patient Nous pr senterons notre approche pour calculer les r les th matiques en section 3 page 110 Quand on souhaite obtenir un tiquetage plus pr cis on peut sp cifier plus finement la s mantique de ces r les Dans l exemple pr c dent Microsoft est l Acheteur et Powerset la Soci t achet e ou 132 d une fa on plus g n rale la Marchandise chang e Nous verrons en section 4 page 111 comment nous proc dons ce calcul On peut alors mettre en relation les unit s lexicales qui poss dent les m mes r les s mantiques et qui appartiennent au m me Frame au sens de FrameNet Cf IV D 3 page 83 ACHETER et VENDRE qui poss dent les m mes r les s mantiques Acheteur Vendeur Marchandise Montant sont potentiellement des conversifs R les s mantiques et r les th matiques sont des notions distinctes Ainsi l Acheteur
66. act generally intentional that matches the description that belongs to an official AAE MERE The individual that commits a Crimel Suspect The individual which is under suspicion of having committed the Crime Enfin les cadres sont reli s entre eux par des relations comme le montre la figure 21 8 children total Sentencing Figure 21 Exemple de relations entres cadres dans FrameNet 4 Repr sentation des connaissances a large chelle Nous avons jusqu ici pr sent des ressources linguistiques Nous allons a pr sent glisser de domaine et passer du TAL l intelligence artificielle ou plus pr cis ment l ing nierie des connaissances Les interactions entre ces deux domaines peuvent avoir lieu dans les deux sens D une part la connaissance du monde permet de lever des ambiguit s dans de nombreuses t ches de TAL disposer d une large base de donn es sur le sens commun par exemple sous forme d ontologie permettrait l injection de connaissances en amont et faciliterait donc l analyse du texte D autre part de telles bases de connaissances peuvent tre amorc es automatiquement en faisant de la fouille de texte sur des textes encyclop diques ou r glementaires par exemple mais du fait des imperfections des analyses automatiques de telles ressources doivent alors obligatoirement tre valid es manuellement La construction de connaissances a large chelle reste donc un verrou scient
67. an organization founded and united for a specific purpose organization organisation organisation organisation organisme organization association a group of people whe work together social group groupe social social group people sharing some social relation group grouping group groupe group any number of entities members considered as a unit abstraction abstract entity abstraction abstraction a general concept formed by extracting common features from specific examples entity entit entity that which is perceived or known or inferred to have its own distinct existence living or nonliving Figure 48 Concept banque commerciale dans le lexique s mantique d Antelope 5 Reconnaissance d entit s nomm es du domaine a Amorce en utilisant des gazettes En fonction du type d application a r aliser on souhaite reconna tre des entit s nomm es de natures tr s variables La veille conomique vise classiquement a identifier des personnes lieux et organisations Dans un contexte d enseigne de grande distribution les entit s int ressantes d tecter sont plut t les produits marques et concurrents cit s ainsi que des concepts li s au m tier risque sanitaire ou risque juridique par exemple Dans le domaine des ressources humaines on cherchera extraire les m tiers comp tences dipl mes langues etc Le lexique s mantique d Antelope permet de
68. apporte la plate forme Antelope l ensemble du processus est largement ind pendant de la langue et de l analyseur syntaxique consid r s En termes de temps de calcul l tape limitante reste l analyse syntaxique qui repr sente une op ration longue en cas d analyse de corpus important ou de pr sence d un nombre lev de paraphrases il est imp ratif d tre s lectif et de d finir des filtres en amont pour ne tester que les couples phrase patron qui sont susceptibles de contenir un r sultat D autre part comme nous l avons d j indiqu le rappel est am liorable e Perspectives d am lioration Un couplage avec le m canisme de r solution d anaphores pr sent en V E page 122 est pr vu il devrait am liorer les r sultats du composant d extraction d information en lui permettant de d passer les limites impos es par le traitement d une seule phrase Il devrait galement autoriser une diminution du nombre de paraphrases l expression Microsoft announced ity bought X devient alors inutile car Microsoft bought X suffit Actuellement l tape d criture des paraphrases est manuelle Nous souhaitons ajouter une 1 fonctionnalit d acquisition semi automatique de paraphrases en demandant l utilisateur un 139 16 rumeurs de rachat non av r es Yahoo Disney 15 plaisanteries de 1 avril rachat d IBM de l glise catholique 12 noms de logiciels appartenant
69. apprentissage artificiel En effet il existe un nombre croissant de sites Web d avis de consommateurs sur lesquels on peut 151 z z Mot qui fait basculer la valence exprim e par un autre mot Strapparava Mihalcea 2007 donne une description d taill e du protocole d valuation Rappelons que l exactitude accuracy en anglais est le pourcentage des l ments bien class s des vrais positifs et des vrais n gatifs par rapport l ensemble de la population Notons que dans cette valuation l exactitude a t calcul e par rapport toutes les classes possibles elle peut donc tre artificiellement lev e dans le cas d ensembles de donn es asym triques comme le sont certaines motions en raison du grand nombre de titres neutres En revanche la pr cision et le rappel excluent les annotations neutres 152 153 121 donner non seulement son avis sous forme de description textuelle mais aussi attribuer une note et indiquer les points forts et les points faibles On a donc l en principe un mat riau brut de millions de documents permettant d envisager un apprentissage du moment qu on identifie dans ces avis les caract ristiques linguistiques pertinentes E R solution d anaphores et de cor f rences 1 Introduction Nous avons vu pour l instant des t ches op rant au niveau de la phrase Analyser l ensemble d un document n cessite d effectuer des traitements compl mentaires par exemp
70. avec un m canisme d it ration Concr tement un adaptateur est une classe qui sert d interface entre un format de donn es sp cifique le n tre par exemple et un format connu et manipulable par les classes natives de la biblioth que Dans notre cas les s quences de donn es correspondent des d p ches de presse annot es et les it rateurs permettent de passer d un fichier de d p che l autre 99 surapprentissage ou over fitting C est ce stade qu une expertise linguistique est importante dans le processus d apprentissage automatique L exp rience acquise lors de l valuation du Stanford NER ainsi que l tude de la litt rature nous ont permis de d finir une liste de caract ristiques que nous d crivons ici Nous d taillons leurs int r ts et inconv nients et concluons par des perspectives d volution 1 Mots La caract ristique la plus basique mettre en uvre consiste simplement observer le lien qui existe entre une forme de surface le mot lui m me et son tiquette ici sa classification en tant qu entit nomm e L algorithme d apprentissage m morise les couples mot tiquette rencontr s permettant de distinguer toutes les caract ristiques de ce type mais permettant galement de retrouver cette caract ristique lorsqu elle se reproduit e Lors de l entra nement si elle se reproduit souvent avec une classe d entit nomm e c est qu elle est tr s caract r
71. caused by Contrairement au pr c dent ce patron n impose pas de contrainte sur le type des lexies susceptibles de l instancier en revanche L2 doit alors inclure dans sa d finition une des deux s quences Les autres 557 synsets correspondent soit a des situations n tant pas un cas de polys mie r guli re soit a des situations o la d finition d un patron de polys mie ne permettrait de couvrir qu un faible nombre de cas Cet exemple est cod en langage C 98 a r r E m 1 Plusieurs paraphrases peuvent tre pr cis es par exemple la d tection des m taphores testera plusieurs cas de figure suggestive of similar to corresponds to that suggests imitating 75 indiqu es resulting from ou caused by On voit ici que la seule utilisation de la hi rarchie des concepts conduirait exclure un certain nombre de patrons de polys mie r guli re et donc diminuer le rappel de notre m thode b Application des patrons Les exemples ci apr s sont reconnus comme des occurrences du patron colorOf e EMERALD 3 the green color of an emerald e TAN 2 TOPAZ 3 a light brown the color of topaz e coPPER 4 a reddish brown color resembling the color of polished copper Gr ce aux informations de typage associ es au patron la lexie L1 peut tre ensuite d sambiguis e Pour ce faire le syst me num re tous les sens pos
72. ces cas pour l instant car ils sont tr s peu fr quents dans les corpus que nous avons trait s Le probl me est alors que la section de texte r dig e dans une langue d tect e d une fa on incorrecte fera l objet de traitements comme la correction orthographique ou la reconnaissance d entit s nomm es dans la mauvaise langue ce qui cr du bruit dans le r sultat de l analyse 142 b Correction orthographique Les verbatims de consommateurs n tant pas exempts de fautes Ubiq proc de une tape pr alable de correction orthographique Une sp cificit est d utiliser plusieurs heuristiques pour tenir compte du contexte Par exemple une heuristique exploite le fait que les documents sont analys s par lots de plusieurs centaines ou plusieurs milliers On peut alors tenir compte de la fr quence de chaque erreur nouvelle si elle revient seulement 2 ou 3 fois il doit effectivement s agir d une erreur en revanche si des dizaines d occurrences de la m me erreur nouvelle sont pr sentes il est plus probable qu il s agisse d une marque ou d un produit inconnu du lexique Des marques nouvelles apparaissent en effet fr quemment elles repr sentent souvent des mots inconnus absents du lexique standard Cette heuristique permet donc d viter qu une marque inconnue comme Pet Shop par exemple soit improprement corrig e vers le mot connu le plus proche vers sex shop dans le m me exemple c Reconnaissanc
73. consiste donc tenir compte de l ensemble des contraintes obtenues localement et s assurer de leur coh rence globale en r solvant les ventuelles contradictions Comment assurer alors une orchestration d ensemble qui g re les ambiguit s avec une vision globale Enfin nous pr sentons un prototype d ISS qui utilise la sortie de l ensemble des composants d analyse syntaxique et s mantique Cette ISS est d finie par des r gles de correspondance entre repr sentation syntaxique et repr sentation s mantique ces r gles tant obtenues avec une approche paresseuse 7 Conclusion r f rence et annexes La partie VIII page 171 conclut cette th se en dressant un bilan des travaux effectu s et ouvre des perspectives Les r f rences incluent la bibliographie page 173 ainsi que les adresses des sites Web o peuvent tre t l charg es les nombreuses ressources cit es dans le document page 184 Enfin les annexes contiennent une introduction au Web s mantique page 187 des pr cisions sur les l ments math matiques sous jacents au regroupement spectral et l apprentissage par CRF page 201 et pour finir des r f rences linguistiques page 209 F Conventions et notations Nous distinguerons dans ce document les notions de lexie unit lexicale association d un signifiant et d un signifi et de vocable unit polys mique regroupant diff rentes lexies de m me signifiant Les VOCABLES et LEXIES
74. corpus pr alablement annot contenant des exemples cat goris s du ph nom ne que l on souhaite apprendre La mise en uvre pratique de techniques d apprentissage supervis se heurte diff rents types de difficult s e faut disposer d un corpus d apprentissage suffisamment repr sentatif pour garantir l exhaustivit de la base d apprentissage Ce probl me est particuli rement sensible pour l apprentissage en TAL car le langage humain n est pas r gulier et les r gles g n rales souffrent de nombreuses exceptions pluriel des mots se terminant en ou par exemple e Pr alablement l apprentissage le corpus doit tre annot selon la cat gorie d information que l on souhaite apprendre chaque exemple est explicitement associ une tiquette Proc der manuellement l annotation d un corpus volumineux repr sentatif est co teux 1 Pour tablir ce graphique nous avons utilis ACL Anthology Searchbench http aclasb dfki de en calculant pour chaque ann e le ratio entre le nombre total d articles et ceux citant machine learning 91 e faut guider un syst me d apprentissage en lui indiquant les caract ristiques discriminantes du ph nom ne que l on souhaite apprendre par exemple que le pluriel d un nom fran ais peut tre indiqu par le suffixe s ou x il faut donc une expertise linguistique 2 Apprentissage non supervis On parle d apprentissage non supervis
75. corresponding part in other vertebrates Y area of cardiac dullness a triangular area of the front of the chest determined by percussion corresponds to the part of the heart not covered by the lungs Y breast chest the front of the trunk from the neck to the abdomen he beat his breast in anger W chest cavity thoracic cavity the cavity in the vertebrate body enclosed by the ribs between the diaphragm and the neck and containing the lungs and heart Figure 13 Exemples de relations d holonymie et de m ronymie La version 2 1 a introduit la notion d instance hyponyme qui d signe une instance et non une sous classe d un synset une entit nomm e Par exemple GEORGE WASHINGTON est une instance 50 hyponyme de PRESIDENT OF THE UNITED STATES De m me le nom TOWER 1 a pour hyponymes SILO MINARET PYLON et TOUR EIFFEL Comme instance hyponyme f Notre mod lisation de WordNet La figure 14 pr sente la mod lisation de ce lexique s mantique Un synset est associ un ou plusieurs lemmes Chaque lemme est associ un seul synset Un synset est en relation s mantique avec d autres synsets de m me un lemme est en relation lexicale avec d autres lemmes Comme une op ration fr quemment utilis e dans les algorithmes de parcours du graphe est l num ration des hyperonymes d un synset il les pr sente aussi sous forme de liste ordonn e ILemma z IS
76. cr er des gazettes Cf V B 2 page 95 En cas d ambiguit possible les termes des gazettes sont associ s a des mots cl s activateurs ou inhibiteurs Une premi re passe de reconnaissance d entit s nomm es peut alors tre effectu e sur le corpus gr ce ces gazettes Elle produit un corpus o les entit s nomm es du domaine sont annot es La figure 49 pr sente quelques phrases tir es d avis de consommateurs o des marques apparaissent en rouge Garnier et des produits en bleu merguez sommier matelas 176 vi y s A Par exemple le sens ORANGE 1muxy Sera associ aux mots cl s activateurs jus fruit pulpe De m me ORANGE 2 marque t l com Sera li internet ADSL contrat carte SIM op rateur 138 On a appel la cliente pour venir chercher une commande Lait Apr s Soleil de Garnier Acheter merguez le 27 08 2010 pas app tissant sur le barbecue de marque PRIM GRILL CDE larroche mazet Cabernet 2 cartons J ai re u le sommier et matelas de marque ivana Bonjour je voulais commander un automatisme pour portail mon magasin de B thune Figure 49 Reconnaissance initiale d entit s nomm es par gazettes Les gazettes que nous utilisons peuvent s av rer incompl tes soit parce que les sources qui ont permis leur cr ation ne sont pas exhaustives soit parce que de nouveaux concepts apparaissent au fil du temps Afin de contourner ce probl me nous tentons de d tecter a
77. d ABRAHAMLINCOLN dans l interface Web de ResearchCyc Al KB Assertions 77 conceptuallyRelated 2 4p evincesBinding 3 gt Y namedAfter 2 HistoricalPeopleDataMt WorldGeographyMt politicalP arty Members i a numberOfResultsThatSupportBindin 7 Abraham Lincoln Search of BS f o 4A a A You are CycAdministrator Logout Ke No gloss o ii s Server XIII 3600 CSS W Assert Compose Create Doc History Query Library Query Preferences Tools i x Mt HistoricalPeopleDataMt a P pee e birthDate DayFn 12 All Asserted Knowledge 78 onthFn February Bookkeeping Info 1 Re YearFn 1809 comment Abraham Lincoln 1809 1865 born in Kentucky State practiced law in the CityOfSpringfieldIL Ilinois State and held several public offices there AbrahamLincoln was elected the 16th president of the United States and he was the Union s leader All GAFs 50 Y Arg 1 29 during the SUnitedStatesCivilWar He was assassinated by the actor JohnWilkesBooth gt isa 11 conceptuallyRelated 9 GettysburgAddress Speech bathDated Mt PeopleDataMt comments conceptuallyRelated 9FiveDollarBill US PennyCoin US gt conceptuallyRelated 3 dateOfDeaths Mt HistoricalPeopleDataMt dateOfDeathEvent dateOfDeath 2 DayFn 14 definingMt MonthFn April Fer E YearFn 1865 z dateOfDeathEvent DayFn 14 familyNamess MonthFn April genStringAssertion 2 earFn 1865 givenNames 2 nameStr
78. d hyperonymie et d hyponymie Dans l exemple montr en figure 11 ci dessous nous voyons qu en partant du sens le plus g n ral du nom CAT 1 chat domestique on obtient une liste ordonn e d anc tres et de descendants permettant de d terminer qu un chat est un carnivore un mammif re un animal etc 48 Noun cat true cat feline mammal usually having thick soft fur and no ability to roa F domestic cats wildcats J Hypernym D feline felid any of various lithe bodied roundheaded fissiped mammals many with retractile claws Y carnivore a terrestrial or aquatic flesh eating mammal terrestrial carnivores have four or five clawed digits on each limb V placental placental mammal eutherian eutherian mammal mammals having a placenta all mammals except monotremes and marsupials mammal mammalian any warm blooded vertebrate having the skin more or less covered with hair young are born alive except for the small subclass of monotremes and nourished with milk vertebrate craniate animals having a bony or cartilaginous skeleton with a segmented spinal column and a large brain enclosed in a skull or cranium W chordate any animal of the phylum Chordata having a notochord or spinal column Y animal animate being beast brute creature fauna a living organism characterized by voluntary movement organism being a living thing that has or can develop the ability to act or
79. de graphe s mantique en fonction de la pr cision de l analyse qu on souhaite effectuer 33 Probl me discret du moins en TAL o la d sambigu sation revient choisir l un des sens parmi ceux propos s sous forme d une liste finie dans un lexique de r f rence La polys mie semble tre un probl me universel dans la mesure o ce ph nom ne se retrouve dans toutes les langues et concerne en premier des mots du quotidien Victorri Fuchs 1996 propose dans le cadre d une conception dynamique et continue de la construction du sens une explication des m canismes cognitifs permettant un locuteur humain de traiter avec la m me facilit les mots polys miques et les mots monos miques 20 3 Document La repr sentation d un document tend et g n ralise celle de la phrase Les anaphores intra phrastiques tant relativement rares elles ne sont g n ralement pas explicit es dans les mod les de repr sentation de la phrase Au niveau du document il devient indispensable de prendre en compte les informations concernant les anaphores pronominales nominales v nementielles Les composantes connexes du graphe des anaphores constituent des cha nes de cor f rence concernant une entit ou un v nement particulier D autres types d extractions de connaissances sont envisageables au niveau du document r sum opinions th matiques 4 Paragraphe Segmenter un document en phrases et en mots n
80. de corpus analys s avec Antelope Antelope a d j t concr tement utilis e pour analyser des documents issus de corpus de natures vari es en anglais et en francais et de qualit r dactionnelle variable Nous pr sentons ici rapidement la nature de ces corpus a Articles encyclop diques Nous avions initialement concentr nos travaux sur des articles encyclop diques ces documents sont en effet g n ralement bien crits et factuels et se pr tent donc bien a un traitement automatique Nous avons notamment effectu des analyses sur la Wikip dia fran aise et sur la Simple Wikipedia Cette derni re est particuli rement destin e aux enfants anglophones et aux adultes dont l anglais n est pas la langue maternelle elle est crite avec une grammaire et un champ 34 r z 2 noe Le lecteur attentif aura n anmoins remarqu que cette phrase et la pr c dente en contiennent 21 lexical simplifi s ce qui en rend la lecture en principe plus simple pour le public vis Nous formulons l hypoth se que cette encyclop die a une caract ristique int ressante pour le TAL si est elle plus simple lire pour des humains par rapport l English Wikipedia compl te elle devrait tre aussi plus facile traiter pour un analyseur syntaxique D autre part elle compte moins d articles ce qui autorise une analyse d ensemble plus rapide b Articles de presse Antelope a t utilis e dans le cadre du projet SCRIB
81. de neige amoncellement de neige Une machine virtuelle est un interpr teur de code interm diaire appel Intermediate Language en NET un pseudo assembleur de haut niveau La machine virtuelle isole l application en cours d ex cution des sp cificit s mat rielles de l ordinateur h te l int r t de cette approche est d viter qu une erreur applicative ne corrompe la m moire de l ordinateur Le ramasse miettes garbage collector en anglais est un m canisme de gestion automatique de la m moire ce m canisme est transparent pour le d veloppeur qui se contente de cr er des objets sans les d truire explicitement le ramasse miettes est responsable du recyclage de la m moire occup e par les objets quand ils ne sont plus utilis s 27 Antelope fonctionne sous Windows avec NET et aussi sous Linux avec MONO NET semble moins utilis que Java C C PERL ou Python dans la communaut du TAL On peut toutefois noter que NooJ ou SharpNLP ont aussi fait ce choix 2 Bonnes pratiques issues du g nie logiciel Le d veloppement de grands syst mes d informations qui n cessite des milliers de jours d analyse et de codage sous la pression de d lais courts a forc structurer des m thodes de travail La notion de g nie logiciel s est progressivement impos e dans l industrie informatique visant fournir des bonnes pratiques sous forme de m thodes de conception appel es design patterns
82. depuis 1985 Princeton offre un r seau s mantique tr s complet de la langue anglaise WordNet est utilisable librement y compris pour un usage commercial ce qui en a favoris une diffusion tr s large S il n est pas exempt de critiques granularit tr s fine absence de certaines relations il n en reste pas moins l une des ressources de TAL les plus populaires a Notion de synset WordNet est construit sous la forme d une hi rarchie de concepts appel s synsets qui en forment la composante atomique Un synset est un ensemble de lexies synonymes entre elles un synset correspond donc un groupe de mots interchangeables d notant un sens ou un usage particulier Un synset est d fini d une fa on diff rentielle par les relations s mantiques hyp ronymie m ronymie antonymie etc qu il entretient avec les sens voisins Dans la suite nous noterons entre accolades les diff rentes lexies synonymes qui d finissent un synset sachant que LEXIE i d signe la i lexie d un vocable dans WordNet La version 3 0 la plus r cente janvier 2007 compte 117 659 synsets et 206 941 lexies Chaque synset est galement associ une d finition lexicographique Nous la pr ciserons ventuellement en italiques et entre parenth ses apr s la liste de lexies Par exemple le concept langue naturelle est d fini par le synset suivant NATURAL LANGUAGE 1 TONGUE 2 a human written or spoken language used by
83. des exemples de r sultats obtenus Criteria URL Results Test results responsable un directeur travaux et en parfaite autono responsable un Directeur travaux responsable un Directeur travaux responsable un Directeur Technique responsable un Directeur r gional maintien de l image responsable un Directeur r gional responsable un Directeur r gional responsable un directeur multi sites responsable un directeur multi sites responsable un directeur d exploitation responsable un Directeur des Op rations responsable un Directeur de travaux ou un Conducte responsable un Directeur de travaux responsable un directeur de travaux responsable un Directeur de Travaux responsable un Directeur de Travaux responsable un Directeur de travaux responsable un Directeur de r seau responsable un Directeur de r seau responsable un directeur de projets text Sous la direction d un directeur travaux et en parfaite autonomie sur les dossiers qui vous seront confi s vous prenez en charg Rattach un Directeur travaux vous menez dans les r gles de l art les projets qui vous sont confi s Rattach un Directeur travaux vous menez dans les r gles de l art les projets de grosses r habilitations qui vous sont confi Au sein d une cellule technique de projet en conception r alisation et sous la responsabilit d un Directeur Technique vous Rattach un Directeur r gional maintien de l image
84. des fondements de la plate forme Antelope est la pr servation des ambigu t s permettant de retarder le choix d finitif d un sens jusqu au moment o le syst me dispose de la meilleure connaissance possible du contexte En effet un encha nement s quentiel de traitements accumule progressivement des informations sur le document analys N anmoins un composant d analyse peut ne pas disposer individuellement de toutes les informations utiles pour prendre certaines 153 d cisions et lever l ambigu t Notre approche consiste pr server les ambigu t s en m morisant les options possibles lors de chaque traitement on peut ainsi retarder le choix d finitif qui sera effectu lors d une tape ult rieure capable de s assurer de la coh rence globale des contraintes locales en r solvant les ventuelles contradictions Nous exposerons dans le chapitre B l approche que nous proposons pour les g rer localement puis globalement en d taillant les traitements que nous avons exp riment s pour lever les ambiguit s lexicales et syntaxiques Nous montrerons ensuite dans le chapitre C page 163 comment extraire une ISS partir a d un analyseur en d pendance quelconque et interchangeable b du lexique s mantique et c d une base d exemples associ s aux repr sentations s mantiques que l on souhaite calculer Notre ISS est alors une grammaire de correspondance polaris e Nous montrons en particulier comment obten
85. donn es linguistiques large couverture La partie IV page 41 montre comment l int gration de plusieurs ressources large couverture permet de cr er un lexique s mantique multilingue ce lexique est centr sur une ressource bien connue dans le monde du TAL le Princeton WordNet qui sera pr sent e en d tail Cette int gration permet de pallier certaines insuffisances des ressources prises individuellement et montre comment elles se compl tent Des exp riences r alis es avec Antelope ont permis de produire des donn es linguistiques nouvelles qui enrichissent le lexique Nous avons par exemple appari des concepts de WordNet avec des articles de l encyclop die Wikip dia produit un catalogue de relations de polys mie r guli re en n utilisant que WordNet ou encore fait l apprentissage de paraphrases partir de paires d articles encyclop diques comparables 4 Composants d analyse s mantique La partie V page 89 d taille les composants d analyse s mantique que nous avons sp cifiquement d velopp s dans le cadre de la plate forme Ils fournissent des r sultats l tat de l art c tait du moins le cas au moment de leur cr ation et sont mis en uvre par l ISS Ces composants traitent notamment des t ches de reconnaissance d entit s nomm es d extraction de relations d analyse de sentiment de r solution d anaphores et d extraction de cha nes de cor f rence et de regroupement de docu
86. e Nombre d occurrences Temps de recherche ms pizza with a friend 139 1 pizza with my friend 42 1 pizza with friends 428 1 pizza with my friends 87 1 pizza with some friends 94 1 pizza with their friends 50 2 pizza with your friends 179 1 Total 1019 8 Tableau 21 R sultats de la recherche du nombre d occurrences de pizza with X Expression cherch e Nombre d occurrences Temps de recherche ms eat with a friend 372 1 eat with my friend 136 2 ate with a friend 63 2 ate with my friend 44 1 eat with friends 1994 1 eat with her friends 89 1 eat with his friends 109 1 eat with my friends 375 2 eat with our friends 90 1 eat with some friends 249 2 eat with their friends 182 1 eat with your friends 366 2 ate with friends 130 1 eats with friends 41 1 Total 4 240 19 Tableau 22 R sultats de la recherche du nombre d occurrences de eat with X On d termine donc en 27 millisecondes que les variantes cherch es de pizza with X apparaissent 1 019 fois et celles de eat with X 4 240 fois dans le cas o X friend Pour autant que les variantes g n r es soit suffisamment repr sentatives des diff rentes constructions langagi res possibles nous trouvons donc ici un indice int ressant sur le fait que dans I eat the pizza with a friend le groupe pr positionnel doit se rattacher au verbe et non au groupe nominal qui le pr c de 4 Tests sur plusieurs phrases Nous avons appliqu
87. eat on worry or cause anxiety in a persistent way What s eating you Cluster 4 6 corrode eat rust cause to deteriorate due to the action of water air or an acid The acid corroded the metal The steady dripping of water rusted the metal stopper in the sink Figure 19 Regroupement des sens du verbe EAT avec l algorithme de Bron Kerbosch 81 Similarity Composite Clusters GlossOverlapping Cluster 1 1 eat take in solid food She was eating a banana What did you eat for dinner last night 2 eat eat a meal take a meal We did not eat until 10 P M because there were so many phone calls I didn t eat yet so I gladly accept your invitation 3 pa eat take in food used of animals only This dog doesn t eat certain kinds of meat What do whales eat Cluster 2 4 eat eat on worry or cause anxiety in a persistent way What s eating you Cluster 3 5 consume eat up use up eat deplete exhaust run through wipe out use up resources or materials this car consumes a lot of gas We exhausted our savings They run through 20 bottles of wine a week Cluster 4 6 corrode eat rust cause to deteriorate due to the action of water air or an acid The acid corroded the metal The steady dripping of water rusted the metal stopper in the sink Figure 20 Regroupement des sens du verbe EAT avec l algorithme spectral D Autres ressources int grer au lexique s mantique d
88. en anglais Gamma et al 1993 Elles sont aujourd hui adopt es par les organisations ayant besoin de cr er des applications de grande taille Nous pr sentons ici les bonnes pratiques retenues pour la conception d Antelope a Mod le de programmation par interfaces La programmation orient e objet est un paradigme qui a fait ses preuves Les langages objets r cents Java C ont introduit en plus de la notion de classe une notion explicite d interface un regroupement logique de propri t s et de m thodes Une classe peut impl menter une ou plusieurs interfaces une interface peut tre impl ment e par plusieurs classes Ce mod le de programmation syst matise une s paration formelle entre interface et impl mentation favorisant un couplage faible entre composants et donc une meilleure r utilisation lllustrons cette d marche sur un cas pratique Par exemple une op ration d tiquetage morphosyntaxique prend comme param tre en entr e un texte d j d coup sous forme d une liste de mots et produit en sortie une liste d tiquettes chacune d entre elles tant associ e a un mot On peut d finir une interface ITagger de la fa on suivante List lt Etiquette gt Tag List lt string gt mots Plusieurs impl mentations sont videmment possibles on peut imaginer coder l tiquetage morphosyntaxique en utilisant des m canismes tels que des mod les cach s de Markov HMM des s parateur
89. en s appuyant sur une description externe typiquement stock e dans un fichier de configuration 39 Partie IV Lexique s mantique multilingue large couverture A Introduction Le lexique joue un r le central dans une ISS En effet un lexique riche dispose d informations lexicales langues expressions multi mots diff rents sens d un mot domaines syntaxiques distributions statistiques d usage cadres de sous cat gorisation et pragmatiques connaissance du monde axiomatique pour effectuer des raisonnements logiques La pr cision des ph nom nes d crits varie norm ment d un lexique l autre a minima il peut se constituer d une liste de centaines de milliers de formes de surface existant dans une langue donn e sans autre information l autre bout du spectre certains lexiques s mantiques ne d crivent que quelques centaines d entr es lexicales mais d une fa on extr mement pr cise Notre objectif est de traiter de vrais textes articles de presse offres d emploi opinions exprim es par des consommateurs en fran ais et en anglais Nous souhaitons donc disposer d un lexique dot d une couverture aussi large que possible Pour cela nous avons cr un lexique s mantique multilingue large couverture en int grant plusieurs ressources h t rog nes La constitution d un lexique regroupant des informations aussi vari es n est pas chose ais e Les lexiques lectron
90. es dans le patron morphosyntaxique Il reste tester la partie du discours de chaque mot et les ventuelles contraintes de s lection L ordre des mots cons cutifs mais non forc ment contigus est galement v rifi c Evaluation sur un exemple d acquisition de soci t s La relation acquisition Acheteur Soci t Achet e est associ e comme montr en 136137 Le composant interroge d abord des figure 36 onze r alisations linguistiques en anglais 138 1 moteurs de recherche avec les mots cl s de chaque paraphrase et collecte une liste de documents qui sont segment s en phrases Celles contenant tous les mots cl s dans le m me ordre que celui exprim dans le patron morphosyntaxique sont retenues en tant que phrases candidates puis test es par le composant d extraction d information tera URL Results Test buys purchased purchases bought buys acquired acquires says said says announced announces completes completed completes closed closes a part of some of the assets of a stake in the rights to buyer properNoun buys fa part of company properNoun buyer properNoun announced acquisition of company properNoun buyer properNoun s acquisition of company properNoun buyer properNoun s company properNoun acquisition company properNoun acquisition by buyer properNoun the acquisition of company properNoun by buyer properNoun
91. est assign un unique r le th matique au sein d une classe de verbe L une des exceptions a cette r gle concerne les classes contenant des verbes avec des arguments sym triques comme dans Jean et Marie discutent ou La France et l Italie se touchent qui ont alors deux arguments ou plus tels qu Acteur1 et Acteur2 mais du m me type VerbNet d finit une vingtaine de r les th matiques Ils sont num r s en annexe page 209 avec pour chaque r le un exemple titre d illustration 57 c Contraintes de s lection Un r le th matique peut avoir des contraintes de s lection qui en restreignent les sens possibles Un Agent a g n ralement une contrainte de s lection lt humain gt ou lt anim gt VerbNet en propose une quarantaine organis es selon un graphe d h ritage comme le montre la figure 16 L un des enjeux de l ISS lors de la d sambigu sation lexicale est d tablir une correspondance entre les mots du lexique et la hi rarchie des contraintes de s lection force int c ntrol lt ia machine vehicle human animate animal natural ee plant body part comestible machine concrete phys obj L artifact tool rigid garment solid non rigid pointed shape an elongated substance idea abstract sound SelRestr communication regionPP location place time object state scalar currency organization Figure 16 Hi rarchie des contraintes de s lection d f
92. et donc au temps d entra nement Fi Score 80 70 60 50 40 30 20 o T T T T T 1 o 50000 100000 150000 200000 250000 300000 350000 Figure 26 F score sur le corpus anglais en fonction de la taille du corpus d apprentissage Entre 100 000 et 300 000 mots on gagne quasiment 4 points de F score tout en multipliant le temps d apprentissage environ par 3 on est pass de 38 minutes 93 minutes Une telle progression de F score reste tr s significative et montre l int r t malgr le temps d entra nement accru d effectuer l apprentissage sur un corpus important e Evaluation sur un corpus en francais Les tests effectu s sur le corpus de d p ches de presses en francais ont permis d obtenir des r sultats tr s similaires ceux obtenus pour l anglais comme le montrent la figure 27 et la figure 28 Temps s 1200 1000 800 600 400 200 0 T T T o 20000 40000 60000 80000 100000 120000 Figure 27 Temps d apprentissage sur le corpus fran ais d entit s nomm es 103 Fi score 80 70 60 50 40 30 20 10 0 4 T T T T T 1 0 20000 40000 60000 80000 100000 120000 Figure 28 F score sur le corpus fran ais en fonction de la taille du corpus d apprentissage f Interface graphique Nous avons d velopp une interface graphique permettant pour la t che accomplir entra nement annotation t
93. et il devient alors difficile de deviner ce qu elle repr sente Pour s en convaincre partons du vecteur termes fr quences exploit 1 system 1 il peut repr senter diff rents fragments de texte les exploiteurs du syst me le syst me d exploitation des exploits syst matiques les exploitants de ce syst me Notre propos n est videmment pas de critiquer les moteurs de recherche qui rendent un service indiscutable Nous tenions juste souligner que dans la cat gorie la plus utilis e des applications de TAL il n y a pas de nos jours de r elle compr hension d un document Pour employer une image de notre point de vue les applications industrielles de TAL sont actuellement myopes borgnes et daltoniennes 4 Vers une am lioration de cette repr sentation La question qui se pose donc est comment obtenir une repr sentation plus fine du sens dans le cadre d applications devant traiter rapidement de grandes quantit s de textes tout venant Nous souhaitons permettre par exemple d effectuer certains calculs non triviaux e D tecter ou produire une paraphrase c est dire une phrase ayant le m me sens que l nonc de r f rence e R pondre une question dont la r ponse est dans le texte ou faire une inf rence c est a dire r pondre une question dont la r ponse n est pas explicite dans le texte e D tecter une opinion positive ou n gative sur un fait il
94. faut embaucher cette personne surtout ne pas aller voir ce film L analyse de sentiments est typiquement un calcul de haut niveau qui n cessite de traiter pr alablement plusieurs autres t ches extraction d entit s et de relations ventuellement analyse syntaxique A partir du d but du verbatim pr c dent nous souhaiterions obtenir une repr sentation s mantique ressemblant la figure 1 le formalisme exact importe peu ici Client Jean Dupont C line Caissi re matricule 1234 f liciter Bey samedi 16 f vrier Date accueil souriant chaleureux Figure 1 Repr sentation s mantique partielle d un avis de consommateur Dans cette repr sentation structur e l auteur du verbatim je serait identifi par une mise en relation avec l application de gestion de la relation client ainsi que la caissi re C line matricule 1234 dans l application de gestion des ressources humaines l expression temporelle serait reconnue en tant que telle et la date pr cise calcul e l accueil de la caissi re qualifi de deux attributs connotation positive etc 7 On peut consid rer que c est l un des objectifs de la Th orie Sens Texte voir Mili evi 2007 13 B La Th orie Sens Texte Le cadre th orique sur lequel nous nous sommes appuy s pour la conception de la plate forme est la Meaning Text Theory ou Th orie Sens Texte Mel uk 1988a Cette th orie s
95. function independently V living thing animate thing a living or once living entity whole unit an assemblage of parts that is regarded as a single entity how big is that part compared to the whole the team is a unit W object physical object a tangible and visible entity an entity that can cast a shadow it was full of rackets balls and other objects Y physical entity an entity that has physical existence Y entity that which is perceived or known or inferred to have its own distinct existence living or nonliving Hyponym Y domestic cat house cat Felis domesticus Felis catus any domesticated member of the genus Felis 4 wildcat any small or medium sized cat resembling the domestic cat and living in the wild Figure 11 Exemple de relations d hyperonymie et d hyponymie Dans WordNet chaque nom ou verbe peut avoir plusieurs hyperonymes Par exemple le nom ADRENALIN a pour hyperonymes CATECHOLAMINE HORMONE NEUROTRANSMITTER VASOCONSTRICTOR La possibilit de d finir de multiples hyperonymes est relativement peu utilis e n anmoins il est indispensable de la prendre en compte Nous avons donc d velopp une projection plat des hyperonymes en transformant le graphe orient acyclique d h ritage en une structure lin aire respectant un ordre partiel Son int r t est de faciliter l criture de certains algorithmes qui ont besoin d num rer les hyperony
96. galement tre utilis e en tant que telle pour classifier des documents en utilisant la factorisation matricielle non n gative Nonnegative Matrix Factorization pr sent e dans Xu et al 2003 Cette factorisation consiste calculer une approximation de la matrice termes documents comme le produit de deux matrices l une en fonction des termes l autre en fonction des documents repr sentant les diff rentes classes L avantage de cette r duction de dimensions est que les classes produites ne sont pas forc ment orthogonales comme dans la recherche des composantes principales 4 Impl mentations dans la plate forme Nous avons impl ment deux algorithmes dans la plate forme un pour le regroupement par cliques algorithme de Bron Kerbosch et un pour le regroupement spectral Les deux offrent de bonnes performances a Regroupement par cliques Bron Kerbosch Notre impl mentation de Bron Kerbosch est inspir e par Cazals Karande 2008 dont l algorithme est d crit en figure 43 Notre impl mentation utilise aussi une fonction qui transforme une matrice de similarit en une matrice d adjacence en utilisant une valeur de seuil pour supprimer les l ments qui sont trop dissemblables Algorithm call IK_x V G 0 IK_x R P X 1 if P and X then 2 Report R as a maximal clique 3 else 4 Let up be the pivot vertex see text 5 Assume P u1 U2 Uk 6 fori I1ltokdo a if u is not a neighbor of up t
97. impl ment une heuristique de r solution des anaphores nominales qui permet par exemple d identifier correctement l anaphore dans As Lincoln sat in the balcony Booth crept up behind the President s box Cette derni re heuristique utilise les mesures de similarit d crites page 79 5 valuation et perspectives Le composant a t valu dans le cadre d articles d encyclop dies Ces articles ont quelques caract ristiques qui facilitent leur analyse automatique ils sont g n ralement correctement crits dans un style concis sans humour ils relatent des faits avec des temps de verbe le plus souvent au pass Les anaphores tant fortement pr sentes dans de tels articles leur r solution est indispensable si on souhaite parvenir a une repr sentation s mantique correcte d un article Ces anaphores sont majoritairement pronominales et portent le plus souvent sur le titre de l article 19 En utilisant la sortie graphe de d pendances produite par un analyseur syntaxique Approximativement 3 des it mesure sur 20 articles choisis au hasard dans la Wikipedia en anglais Nous nous sommes inspir pour cela de Danlos 2005 qui montre comment dans ce cas pr cis un traitement peut atteindre une pr cision remarquablement lev e 97 5 16 Obliqueness definiteness lexical reiterations section heading referential distance boost pronouns collocation match parenthesis 160 161 124
98. l algorithme de regroupement spectral Les performances de notre impl mentation initiale taient subjectivement correctes le regroupement de 400 documents courts deux lignes de texte n cessitait 2 secondes de temps de calcul Depuis l quipe Proxem a optimis cette impl mentation en tombant moins d une seconde de calcul sur le m me type de corpus 5 Applications Voyons quelques exemples concrets de mise en ceuvre du regroupement dans des applications utilisant Antelope ou dans la plate forme elle m me Une offre d emploi est souvent reprise en plusieurs exemplaires avec des l g res variantes par rapport a l offre initiale Pour d terminer le nombre de postes ouverts un instant donn qui est sensiblement inf rieur au nombre d offres il faut donc proc der un d doublonnement du corpus d offres Autre exemple nous avons vu dans la partie d di e au lexique s mantique que le d coupage des sens propos par WordNet est parfois trop fin Nous avons appliqu des algorithmes de regroupement aux d finitions des sens des diff rents vocables pour les fusionner en sens macroscopiques de fa on simplifier la d sambiguisation lexicale 129 Enfin dans une application de recherche d information la visualisation d un grand nombre de r sultats est souvent probl matique Il est donc pratique de regrouper les r sultats en sous ensembles coh rents Nous illustrerons ce point dans la partie qui pr
99. l analyse que pour la g n ration de texte La mise en uvre d une telle grammaire pose videmment des difficult s qui ne sont pas abord es ici Notons simplement que le formalisme a d j fait l objet d une impl mentation Lison 2006 nous en d veloppons une nouvelle impl mentation en testant diff rentes heuristiques afin d viter toute explosion combinatoire 169 Partie VIII Conclusion A Bilan Voici donc r sum le travail de recherche et d ing nierie effectu pendant quelques ann es Notre objectif tait de montrer qu en cr ant une plate forme de TAL le d veloppement d applications s mantiques peut tre simplifi et industrialis La plate forme Antelope f d re aujourd hui des composants d analyse syntaxique et s mantique en les rendant interchangeables pour une t che donn e elle int gre aussi un lexique s mantique multilingue large couverture Disponible sans contrainte pour la recherche et l enseignement Antelope a t t l charg e sur www proxem com par plus de 2 500 internautes en d cembre 2011 Compatible avec les principaux syst mes d exploitation du march Windows et Linux cette plate forme de traitement linguistique est encore en cours de d veloppement mais d ores et d j utilisable Nous estimons que la force de la plate forme est d tre e Robuste elle a fait ses preuves sur l analyse de corpus totalisant plusieurs centaines de m
100. langages d ontologie RDFS et OWL ou le langage SKOS pour la repr sentation des th saurus et autres vocabulaires structur s D autres vocabulaires RDF sans tre sp cifi s par le W3C sont n anmoins largement utilis s et constituent des standards de fait dans la communaut du Web S mantique On peut par exemple citer FOAF Friend of a friend ou ami d un ami un vocabulaire RDF constitu de 13 classes avec 62 propri t s permettant de d crire des personnes et le graphe social des relations qu elles entretiennent entre elles L une des difficult s de la mod lisation avec les standards du Web s mantique consiste donc conna tre les ontologies ou vocabulaires d j d finis et choisir parmi ceux qui pourraient tre utilis s dans un contexte donn pour viter de tout reconcevoir partir de z ro Dans l exemple e Equivalent a il existe un objet et il existe un sujet tels que pr dicat objet sujet 190 pr sent plus haut le pr fixe dbpedia repr sente une r f rence l ontologie DBpedia o les concepts Victor Hugo et Les Mis rables sont pr d finis De m me le pr fixe dcterms fait r f rence aux termes d finis dans le vocabulaire Dublin Core un sch ma de m tadonn es qui permet de d crire des ressources et d tablir des relations avec d autres ressources 2 RDFS RDFS RDF Schema est un langage extensible de repr sentation des connaissances RDFS fournit des l men
101. le progressif cc cccccssscccecssececsesseeeceesseeeceesaeeeceesseeeeeeseeeceees 168 Extraction de la r gle pour le passif 169 Extraction de la r gle pour les relatives 169 D pendances non borh es sssisn inst ennemie elite 169 La pile des standards du Web s mantique 188 Sous projets du Linked Data en juillet 2009 198 Sous projets du Linked Data en septembre 2011 198 Liste Tableau 1 Tableau 2 Tableau 3 Tableau 4 Tableau 5 Tableau 6 Tableau 7 Tableau 8 Tableau 9 Tableau 10 Tableau 11 Tableau 12 Tableau 13 Tableau 14 Tableau 15 Tableau 16 Tableau 17 Tableau 18 Tableau 19 Tableau 20 Tableau 21 Tableau 22 Tableau 23 des tableaux Composants typiquement utilis s pour impl menter une transition 15 Evolution des citations dans CiteSeer de diff rentes ressources lexicales csceceenees 43 Comptage des relations s mantiques de WordNet ccccccecssssececsssseeeesssseeessssseeeesseaeees 48 Comptage des relations lexicales de WordNet 48 Langues propos es dans EuroWordNet cccsseceescessnscesssecseseecseeessaeeseseecseeeeesaeeesaeesenees 54 Langues propos es dans BalkaNet ccccccccssccccsessececeeseeecsssaeeecsssaeeecsesaececsesaeeeceesaeeeeseaaes 54 Taux de validation des mots des d finitions dans eXtended WordNet c csceeseeeeees 55 Domaines associ s aux diff rents sens du NOM BANK 60 Exe
102. lection du sens correct en contexte Si on admet que le sens d un mot peut glisser par exemple en cas de polys mie r guli re le m canisme de coercition de type permet au verbe de convertir et de contraindre le type de ses arguments s ils ne conviennent pas En cas d impossibilit trouver dans WordNet un sens respectant les contraintes de s lection pour l un des arguments le syst me peut tenter d appliquer une op ration de coercition de type sur cet argument Dans notre exemple le syst me sait gr ce a WordNet que BOURGOGNE 1 est une r gion la connaissance des relations de polys mie r guli re dont la m tonymie Vin provenant de R gion permet de proposer un sens virtuel non mat rialis dans WordNet BOURGOGNE 2 wine from the Bourgogne region hyponyme de WINE 1 vin ce sens dynamique est donc galement hyponyme de BEVERAGE 1 boisson et satisfait aux contraintes de s lection lt concret comestible liquide gt e Conclusion et perspectives Nous avons pr sent ici une m thode permettant de cr er automatiquement dans et partir de WordNet avec une bonne pr cision deux nouvelles cat gories de relations s mantiques m taphores et m tonymies La ressource contenant ces nouvelles relations est disponible en ligne Ce travail a t effectu sur l anglais II pourrait aussi tre d clin pour des WordNet en d autres langues une fois bien s r les patrons adapt s la lang
103. lemmatisation possible d une forme mais o une analyse locale comme font g n ralement les lemmatiseurs ne le permet pas Dans la paire Le diplomate reconduit la fronti re un espion russe vs Le diplomate reconduit la fronti re est un espion russe reconduit est alternativement une forme verbale finie et un participe pass du verbe RECONDUIRE II est donc essentiel de pouvoir maintenir les deux lemmatisations jusqu l analyse syntaxique si l on veut esp rer trouver la bonne analyse dans les deux cas c Ambiguit lexicale Un vocable peut avoir plusieurs sens La section 5 ci dessous d taille diff rentes heuristiques de d sambiguisation lexicale que nous avons exp riment es Le sens le plus pertinent est cherch parmi ceux num r s dans un lexique de r f rence Or ce dernier n est jamais exhaustif comment faire alors pour d tecter de nouveaux sens de mots Le fait de conna tre des r gles de polys mie r guli re et d appliquer le m canisme de coercition d crit page 78 section IV C 4 d permet dans certains cas d inf rer dynamiquement un nouveau sens en fonction du contexte ai Carr et al 1991 d finit l heuristique comme une r gle qu on a int r t utiliser en g n ral parce qu on sait qu elle conduit souvent la solution bien qu on n ait aucune certitude sur sa validit dans tous les cas 155 d Classes d entit s nomm es Des ambiguit s peuvent aussi appara tre l
104. les CRF est un mod le probabiliste comme les r seaux bay siens les cha nes cach es de Markov ou les mod les entropie maximale Tous les mod les probabilistes permettant l annotation de s quences reposent sur des principes similaires On peut notamment les voir comme des variations des r seaux de Markov tats cach s De fa on grossi re on peut dire qu un tel mod le appliqu l tiquetage morphosyntaxique ou la d tection d entit s nomm es va calculer la probabilit pour qu un mot appartienne une classe donn e puis lui associer la classe maximisant cette probabilit Pour ne pas introduire un biais et ne proposer que les tiquettes les plus probables chaque fois on utilise des mod les capables de 133 Voir par exemple McCallum Li 2003 pour la reconnaissance d entit s nomm es en anglais et Zidouni Glotin Quafafou 2009 en fran ais 97 mod liser les d pendances entre les observations les mots et les classes associ es les CRF L annexe I C page 203 rappelle les bases math matiques sous jacentes 4 D couverte des CRF a Pr sentation du Stanford NER Nous n avions pas d exp rience pratique de l apprentissage automatique avant d aborder la t che de reconnaissance des entit s nomm es Nous avons pris le parti de d fricher ce domaine en utilisant un composant existant le Stanford Named Entity Recognizer Stanford NER dans la suite d velopp en Java par le NLP Grou
105. lexique s mantique pour identifier les expressions multi mots La forme de base de chaque mot est d abord calcul e par le module morphologique du lexique le composant teste la pr sence de n uplets dans le lexique n variant de cinq jusqu deux Des r gles suppl mentaires permettent d identifier aussi des expressions multi mots non contig es comme dans Pierre and Marie Curie Alabama and Mississippi Rivers ou the canon and civil law Lors d une analyse syntaxique par opposition a un simple tiquetage morphosyntaxique une contrainte suppl mentaire de rattachement est appliqu e Les mots ne sont regroup s que s ils appartiennent a un m me sous arbre Comme le montre la figure 8 l expression Battle of Gettysburg est reconnue dans l analyse syntaxique de gauche mais pas dans celle de droite absence de t te commune Cela contribue a lever certaines ambiguit s syntaxique ce point est d crit page 162 en section VII B 6 c prep prep prep dobj dobj pobj pobj hs p lt detprep gt pab gt pee ree ad Captured during the Battle of Gettysburg Captured during the Battle of Gettysburg Figure 8 Identification de l expression multi mots Battle of Gettysburg J Evolutions de la plate forme Antelope a t initialement con ue pour s ex cuter sur un poste de travail ou sur un serveur unique Avec l augmentation du nombre de projets et de la taille des corpus traiter plusi
106. lors de l tape pr paratoire 133 PROLOG PROgrammation LOGique est un langage d claratif utilisant le m canisme d unification avec retour arri re Il est souvent utilis dans des applications d intelligence artificielle Un programme PROLOG se constitue de pr dicats d crivant des faits ou des r gles On utilise un tel programme pour chercher si un but donn est atteint ou non Ce langage est donc bien adapt pour chercher un sous graphe par exemple la r alisation d un cadre de sous cat gorisation l int rieur d un graphe correspondant la sortie de l analyse syntaxique en d pendances d une phrase 134 Par exemple la description VerbNet en XML des cadres de sous cat gorisation d une classe de verbes 107 Ce m canisme donne satisfaction mais est relativement gourmand en puissance de calcul Nous envisageons deux voies pour en am liorer les performances Une possibilit serait de remplacer PROLOG par une bo te outil sp cialis e dans la r criture de graphes GrGen qui a t optimis e pour rechercher rapidement des sous graphes Une autre approche qui permettrait de traiter efficacement des corpus de grande taille consisterait mettre en uvre une base de donn es au format RDF l analyse syntaxique en d pendances du corpus y est alors stock e sous forme de triplets la recherche de sous graphe revient alors mettre une simple requ te SPARQL Cf page 192 Nos tests pr liminaires montrent
107. mais o la perte d une r ponse potentielle est dommageable Enfin l exactitude accuracy en anglais est le pourcentage des l ments bien class s des vrais positifs et des vrais n gatifs par rapport a l ensemble de la population 201 B Algorithme de regroupement spectral L algorithme de regroupement spectral prend en entr e une matrice termes documents A avecn documents et m termes soit M le nombre d l ments de A diff rents de z ro Le point int ressant est que l algorithme exploite le fait que la matrice est creuse pour optimiser les calculs Algorithme de l tape de division Entr e Une matrice A de dimension nx m Sortie Un arbre avec les lignes de comme feuilles 1 1 Soit VER la somme des lignes de AA et P b3 Pi 2 Soit R et D des matrices diagonales tels que p et D 7 3 Calculer le second plus grand vecteur propre v de Q DR AAT D 4 Soit v D V et trier v de fa on ce que V S Vg 5 Trouver la valeur f telle que la coupe S7 CL BIHA minimise la conductance c S T mint S c T ou ASD gt A5 A et cS c S L n 6 Soit A et A les sous matrices de A R p ter les tapes 1 5 sur les matrices A et A WS T Les tapes 2 a 5 proviennent d un r sultat de la th orie spectrale qui indique que la recherche d un bipartitionnement revient a la recherche du second plus grand vecteur propre le vect
108. mesure de cet analyseur syntaxique d environ 1 Dans le cas d esp ce nous avons travaill directement sur l arbre de d rivation de FRMG Cette approche n est pas facilement g n ralisable d autres analyseurs syntaxiques en effet ils n exposent habituellement pas cette structure de donn es qui n est utilis e que comme interm diaire de calcul 159 b D sambiguisation de la configuration syntaxique V NP PP 1 Principe Nous avons voqu le fait qu une ambigu t syntaxique est possible en cas de rattachements pr positionnels multiples Nous proposons ici une heuristique pour aider d sambigu ser une configuration syntaxique particuli re Elle n a t valu e que dans des cas particuliers nous nous garderons donc d en tirer des conclusions d finitives mais les r sultats semblent prometteurs L id e est de proc der un Google fight permettant d valuer le nombre d occurrences de deux constructions syntaxiques mutuellement exclusives Illustrons cela dans le cas d une configuration comme V NP PP en prenant comme exemple la phrase manger une pizza avec X la nature s mantique de X d termine si le syntagme pr positionnel se rattache au verbe ou bien au chunk nominal qui le pr c de imm diatement Dans notre exemple l heuristique propos e revient donc essentiellement chercher si on dit pizza avec X ou plut t manger avec X pour un X donn Faire un gr
109. notre exp rience est d enrichir WordNet pour de nouvelles applications Pour cela nous allons d crire les liens de polys mie r guliers de WordNet et mesurer leur r gularit en d tectant automatiquement leurs occurrences dans la base lexicale L un des enrichissements possibles du lexique sera ainsi la cr ation de nouvelles relations s mantiques en l occurrence des relations de m taphore et de m tonymie 1 Description des r gles Notre objectif tant de rendre compte de la polys mie r guli re repr sent e dans WordNet nous avons pris le parti de nous int resser dans un premier temps aux seuls synsets dont la d finition contient une lexie L1 appartenant au m me vocable que l une des lexies du synset d fini L2 ce parti pris repose sur l id e commun ment admise qu un lien de sens entre deux lexies de m me forme est d autant plus vident que l une est d finie au moyen de l autre L2 L1 En voici deux exemples e DRIVER 3 a golfer who hits the golf ball with a driver e FALSIFY 4 falsify knowingly Dans WordNet les relations de sp cialisation sont d ja pr sentes pour les noms et verbes Par exemple PRESSURE 7 a explicitement pour hyperonyme PRESSURE 1 73 Dans le premier exemple la lexie DRIVER 3 est d finie au moyen d une autre lexie du vocable DRIVER Rappelons qu ce stade cette derni re n est pas identifi e les l ments utilis s dans les
110. nouveau langage C et une biblioth que tr s compl te de classes pr tes l emploi Nous avons jug l ensemble innovant l gant et efficace et l avons rapidement adopt ma connaissance nous avons t les premiers en France mettre en production un site de commerce lectronique d velopp en NET en septembre 2001 e En 2003 nous avons r alis pour le compte de l agence de biom decine une application Web m ta th saurus de la greffe Son objectif tait de qualifier plus finement les patients organes et maladies afin de fluidifier la recherche de l organe le mieux adapt un receveur particulier et donc de sauver plus de vies chaque ann e En plus de l int r t soci tal ce dernier projet a eu un impact particulier car c tait ma premi re rencontre avec le TAL et les ontologies Je d couvrais un univers informatique encore plus complexe que celui des syst mes d information classiques Au fil de nos conversations mon interlocuteur de l agence de biom decine titulaire d un double doctorat en m decine et en linguistique informatique m a gliss mais pourquoi ne pas faire une th se en TAL Ainsi fut sem e la graine qui m aura conduit renoncer volontairement bien des loisirs au profit de la recherche pendant sept ans En 2004 ma premi re soci t comptait une vingtaine de personnes Apr s une p riode de lourdes turbulences explosion de la bulle Internet crise conomi
111. oriser et rationaliser ces diff rentes phases des guides m thodologiques offrent un cadre de travail et proposent des r ponses standards aux probl mes les plus fr quents L arriv e de plates formes de d veloppement et de bo tes outils frameworks de composants pr ts l emploi a permis d accro tre la productivit et le confort des d veloppeurs d applications et d asseoir progressivement une industrie du logiciel Il nous semble que le TAL n a pour l instant b n fici que modestement des contributions du g nie logiciel et de l industrialisation des d veloppements informatiques Cette situation nous semble tre due la conjonction de plusieurs facteurs e La sp cificit du TAL est de cumuler un grand nombre de t ches complexes et de probl mes non r solus ce jour r solution d anaphores d sambigu sation lexicale correction orthographique prise en compte des figures de styles Cette complexit r sulte des nombreuses ambigu t s pr sentes dans les langues naturelles Les acteurs du TAL se focalisent donc en premier lieu sur la r solution de probl mes unitaires relevant souvent de la recherche fondamentale Ceux ci viennent en outre de disciplines vari es informatique th orique math matique linguistique psychologie cognitive enseignement des langues parfois tr s loign es du g nie logiciel L industrialisation des applications de TAL ne se fait donc que progressivement e Le
112. ou de recherche op rationnelle rentrent par exemple dans cette cat gorie ainsi que le Traitement Automatique des Langues Les fronti res ne sont l vidence pas tanches entre ces deux cat gories d application Des applications de logistique int grent des modules de recherche op rationnelle pour r soudre des probl mes d optimisation les traitements de texte proposent des correcteurs d orthographe et de grammaire les bases de donn es utilisent des heuristiques d optimisation complexes pour traduire les requ tes en op rations l mentaires Est il plus facile de d velopper une application informatique classique ou un programme d intelligence artificielle La r ponse n est pas si simple En effet les applications classiques ont une complexit grandissante et il ne faut pas minimiser l effort n cessaire pour les d velopper Elles comptent parfois des millions de lignes de code reflet des exigences croissantes des demandes d utilisateurs par exemple un syst me de calcul de retraite doit impl menter des r gles de gestion complexes pour g rer des historiques de carri res sur plus de 40 ans sous la contrainte d une l gislation qui volue avec le temps N anmoins cette complexit est aujourd hui maitrisable aux diff rents maillons de la cha ne de d veloppement analyse du probl me conception du syst me impl mentation tests production maintenance Au fil des ann es des m thodes sont apparues pour th
113. pare des petits g teaux de No l et autres recettes e Chaque semaine le prix affich des oranges est diff rent en caisse lors du passage e HIER LES ORANGES 10 KGS ETAIENT A 5 99 AUJOURD HUI A 7 49 HONTEUX e Dommage que vous n ayez que des oranges et mandarines venant d Espagne m me bio 96 De m me voici quelques exemples de verbatims o ORANGE 2marque t l com a t correctement reconnu par le m me syst me e Ouverture de ligne pour une cliente a d j un forfait internet chez Orange e Je suis pass hier dans votre magasin pour changer mon t l phone chez orange e Le client attend toujours le remboursement suite OFFRE PROMOTIONNELLE orange livebox e CHANGEMENT DE TELEPHONE PORTABLE SUITE ENVOI SMS ORANGE e Je n ai toujours pas de d codeur TV fourni par orange e QUAND NOUS NE VENONS PAS CHEZ VOUS NOUS ALLONS A LA BOUTIQUE ORANGE e _Le client n a pas pu acheter une recharge mobicarte orange 20 dition sp ciale e Je fais suite mon dernier mail concernant mon abonnement a orange net plus e VOTRE VENDEUR M A DIT QU IL S OCCUPAIT DE LA RESILIATION DE MON OPERATEUR PRECEDENT OR DEPUIS JE M APERCOIS QUE JE RECOIS ENCORE DES FACTURES ORANGE e J ai besoin des coordonn es de l acheteur pour le d simlockage du t l phone chez Orange 3 Les champs conditionnels al atoires CRF Le systeme symbolique que nous venons de pr senter repose sur des gazettes contextuelles avec des terme
114. particuli re A ce jour plus de 2 500 internautes ont t l charg Antelope et lont test e out of the box Elle a t utilis e dans le cadre de projets industriels par exemple pour cr er des agents conversationnels Certains internautes ont contribu la plate forme par leurs remarques D autres ont valu ou mis en uvre la plate forme pour des projets de recherche en voici une bibliographie comment e 2 Bibliographie comment e de publications mentionnant Antelope Voici une liste non exhaustive de publications qui citent Antelope Deux points nous semblent int ressants souligner e D une part le choix d Antelope est souvent justifi par la facilit de mise en uvre conjointe de plusieurs composants par exemple le lexique s mantique et un analyseur syntaxique En cela nous pensons avoir atteint notre objectif d int gration e D autre part si la moiti de ces articles concernent principalement le TAL les autres pr sentent des applications concr tes dans d autres domaines domotique e learning g nie logiciel gestion de crises ou formation professionnelle Antelope aura donc contribu une d mocratisation du TAL et son ouverture vers d autres domaines Varga et al 2010 montre comment extraire gr ce ConceptNet Cf IV D 4 b et Antelope le sujet principal d un document crit en anglais ainsi que les concepts cl s qu il contient Ces informations sont ensuite pr sent es l
115. patrons de la forme en math matiques utilis en g ologie l aide d expressions r guli res Si un patron de ce type est rep r son domaine d application est extrait math matiques ou g ologie par exemple Si le synset candidat ou l un de ses hyperonymes appartient ce domaine son indice de confiance est augment 4 Comparaison des hyperonymes Cette heuristique a pour but de d terminer l hyperonyme du sujet de l article en tudiant sa d finition En voici quelques exemples o les hyperonymes sont soulign s e Abraham Lincoln 16 Pr sident des Etats Unis e Australie un pays et le continent le plus petit e chat mammif re f lin ayant une paisse fourrure douce et incapable de rugir Le ou les hyperonymes du sujet de l article sont compar s aux hyperonymes des synsets candidats S ils sont suffisamment proches au sens d une mesure de similarit l indice de confiance est fortement augment Cette heuristique est essentielle en termes d am lioration de la pr cision de l appariement c est pourquoi nous la d taillons ici a Analyse syntaxique de la d finition Notre but est d extraire l hyperonyme d une d finition Prenons l exemple pr c dent du chat notre but est d extraire MAMMAL mammif re ou mieux FELINE MAMMAL mammif re f lin si ce terme existe dans le lexique de r f rence Nous effectuons pour cela une analyse synta
116. pendances 203 1 p ylx Zep woo cec C est l ensemble des cliques de G Yc est la configuration prise par les variables al atoires de la clique c dans l observation y Z x est un coefficient de normalisation d fini comme suit 2x gt wo y cec Pour les CRF Lafferty McCallum et Pereira 2001 ont propos de d finir la forme de ces fonctions de potentiel comme l exponentielle d une somme pond r e de fonctions fg appel es features ou fonctions caract ristiques les A tant les poids associ s a chacune de ces caract ristiques Weler exp Y Ar fOe 2 0 k Les caract ristiques sont des fonctions valeurs r elles mais dans la plupart des cas elles sont simplement des fonctions binaires valant 1 si un ph nom ne donn est observ 0 sinon C est travers elles que toutes les connaissances du domaine sont int gr es dans le mod le Ces caract ristiques prennent en param tres les valeurs prises par les variables al atoires de la clique sur laquelle elles s appliquent y ainsi que l ensemble de l observation x Par cons quent la valeur prise par une variable al atoire peut d pendre de toute l observation x Par exemple dans le cas de l annotation d une s quence le choix de l tiquette associ e au dernier l ment de la s quence peut tre li la valeur du premier l ment de cette s quence A ces caract ristiques sont associ s des poids A4 Ces poids sont l
117. pour construire une telle vue se heurtent plusieurs difficult s v nements en constante volution informations r parties entre des sites g ographiques loign s difficult de v rification des informations obtenues Antelope peut servir comme composant d analyse textuelle et d extraction d information des flux temps r el 151 Partie VII Interface syntaxe s mantique A Introduction 1 Premier bilan sur les objectifs vis s Il est temps de dresser un premier bilan sur les objectifs que nous avons atteints ou non dans le cadre du d veloppement de la plate forme Commen ons par le point qui nous semble satisfaisant Notre premier objectif tait de rendre les ressources g n riques et interchangeables pour une t che donn e de fa on acc l rer et simplifier le d veloppement d applications de TAL Cet objectif qui tait loin d tre acquis au d marrage de nos travaux de recherche nous semble aujourd hui r alis Il a n cessit quelques ann es de travail personnel et un important effort d ing nierie avec l appui d une quipe La partie VI a pr sent des exemples concrets d applications construites en assemblant des composants d Antelope Nous y avons montr comment une approche semi supervis e de l acquisition de connaissances sp cifiques un domaine permet une industrialisation des techniques d extraction d information Leur mise en uvre permet partir de textes tout venant issus de cor
118. pour marquer des usages des mots Les domaines s mantiques offrent une mani re naturelle d tablir des relations s mantiques entre les sens des mots qui peuvent tre utilis es avec profit en informatique linguistique WordNet associe parfois explicitement un domaine Baseball G ologie Math matiques un synset toutefois cette association n est pas syst matique WordNet Domains Magnini Cavagli 2000 est une extension multilingue de WordNet 2 0 d velopp e l Instituto Trentino di Cultura ITC irst Dans WordNet Domains chaque synset est annot avec au moins une tiquette de domaine par exemple Sport Politique M decine Economie choisie dans un ensemble d environ deux cents tiquettes organis es hi rarchiquement Un domaine peut inclure des synsets de diff rentes parties du discours et de diff rentes sous hi rarchies de WordNet Par exemple le domaine M decine regroupe des sens de noms tels que DOCTOR 1 et HOSPITAL 1 et de verbes comme OPERATE 7 L information apport e par ces domaines est compl mentaire celles d j pr sentes dans WordNet Les domaines peuvent cr er des regroupements homog nes des sens d un m me mot avec comme effet secondaire de r duire la polys mie des mots dans WordNet L utilisation de WordNet Domains permet par exemple d am liorer l efficacit d algorithmes de d sambigu sation lexicale et d expansion de requ tes b Exemple Le nom BANK par exemple a
119. probl me existe au niveau des donn es linguistiques par exemple un lexique aura deux sens du nom chat avec une description courte tandis qu un autre d crira trois sens avec une description longue et des relations vers d autres concepts Quelle serait alors notre r f rence dans une tache de d sambiguisation lexicale Faute de disposer de protocoles partag s standards ou norm s et d un mod le normalis de repr sentation des informations linguistiques la capacit d interop rabilit entre ressources est donc loin d tre acquise L un de nos objectifs est de les rendre g n riques et interchangeables pour une t che donn e 2 Simplifier le d veloppement des applications de TAL Chaque composant de traitement effectue une t che pr cise c est dire un fractionnement l mentaire du travail fournir en vue de produire un r sultat Une application du TAL regroupe un ensemble de composants et de ressources pour aider un utilisateur non n cessairement expert en traitement du langage faire un certain travail La fronti re entre ces deux notions est parfois floue certaines t ches de haut niveau ont une valeur per ue par l utilisateur comme suffisante pour les promouvoir au rang d applications part enti re on peut citer par exemple la correction orthographique ou grammaticale Le d veloppement des applications de TAL passe par l int gration de plusieurs ressources Cette interop rabilit
120. que l utilisation de GrGen donne une am lioration des performances par rapport au m canisme PROLOG nous n avons pas encore pu les comparer celles d un moteur SPARQL Pour finir pr cisons que l op ration de recherche de sous graphe est r alis e en testant les ventuelles contraintes de s lection Ce test est effectu en fonction du contexte soit en cherchant de telles contraintes dans notre lexique s mantique soit apr s une tape de reconnaissance d entit s nomm es On voit donc qu en fonction des objectifs vis s la reconnaissance de sous graphe dans un graphe peut tre utilis e soit comme m canisme de v rification de contraintes soit comme m canisme d inf rence c Un obstacle la multiplicit des paraphrases La richesse paraphrastique du langage permet d exprimer une relation comme SOCIETE1 rach te SOCIETEZ de nombreuses fa ons diff rentes Pour viter de multiplier l infini les patrons morphosyntaxiques correspondant aux r alisations possibles nous distinguons diff rents niveaux possibles d expression des paraphrases Un premier niveau de complexit provient de l utilisation d une construction syntaxique diff rente de la forme canonique sujet verbe compl ment On peut par exemple changer la diath se d un verbe Powerset a t rachet e par Microsoft ou utiliser une proposition relative Microsoft qui a rachet Powerset la combinaison des deux e
121. ralement un humain ou un sujet anim il peut aussi tre utilis pour d signer un sujet ayant une volont propre comme une force ou une machine Pour identifier un r le Agent on peut utiliser e Le test de volont Tom cassa volontairement la tasse vs Tom se sentit malade volontairement e Le test de promesse Tom promit de casser la tasse vs Tom promit de se sentir malade 3 Attribut Attribut de Patient ou de Th me fait r f rence une caract ristique de quelque chose qui est en train de changer comme dans le prix du p trole augmente Attribut a une contrainte de s lection de type scalaire d finie par une quantit une masse une longueur une heure une temp rature etc 4 B n ficiaire B n ficiaire d signe l entit b n ficiant d une action g n ralement introduite par une proposition commen ant par pour comme dans Marie a cr un jouet pour le b b ou donner quelque chose quelqu un 5 Cause Cause est surtout utilis par les classes de verbes psychologiques ou relatifs au corps comme dans les touristes ont admir les tableaux ou cela compte pour moi 209 6 Destination Destination est le point final ou la direction d un d placement introduit par vers ou sur Il est utilis dans des classes telles que banish send carry comme dans le roi a exil le capitaine sur l
122. s mantique avec des cadres de sous cat gorisation associ s diff rentes constructions syntaxiques quivalentes puis de constituer un catalogue de paraphrases dont les l ments sont totalement d sambigu s s par rapport au lexique s mantique Pour cela nous appliquons un algorithme proche sur des paires d articles portant sur le m me sujet 7 Par exemple pour l English Wikipedia 3 650 000 articles en juin 2011 1 540 000 fin 2006 874 000 fin 2005 414 000 fin 2004 188 000 fin 2003 95 000 fin 2002 68 b Cr ation de d articles comparables La m thode pr sent e en section IV C 2 page 64 montre comment apparier des synsets de WordNet et des articles encyclop diques avec une application a un sous ensemble de l English Wikipedia En r it rant ce processus sur plusieurs encyclop dies nous regroupons autour d un paires encyclop diques synset donn plusieurs articles traitant d un m me sujet nous constituons donc ainsi un corpus monolingue d articles comparables propice la d couverte de paraphrases La figure 18 montre les articles de trois encyclop dies en langue anglaise portant sur la rivi re Alabama les entit s nomm es identiques sont surlign es dans une m me couleur un module de r solution d anaphores a t pr alablement appliqu Wikipedia Encyclop die 2 inthe U S i formed by the and BEB rivers which unite six miles above The Alaibar
123. seuil minimal de fr quence d apparition des lemmes pour viter d ajouter la liste des termes trop rares lors de la recherche r cursive des hyponymes Un type d argument peut galement tre v rifi l aide d une expression r guli re Cela s applique bien aux l ments qui ont une forme particuli re num ro de t l phone num ro ISBN Nous d finissons par exemple de cette mani re un type NomPropre qui correspond simplement aux noms qui commencent par une majuscule 112 Enfin le type d un argument peut tre v rifi dynamiquement l ex cution d une fa on plus souple qu en cherchant des termes dans un lexique Cela permet d effectuer un test ad hoc pour v rifier les contraintes de s lection en tenant compte du contexte Ce type de v rification est int ressant pour des l ments qui varient dans le temps ou dans l espace les spectacles l affiche dans un lieu donn par exemple ou qui d pendent d un utilisateur particulier d une application contacts de son carnet d adresse rendez vous de son agenda 2 Extraction des arguments Chaque paraphrase est transform e en une forme logique qui teste si une phrase donn e correspond au patron attendu puis en extrait la valeur des arguments Le m canisme utilis est la recherche de sous graphe au sein d un graphe Cf V C 1 b Une fois le sous graphe trouv l algorithme conna t les mots reli s entre eux par les d pendances exprim
124. sur les l ments qui ne sont pas dans ce regroupement jusqu ce que le plus grand regroupement soit inf rieur un seuil fourni par l utilisateur Cette technique permet de trouver des grandes classes en ayant une qualit intra classe satisfaisante d Regroupement spectral Comme dans le regroupement par cliques le probl me peut tre reformul en termes de graphe On consid re un graphe pond r non orient o les sommets correspondent aux documents et les ar tes sont pond r es selon la ressemblance entre deux documents Le probl me est alors de trouver une partition du graphe telle que les classes soient aussi diff rentes que possible avec des documents similaires entre eux au sein d une m me classe La th orie spectrale des graphes Chung 1997 montre que la recherche d une partition d un graphe en k classes revient la recherche des k plus grands vecteurs propres au sens de leurs valeurs propres de la matrice laplacienne du graphe Pour viter d avoir fournir explicitement une valeur arbitraire de k plusieurs techniques ont t propos es pour trouver un partitionnement satisfaisant du graphe e Une premi re technique na ve est de calculer pour toutes les valeurs de k le partitionnement qui minimise la valeur de la coupe du graphe Le probl me de cette m thode est le temps de calcul sur des corpus importants e Une seconde approche inspir e du regroupement hi rarchique descendant est de bipar
125. termes de nombre d utilisateurs c est aussi la plus aboutie d un point de vue industriel en ayant d montr sa capacit indexer des dizaines de milliards de pages Web Nous proposons ici de faire un zoom sur les traitements effectu s lors de l indexation d un texte par un moteur de recherche et de nous poser la question de ce que voit la machine de sa repr sentation du sens contenu dans un nonc Notre propos est de mettre en vidence que les op rations successives effectu es aboutissent une compression destructive de l information initiale Nous pr senterons juste apr s la repr sentation plus riche que nous souhaiterions produire L nonc dont nous allons d tailler analyse est un avis de consommateur voici dans le d tail les diff rentes op rations usuellement effectu es par un moteur de recherche a D coupage du texte en mots tokens Partons de l avis suivant formul par un consommateur suite une visite dans un hypermarch je tenais f liciter la caissi re C line pour son accueil chaleureux et souriant du samedi 16 f vrier malgr la foule incroyable ce jour la elle a su faire abstraction de cela et garder le sourire et la bonne humeur FELICITATIONS 14 x 1p ae Les documents sur lesquels nous avons concr tement travaill sont de natures vari es avis de consommateurs textes encyclop diques articles de presse documents RH Notons que ces types de textes repr sen
126. tr s diff rentes En fonction de la nature de la tache a r aliser les types d entit s qu on cherche a d tecter varient fortement e Une application grand public comme Skype ne cherche a identifier qu un seul type d entit les num ros de t l phone pour faciliter leur num rotation Skype est robuste dans cette tache en tenant compte d une large combinatoire de variantes de surface possibles pr sence ou non de parenth ses d espaces d un indicatif international ou r gional etc et en sachant exclure les num ros de fax quand une telle information existe explicitement e Une application sp cialis e dans la chimie cherche typiquement a reconnaitre des mol cules crite sous forme de formule CH ou en toutes lettres m thane e L analyse de d p ches de presse vise faire ressortir des personnes lieux ou organisations e Dans un avis de consommateur on cherche plut t a identifier les produits marques et concurrents cit s ainsi que les opinions exprim es e L analyse d un CV est plut t centr e sur l extraction des comp tences talents exp riences pass es langues parl es etc du candidat OpenCalais est un service d annotation en ligne propos depuis 2008 par ClearForest une filiale de Thomson Reuters Il identifie dans du texte des entit s nomm es et des relations avec l approche d crite dans Feldman et al 2001 OpenCalais associe une annotation en RDF chaque entit
127. traits une d finitude permettant de diff rencier par exemple l ind fini a et le d fini the et un nombre pour tablir le contraste entre this au singulier et these au pluriel Ce sera d fini dans Antelope de la fa on suivante 39 1 P Toutes ces parties du discours ne se retrouvent pas n cessairement dans chaque langue par exemple certaines langues n ont pas de d terminant ou de pronom possessif Une source d inspiration similaire aurait pu tre EAGLES Calzolari et al 1996 25 EnglishLanguage SetPartOfSpeechFeatures PartOfSpeech Determiner E typeof Number typeof Definiteness En fran ais nous y ajoutons le genre pour avoir par exemple le au masculin la au f minin et les au masculin ou au f minin FrenchLanguage SetPartOfSpeechFeatures PartOfSpeech Determiner typeof Number typeof Definiteness typeof Gender d Adaptation des jeux d tiquettes Chaque analyseur existant a ses sp cificit s Une int gration dans Antelope doit en tenir compte Prenons l exemple d un tiqueteur morphosyntaxique il op re sur une langue donn e disons l anglais et annote les mots avec un jeu d tiquettes sp cifique cette langue Penn TreeBank par exemple L int gration de cet analyseur dans Antelope passe par la conversion de son jeu d tiquettes sp cifique vers les parties du discours g n riques et le
128. un domaine int ressons nous au haut de l ontologie Cette Upper Ontology r pertorie et organise de grandes cat gories de la pens e ou de la soci t humaine qui devraient pouvoir tre r utilisables dans de tr s nombreuses applications et tre alors g n riques L objectif du groupe Standard Upper Ontology est de r fl chir la constitution d un haut d ontologie qui se voudrait universel pour les grandes cat gories d objets et de pens es puis de le soumettre a un processus de normalisation Le r sultat est SUMO qui cherche devenir un standard et commence tre utilis notamment pour le Web s mantique SUMO est crit en langage SUO KIF d riv simplifi de KIF Knowledge Interchange Format un langage quivalent la logique du premier ordre Une traduction vers OWL le langage de description 82 z Par exemple les valeurs associ es au nom RAPE 3 viol crime consistant forcer une femme se soumettre des rapports sexuels contre sa volont sont positivit 0 25 et n gativit 0 en d pit de la pr sence du mot crime dans sa d finition 62 d ontologie du Web s mantique est galement disponible cette traduction est h las tr s partielle d un point de vue axiomatique KIF tant d un pouvoir d expression plus lev qu OWL Il existe une correspondance compl te de SUMO et de MILO vers les diff rentes versions de WordNet b Exemple le concept BEVE
129. usages communs et r p t s des r gles des lignes directrices ou des caract ristiques pour des activit s ou leurs r sultats garantissant un niveau d ordre optimal dans un contexte donn Un standard est un r f rentiel de large diffusion consensuel publi par opposition une norme par une entit autre qu un organisme de normalisation national ou international 7 Cf la pr sentation d UIMA page 35 8 Notamment au sein du groupe ISO TC 37 SC4 TMF Terminological Mark up Framework norme ISO 16642 propose un m ta mod le comme cadre de repr sentation des bases de donn es terminologiques en XML la norme SynAF Syntactic annotation framework d crit un cadre d annotation syntaxique Une plate forme logicielle propose une base technologique sur laquelle d autres programmes peuvent tre rapidement d velopp s C est un syst me au sein duquel on peut utiliser et d velopper un ensemble de logiciels et o des programmes applicatifs peuvent s ex cuter Une plate forme concerne g n ralement un contexte particulier syst me d exploitation analyse d images calcul intensif jeux vid o ou TAL Les plates formes sont g n ralement con ues d velopp es et maintenues par des acteurs informatiques de r f rence car elles n cessitent un investissement important L appel communication de la revue TAL 2008 49 2 consacr e aux Plates formes pour le traitement automatique des langues r sumait par
130. vers un jeu de parties du discours et de traits morphosyntaxiques g n riques ind pendant de la langue Ce 41 A Pour les mots qui ne sont pas des noms verbes adjectifs ou adverbes 26 niveau suffit pour effectuer des regroupements de documents clustering en anglais Un deuxi me niveau de prise en charge concerne des op rations plus complexes d tiquetage morphosyntaxique d analyse syntaxique de surface d analyse syntaxique profonde et l acc s un lexique s mantique de large couverture dans la langue concern e Le troisi me niveau concerne les op rations s mantiques reconnaissance d entit s nomm es tiquetage de r les s mantiques r solution d anaphores d sambiguisation lexicale Antelope couvre ces trois niveaux pour l anglais et le fran ais la prise en compte des principales langues europ ennes est actuellement en cours pour le deuxi me niveau Lors de nos travaux nous avons constat la difficult voire l impossibilit d obtenir des concepts universels et ind pendants des langues Les concepts synsets de WordNet sont construits par des locuteurs anglophones et l on peut mettre des r serves sur la pertinence de certains d entre eux Certains concepts peuvent tre raffin s dans une langue donn e il existe ainsi plusieurs mots pour dire riz en japonais ou neige en inuit cela montre bien l importance de ces concepts dans la langue et la culture concern es
131. vie PubMed GenelD En septembre 2011 l ensemble repr sente 31 milliards de triplets RDF reli s par 504 millions de relations C est la qu apparait clairement le grand int r t du Web s mantique A partir du moment o une application tablit une r f rence vers URI d une ressource de l un des sous projets l application peut aussi r cup rer de nombreuses autres informations sur les autres sous projets qui lui sont reli s Par exemple le fait de reconna tre une entit nomm e de type lieu g ographique puis de lui associer une URI dans DBpedia permet ensuite d avoir automatiquement ses coordonn es g ographiques dans GeoNames e Mest le mod le d une application particuli re ex mod le du diagramme de classe UML e MOest la mise en uvre d un mod le M1 dans un cadre concret 197 Et si A Q Q i Homolo Gene 4 a It AY ars O RP GNR O oN Nr 1 Q ih IX Pa a S X K As of July 2009 Figure 71 Sous projets du Linked Data en juillet 2009 OS A 2 a e eet 25 e522 oL OF NE Meos TEE ear AE ene Ba ks 5220 OOS So DE ADA ALN y sel Ry ft oS A ir AW OO i M p ln ee SSRS OAL X Oy D Se WO x 2 0 D CORS om covert rf ons Cross domain C D S900 te As of September 2011 OOO Figure 72
132. 107 types de liens L analyse peut donner une for t d arbres chaque arbre tant pond r par un co t syntaxique Par exemple la phrase the dog with the man and the bone ran donne deux analyses correspondant a la distribution possible autour de la conjonction de coordination and The dog with the man and the bone ran Ss Js Js a Mp roe _ the dog n with the man n and the bone n ran v Un tiqueteur morphosyntaxique rapide qui utilise une extension des chaines de Markov a entropie maximale Voir Tsuruoka Tsujii 2005 titre indicatif l int gration de cette ressource a n cessit moins d une semaine de travail 30 The dog with the man and the bone ran ree rq pese the dog n with the man n and the bone n ran v Dans les arbres de d pendances produits par le Link Grammar Parser on remarque que e Les n uds sont les mots de la phrase certains d entre eux ont un suffixe qui indique la partie du discours nom verbe adjectif adverbe pr position etc Par exemple ran v est reconnu en tant que forme de verbe suffixe v et dog n en tant que forme de nom suffixe n e Des arcs tiquet s relient les n uds du graphe chaque tiquette pr cise un r le grammatical sujet d terminant etc Par exemple entre dog n et ran v le libell du lien est Ss o o La premi re lettre S_ majuscule d signe une fonction sujet Subject o La
133. 2 THROATH3 3 Evaluation des r sultats A notre connaissance il n existe pas de standard de r f rence pour ce type d exp rience Nous avons valu manuellement les 2 351 relations propos es par notre syst me Nous estimons que 2 140 d entre elles sont correctes ce qui donne une pr cision de 91 03 Nous n avons pas identifi de m thode permettant une valuation automatique pr cise du rappel Toutefois nous avons calcul manuellement le rappel pour deux des patrons de polys mie pr sent s ci dessus la m taphore Individu ressemble Animal ainsi que la m tonymie Bois d riv d Arbre Nous avons identifi manuellement 142 occurrences du lien de m taphore dans WordNet rappel de 36 142 25 3 et 79 occurrences du lien de m tonymie rappel de 70 79 88 6 Comme on le voit le rappel d pend aussi de la nature de la relation qui peut tre plus ou moins r guli re d Application la d sambiguisation lexicale La ressource produite par cette m thode peut tre mise contribution dans une t che de d sambiguisation lexicale pour inf rer des sens de mots qui n existent pas explicitement dans le lexique Nous allons voir comment elle permet de cr er dynamiquement des nouveaux sens quand le contexte s y pr te Pour illustrer comment nous rem dions aux imperfections du lexique choisissons l exemple de m tonymie Vin provenant de R gion Dans WordNet BORDEAUX et CHABLIS apparaissent avec les
134. 46 C Extension de ces FESSOUMCES ccccccessescecesseeeeceeseeeececceneececeeesececeaecsseessecsseeeaecsseeeaecesseaaeesseenaeess 63 D Autres ressources int grer au lexique s mantique dans le futur cccccceessececeeseeeeeenaes 82 Ex COMCIUSION E E E E E cece ushateduusideccaisgucdectsdcaseasededaavilecesdsuedeesashdeaseaveds esta int 86 Partie V Composants de traiteMent cccssscccccsssssccccesssccccecsssececcssssceccessceccenesseeeees 89 IntFOdUCtION sscccevesscccessnscccevensacceseeaceceseesaucessagcnceseedatcesdadgacesvdancecasbancesassatdesaadineesesiinccessnincesdasutces 89 B Reconnaissance d entit s NOMMEES ccccssseceessecssccessecessaecseeeecseeessueesssuecseseesseeessaeeseateeeees 93 C Extraction detrelations pessian a E A E T 106 D Analyse de sentiments et d opinions in 115 E R solution d anaphores et de cor f rences cceccccecsssceceessecececeeeeceeseeeceeaeeececsseeeceeseeeeeees 122 F Regroupement de documents iii 125 Partie Vi Applications icenih anse teunndtveraindoed civeussnetvaslbuancdieor nace 131 A Extraction d information dans des articles de presse projet SCRIBO ccsccceessceeeenees 132 B Veille conomique sur le Web 134 C Acquisition de connaissances sp cifiques un domaine applicatif 136 D Analyse d avis de consommateurs Ubiq ccceccccscssscccecssececeeseececeessececeeaeeesecseeeesesseeeeeees 141 E Analyse d offre
135. 539 0 8409 0 7950 0 8173 _Personne 663 625 543 0 8688 0 8190 0 8432 B_Lieu 1082 1060 1002 0 9453 0 9261 0 9356 I_Lieu 185 178 157 0 8820 0 8486 0 8650 B_Organisation 225 154 121 0 7857 0 5378 0 6385 _Organisation 148 130 71 0 5462 0 4797 0 5108 B_Monnaie 40 36 36 1 0000 0 9000 0 9474 _Monnaie 81 77 77 1 0000 0 9506 0 9747 Moyenne 0 8731 0 8056 0 8360 Tableau 18 R sultats de la reconnaissance d entit s nomm es avec une fen tre de taille 5 Nous avons effectu une fouille d erreur sur les nouvelles instances d entit s reconnues par le CRF mais qui n taient pas annot es dans le corpus de test pour d terminer si elles repr sentaient effectivement des entit s nomm es Une v rification manuelle confirme que ce n est pas le cas Par exemple certaines personnes ou organisations sont d tect es comme tant des lieux Ces erreurs sont dues d une part une pr diction incorrecte du CRF mais aussi aux erreurs d annotation du corpus d apprentissage Le tableau 19 r sume ces r sultats par classe d entit Entit nomm e Entit s nouvelles d tect es parle CRF Entit s valides Personne 80 A5 Lieu 42 20 Organisation 22 15 Monnaie 1 1 Tableau 19 R sultats de la fouille d erreur sur les entit s nouvelles propos es par le CRF 133 B Veille conomique sur le Web 1 Objectif Un outil d extraction d information est livr avec la plate forme a titre de d monstration II utilise les composants de
136. ACL workshop Sem Eval RIAO RMLL et deux articles revues TAL et JLCL avec le plaisir de quelques collaborations acad miques Chez Proxem j ai la chance d tre entour d une quipe talentueuse dont les membres ont repris mes travaux pour les industrialiser Pour la suite je laisserai la parole au nous d auteur quand il s agira de travaux que je n ai pas directement r alis s j utiliserai l expression l quipe Proxem O Cette th se est d di e la m moire de mon p re Fran ois R gis Chaumartin Sr 1934 2012 agr g de grammaire docteur s lettres classiques professeur de latin l universit de Dakar puis l universit Paris Est Cr teil Mon p re est parti h las trop t t le 25 ao t 2012 un mois exactement avant ma soutenance de th se laquelle il aurait tant souhait assister et dont il aura t un relecteur assidu Il a gard jusqu au dernier jour son intelligence sa vivacit d esprit et sa m moire extraordinaire qui tait aussi en partie la mienne Pour la petite histoire les locaux du laboratoire taient temporairement dans l immeuble du somptueux si ge social de RFF Sur l instant le manque de moyens parfois d plor par les chercheurs m avait sembl tr s relatif Remerciements J adresse mes remerciements celles et ceux qui ont facilit la naissance de ce travail de recherche et favoris son bon aboutissement Ils vont dans un ordre essentie
137. AGLES Final Report EAGLES Editors Introduction EAG EB EI Pisa CANDITO M H KAHANE S 1998 Can the derivation tree represent a semantic graph An answer in the light of Meaning Text Theory Actes de TAG 4 Philadelphie 21 24 Iss CANDITO M H 1999 Organisation modulaire et param trable de grammaires lectroniques lexicalis es Application au fran ais et l italien Th se de doctorat Universit Paris 7 CARPENTER B 2007 LingPipe for 99 99 Recall of Gene Mentions Actes de 2nd BioCreative workshop Valencia Spain CARR R D GREMONT J F GROSS M PIERREL J M SABAH G 1991 Langage humain et machine Presses du CNRS CAZALS F KARANDE C 2008 A note on the problem of reporting maximal cliques CLUSTERING CHAMPEAU C 2008 NLP in Java A language detector Weblog http www jroller com melix entry nlp_in_java_a_language consult en mai 2012 CHAUMARTIN F R 2006 Construction automatique d une interface syntaxe s mantique utilisant des ressources a large couverture en langue anglaise Actes de RECITAL Leuven 729 735 Iss CHAUMARTIN F R 2007a A knowledge based system for headline sentiment tagging Actes de SemEval 2007 ACL Workshop Prague 174 CHAUMARTIN F R 2007b Extraction de paraphrases d sambiguis es partir d un corpus d articles encyclop diques align s automatiquement Actes de RECITAL Toulouse CHAUMARTIN F R COUMONT E MANCINELLI F GRISEL
138. Consid rons les deux sens du nom samurai on remarque que les deux d finitions ont quatre mots en commun e SAMURAI 1 a Japanese warrior member of the feudal military aristocracy e SAMURAI 2 feudal Japanese military aristocracy Le premier synset a pour hyperonyme personne et le second groupe ils sont donc tr s distants similarit gale 0 04 du point de vue de la mesure de similarit structurelle En revanche ils sont proches similarit valant 0 56 du point de vue plus conceptuel de cette seconde mesure b Regroupement des sens de mots Comme nous l avons d j soulign WordNet propose un d coupage parfois trop fin des sens cette caract ristique complexifie la d sambigu sation lexicale Nous proposons l application de 105 x r Nous ne garantissons pas que les distributions sur 0 1 soient aussi comparables Les anglo saxons parlent de fine grained definitions par opposition coarse grained definitions 80 plusieurs mesures de similarit pour valuer la distance entre diff rents sens d un m me mot et permettre de regrouper les sens tr s proches De cette fa on on peut aussi voir WordNet comme un lexique avec des sens macroscopiques Nous avons ainsi appliqu les algorithmes de regroupement voir partie V C page 106 aux d finitions des sens du verbe EAT pour les fusionner en sens macroscopiques e La figure 19 montre un regroupement effectu avec l
139. D BODYOFWATER OU GEOLOGICALFORMATION alors la d pendance devient SpaceComplement Subje7 DirectObj NounO N PrepObject to SpaceComplement in DirectObject Subject TimeComplement during Figure 34 Extraction des compl ments de temps et de lieu ce stade il est ais d extraire la structure actancielle pr dicat arguments en regroupant l ensemble des d pendances en syntaxe profonde gouvern es par un m me verbe ou un m me nom pr dicatif La phrase d exemple pr c dente donne deux pr dications e Gave Subject Lincoln DirectObject powers PrepObject to general SpaceComplement in Washington e Captured Subject general DirectObject troops TimeComplement during Battle_of_Gettysburg 3 Etiquetage des r les th matiques Chaumartin 2006 d crit en d tail notre impl mentation de l tiquetage des r les th matiques Plusieurs ressources du lexique s mantique WordNet VerbNet et SUMO sont mises contribution La syntaxe des classes de verbes d crite dans VerbNet est utilis e avec le processus d crit en V C 1 b pour reconna tre les cadres de sous cat gorisation des verbes des phrases fournies en entr e Le graphe des noms de WordNet les gloses d sambigu s es des synsets et l ontologie SUMO servent la v rification des contraintes de s lection Chaque pr dicat calcul lors de l analyse syntaxique profonde de l exemple est alors tiquet On notera que certains r les th ma
140. D 3 c Avec un corpus d apprentissage constitu d environ 400 000 avis annot s initialement avec le syst me de reconnaissance d entit s utilisant des gazettes contextuelles nous avons obtenu une F mesure gale 0 971 avec une pr cision de 0 951 et un rappel de 0 992 Pr cisons enfin que nous n avons pas encore proc d d valuation sur un corpus standard tel qu ESTER par exemple mais que nous pr voyons de le faire dans le futur 6 Conclusion Les performances de la reconnaissance d entit s nomm es par CRF varient en fonction du volume du corpus d apprentissage et de la qualit de ses annotations Au del du travail d ing nierie et d impl mentation d algorithmes que cela repr sente dans la plate forme nous consid rons cette t che comme un module essentiel dans l interface s mantique syntaxe car elle repr sente ce jour 130 la meilleure approche pour effectuer une d sambiguisation lexicale fine et contribuer au calcul de la RS m Nous verrons en partie VII comment nous combinons ce module avec d autres pour constituer notre interface syntaxe s mantique 129 Par exemple chocolat noir aux noisettes ou canard l orange Certes sur un nombre restreint de termes qui correspondent aux classes d entit s reconna tre dans le corpus consid r 130 105 C Extraction de relations 1 Introduction a Des r les th matiques aux r les s mantiques
141. D de calcul entre deux rendez vous professionnels Apr s le master j embraye en th se et passe la main sur ma premi re soci t fin 2006 notamment pour d gager plus de temps pour la recherche Mais comme la vie entrepreneuriale me manque je repars de z ro d but 2007 en cr ant Proxem pour proc dures s mantiques Depuis je m ne de front les deux aventures en consacrant un temps partiel la R amp D Du fait de la cohabitation de ces deux activit s parall les la r alisation de cette th se s est tendue sur une p riode plus longue que souhait e ponctu e aussi par la naissance de ma troisi me fille Cela n est pas sans poser souci car la fra cheur des travaux de recherche ne dure qu un temps Les miens se placent r solument dans une perspective d applications concr tes du TAL en y appliquant l exp rience accumul e en plus de 15 ans de d veloppement informatique innovant J ai souvent eu le sentiment de faire le grand cart entre la d marche d un ing nieur qui commence par collecter avec une d marche holistique tout ce qui marche en le compl tant pour que a marche mieux et celle d un chercheur qui a tendance rechercher les probl mes les plus fins possibles r soudre au risque de parfois confondre ce qui rel ve du travail de recherche avec l activit d ing nierie Au final la partie visible de mon activit de recherche consiste en huit publications conf rences TALN RECITAL GSCL
142. Domains Hierarchy Semantics Coverage and Balancing Actes de COLING 2004 Workshop on Multilingual Linguistic Resources Gen ve Suisse pp 101 108 BERNERS LEE T HENDLER J LASSILA O 2001 The Semantic Web In Scientific American mai 2001 sw BILHAUT F WIDLOCHER A 2006 LinguaStream An Integrated Environment for Computational Linguistics Experimentation Actes de 11th Conference of the European Chapter of the Association of Computational Linguistics Companion Volume Trento Italy BLUM A MITCHELL T 1998 Combining labeled and unlabeled data with co training Actes de Workshop on Computational Learning Theory Morgan Kaufmann p 92 100 ML BOHNET B WANNER L 2001 On using a parallel graph rewriting formalism in generation Actes de Workshop on Natural Language Generation ACL 2001 Toulouse Iss BOLLACKER K EVANS C PARITOSH P STURGE T TAYLOR J 2008 Freebase a collaboratively created graph database for structuring human knowledge Actes de ACM SIGMOD international conference on Management of data Vancouver Canada Sw BONFANTE G GUILLAUME B MOREY M PERRIER G 2010 R criture de graphes de d pendances pour l interface syntaxe s mantique Actes de TALN 2010 Montr al Canada Iss CAILLIAU F 2010 Des ressources aux traitements linguistiques le r le d une architecture linguistique Th se de doctorat Universit Paris 10 CALZOLARI N Mc NAUGHT J ZAMPOLLI A 1996 E
143. E rejoindre RIVIERE ALABAMA Les entit s nomm es sont d j d sambigu s es connaissant leurs hyperonymes nous pouvons donc r crire ces paraphrases au niveau des classes plut t que des instances e RIVIERE 1 riv1 couler VILLE 1 V1 RIVIERE 1 riv1 serpenter VILLE 1 v1 e RIVIERE 1 riv1 unir RIVIERE 1 riv2 RIVIERE 1 riv2 rejoindre RIVIERE 1 riv1 e Application d une mesure de similarit aux verbes des paraphrases Il nous reste d terminer le sens de chacun des deux verbes dans la paire de triplets Nous utilisons pour cela la mesure de similarit structurelle pr sent e page 80 qui exploite la hi rarchie du graphe d hyperonymes des verbes de WordNet Partant de l hypoth se que les deux verbes doivent avoir un sens proche l un de l autre nous cherchons la combinaison de sens qui minimise leur distance au sens d une telle mesure 70 Nous appliquons cette mesure de similarit toutes les combinaisons de sens de couler et serpenter d une part et d unir et rejoindre d autre part Nous obtenons alors comme combinaison minimisant la distance entre les paires de verbes e RIVIERE 1 riV1 COULER 2 VILLE 1 V1 RIVIERE 1 riv1 SERPENTER 1 VILLE 1 V1 e RIVIERE 1 riv1 UNIR 4 RIVIERE 1 riv2 RIVIERE 1 riv2 REJOINDRE 5 RIVIERE 1 riv1 f Bilan Dans l optique d une validation semi automatique des paraphrases propos es on peut envisager de pro
144. EATURE COGNITION KNOWLEDGE FEELING MOTIVATION NEED STATE ACTION ACTIVITY EXISTENCE STATE OF MIND CONDITION CONFLICT DAMNATION DEATH DEGREE DEPENDENCY DISORDER EMPLOYMENT END FREEDOM ANTAGONISM IMMATURITY IMMINENCE IMPERFECTION INTEGRITY MATURITY OMNIPOTENCE PERFECTION PHYSIOLOGICAL STATE RELATIONSHIP STATE OF AFFAIRS STATUS TEMPORARY STATE NATURAL STATE l organisation des adjectifs est diff rente Un sens t te joue un r le d attracteur des adjectifs satellites lui sont reli s par des relations de synonymie On a donc une partition de l ensemble des adjectifs en petits groupes Les adverbes sont le plus souvent d finis par les adjectifs dont ils d rivent Ils h ritent donc de la structure des adjectifs Le tableau 3 pr sente un comptage des relations s mantiques de WordNet 2 1 par cat gorie b Relations s mantiques entre synsets Relation Entre et Nombre Exemple Instance Hyponym Part Member Substance Attribute Verb Group Verb Entailment Verb Cause Adjective Similar Topic Domain Nom Nom 75 134 FELINE CAT om om IFFEL TOWER TOWER N N 8515 E T 8 874 FRANCE EUROPE 12 262 FRANCE EUROPEAN UNION Adjectif INACCURATE ACCURACY 1 748 GELATINIZE 1 GELATINIZE 2 Adjectif Adjectif 22 622 DYING MORIBUND Adjectif 1 108 COMPUTER SCIENCE ADDRESSABLE 4 146 COMPUTER SCIENCE COMPUTER Nom Verbe 1 236 COMPUTER SCIENCE
145. GATE int gre en standard plusieurs composants linguistiques qui effectuent des t ches de segmentation d tiquetage morphosyntaxique de d tection de cor f rences d identification d entit s nomm es d extraction d information et d analyse syntaxique Ces diff rentes t ches produisent des annotations sur les documents 2 OpenNLP Projet incub la Fondation Apache OpenNLP est une bo te outil open source pour le TAL cod e en Java OpenNLP contient des modules de segmentation tiquetage morphosyntaxique chunking analyse syntaxique en constituants d tection d entit s nomm es et extraction des cor f rences ces diff rents modules se basent sur la librairie Java d apprentissage OpenNLP Maxent qui utilise un mod le de maximisation d entropie Ratnaparkhi 1996 La conception d ensemble d OpenNLP et sa 33 couverture nous paraissent proches de celles d Antelope Nous disposons toutefois d une ISS et d analyseurs syntaxiques en d pendances absents d OpenNLP 3 LinguaStream LinguaStream Bilhaut Widl cher 2006 est une plate forme g n rique pour le TAL d velopp e en Java au GREYC depuis 2001 Son environnement de d veloppement int gr permet de cr er visuellement des cha nes de traitement linguistique complexes en assemblant des modules de diff rents niveaux Chaque maillon de la cha ne peut annoter le document LinguaStream facilite la r alisation d exp riences sur corpus en n
146. GOT B FISER D 2008 Construction d un WordNet libre du francais a partir de ressources multilingues Actes de TALN Avignon SAINT DIZIER P 2005 PrepNet a Framework for Describing Prepositions preliminary investigation results Actes de WCSO5 Tilburg SALMON ALT S 2002 Le projet Ananas l annotation anaphorique pour l analyse de corpus s mantiques Actes du Workshop CRAA TALN Nancy 181 SARAWAGI S COHEN W 2004 Semi markov conditional random fields for information extraction In NIPS NER ML SCHWAB D GOULIAN J GUILLAUME N 2011 D sambiguisation lexicale par propagation de mesures s mantiques locales par algorithmes a colonies de fourmis Actes de TALN Montpellier SEKINE S SUDO K NOBATA C 2002 Extended named entity hierarchy Actes de LREC les Canaries Espagne NER SERASSET G BOITET C 2000 On UNL as the future html of the linguistic content amp the reuse of existing NLP components in UNL related applications with the example of a UNL French deconverter Actes de COLING SHI J MALIK J 1997 Normalized Cuts and Image Segmentation IEEE Transactions on Pattern Analysis and Machine Intelligence 22 888 905 CLUSTERING SHI L MIHALCEA R 2005 Putting Pieces Together Combining FrameNet VerbNet and WordNet for Robust Semantic Parsing Actes de C CLing Mexico SLEATOR D TEMPERLEY D 1991 Parsing English with a Link Grammar Actes de Third International W
147. Meteo Actes de 9 Int Workshop on Natural Language Generation INLG 98 Niagara on the Lake COPESTAKE A 2009 Slacker semantics Why superficiality dependency and avoidance of commitment can be the right way to go Actes d FACL 2009 pp 1 9 Athens COPESTAKE A BRISCOE T 1995 Semi productive polysemy and Sense Extension Journal of Semantics 1 15 67 CORNUEJOLS A MICLET L KODRATOFF Y 2002 Apprentissage Artificiel Concepts et algorithmes Eyrolles ML CUNNINGHAM H WILKS Y GAIZAUSKAS R 1996 GATE a General Architecture for Text Engineering Actes de 16th Conference on Computational Linguistics Copenhagen DAILLE B 1994 Approche mixte pour l extraction de terminologie statistique lexicale et filtres linguistiques Th se en informatique fondamentale Universit Paris 7 DANLOS L 2005 ILIMP Outil pour rep rer les occurrences du pronom personnel il Actes de TALN Toulouse 175 DANLOS L SAGOT B 2007 Comparaison du Lexique Grammaire des verbes pleins et de DICOVALENCE vers une int gration dans le Lefff Actes de TALN Toulouse DE LA CLERGERIE E SAGOT B NICOLAS L GUENOT M L 2009 FRMG volutions d un analyseur syntaxique TAG du fran ais Actes de WPT Paris DE SAUSSURE F 1916 Cours de linguistique g n rale DEJONG G 1982 An overview of the FRUMP system In W G Lehnert amp M H Ringle Eds Strategies for Natural Language Processing Hillsdale
148. O 2009 Bridging Mono NET and Java in the SCRIBO Project The Way to UIMA NET Actes de RMLL Nantes CHAUMARTIN F R 2008 ANTELOPE une plate forme industrielle de traitement linguistique Traitement Automatique des Langues 49 2 Iss CHAUMARTIN F R KAHANE S 2010 Une approche paresseuse de analyse s mantique ou comment construire une interface syntaxe s mantique a partir d exemples Actes de TALN Montr al Iss CHAUMARTIN F R 2011 Proxem Ubiq une solution d e r putation par analyse de feedbacks clients Actes de TALN Montpellier session d monstrations industrielles CHAUMARTIN F R 2012 Solution Proxem d analyse s mantique verticale adaptation au domaine des Ressources Humaines Actes de JEP TALN RECITAL Grenoble session d monstrations industrielles RH CHENG D KANNAN R VEMPALA S WANG G 2006 A divide and merge methodology for clustering ACM Trans Database System 31 4 1499 1525 CLUSTERING CHOMSKY N LASNIK H 1993 Principles and Parameters Theory In Syntax An International Handbook of Contemporary Research Berlin de Gruyter CHUNG F R K 1997 Spectral graph theory CBMS Regional Conference Series in Mathematics 92 CLUSTERING CLEMENT L SAGOT B LANG B 2004 Morphology based automatic acquisition of large coverage lexica Actes de LREC Lisbonne Portugal pp 1841 1844 CocH J 1998 Interactive generation and knowledge administration in Multi
149. O pr sent en d tail au chapitre VI A page 132 L un des objectifs de ce projet est l extraction d information personnes lieux organisations partir d articles de presse en fran ais ou en anglais manant notamment de l Agence France Presse SCRIBO utilise des annotateurs en architecture UIMA et repr sente les informations avec des standards du Web s mantique c Avis de consommateurs Antelope est le moteur d Ubig une solution de gestion d e r putation pr sent e au chapitre VI D page 141 Ubiq extrait des informations partir d avis de consommateurs et d termine ce qui se dit autour d une marque donn e et de ses concurrentes pour r pondre aux questions suivantes quels sont les sujets dont parlent les consommateurs de quoi sont ils satisfaits ou m contents et quelles sont leurs attentes En regroupant les informations d une m me p riode temporelle Ubiq d tecte aussi les tendances et permet d anticiper des alertes telles que des risques sanitaires ou juridiques Ces avis sont collect s soit partir du Web public notamment de blogs et de forums soit partir d emails envoy s spontan ment la marque ou de retranscription de conversation t l phonique Ces documents sont donc parfois tr s mal crits et font l objet d une correction orthographique avant analyse d Offres d emplois et CV Antelope a aussi t utilis e avec succ s pour l analyse de documents dans le domaine des Res
150. Plante 50 51 CHRYSANTHEMUM 1 COTTONWEED 1 L2 produit L1 L Entreprise produit Media 2 2 NEWSPAPER 2 MAGAZINE 3 L2 est d riv de L1 L2 est d riv d Animal Chair d Animal Poisson Volaille ou Crustac 303 303 RABBIT 3 TROUT 1 PHEASANT 2 Fourrure d Animal 17 17 FOX 3 CHINCHILLA 1 Laine d Animal 2 2 ALPACA 1 VICUNA 1 L2 est d riv de Plante Feuille Arbre Boisson d riv e de Feuille 3 3 TEA 1 MATE 9 Fibre d riv e de Plante 13 13 COTTON 1 FLAX 1 Bois d riv d Arbre 70 70 BAMBOO 1 BALSA 1 Vin d riv de Vigne 2 2 TokAY 1 VERDICCHIO 2 L2 a pour sujet L1 Discipline a pour Sujet 56 64 LITERATURE 2 PHYSICS 1 L2 est responsable de L1 4 6 Minist re est responsable de Sujet EDUCATION 6 ENERGY 7 Division est responsable de Sujet PERSONNEL 2 SECURITY 6 Livre a pour sujet Personne 6 6 JONAH 3 JOSHUA 2 L2 accompagne L1 Musique accompagne Danse 32 32 POLKAH1 MAZURKA 1 L2 est inclus dans L1 Les r sultats contiennent galement une proportion significative d occurrences de liens de sp cialisation approximativement 12 Toutefois il nous semble que cette cat gorie de lien de polys mie se pr te mal une classification dans la mesure o il est difficile d identifier un typage r gulier pour L1 et L2 77 Substance contenue dans M dicament 17 17 ARNICAH2 MENTHOL 1 Personne membre de Groupe 37 39 SAMURAI 1 NINJA 1 Personne occupant une Const
151. Proxem a par la suite impl ment une librairie de calcul am liorant ces optimisations 3 Etat de l art Le regroupement consiste partitionner un ensemble de documents sans conna tre l avance le 1 L objectif du probl me de regroupement est d obtenir des nombre de partitions ni leur nature groupes compacts et homog nes et que ces groupes soient aussi diff rents que possible entre eux en termes plus formels cela revient minimiser l inertie intra classet et maximiser l inertie inter classes Plusieurs techniques ont t propos es pour arriver partitionner les donn es en se basant le plus souvent sur des espaces vectoriels euclidiens o un document est repr sent par un vecteur de termes Les algorithmes de regroupement de documents que nous verrons dans la suite se basent sur ce mod le a Regroupement hi rarchique Le regroupement hi rarchique ascendant Hastie et al 2001 consiste consid rer dans un premier temps que chaque document forme sa propre classe Ensuite on regroupe deux par deux les classes qui sont les plus proches jusqu obtenir une classe unique Cf figure 42 Pour exprimer la distance entre les classes des crit res comme celui de Ward qui maximise l inertie inter classes ont t propos s Ensuite l arbre r sultant peut tre coup selon un certain seuil d inertie intra classe abcdef Figure 42 Un exemple de regroupement hi rarchique 15 Un exemple de
152. R PERIOD BRIDGE PORT OTHER GPE_OTHER CAR STOE aos ae CONFERENCE COUNTY ANIMAL_OTHER PROVINCE INVERTEBRATE Ter VEHICLE VERTEBRA _OTHER ASTRAL_BODY CAR INVERTEBRAT _OTHER TRAIN _OTHER STAR AIRCRAFT Ris INSECT PLANET SPACESHIP BROADCAST_ VERTEBRATE ADDRESS_OTHER GEOLOGICAL PROGRAM oe POSTAL_ADDRESS REGION PRINTING nue REPTILE PHONE_NUMBER ening Bee S _OTHER AMPHIBIA EMAIL LANDFORM MUSIC NEWSPAPER BIRD URL WATER_FORM MAGAZINE BOOK Gan MAMMAL Figure 24 Hi rarchie d entit s nomm es version 6 1 2 propos e par Sekine et al 2002 T8 Anniversary City Company Continent Country Currency EmailAddress EntertainmentAwardEvent Facility FaxNumber Holiday IndustryTerm Marketindex MedicalCondition MedicalTreatment Movie MusicAlbum MusicGroup NaturalFeature OperatingSystem Organization Person PhoneNumber PoliticalEvent Position Product ProgrammingLanguage ProvinceOrState PublishedMedium RadioProgram RadioStation Region SportsEvent SportsGame SportsLeague Technology TVShow TVStation URL Acquisition Alliance AnalystEarningsEstimate AnalystRecommendation Arrest Bankruptcy BonusShareslssuance BusinessRelation Buybacks CompanyAccountingChange CompanyAffiliates CompanyCompetitor CompanyCustomer CompanyEarningsAnnouncement CompanyEarningsGuidance CompanyEmployeesNumber CompanyExpansion CompanyForceMajeure CompanyFounded Comp
153. RAGE Nous allons pr senter a titre d exemple le concept BEVERAGE boisson La d finition lexicographique peut inclure des r f rences soulign es dans la glose a d autres concepts D finition Any food that is ingested by drinking Note that this class is disjoint with the other subclasses of Food i e Meat and FruitOrVegetable La partie taxonomique de SUMO pr cise les sous classes Sous classes Milk AlcoholicBeverage Coffee Tea Le principal apport de SUMO est de fournir une axiomatique riche Voici les axiomes associ s a BEVERAGE traduits automatiquement en anglais a partir des expressions en KIF Food is disjointly decomposed into Meat Beverage for all beverage BEV holds Liquid is an attribute of BEV for all drinking DRINK holds if PBEV is a patient of DRINK then BEV is an instance of Beverage for all Cup CUP holds if contains CUP STUFF then STUFF is an instance of Beverage for all Tavern COMPANY holds there exist CommercialService PSERVICE beverage BEVERAGE so that PSERVICE is an agent of PCOMPANY and BEVERAGE is a patient of PSERVICE c Utilisation dans le cadre de nos travaux Nous avons utilis SUMO pour identifier dans WordNet les sens d un nom relatifs un domaine donn Par exemple on obtient deux significations de CAT chat en tant que f lin Cette possibilit de regrouper les sens de noms par domaine permet de se servir de WordNet avec un d coupage des sens aussi
154. RT H MINEL J L VINCKX A 2010 Linguistic information extraction for job ads SIRE project Actes de RIAO 2010 9th international conference on Adaptivity Personalization and Fusion of Heterogeneous Information Paris RH MACLEOD C GRISHMAN R MEYERS A BARRETT L REEVES R 1998 Nomlex A lexicon of nominalizations Actes de Euralex 98 MAGNINI B CAVAGLIA G 2000 Integrating Subject Field Codes into WordNet Actes de LREC 2000 Second International Conference on Language Resources and Evaluation Ath nes Gr ce pp 1413 1418 MANNING C KLEIN D 2002 Fast Exact Inference with a Factored Model for Natural Language Parsing Advances in Neural Information Processing Systems 15 NIPS MARTIN R 1972 Esquisse d une analyse formelle de la polys mie Travaux de linguistique et de litt rature 10 125 136 179 MCCALLUM A Li W 2003 Early Results for Named Entity Recognition with Conditional Random Fields Feature Induction and Web Enhanced Lexicons Actes de CoNLL NER ML MEL CUK I 1988a Dependency Syntax Theory and Practice SUNY Press Albany iss MEL cUK I 1988b Paraphrase et lexique dans la th orie linguistique Sens Texte vingt ans apr s Revue internationale de lexicologie et lexicographie Vol 52 53 pp 5 50 5 53 iss MESSIANT C GABOR K POIBEAU T 2010 Acquisition de connaissances lexicales partir de corpus la sous cat gorisation verbale en francais Traitem
155. RZON Y ANKORI K SCHLER J ROSENFELD B 2001 A domain independent environment for creating information extraction modules Actes de ACM International Conference on Information and Knowledge Management CIKM pp 586 588 IE FELLBAUM C 1998 WordNet An Electronic Lexical Database Cambridge MIT Press FELLBAUM C 2000 Autotroponymy In Ravin Y Leacock C eds Polysemy pp 52 67 Cambridge Cambridge University Press FERREIRA D DA SILVA A R 2008 Wiki Supported Collaborative Requirements Engineering Proceedings of Wikis4SE 08 Workshop Porto Portugal CIT 176 FERRUCCI D LALLY A 2004 UIMA an architectural approach to unstructured information processing in the corporate research environment Natural Language Engineering Volume 10 Issue 3 4 pp 327 348 FILLMORE C 1968 The case for case In Bach and Harms Ed Universals in Linguistic Theory New York Holt Rinehart and Winston pp 1 88 FITRIANIE S YANG C K DATCU D CHITU A G ROTHKRANTZ L J M 2010 Context Aware Multimodal Human Computer Interaction Interactive Collaborative Information systems volume 281 pp 237 272 Springer Studies in Computational Intelligence 2010 c t FORT K GUILLAUME B 2007 PrepLex un lexique des pr positions du fran ais pour l analyse syntaxique Actes de TALN Toulouse FOWLER M 2004 Inversion of control containers and the dependency injection pattern Article en ligne http
156. Situation Emotional Response nom AWKWARDNESS 3 adjectif OUT OF DANGER 1 nom COLD SWEAT 1 verbe TREMBLE 2 Behaviour nom OFFENSE 1 adjectif INHIBITED 1 Attitude nom INTOLERANCE 1 NOM DEFENSIVE 1 Sensation nom COLDNESS 1 Verbe FEEL 3 Tableau 9 Exemples de synsets associ s des tiquettes affectives b SentiWordNet SentiWordNet Esuli Sebastiani 2006 est une ressource lexicale permettant le sondage d opinion SentiWordNet assigne a chaque synset de WordNet 2 0 trois valeurs la positivit la n gativit et l objectivit absence de connotation affective en respectant l galit positivit n gativit objectivit 1 Par exemple pour les trois sens de l adjectif estimable SentiWordNet propose les valences indiqu es dans le tableau 10 Le sens calculable n a pas de valence particuli re alors que les deux autres sens sont tr s positifs 61 0 COMPUTABLE 1 ESTIMABLE 3 0 may be computed or estimated a calculable risk computable 1 O Zz Il odds estimable assets 3 P 0 75 ESTIMABLE 1 N 0 deserving of respect or high regard Vay O O 0 25 P 0 625 HONORABLE 5 GOOD 4 RESPECTABLE 2 ESTIMABLE 2 N 0 25 deserving of esteem and respect all respectable companies give g lt 7 wou O 0 125 guarantees ruined the family s good name Tableau 10 Valence affective des trois sens de l adjectif ESTIMABLE selon SentiWo
157. TML tiquetage morphosyntaxique Identification des expressions multi mots D sambigu sation lexicale basique R solution d anaphores et de cor f rences basique RMorphS RMorphP Chunking RMorphP RSyntS Analyse syntaxique par d pendances ou en constituants D sambiguisation syntaxique D sambiguisation lexicale interm diaire RSyntS RSyntP Analyse syntaxique profonde R solution d anaphores et de cor f rences interm diaire RSyntP RS m Etiquetage des r les s mantiques D sambiguisation lexicale avanc e R solution d anaphores et de cor f rences avanc e Tableau 1 Composants typiquement utilis s pour impl menter une transition C Notre repr sentation s mantique id ale Nous prendrons comme exemple la phrase suivante tir e de l article Amazon River de l encyclop die Britannica The first European descent was made by Fransesco de Orellana in 1541 La figure 2 pr sente la repr sentation s mantique que nous aimerions id alement tre capables de calculer Cette repr sentation fait r f rence diff rentes ressources lexicales WordNet VerbNet The Preposition Project NomLex Nous les pr senterons plus en d tail dans la partie IV La section III H 3 pr cise la fa on dont les composants externes sont int gr s 15 nSense 1 oice passive S 1 ense pastSimple PER ER exicalFunction oper1 tppSense 2 r J location
158. UNIVERSITE PARIS DIDEROT PARIS 7 Antelope une plate forme de TAL permettant d extraire les sens du texte Th orie et applications de l interface syntaxe s mantique THESE pour obtenir le grade de Docteur de l Universit Paris Diderot Paris 7 Discipline linguistique th orique descriptive et automatique pr sent e et soutenue publiquement le 25 septembre 2012 par Fran ois R gis CHAUMARTIN Membres du jury Pr sidente Laurence DANLOS Professeur des universit s Rapporteurs Adeline NAZARENKO Professeur des universit s Pierre ZWEIGENBAUM Directeur de recherche Examinateurs Christian JACQUELINET M decin des h pitaux Guy PERRIER Professeur des universit s Directeur de th se Sylvain KAHANE Professeur des universit s Universit Paris Diderot Paris 7 LIPN Universit Paris Nord Paris 13 LIMSI CNRS Agence de la Biom decine Lim amp Bio LORIA University Nancy 2 Universit Paris Ouest Nanterre D g Ra 3 3 composants2 28 3 Sr les s mantiques S SS g HSO Saya E D ex 3 gande distribution S3 DE Bead tetes g 38 S en SE eS chaines de cor f rences 23 Eg z PEERS r gles lexicales O 2repr sentation du sens Slangus naturelles cD arbres de d pendances z langues europ ennes 7 d sambiguisation lexicale lets RDF apes cadre de Sous categorisation o gt 8 gt synset CONCEPT S synsets sg aa b B D classe de verbe COFPUS forme de base A So oD
159. V consacr e aux donn es linguistiques 2 Phrase L analyse de la phrase vise d terminer les relations que les mots entretiennent entre eux Des ambiguit s existent sur ces relations par exemple sur les rattachements pr positionnels Plusieurs mod les de repr sentation sont possibles par exemple sous forme d arbres de constituants ou d arbres de d pendances syntaxiques Plusieurs mots peuvent se regrouper au sein d expressions plus ou moins fig es Certaines langues compositionnelles forgent des mots compos s complexes par exemple en allemand Donaudampfschifffahrtsgesellschaft Soci t de navigation a vapeur du Danube Plusieurs pr dicats peuvent tre nonc s dans une m me phrase reli s entre eux par des relations du discours ou des conjonctions Une pr dication peut tre exprim e avec des mots ordonn s selon un ordre canonique sujet verbe compl ment Toutefois les textes sont rarement crits aussi simplement la pr sence de relatives de constructions passives de verbes mont e ou contr le permettent des constructions arbitrairement complexes La pr sence de plusieurs mots dans la phrase et dans les phrases voisines cr e un contexte qui aide identifier le sens d un mot parmi ceux qui sont possibles Des algorithmes de d sambigu sation peuvent alors exploiter les diff rents indices pr sents Une phrase peut se repr senter sous forme de graphe syntaxique de surface ou profond ou
160. W coat pelage growth of hair or wool or fur covering the body of an animal i hair pilus any of the cylindrical filaments characteristically growing from the epidermis of a mammal there is a hair in my soup Inherited from i vertebrate craniate i belly the underpart of the body of certain vertebrates such as snakes or fish caudal appendage tail especially of a mammal posterior to and above the anus j digit dactyl a finger or toe in human beings or corresponding body part in other vertebrates nail horny plate covering and protecting part of the dorsal surface of the digits j half moon lunula lunule the crescent shaped area at the base of the human fingernail matrix the formative tissue at the base of a nail D phalanx any of the bones of the fingers or toes oy rib costa any of the 12 pairs of curved arches of bone extending from the spine to or toward the sternum in humans and similar bones in most vertebrates costal cartilage the cartilages that connect the sternum and the ends of the ribs its elasticity allows the chest to move in respiration tail the posterior part of the body of a vertebrate especially when elongated and extending beyond the trunk or main part of the body W dock the solid bony part of the tail of an animal as distinguished from the hair W thorax chest pectus the part of the human torso between the neck and the diaphragm or the
161. WordSense amp Interface Interface p Interface Preposition Interface lAnalysis ISerializable Words ISerializable f gt i gt l 2 FA SP PossibleSenses FP this AP Analyses SP Chunks A jer AP Word J S MainWord Possibles IDocument IChunk y a Interface Interface r HeadWord g g 2 base interfaces MultiwordExpres ED HeadWo y x Re terface terface x x Coreferences Root il Roles A LogicalRole M ISyntacticNode AP ThematiRoles a gt gt Interface F d D AR children 2 base interfaces SP Parent ne y ja Frames RES N D S Predicates IE L gt gt IFrame y fi gt A Interface Expressions Anaphora tially ngExpression ak AP Candidates IMultiwordExpression Antecedent Figure 4 Vue d ensemble du mod le de donn es linguistiques unifi d fini pour Antelope Le formalisme graphique utilis ici est proche d UML Un rectangle arrondi repr sente une classe Les relations entre classes sont mat rialis es par des fl ches une fl che simple repr sente une r f rence vers un seul objet ou une r f rence nulle une fl che double symbolise un lien vers une liste d objets Pour des raisons d espace les attributs et m thodes des classes ne sont pas affich s ici 36 r r z A En fait une interface de programmation l quivalent d une classe abstraite 23 Les classes Lemma et Synset sont
162. ableau 5 Langues propos es dans EuroWordNet Les langues sont reli es par l interm diaire d un index inter langues Il est ainsi possible de passer des mots dans une langue aux m mes mots dans n importe quelle autre langue EuroWordNet permet donc en principe une recherche d information monolingue ou multilingue On peut regretter qu EuroWordNet ne soit pas distribu librement contrairement la version de Princeton Cela explique certainement sa diffusion beaucoup moins importante Plusieurs autres groupes de recherche ont d velopp des wordnets dans d autres langues en se basant sur les sp cifications d EuroWordNet su dois norv gien danois grec portugais basque catalan roumain lithuanien russe bulgare et slov ne Un autre projet BalkaNet prolonge la base de donn es d EuroWordNet avec d autres langues europ ennes et fournit dans un format XML des ressources pour le tch que le roumain le grec le turc le bulgare et le serbe comme il est montr dans le tableau 6 Bulgare Tch que Grec Roumain Turc Serbe Synsets 21 441 28456 18461 19 839 14 626 8 059 Noms 14 174 21 009 14 426 13 345 11 059 5 919 Verbes 4 169 5 155 3 402 4 808 2725 1 803 Adjectifs 3 088 2 128 617 852 802 324 Adverbes 9 164 16 834 40 13 Lemmes 44 956 43918 24366 33 690 20310 13295 Tableau 6 Langues propos es dans BalkaNet 77 gt 7 Bye A eae A notre connaissance l
163. ace sur la t che de rendu 3D mais peut aussi servir aux algorithmes d apprentissage 92 B Reconnaissance d entit s nomm es Ce chapitre pr sente la d tection d entit s nomm es que nous effectuons avec une technique duale mixant syst me de r gles et apprentissage automatique Nous utilisons des champs conditionnels al atoires ou CRF Conditional Random Fields en anglais Apr s une introduction au concept de CRF nous pr sentons succinctement le fonctionnement du d tecteur d entit s nomm es de Stanford puis celui de notre propre composant et des caract ristiques qu il utilise pour l apprentissage Nous l avons utilis avec succ s sur plusieurs projets avec des documents contenant des entit s de types tr s diff rents comme des d p ches de l AFP Cf le projet SCRIBO page 132 des avis de consommateurs voir page 141 et des documents RH voir page 146 i Introduction Une entit nomm e est une unit linguistique qui d signe un l ment pr cis de l univers du discours Cela peut tre un nom propre Picasso France ou un ensemble de mots le Pr sident de la R publique Les entit s nomm es d signant le plus souvent les l ments sur lesquels portent le discours leur d tection est donc essentielle dans les applications d extraction ou de recherche d informations textuelles a Versatilit des types d entit s Les entit s nomm es d notent des l ments de natures
164. affich es diff remment pour marquer leur appartenance au lexique s mantique pr sent en partie IV et non aux niveaux de repr sentation Nous allons pr sent d crire les classes appartenant chaque niveau de repr sentation En partant du niveau texte un Document est segment en plusieurs phrases classe Sentence Une phrase est elle m me associ e une ou plusieurs repr sentations classe Analysis de niveau morphologique syntaxique ou s mantique ce qui permet de g rer les ambiguit s Au niveau morphologique de surface une analyse est constitu e a minima d une liste de mots Word dont la forme de base et la partie du discours sont connues La RMorphP se compose de syntagmes classe Chunk qui regroupent des mots Ce mod le de donn es linguistiques permet de stocker le r sultat produit par un analyseur syntaxique en d pendances ou en constituants La RSyntS est constitu e de d pendances entre un mot gouverneur et un mot d pendant classe Dependency et ou du n ud racine d un arbre syntagmatique La classe DeepDependency stocke les d pendances syntaxiques profondes de la RSyntP Leur regroupement forme des pr dicats classe Predicate dont les arguments sont les r les syntaxiques profonds classe LogicalRole La RS m est constitu e de trois cat gories d informations e Chaque pr dicat de la RSyntP est associ une ou ventuellement plusieurs acceptions classe Frame qui pr cisent les r
165. ain comme dans ils lui ont factur 10 14 Objectif Objectif est le participant vers lequel le mouvement a lieu comme par exemple dans les martiens rentrent a la maison 15 Patient Patient est un participant soumis a un processus ou affect par une action L emphase est mise sur le changement d tat Le Patient peut tre sujet la glace a fondu ou objet du verbe il chauffa 210 l eau Patient1 et Patient sont aussi utilis s en cas de r les sym triques la cr me et l uf se m lang rent Pour d terminer un r le Patient un test possible est qu est ce qui est arriv X 16 Pr dicat Pr dicat est la partie de l nonc qui exprime ce qui est dit propos du Th me comme dans il se vante d tre l homme le plus fort du monde 17 Produit Produit est le r sultat final d une transformation comme dans David a construit une maison 18 R cipient R cipient est un participant qui est la destination du transfert d une entit concr te ou abstraite comme dans Jean a pass le sel Marie Ce r le autorise toujours une contrainte de s lection de type Anim et parfois Organisation On remarquera que la fronti re avec le B n ficiaire semble floue 19 Source Source est le point de d part du mouvement g n ralement introduit par une pr position les martiens viennent d une autre plan te 20 Stimulus Stimulus e
166. ait c est pourquoi nous commencerons par pr senter au chapitre C notre d marche pour enrichir le lexique s mantique sur un domaine Ces applications rel vent plus du projet d ing nierie ou de la recherche appliqu e que de la 170 recherche fondamentale Nous les pr sentons pour illustrer concr tement le r sultat de la th se la capacit cr er rapidement des applications o le TAL joue un r le central et qui rend un service tangible des utilisateurs qui n ont aucune id e de ce qu est le TAL Pour finir nous tenons montrer qu il n y a pas que l quipe Proxem qui met en uvre Antelope Le chapitre F pr sente une dizaine de projets de recherche qui ont utilis la plate forme 1 SCRIBO s est d roul de 2008 2010 Le d veloppement de la version d Ubiq pour l analyse des avis de consommateurs a d marr en 2010 celui de la version d di e aux ressources humaines a d but en 2011 re N anmoins certains des composants d analyse ont t am lior s pour tenir compte du contexte applicatif Nous oserons le parall le suivant si un beau moteur Antelope est la partie technologique la plus noble d une voiture Ubiq sa principale qualit est de savoir se faire oublier au quotidien au profit du tableau de bord et de la carrosserie interface homme machine simple utiliser rapports synth tiques compr hensibles 171 131 A Extraction d information dans des articl
167. algorithme de Bron Kerbosch voir en page 128 la sous section V F 4 a Cet algorithme produit des cliques on remarquera que le sens EAT 2 appara t dans les deux premiers groupes e La figure 20 montre un autre regroupement du m me verbe utilisant l algorithme spectral voir en page 129 la sous section V F 4 b Le r sultat de cet algorithme est une partition chaque sens se retrouve donc dans un groupe et un seul Similarity Composite V 3 __Jo 578 0 629 fa 0 095 0 337 0 095 V 4 __ 0 145 o6 0 095 a 0 107 _ o098 V 5 __Jo 439 0 474 0 337__ o 107_ fa 0 107 vs 0 145 om6 ____J0 095 __J0 098 __J0 107 ft Clusters composite Cluster 1 1 eat take in solid food She was eating a banana What did you eat for dinner last night 2 eat eat a meal take a meal We did not eat until 10 P M because there were so many phone calls I didn t eat yet so I gladly accept your invitation 3 feed eat take in food used of animals only This dog doesn t eat certain kinds of meat What do whales eat Cluster 2 2 eat eat a meal take a meal We did not eat until 10 P M because there were so many phone calls I didn t eat yet so I gladly accept your invitation 5 consume eat up use up eat deplete exhaust run through wipe out use up resources or materials this car consumes a lot of gas We exhausted our savings They run through 20 bottles of wine a week Cluster 3 4 eat
168. alisation de l application des patrons doit toutefois se faire en prenant des pr cautions On constate exp rimentalement que cette g n ralisation donne de bons r sultats sur certains patrons mais pas sur tous En effet quand les patrons sont contraints par des types trop g n raux entit artefact abstraction le fait de ne plus imposer L1 dans la d finition de L2 va se traduire par une multiplication de couples de synsets qui ne sont pas li s par une relation de polys mie r guli re Pour minimiser ce risque un patron peut tester si les deux synsets portent effectivement sur le m me sujet ou des sujets voisins Cette v rification est impl ment e par une classique mesure de similarit entre les deux d finitions qui peut tre astreinte respecter un seuil minimal Nous avons utilis une mesure vectorielle de recouvrement des mots entre d finitions avec une pond ration de type TF IDF Par exemple parmi les occurrences de la relation entre un mouvement et le son associ nous obtenons pour bruit de pas une paire de synsets dont les d finitions comportent deux mots en commun donnant une similarit gale 48 5 76 e FOOTSTEP 1 the sound of a step of someone walking e FOOTSTEP 2 the act of taking a step in walking Imposer une telle contrainte avec un seuil minimal favorise la pr cision au d triment du rappel Par exemple pour la m taphore entre animal et personne notre syst me identifie ti
169. alyse d articles politiques L id e est de combiner l allocation de Dirichlet latente LDA et des techniques de TAL avec Antelope pour l analyse de la structure s mantique des articles pour identifier les traits de personnalit sp cifiques d un m dia par rapport a diff rents sujets Ferreira da Silva 2008 souligne que nombre de projets informatiques chouent du fait de sp cifications ambigu s ou d exigences incoh rentes L article propose une nouvelle approche socio technique pour surmonter ces probl mes de qualit des logiciels Il met en avant l int r t de disposer d une plate forme qui favorise l implication des parties prenantes pour capturer leurs besoins implicites et permette l application de bonnes pratiques de g nie logiciel L article propose une approche pour am liorer la qualit et la rigueur des sp cifications en combinant les techniques du Web 2 0 et des outils de TAL dont Antelope pour aider la validation des exigences Fitrianie et al 2010 rappelle qu une gestion de crise implique une collaboration entre de nombreux interlocuteurs Pour coordonner leurs activit s ils doivent s appuyer sur des informations d taill es et pr cises sur la crise et son environnement Pour assurer la collaboration des services d urgence et apporter rapidement des soins aux victimes il est n cessaire de fournir une vue d ensemble avec des informations mises jour en permanence Or les approches actuelles
170. ameNet 83 FreeBase 45 GATE 33 graphe conceptuel 18 heuristique 65 holonymie 50 hyperonymie 46 hyponymie 46 injection de d pendances 39 interface syntaxe s mantique 164 inversion de contr le 39 Lefff 56 lex misation 12 lexie 8 lexique s mantique 41 lexique grammaire 56 LingPipe 34 LinguaStream 34 Link Grammar Parser 30 Linked Data 197 logiques de description 193 matrice creuse 125 matrice termes documents 125 m ronymie 50 mesure de similarit 80 m taphore 73 m tonymie 73 mot grammatical 11 moteur de recherche 10 multilinguisme 24 multithreading 29 nom d verbatif 82 NomLex 82 norme 2 ontologie 42 SUMO 62 YAGO 45 OpenCalais 93 OpenNLP 33 OWL 192 OWL DL 194 OWL Full 195 OWL Lite 194 polys mie r guli re 72 PrepLex 83 Princeton WordNet 46 programmation par interfaces 28 PROLOG 107 raisonneurs 197 RDF 189 RDF XML 189 triplet 189 RDFS 191 regroupement 125 regroupement spectral 127 129 202 relation lexicale 48 relation s mantique 47 repr sentation du sens 9 RIF Rule Interchange Format 192 r le s mantique 111 209 r le th matique 57 110 segmentation 37 157 Simple Wikipedia 21 213 SKOS 192 SPARQL 192 standard 2 Stanford NER 98 SWRL 192 synset 46 tableau de bord 146 taxonomie 42 templating 37 test unitaire 28 TF IDF 12 The Preposition Project 83 th orie sens texte 14 th sa
171. and nombre de comparaisons de ce type soul ve trois probl mes pratiques il faut tenir compte de plusieurs variantes de surface de l expression cherch e disposer d un corpus de r f rence de grande taille pour que l espace de recherche soit repr sentatif et viter de faire exploser le temps de calcul Ce dernier point rend quasi impossible l utilisation d un moteur de recherche sur Internet car le d lai de latence d une requ te http unitaire est de l ordre de 50 ms Il faut donc privil gier l usage d une ressource locale 2 Ressource utilis e L utilisation de la ressource Web 1T 5 gram Corpus de Google dans le cadre de nos tests a permis d apporter une solution aux probl mes de performance et de r pr sentativit du corpus Distribu e depuis septembre 2006 par le Linguistic Data Consortium cette ressource a t constitu e par Google partir d un corpus Web de 1 000 milliards de mots venant de pages en principe en anglais Elle donne les fr quences de toutes les combinaisons allant de 2 jusqu 5 mots apparaissant plus de 40 fois dans le corpus L int r t de cette volumineuse ressource 24 giga octets sous forme compress e une fois stock e en local est de permettre de faire tr s rapidement des recherches sans limitation de volume Nous avons d velopp un syst me d index qui effectue chaque recherche l mentaire en 1 ou 2 millisecondes Sa limite est videmment de n autoriser des recher
172. ans le corpus Brown En revanche le concept est important et son contenu informationnel vaut 2 293 correspondant a la somme r cursive des fr quences d apparition de tous ses hyponymes directs ou indirects CAT 1 chat 18 MOUSE 1 souris 14 RAT 1 5 LION 1 2 etc i Limites de WordNet WordNet ne donne pas certaines informations usuellement pr sentes dans un lexique Par exemple WordNet ne pr cise ni l tymologie ni la prononciation des mots et ne contient que des informations 51 limit es sur leur usage Il manque aussi des informations sur la cooccurrence lexicale restreinte absence de fonctions lexicales WordNet propose parfois une profusion de sens pour un mot donn La contrepartie de son importante couverture est que WordNet est tr s pr cis dans le sens des d finitions On a une granularit tr s trop fine des sens Par exemple le verbe To GIVE donner n a pas moins de 44 sens certains de ces sens sont des valeurs de fonctions lexicales et devraient tre distingu s en tant que tels Une telle profusion ne facilite pas une t che de d sambiguisation lexicale WordNet manque de relations pragmatiques En effet WordNet ne mat rialise pas d une fa on formelle tout le sens contenu dans les d finitions des termes Par exemple l information un chat ne rugit pas figure dans la d finition textuelle mais ne se retrouve formalis e dans aucune relation De m me des relations qu
173. ans le futur En plus des ressources que nous avons d j int gr es au lexique s mantique d Antelope nous avons identifi d autres ressources que nous pr voyons d utiliser prochainement 1 Lexique de noms d verbaux NomLex VerbAction NomLex MacLeod 1998 est un dictionnaire d crivant le cadre de sous cat gorisation de 1 000 nominalisations en langue anglaise NomLex pr cise la correspondance entre les noms d verbatifs et leurs verbes connexes ainsi que les correspondances entre les arguments verbaux et les positions syntaxiques au sein du groupe nominal La syntaxe de cette ressource est inspir e de LISP Ce projet a t repris et tendu dans le cadre de NomBank Meyers et al 2004 Pour le fran ais une ressource proche dans l esprit mais d ambition plus modeste est VerbAction un lexique de noms d actions morphologiquement apparent s des verbes en partie obtenu par acquisition sur le Web Tanguy Hathout 2002 Les informations de sous cat gorisation des noms d verbatifs font souvent r f rence des pr positions dans la description des arguments ces derniers sont souvent contraints utiliser une pr position particuli re ou un ensemble de pr positions qui partagent des aspects communs II est donc aussi n cessaire de disposer d un lexique des pr positions 82 2 Lexique de pr positions TPP PrepLex Les pr positions constituent en principe une classe ferm e dont on peut num
174. anylnvestment CompanyLaborlssues CompanyLayoffs CompanyLegallssues CompanyListingChange CompanyLocation CompanyMeeting CompanyNameChange CompanyProduct CompanyReorganization CompanyRestatement CompanyTechnology CompanyTicker CompanyUsingProduct ConferenceCall ContactDetails Conviction CreditRating DebtFinancing DelayedFiling DiplomaticRelations Dividend EmploymentChange EmploymentRelation Environmentallssue EquityFinancing Extinction FamilyRelation FDAPhase IndicesChanges Indictment IPO JointVenture ManMadeDisaster Merger MovieRelease MusicAlbumRelease NaturalDisaster PatentFiling Patentissuance PersonAttributes PersonCareer PersonCommunication PersonEducation PersonEmailAddress PersonRelation PersonTravel PoliticalEndorsement PoliticalRelationship PollsResult Productissues ProductRecall ProductRelease Quotation Secondarylssuance StockSplit Trial VotingResult oe City Company Continent Country Currency EmailAddress FaxNumber MarketIndex NaturalFeature Organization Person PhoneNumber ProvinceOrState Region URL 94 OpenCalais a t notre connaissance le premier service en ligne gratuit et performant d extraction d information C est aussi la preuve qu un passage l chelle est possible sur ces t ches Sekine et al 2002 propose une hi rarchie d entit s nomm es qui contient approximativement 150 types comme il est montr en figure 24 Une telle hi rarchie est
175. architecture UIMA Une difficult technique r soudre tait l int gration des composants d Antelope con us pour NET dans l architecture UIMA dont seules des impl mentations C et Java existent R crire l ensemble des composants d Antelope dans ces langages tait inenvisageable Nous avons donc cherch comment cr er un annotateur UIMA fonctionnant en NET et non en Java capable d tre appel depuis n importe quel processus client UIMA Nous avons d abord essay d exposer un service Web mais cette approche n a pas abouti Nous avons ensuite explor une solution de plus bas niveau en utilisant un protocole d appel entre sockets pour communiquer entre la machine virtuelle NET et la machine virtuelle Java JVM Lors de ces essais nous avons identifi un protocole standard d UIMA nomm Vinci utilisant uniquement les sockets et des biblioth ques Java standards ce protocole tait donc relativement facile transposer en NET Nous avons utilis IKVM pour convertir les biblioth ques UIMA fichiers jar dans leur quivalent en NET ce qui nous permet au final d invoquer les analyseurs d Antelope La figure 7 illustre cette architecture technique L objectif de l application SCRIBO voir page 132 est l extraction d information partir de d p ches de l AFP SCRIBO utilise plusieurs annotateurs en architecture UIMA dont ceux d Antelope Le protocole SOAP est cens permettre une telle in
176. artement 91 ou une autre ville du d partement 89 Un nombre 50000 par exemple d signe en fonction du contexte un code postal ou une r mun ration La d marche d acquisition de connaissances pr sent e au chapitre C a t appliqu e en s appuyant sur un corpus d approximativement 100 000 CV et 50 000 offres Au final les informations extraites ici par Ubiq sont les m tiers les comp tences sous jacentes les talents les exp riences les comp tences linguistiques les dipl mes les types d entreprise les types de poste les secteurs les habilitations les l ments de r mun ration ainsi que les lieux Ces travaux d adaptation au domaine RH ont contribu aux publications Loth et al 2010 et Chaumartin 2012 En ce qui concerne l identification des m tiers nous avons d prendre en compte une difficult dans l analyse de certaines offres Le composant de reconnaissance d entit s nomm es extrait les m tiers cit s mais on peut en trouver plusieurs dans une m me offre en effet si le poste pourvoir appara t toujours explicitement entreprise de BTP recrute un conducteur de travaux l offre peut aussi mentionner un rattachement hi rarchique sous l autorit du directeur r gional vous Nous avons alors mis en uvre le composant d extraction de relations Cf V C page 106 pour g rer ce second cast de fa on ne pas confondre le profil recherch avec son sup rieur direct La figure 59 montre
177. as un texte de loi ou une police d assurance comme un article de presse un manuel scolaire comme une notice pharmaceutique En soi la compr hension n est pas une t che C est une activit pr alable de nombreuses t ches comme le r sum la traduction l ex cution d instructions C Probl matiques La compr hension de textes soul ve un grand nombre de difficult s d ordre th orique que veut dire comprendre un texte conceptuel comment mod liser un nonc complexe et pratique comment impl menter des algorithmes efficaces de TAL Nous nous int resserons ici aux deuxi me et surtout troisi me aspects L une des principales difficult s est de faire travailler conjointement plusieurs ressources en autorisant leur assemblage rapide sous forme de composants nous pr cisons les difficult s li es cette interop rabilit ci dessous D autre part nous nous inscrivons dans une perspective de d veloppement rapide d applications industrielles nous visons donc r aliser des applications capables de monter en charge robustes et performantes Nous avons r alis pour cela la plate forme Antelope 1 Rendre les ressources de TAL interop rables Une large typologie de t ches d analyse peut tre effectu e sur des textes Elles n cessitent deux types de ressources des composants impl mentant des algorithmes de traitement et des donn es linguistiques La fronti re entre les deux est parfois flo
178. ation Z x qui intervient dans la probabilit p y x En effet celui ci est la somme des probabilit s non normalis es p y x x Z x pour toutes les annotations possibles de x Une m thode de programmation dynamique est donc employ e Pour cela on d finit les coefficients forward a y a yz est la probabilit non normalis e de toutes les annotations possibles de la s quence x xX ou x est annot par y La formule de r currence de ce coefficient est Or41 Vt41 gt a y exp gt hee Yo X t 1 Yt k a l algorithme de Viterbi est un algorithme de programmation dynamique tr s utilis dans le traitement des s quences tats cach s 206 En utilisant ce coefficient on peut calculer Z x de la fa on suivante 26 arr yT Le lecteur trouvera une introduction pratique l utilisation des CRF pour annoter des s quences dans Truyen Phung 2008 qui propose comme tude de cas l annotation des syntagmes nominaux dans un texte 207 Annexe III R f rences linguistiques A Liste des r les th matiques de VerbNet Nous pr sentons ici l ensemble des r les 1 Acteur O u Acteur est utilis dans des classes de communication chitchat marry meet quand les deux arguments peuvent tre consid r s comme sym triques comme dans Pierre et Marie se fiancent 2 Agent Agent est un instigateur actif d une action ou d un v nement Agent est g n
179. atoires un troisi me argument Montant n est pas toujours pr sent et peut donc tre consid r comme optionnel Un type d argument peut tre associ un ensemble de mots cl s ou de lemmes 1 Typage des arguments Chaque argument a un type d fini classe Slot Type A minima ce type est une partie du discours nom verbe Des contraintes plus pr cises peuvent tre exprim es de quatre facons pour appliquer des contraintes de s lection sur les arguments d un pr dicat Un type d argument peut tre d fini d une fa on extensionnelle par une liste de vocables C est utile pour num rer un ensemble fini comme les pays d Europe des secteurs de l industrie etc Un type d argument peut aussi tre d fini d une fa on intensionnelle gr ce au lexique s mantique avec une liste d hyperonymes qui servent de point de d part La hi rarchie de WordNet pour les noms ou verbes est alors utilis e pour ajouter r cursivement leurs hyponymes la liste Par exemple un argument EndroitOuManger est d fini initialement avec les lemmes RESTAURANT et BAR apr s une phase de recherche r cursive des hyponymes EndroitOuManger est enrichi de termes tels que BISTRO STEAKHOUSE et CAFETERIA Le syst me consid re par d faut le premier sens du mot dans WordNet son sens le plus fr quent Si besoin l utilisateur peut pr ciser un sens particulier par exemple CANTEEN 2 L utilisateur du composant peut aussi imposer un
180. automatisant un processus de traitement de donn es Les applications classiques manipulent des donn es structur es parfois avec des volum tries tr s importantes avec des algorithmes d terministes Elles repr sentent la grande majorit des syst mes actuels programmes de gestion jeux suites bureautiques Les notions de pr cision de rappel ou de F mesure ont peu de sens dans ce contexte En effet un m me jeu de donn es fourni en entr e produira en principe toujours le m me r sultat et si ces donn es sont correctes les r sultats le seront aussi si l impl mentation est exempte de bugs L indicateur de qualit du traitement d une t che sera plut t son temps d ex cution par exemple La r solution de certains probl mes n cessite de faire preuve d intelligence cette notion est sujette de multiples interpr tations et nous ne chercherons pas la d finir formellement Un programme rentrant dans la cat gorie intelligence artificielle cherche r soudre des probl mes auxquels m me un humain ne trouve pas forc ment une solution Il s agit typiquement de situations o il faut effectuer un choix sous un certain nombre de contraintes parfois sans tre assur de l existence d une solution optimale ou encore de conditions complexes pour lesquelles les analystes humains peinent expliciter un algorithme satisfaisant La reconnaissance de formes dans des images et la r solution de probl mes d checs
181. aux soci t s rachet es et 3 des dirigeants de ces soci t s 10 Mais n anmoins de plus en plus rapide du fait de l am lioration des algorithmes et de leur impl mentation nous avons constat une division par 10 des temps d analyse syntaxique entre 2006 et 2011 en passant typiquement de quelques secondes par phrase quelques centaines de millisecondes 141 2 2 z 3 Le lecteur int ress par cette probl matique pourra aussi consulter Duclaye 2003 114 exemple bien connu d instance d un pr dicat sous la forme d un n uplet d entit s nomm es A partir de cette information il est possible de piloter une recherche de documents sur le Web public des phrases contenant toutes les entit s nomm es ensuite l application aux r sultats de recherche du m canisme d apprentissage de paraphrases pr sent en section IV C 3 page 68 permettra d amorcer une liste de variantes et de proposer l utilisateur de valider celles qui lui semblent pertinentes f Conclusion Nous avons pr sent un composant d extraction d information robuste qui met en uvre une analyse syntaxique d une fa on largement ind pendante de la langue L int r t de ce composant vient d une part de la pr cision de ses r sultats et d autre part de la simplicit avec laquelle un utilisateur peut associer diff rentes paraphrases un pr dicat gr ce une approche bas e sur des exemples D Analyse de sentiments et d
182. avis de consommateurs _ unit lexicale 28 lexiquedonn es linguistiques lexique s mantiques Web s mantique moteur de recherche instance hyponyme d finitiond pendances syntaxiques repr sentation s mantique CD recherche sens possibles tiquetage morphosyntaxique partie d at tin du iem ot correction Herna S e m a nti langue analyseur cher QUE i similarit base de connaissance ri VAT couverturedocuments contraintes de s lection lt lt polys mie r guli re dnoigar Th orie Sens Texte noms propres 53 Be b in formations syst me de r gles t che de d sambiguisation lexicale recherche dinfomation S Simple Wikipedia apprentissage automatique E ontologie SUMO tlne I 0 r d Net et analyse langue anglaise d pendances analyse syntaxique Hy sjuawinoop SJUSWNIOP ap JUaUa MOTS CLES plate forme linguistique traitement de corpus analyse syntaxique et s mantique lexique s mantique d sambiguisation lexicale r solution d anaphores et de cor f rences Th orie Sens Texte interface syntaxe s mantique extraction d information paraphrases ontologies Web s mantique KEYWORDS linguistic platform corpora analysis parsing semantic role labeling semantic lexicon word sense disambiguation anaphora and coreference resolution Meaning Text Theory syntax semantics interface Information Extraction paraphrases ontologies Semantic Web Pr face R aliser une th se e
183. b pour automatiser cette collecte Nous appliquons ensuite notre d marche d acquisition de connaissances 3 D couverte des termes du domaine Une tape d extraction terminologique fait merger les termes les plus fr quents du corpus collect mots simples banque compte ou expressions multi mots livret A charg de client le banque priv e Une proc dure interactive permet d enlever les termes jug s inappropri s Le reste constitue un ensemble de termes pertinents 174 2 m T l quipe Proxem a appliqu cette approche avec succ s sur des secteurs tr s diff rents notamment la grande distribution la banque de d tail l industrie du vin la cosm tique et l automobile 4 Typiquement des sites d avis de consommateurs notamment www ciao fr des blogs et forums et ventuellement des sites d actualit 136 La figure 47 montre le r sultat de l extraction terminologique effectu e sur 3 500 avis publics donn s par des consommateurs sur leur banque source site www ciao fr Cette visualisation sous forme de nuage de mots met en vidence e Des banques BNP Paribas Soci t G n rale Cr dit Foncier Banque Postale Cr dit Agricole ING Direct Banque Populaire Caisse d Epargne autres banques e Des produits et services site internet livret A carte bancaire carte bleue pr t immobilier assurance vie e Des caract ristiques de ces produits et s
184. bien fin fine grained definitions que grossier coarse grained definition cette derni re possibilit tant de nature simplifier la d sambigu sation lexicale C Extension de ces ressources Nous pr sentons dans ce chapitre plusieurs exp riences compl mentaires que nous avons men es pour tendre le lexique s mantique partir de WordNet et de la Wikip dia La section 2 pr sente l appariement des synsets du Princeton WordNet avec des articles encyclop diques en l occurrence la Wikip dia En capitalisant sur cette exp rience la section 3 page 68 montre comment on peut extraire automatiquement des paraphrases partir d un corpus d articles encyclop diques comparables l tape interm diaire consiste alors apparier un synset donn et les articles correspondants issus de plusieurs encyclop dies La section 4 page 71 est largement ind pendante des autres elle pr sente une m thode pour extraire automatiquement de WordNet des relations de polys mie r guli re comme la relation 63 entre une pi ce de vaisselle et la quantit qui y est contenue ainsi que les paires de lexies li es par de telles relations CUILLER 1 CUILLER 2 par exemple L int r t de cette ressource est notamment de fournir des informations dans certains contextes de d sambigu sation lexicale Enfin la section 5 page 79 propose une discussion sur la granularit des sens dans WordNet Elle propose de regrouper les sens en s
185. britanniques tels que ise par leur quivalent am ricain ize c Performances annonc es Le NLP Group de Stanford annonce comme F score de reconnaissance 89 19 sur la classe PERSON 80 15 sur la classe ORGANIZATION 85 48 sur la classe LOCATION N anmoins nous n avons pas r ussi reproduire ces r sultats faute d avoir r ussi mettre en uvre l ensemble des caract ristiques et options permettant de l atteindre d Notre bilan Il nous semble que le Stanford NER n a pas t con u dans l optique d tre personnalis sans en modifier directement le code source Son architecture rend difficile la compr hension de certains de ses m canismes h riter des classes existantes appara t relativement complexe Il est galement difficile d introduire des options nouvelles et un manque de documentation rend complexe l utilisation des options existantes certaines sont pr sentes dans le code mais non document es d autres sont document es mais absentes du code source ou ont d clench des erreurs lors de nos tentatives d ex cution Nous n avons au final pas r ussi utiliser certaines caract ristiques que nous aurions souhait tester gazettes tiquettes morphosyntaxiques 98 Notre bilan est que le Stanford NER n est pas facilement utilisable en tant que biblioth que de code extensible De plus nous souhaitions utiliser les analyseurs linguistiques dont nous disposons dans Antelope nous avo
186. buyer Microsoft company mobile ad firm Screen buyer Microsoft company MobiComp buyer Microsoft company Million buyer Microsoft company Microsoft Business So buyer Microsoft company Microsoft buyer Microsoft company MessageCast buyer Microsoft company MessageCast buyer Microsoft company Medstory Inc buyer Microsoft company Medstory buyer Microsoft company Medstory buyer Microsoft company Medstory buyer Microsoft company Medstory buyer Microsoft company mediaVvideo sharing buyer Microsoft company Media Sharing Servic buyer Microsoft company master data manage buyer Microsoft company Master Data Manage buyer Microsoft company Massive Inc hinvor Miernenft comnanv Maceive Inr text Microsoft acquires mobile advertising firm ScreenTonic buyer Microsoft company mobile advertising co Microsoft buys mobile advertising company ScreenTonic Microsoft buys mobile ad firm ScreenTonic Microsoft Acquires MobiComp we learned that Microsoft bought 1 6 of Facebook for 240 Million Axapta is one of the four ERP suites offered by Microsoft Business Solutions a subsidiary of Micro g Microsoft Acquires Microsoft Acquires It is the first Microsoft Acquires Collage Enjoy Microsoft Acquires MessageCast Microsoft Purchases MessageCast Microsoft Announces Planned Acquisition of Medstory Inc Microsoft has acquired Medstory a vertical search engine for health information
187. c der au traitement de l ensemble des articles d une cat gorie donn e par exemple tous les articles d crivant des rivi res Cette restriction permet de rester l int rieur d un champ th matique et augmente les chances de trouver plusieurs occurrences de la m me paraphrase On peut alors compter la fr quence de chaque paraphrase et fixer un seuil minimal en dessous duquel elle n est pas retenue cette approche permet en principe de compenser les erreurs ayant pu subvenir dans la cha ne de traitement durant les phases d analyse syntaxique de d sambigu sation lexicale des entit s nomm es ou de r solution d anaphores Si une m me paraphrase se retrouve plusieurs fois elle est probablement correcte Cette exp rience montre qu il est possible en disposant de plusieurs textes portant sur un m me sujet d extraire automatiquement des paraphrases avec des cadres de sous cat gorisation dont les constituants sont d sambigu s s par rapport WordNet Nos valuations pr liminaires effectu es sur une dizaine d articles montrent une pr cision de l ordre de 70 dans la d tection de paraphrases pertinentes Il reste mettre en uvre ces m canismes sur un volume significatif d articles pour affiner notre jugement sur la validit de cette approche Ces cadres de sous cat gorisation fournissent de puissants indices de d sambiguisation lexicale qui peuvent tre utilis s lors de traitements ult rieurs 4 Ext
188. c s pour la g n ration de textes lordanskaja et al 1988 Bohnet Wanner 2001 ou la traduction automatique Apresjan et al 2003 De telles repr sentations permettent galement de faire de l extraction d information par unification partielles de structure et applications de r gles de paraphrasage et de r pondre a des questions telles que Quelle a t la premi re personne a descendre l Amazone Chaumartin 2007b d taill ici en page 68 d crit une strat gie d extraction 2 NomLex donne une correspondance pr cise entre les arguments du nom et ceux du verbe dont il d rive NOM ORTH descent VERB descend NOM TYPE VERB NOM VERB SUBJ DET POSS PP PVAL by 0 Dans le cadre de sous cat gorisation ESCAPE 51 1 1 3t Voir par exemple DMRS Copestake 2009 B daride Gardent 2009 et Bonfante Guillaume Morey Perrier 2010 17 automatique de r gles de paraphrase par alignement d articles d encyclop dies utilisant des repr sentations de ce type Comme notre description des traits figurant dans la repr sentation s mantique a pu le montrer le calcul d une telle repr sentation met en jeu de nombreuses ressources lexicales que nous pr sentons en partie IV et plusieurs types de calculs d taill s en partie V d sambiguisation lexicale reconnaissance et typage d entit s nomm es r solution d anaphores etc Nous pr sentons en section VII C les r gles de correspondance propremen
189. ce syst me sur diff rentes phrases commen ant par I eat the pizza with Le tableau 23 compare les nombres de r sultats trouv s sur pizza with X et eat with X pour Le travail expos ici est pr liminaire et la g n ration des variantes m riterait videmment une r flexion plus pouss e 161 diff rentes valeurs de X le plus grand des deux pour une ligne donn e est en gras quand le premier nombre est plus grand que le second l heuristique choisit un rattachement du syntagme Spositi u i u Spositi u r positionnel en tant que compl ment de nom dans l autre cas le groupe pr positionnel est un compl ment du verbe Sur ces phrases les r sultats sont tous satisfaisants Valeurs de X Nombre d occurrences de Nombre d occurrences de Syntagme PP with X pizza with X eat with X rattach au PP friend 1019 4 240 V fork 180 2 939 V wine 0 73 V pepperoni 1758 0 NP ham 583 149 NP cheese 2 066 158 NP Tableau 23 R sultats du rattachement pr positionnel sur diff rentes phrases 5 Conclusion sur cette heuristique Nous avons men des tests avec le Stanford Parser capable de produire une for t d arbres Pour tous les exemples pr c demment cit s nous avons constat que les deux rattachements sont toujours propos s mais l un des deux est invariablement pr sent comme tant le plus probable On voit en figure 60 une illust
190. ches que sur des groupes de 5 mots au maximum c est dire des expressions courtes correspondant des fragments de phrases Cela n a pas soulev de r el probl me dans nos tests comme nous allons le voir 191 z x 2 A Cette op ration confrontation sur Google en anglais consiste comparer les r sultats de deux requ tes en utilisant le m me moteur de recherche pour d terminer celle des deux qui en renvoie le plus grand nombre 2 Comme dans e VP manger NP une pizza PP avec un ami e VP manger NP une pizza PP avec une fourchette e VP manger NP une pizza PP avec du vin Comme dans e VP manger NP NP une pizza PP avec du pepperoni e VP manger NP NP une pizza PP avec du jambon e VP manger NP NP une pizza PP avec du fromage 193 160 3 Test sur une phrase en anglais La ressource utilis e n existant au moment de nos tests que pour l anglais nous avons effectu notre valuation dans cette langue En utilisant les routines morphologiques de la plate forme nous g n rons plusieurs n grammes correspondant des variantes de surface de l expression cherch e Sur notre exemple le tableau 21 contient le nombre d occurrence des variantes de pizza with X et le tableau 22 celui des variantes de eat with X dans le cas particulier o X friend Expression cherch
191. complexe Utiliser WordNet comme r f rence de notre lexique s mantique ne facilite pas cette tache La multiplication des nuances de sens a pour revers de la m daille de complexifier l identification du meilleur sens V ronis 2001 souligne que la granularit de WordNet est souvent trop fine pour que m me des humains s accordent sur la bonne tiquette a donner un mot D autre part l exploration d un graphe riche et dense de grande taille doit tre soumise a des conditions d arr t pour viter une explosion combinatoire lors des recherches On peut distinguer plusieurs typologies d algorithmes selon qu ils privil gient la pr cision ou le rappel Les mesures de pr cision et de rappel qui apparaissent dans la pr sente section ont t effectu es sur le corpus anglais SemCor qui a servi tester nos impl mentations a Heuristiques privil giant la pr cision Certaines heuristiques sont sp cialis es dans la reconnaissance d un ph nom ne particulier ou peu fr quent Elles sont alors tr s pr cises mais leur rappel est faible On peut classer dans cette cat gorie e L heuristique qui reconna t le sens de Paris dans des constructions comme Paris Texas ou Paris France simple impl menter et s appliquant d s l analyse syntaxique de surface elle offre une pr cision de 80 0 e Le simple test de la capitalisation de l initiale pr cision 88 5 e Les restrict
192. d un mot et les d finitions des mots de son contexte ici une fen tre de quatre mots pleins gauche et droite du mot cible Le sens retenu correspond la d finition pour laquelle on compte le plus grand nombre de mots communs avec le contexte WordNet permet de g n raliser cette approche en suivant les relations de synonymie et d hyperonymie La pr cision obtenue avec cet algorithme mesur e sur le corpus SemCor est de 45 6 On peut se demander si une heuristique avec une pr cision aussi faible est vraiment utile Peut tre faudrait il identifier s il existe un sous ensemble particulier du lexique sur lequel cette heuristique offre une pr cision plus lev e d Combinaison de ces heuristiques Notre approche actuelle de la d sambigu sation lexicale consiste faire voter simultan ment plusieurs algorithmes pond r s par une importance relative Ces diff rentes heuristiques peuvent tre activ es ou non la demande Le r sultat du vote est la combinaison lin aire des valeurs calcul es par chaque heuristique pond r es par son poids Quand toutes les heuristiques sont combin es la pr cision globale est de l ordre de 55 ce chiffre est d cevant quand on le compare l heuristique qui consiste simplement choisir le premier sens de WordNet pour l anglais Pour essayer d am liorer ces r sultats nous avons en cours de conception un algorithme d apprentissage des relations syntaxiques du corpus SemCo
193. d un traitement g n rique des langues passe par un certain nombre de choix Nous commen ons par d finir dans Antelope un ensemble ferm de parties du discours ind pendantes de la langue nom verbe adjectif adverbe pronom pronom possessif d terminant d terminant possessif pr position conjonction de coordination conjonction de subordination num rique interjection ponctuation et autre mot tranger formule math matique b Traits morphosyntaxiques Nous d finissons ensuite un ensemble ferm de traits morphosyntaxiques type de nom commun propre personne modalit verbale temps verbal degr de comparaison comparatif superlatif d finitude type de nombre cardinal ordinal genre et nombre Notre source d inspiration a t MAF Morpho syntactic Annotation Framework d crit dans Francopoulo et al 2008 c Association de traits morphosyntaxiques aux parties du discours Enfin pour une langue donn e nous associons des traits morphosyntaxiques chaque partie du discours existant dans cette langue Notre parti pris n est pas de chercher a priori d finir un syst me universel applicable a toutes les langues mais modestement et c est d j suffisamment complexe de proposer une solution op rationnelle capable de prendre en compte les langues trait es par la plate forme l heure actuelle seules des langues europ ennes sont pr vues Par exemple en anglais un d terminant a pour
194. d finitions de WordNet n tant pas d sambigu s s Sur le plan informatique nous avons proc d l tiquetage morphosyntaxique des d finitions de tous les synsets pour les filtrer et retenir un premier ensemble de 1984 synsets o L1 et L2 appartiennent la m me partie du discours En toute rigueur nous avons impos des contraintes suppl mentaires nous avons limin les synsets o L1 d signe en fait L2 cela correspond aux cas o la d finition contient e equal comme dans KOPEK KOPECK COPECK 100 kopecks equal 1 ruble in Russia e trademark ou trade name car L1 et L2 repr sentent alors un nom commercial comme dans SILDENAFIL SILDENAFIL CITRATE VIAGRA virility drug trade name Viagra e capital of comme dans BERN BERNE CAPITAL OF SWITZERLAND the capital of Switzerland La m thode adopt e pour attribuer une cat gorie de liens de polys mie a une occurrence L1 L2 repose sur diff rents crit res formels appliqu s aux d finitions de WordNet Martin 1972 Fass 1988 Nous avons regard tout d abord si l inclusion de L1 figurait dans la premi re partie de la d finition de L2 i e en tant que genre prochain ou bien dans sa seconde partie i e en tant que diff rence sp cifique comme illustr ci dessous e BEHAVE 3 behave well or properly e SWEEP 6 clean by sweeping Dans le premier exemple L1 appara t dans la premi re partie de la d finition de L2 l
195. d edu software lex parser shtml SUMO NILES PEASE http www ontologyportal org http ontology teknowledge com The Preposition Project LITKOWSKI http www clres com prepositions html UIMA http incubator apache org uima www research ibm com UIMA UNL Universal Networking Language HIROCI ET AL http www undl org VerbAction HATHOUT ET AL http redac univ tlse2 fr lexicons verbaction html VerbNet KIPPER SCHULER http verbs colorado edu mpalmer projects verbnet html Google Web 1T 5 gram Corpus FRANZ BRANTS http www ldc upenn edu Catalog CatalogEntry jsp catalogld _LDC2006T13 Web s mantique standards W3C http www w3 org standards semanticweb Wikip dia en anglais http en wikipedia org Wikip dia en anglais simplifi Simple Wikipedia http simple wikipedia org Wikip dia en francais http fr wikipedia org WordNet MILLER FELLBAUM http wordnet princeton edu WordNet Domains amp WordNet Affects MAGNINI CAVAGLIA http wndomains itc it download html WordNet correspondance entre versions http www cs unt edu rada downloads html wordnet et http www I si upc es nlp tools mapping html WordNet Similarity PEDERSEN ET AL http www d umn edu tpederse similarity htm YAGO SUCHANEK ET AL http www mpi inf mpg de yago naga yago 185 Annexe I Le Web s mantique A Introduction Le Web s mantique n tant pas enc
196. d obtenir des comportements plus robustes en am liorant le rappel Notre objectif est de progressivement g n raliser cette approche l ensemble des traitements s mantiques pour en am liorer les performances e Difficult s rencontr es L apprentissage automatique porte des promesses importantes en TAL Soulignons toutefois que sa mise en uvre effective n a rien de simple En effet le cadre math matique sous jacent est g n ralement complexe Il fait appel des connaissances ou talents g n ralement nouveaux pour le praticien du TAL en plus des aspects linguistiques ou informatiques Notre exp rience personnelle est qu on peut certes commencer utiliser des tels composants de calcul en tant que bo te noire sans chercher en comprendre le fonctionnement interne N anmoins une compr hension minimale des algorithmes sous jacents est importante pour bien choisir celui qui convient pour un probl me particulier L autre point concerne la performance des impl mentations la complexit des algorithmes 116 n cessite souvent des heures voire des jours de calcul Il est donc parfois n cessaire de les r impl menter en les optimisant ce qui peut devenir compliqu Nous explorons l approche consistant exploiter la structure hautement parall le du processeur des cartes graphiques 16 Par exemple des techniques d apprentissage it ratives telles que les descentes de gradient 117 Un GPU est effic
197. de marque de votre restaurant et accueil chaleureux seront les fils condu DIRECTEURS d AGENCE H F Rattach un Directeur r gional vous prenez en charge la direction d un centre de profit con Rattach 4 un Directeur r gional vous prenez en charge la direction d un centre de profit constitu d quipes en g rance loc Sous l autorit d un directeur multi sites vous assurez la gestion des deux tablissements Sous l autorit d un directeur multi sites vous assurez la gestion de l tablissement Rattach un directeur d exploitation vous tes force de proposition aupr s de votre direction Rattach un Directeur des Op rations en lien direct avec la direction de travaux vous avez pour mission de vous assurer de Rattach un Directeur de travaux ou un Conducteur principal vous avez la responsabilit technique financi re et commerci Rattach un Directeur de travaux vous avez la responsabilit technique financi re et commerciale de vos chantiers Rattach un directeur de travaux vous tes responsable technique administratif et financier de vos chantiers du d p t de P Rattach un Directeur de Travaux vous intervenez sur des chantiers de construction neuve diversifi es en TCE sur le secteu Sous l autorit d un Directeur de Travaux vous aurez la responsabilit d un ou plusieurs chantiers GO et ou TCE du lancem Rattach un Directeur de travaux vous prenez encharg
198. de un investissement co teux en temps humain on parle de goulet d tranglement dans l acquisition des connaissances knowledge acquisition bottleneck La correction d erreur la maintenance d un tel mod le et le passage d autres langues s av rent donc probl matiques L apprentissage automatique permet de r soudre les probl mes qu il est difficile voire impossible d aborder par des moyens algorithmiques plus classiques quand l explicitation des r gles est trop complexe ou d bouche sur une explosion combinatoire L apprentissage automatique a progressivement concern un grand nombre de t ches de TAL allant de l tiquetage morphosyntaxique la classification en passant par la fouille de texte ou encore l analyse syntaxique probabiliste L int r t d un mod le fond sur l apprentissage automatique est en effet de pouvoir tre mis en place puis facilement adapt de nouveaux domaines pour peu que des corpus annot s soient disponibles Cette approche est aussi int ressante pour concevoir des syst mes de TAL largement ind pendants d une langue donn e Defense Advanced Research Projects Agency ou Agence pour les Projets de Recherche Avanc e de D fense l agence am ricaine charg e de la R amp D des nouvelles technologies destin es a un usage militaire 114 win ge re 1 x s 7 La description des entit s nomm es et des relations peut se faire par exemple sous forme de triplets RDF 90 b
199. des aspects spatiaux physiques sociaux temporels et psychologiques de la vie de tous les jours A la diff rence de CYC et WordNet ressources crites a la main ConceptNet a t g n r automatiquement partir de 700 000 phrases du projet OMCS Open Mind Common Sense men galement au MIT ce projet collaboratif a compt des milliers de contributeurs sollicit s pour crire de courtes phrases d crivant une situation du quotidien par exemple un livre est fait de papier le tango est une sorte de danse on apprend pour conna tre plus de choses Un analyseur syntaxique a t utilis pour extraire des informations de ces phrases en utilisant des patrons morphosyntaxiques Les assertions sont alors exprim es comme des relations entre deux concepts s lectionn es partir d un ensemble fini de relations possibles E Conclusion Dans cette partie nous avons pr sent un processus de constitution de lexique s mantique a large couverture Nous avons vu que le c ur de notre lexique contient 117 659 concepts les synsets de WordNet auxquels s ajoutent 300 000 concepts provenant des articles de la Wikip dia marques produits personnes lieux D autres projets d ontologies large chelle CYC SUMO revendiquent aussi des dizaines ou des centaines de milliers de concepts Nous avons donc ici une d marche top down ou d marche descendante qui vise a constituer a priori une repr sentat
200. dix sens dans WordNet 2 0 Trois d entre eux BANK 1 BANK 3 et BANK 6 sont regroup s au sein du domaine Economie tandis que deux BANK 2 et BANK 7 sont regroup s avec les tiquettes de domaine G ographie et G ologie comme indiqu dans le tableau 8 Sens Synset D finition Domaines 1 DEPOSITORY FINANCIAL INSTITUTION BANK 1 BANKING CONCERN BANKING Economy COMPANY a financial institution 2 BANK 2 sloping land Geography Geology 3 BANK 3 a supply or stock held in reserve Economy 4 BANK 4 BANK BUILDING a building Architecture Economy 5 BANK 5 an arrangement of similar objects Factotum 6 SAVINGS BANK COIN BANK MONEY BOX BANK 6 a container Economy 7 BANK 7 a long ridge or pile Geography Geology 8 BANK 8 the funds held by a gambling house Economy Play 9 BANK 9 CANT CAMBER a slope in the turn of a road Architecture 10 BANK 10 a flight maneuver Transport Tableau 8 Domaines associ s aux diff rents sens du nom BANK 60 5 Ressources pour l analyse de sentiments WordNet Affect et SentiWordNet sont deux ressources permettent la d tection d affects dans les textes Elles sont utilis es par l application d analyse de sentiments que nous avons d velopp e pour SemEval 2007 Cf chapitre V D De tels traitements ont un int r t conomique grandissant par exemple une soci t peut chercher
201. document entier Que faire alors quand des appr ciations positives et n gatives coexistent dans le m me avis Comment mesurer l volution d une opinion avec le temps Comment restituer une information synth tique pour appr hender d un coup d il des milliers d avis En fonction de la t che pr cise r aliser il faut distinguer l objet valu l avis port dessus et son intensit d terminer l metteur dans le cas d une conversation multi locuteurs ou encore le niveau de confiance port e par le locuteur sur son propre avis Ces facteurs font de l analyse des sentiments une t che complexe avec un d calage important entre les possibilit s actuellement offertes par le TAL et la qualit d une tude humaine Reconna tre des entit s nomm es ou des relations entre ces entit s dans du texte tout venant est d j complexe du fait des ambigu t s du langage humain mais il ne s agit ici que d identifier des l ments factuels Les ph nom nes linguistiques li s l expression des sentiments sont nombreux et d une grande richesse ce qui en rend l analyse encore plus complexe On entre dans un champ subjectif o deux humains peuvent avoir des lectures tr s diff rentes d un m me v nement Comprendre une opinion exprim e avec de l humour ou de l ironie semble aujourd hui un d fi pour la machine N anmoins la recherche progresse rapidement dans ce domaine aussi Tsur et al 2010 propose ain
202. domaine particulier Nous avons pr sent en IV E page 86 notre vision d une approche pragmatique consistant mixer d une fa on semi automatique une d marche descendante mod lisation du monde a priori avec une d marche ascendante exploitation du corpus traiter pour disposer du lexique le mieux adapt une application donn e Dit autrement notre approche cherche constituer rapidement l extension sp cifique n cessaire pour enrichir le lexique s mantique standard d Antelope et l adapter une application donn e Nous en illustrerons concr tement l int r t dans deux cas 174 d l analyse d avis de consommateurs une part chapitre D et de documents RH d autre part chapitre E 2 Collecte d un corpus relatif au domaine consid r La d couverte d un domaine que l on souhaite analyser n cessite de la mati re premi re Une tape pr liminaire est donc la collecte d un corpus de documents relatifs a ce secteur Le cas le plus simple se pr sente quand un corpus repr sentatif peut tre fourni en d but de projet mais ce n est pas toujours le cas Quand un tel corpus n est pas disponible nous commen ons par collecter sur le Web public quelques milliers de documents issus de multiples canaux de fa on avoir de la diversit Quand nous disposons d un d but d ontologie du domaine notamment sur la partie produits nous pouvons piloter un moteur de recherche du We
203. donn es spatiales et temporelles associ es aux faits extraits de la Wikip dia La pr cision de cette ontologie construite automatiquement est valu e par ses auteurs 95 e Ontologies D autres ontologies proposent une axiomatique plus ou moins riche On peut notamment citer SUMO qui vise proposer un haut d ontologie universel DOLCE et CYC dont l ambition est de d crire tr s largement le sens commun COSMO est une proposition de fusion au format OWL des hauts d ontologie de CYC SUMO et DOLCE Il nous semble que ces ontologies sont plus utilis es dans des travaux relevant de l intelligence artificielle que du TAL m me si la limite entre ces deux disciplines est parfois floue Certaines de ces ressources ont un lien explicite vers des entr es de WordNet ou de la Wikip dia anglaise 3 Contribution des standards mergents du Web s mantique Le Web s mantique est une volution du Web classique qui vise a rendre les donn es accessibles non seulement a un ceil humain mais aussi aux machines Pour donner une analogie pensons a une boite dans un rayon de supermarch pour en connaitre le contenu un humain lira le nom du produit sur la bo te en revanche l ordinateur de la caisse en lira le code barres et se servira de cette information pour automatiser des traitements facturation mise jour du stock r approvisionnement En offrant cette dualit le Web s mantique ambitionne de doter les applicati
204. du fait que Pierre est allergique au gluten Paul rentre de voyage samedi et Marie est v g tarienne Le Web s mantique utilise les fondements techniques du Web classique et ne remet pas en cause ce dernier Il en tend les fonctions primaires publier et consulter des documents En revanche les documents trait s par le Web s mantique contiennent non pas des textes en langage naturel mais des informations formalis es pour tre trait es automatiquement L objectif long terme de cette volution du Web actuel vise tendre syst matiquement les pages HTML lisibles par un il humain afin qu elles contiennent aussi des informations structur es accessibles la machine Le corollaire sera la possibilit d automatiser des t ches complexes n cessitant aujourd hui une action humaine par exemple r server un billet de train et un s jour l h tel pour pr parer un voyage pourra tre tr s largement pris en charge par un agent personnel intelligent L un des moyens d arriver cette volution est la d finition d un certain nombre de standards mergents Ils permettent de d finir la fa on dont des informations peuvent tre repr sent es RDF leur structuration RDFS le contr le de leur coh rence OWL RIF ainsi que la fa on de faire des requ tes complexes dessus SPARQL Ces standards mergents du Web s mantique ont de multiples int r ts en TAL car ils permettent de repr senter aussi bien des r
205. du passage en RSyntP nous obtenons un format commun de d pendances syntaxiques profondes VB Pascal Python Eiffel COBOL PHP etc tendus pour offrir des fonctionnalit s identiques 58 ga ee Tok c r Abr viation pour 24 heures sur 24 7 jours sur 7 qui signifie que le service est disponible en permanence 32 En T lt poss lt nsubjpass Figure 5 Comparaison des sorties du Link Grammar et du Stanford Parser G Positionnement par rapport d autres plates formes Cette section pr sente bri vement des architectures et plates formes de r f rence de traitement du langage en positionnant Antelope par rapport celles ci Au vu des caract ristiques de ces plates formes il nous semble que la principale originalit d Antelope r side dans l int gration d un lexique s mantique large couverture dans son mod le en niveaux de repr sentations clairement d finis et dans la pr sence d une ISS 1 GATE GATE General Architecture for Text Engineering Cunningham et al 1996 est une infrastructure permettant le d veloppement et le d ploiement de composants pour le traitement de la langue naturelle D velopp e depuis 1995 l Universit de Sheffield elle est largement utilis e sur des t ches de fouille de textes et d extraction d information GATE propose une architecture un framework en Java incluant de nombreux modules et un environnement de d veloppement int gr
206. e Rattach un Directeur de r seau vous faites partager les valeurs de l entreprise et participez au d veloppement de l image Rattach un Directeur de r seau vous faites partager les valeurs de l entreprise et participez au d veloppement de l image sous la responsabilit d un directeur de projets vous serez charg du cahier des charges receuil et analyse des besoins para ur w Figure 59 Exemples de d tection de rattachement hi rarchique dans des offres d emploi 181 P Avec des patrons morphosyntaxiques comme e sousla responsabilit conduite direction coordination autorit du respX anyNoun e rattach directement au respX anyNoun 148 Pour finir sur l adaptation des analyseurs au domaine RH rappelons que la m thode d apprentissage par exploration des num rations a donn ici de bons r sultats En effet les offres et les CV pr sentent souvent des num rations comme les listes de comp tences ou de dipl mes b Etude de r f rentiels existants Notre objectif tait de disposer d un r f rentiel complet sur les m tiers et les comp tences sous jacentes Nous avons tudi certaines nomenclatures des m tiers utilis es dans le monde professionnel Certaines sont internationales ISCO 08 International Standard Classification of Occupations du Bureau International du Travail d autres nationales ROME R pertoire 783 du P le Emploi annuaire des m tiers
207. e je l ach te chez Leclerc Pantin Tr s bonne et bien moins cher que chez vous et en plus elle est tendre Je travaille VDF Val de fontenay RER E et j ai sur le trajet entre mon travail et le RER un grand AUCHAN val de Fontenay o j ach te mes yaourts le Papier toilette Moltonel en paquet Chez vous les 6 paquets en feuilles sont vendu 3 07 alors que je les ach te chez Auchan 2 77 les 12 la viande etc Mes parents habitent dans l Oise et j y vais tout les 15 jours II y a un auchan et j y fais presque toutes mes courses viande cr merie pain PQ pour les 15 jours Avant je travaill au m tro Strasbourg St Denis avant de d m nager VDF et toute les semaines je continue d acheter les fruits et l gumes de la semaine dans un grand magasin de fruits qui les vends pas cher Comme vous pouvez le voir je n ach te pas grand chose dans votre supermarch a part la bagette de 400 g qui est d licieuse et de temps en temps le pain en tranche de la marque carrefour discount le cher si je n ai pas le temps d aller chez Auchan ou Lidl Je connais plusieurs personnes qui font leur courses dans diff rents magasins et comparent les prix Figure 53 Capture d cran de l analyse d un verbatim relatif la grande distribution 5 D tection des tendances Les traitements voqu s jusqu ici portent sur les documents pris individuellement Ubiq regroupe ensuite toutes les informations extraites pour donner une vue d ens
208. e FACL 06 11th Conference of the European Chapter of the Association for Computational Linguistics Trento Italie APRESJAN J 1974 Regular Polysemy Linguistics 142 5 32 APRESJAN J ET AL 2003 ETAP 3 Linguistic Processor a Full Fledged NLP Implementation of the MTT Actes de MTT Paris 279 288 Iss AUER S BIZER C KOBILAROV G LEHMANN J 2007 DBpedia A nucleus for a web of open data In The Semantic Web LNCS Volume 4825 2007 pp 722 735 Springer Sw BAKER C FILLMORE C LOWE J 1998 The Berkeley FrameNet project Actes de 17th international conference on Computational linguistics BANERJEE S PEDERSEN T 2003 Extended gloss overlaps as a measure of semantic relatedness In 8 International Conference on Artificial Intelligence IJCAI Acapulco Mexico BARQUE L 2008 Description et formalisation de la polys mie r guli re du fran ais Th se de doctorat Universit Paris 7 BARQUE L CHAUMARTIN F R 2008 La polys mie r guli re dans WordNet Actes de TALN 2008 Avignon BARQUE L CHAUMARTIN F R 2009 Regular Polysemy in WordNet Journal for Language Technology and Computational Linguistics JLCL 24 2 pp 5 18 BEDARIDE P GARDENT C 2009 Semantic Normalisation a Framework and an Experiment Actes de IWCS 09 8th International Conference on Computational Semantics Tilburg Netherland Iss 173 BENTIVOGLI L FORNER P MAGNINI B PIANTA E 2004 Revising WordNet
209. e WOLF 28 800 nouveaux lemmes ont t ajout s au fil des projets avec une technique qui importe des concepts par lots partir de la Wikip dia en fran ais avant une validation manuelle Les concepts sp cifiques au domaine extraits l tape pr c dente viennent l enrichir lors de chaque projet La figure 48 montre par exemple une d finition courte du concept banque commerciale avec comme instances hyponymes une liste de banques fran aises 137 a Noun commercial bank full service bank banque commerciale commercial bank banque a financial institution that acceps demand deposits and makes loans and provides other services for the public English singular commercial bank plural commercial banks English singular full service bank plural full service banks TE depository financial institution bank banking concern banking company ba n k a financial institution that accepts deposits and channels the money into lending activities he cashed a check at the bank that bank holds the mortgage on my home financial institution financial organization financial organisation institution financi re financial institution tablissement financier an institution public or private that collects funds from the public or other institutions and invests them in financial assets institution establishment institution institution tablissement institut institution
210. e d entit s nomm es composites Cette tape permet de reconna tre les principaux l ments cit s dans le document produits enseignes fournisseurs concurrents marques th matiques probl mes et attentes exprim s par le consommateur Nous avons toutefois apport des am liorations au composant standard de reconnaissance d entit s nomm es pour tirer pleinement parti du contexte Nous avons d j vu comment des homonymes comme ORANGE 1ruir t ORANGE 2 marque t l com SON diff renci s Ubiq sait aussi d tecter les produits compos s gr ce une phase d apprentissage sur le corpus Nous tenons compte du fait que sous certaines conditions deux produits cons cutifs n en forment qu un Par exemple canard l orange est correctement d tect comme un produit compos unique rattach au rayon des plats cuisin s et non comme deux produits des rayons volailles canard et fruits amp l gumes orange Ubiq est aussi capable de reconna tre dans chocolat Lindt aux noisettes qu on parle de chocolat aux noisettes et que c est un hyponyme de chocolat de la marque Lindt d Identification des synonymes L expansion des synonymes est faite lors de l indexation s mantique et non lors de la recherche Cela permet de tirer pleinement partie du contexte et d optimiser les performances en effectuant l op ration une fois pour toutes Par exemple serveuse a pour synonyme h
211. e d finit les constructeurs suivants nom de concept concept top conjonction et logique quantificateur universel quel que soit nom de r le n gation des concepts atomiques La logique AL enrichie de C n gation de concepts non n cessairement primitifs donne ALC qui augment e par R transitivit des r les est not e S Les langages OWL sont des extensions de cette logique de description S qui peut ensuite tre enrichie par H hi rarchie des r les R conjonction de r les J r les inverses O un de N restriction de nombre Q restriction de nombre qualifi e U disjonction le ou logique quantificateur existentiel typ il existe B role filler 2 Diff rents niveaux d OWL OWL est la famille des langages de description d ontologies du Web s mantique D autres langages de ce type existent on peut consid rer qu OWL a essay de prendre le meilleur de chacun d entre eux Par rapport aux autres langages de description d ontologies OWL a la sp cificit d tre d fini pour tre compatible avec l architecture du Web en utilisant les URIs pour nommer les objets et RDF pour cr er des liens Les ontologies Web poss dent les avantages suivants e Capacit d tre distribu es au travers de nombreux syst mes e Capacit de passage chelle pour les besoins du Web e Compatibilit avec les standards pour l accessibilit et l internationalisation e Ouve
212. e d terminante Nous cherchons galement tablir des r gles pour d tecter des motions sp cifiques Par exemple la surprise vient parfois du contraste entre une bonne et une mauvaise nouvelle Un simple l ment lexical est quelquefois caract ristique d une motion par exemple une n gation ou un modal peut marquer une surprise c Composants utilis s Notre intuition initiale tait qu une analyse syntaxique du titre faciliterait l analyse de sentiments Nos exp riences ont montr que nous devions pr traiter le titre pour en faciliter l analyse syntaxique Cf le pr traitement de d capitalisation d crit en section e Comme la plate forme permet de refaire une m me exp rience en changeant tr s facilement d analyseur une seule ligne de code est modifi e nous avons compar les r sultats produits par diff rents analyseurs pour l anglais Dans les difficult s rencontr es un titre d article est parfois r duit un simple groupe nominal sans verbe Sur ce type de document un analyseur bas sur des r gles tel que Link Grammar Parser donne clairement des r sultats moins bons qu un analyseur probabiliste comme le Stanford Parser Ce dernier se r v le plus tol rant avec les constructions grammaticalement imparfaites c est pourquoi nous l avons choisi pour cette t che 6 Par exemple le titre photographe pris en otage au Nig ria et menac de mort enfin lib r contient plusieurs ter
213. e en langue anglaise en utilisant WordNet VerbNet et FrameNet 76 Cet identifiant change h las chaque version de WordNet Pour importer une ressource donn e il faut donc conna tre la version de r f rence et utiliser une table de correspondance L Universit de Catalogne www lsi upc es nlp propose de telles tables de correspondance 53 n Wordnets pour des langues autres que l anglais EuroWordNet est une base de donn es pour plusieurs langues europ ennes La phase initiale du projet s est achev e en 1999 avec la conception de la base de donn es ainsi que la d finition de types de relations d un haut d ontologie 63 l ments partag s par toutes les langues et d un index inter langues en partant de la version 1 5 du WordNet de Princeton EuroWordNet a produit des wordnets pour le n erlandais l italien l espagnol l allemand le francais le tch que et l estonien comme indiqu dans le tableau 5 Langue Synsets Sens de mots Relations internes Relations d quivalence une langue entre langues diff rentes WordNet 1 5 94 515 187 602 211 375 0 Ajouts l anglais 16 361 40 588 42 140 0 N erlandais 44 015 70 201 111 639 53 448 Espagnol 23 370 50 526 55 163 21 236 Italien 40 428 48 499 117 068 71789 Allemand 15 132 20 453 34 818 16 347 Fran ais 22 745 32 809 49 494 22 730 Tch que 12 824 19 949 26 259 12 824 Estonien 7 678 13 839 16 318 9 004 T
214. e l un des synsets de WordNet 71 e TREACHERY 2 BETRAYAL 1 TREASON 3 PERFIDY 2 an act of deliberate betrayal On remarque dans cet exemple qu un des l ments du synset se retrouve dans sa d finition BETRAYAL 1 est partiellement d fini avec le mot betrayal Plus pr cis ment la lexie BETRAYAL 1 contient dans sa d finition une autre lexie du vocable BETRAYAL toutefois on ignore laquelle avant d avoir d sambiguis les l ments de la d finition 1 Description de la polys mie r guli re L int r t d expliciter la polys mie r guli re lors du d veloppement d un lexique a souvent t mis en vidence notamment dans le cadre du TAL Qu elle soit repr sent e sous forme de r gles lexicales Ostler Atkins 1991 Copestake Briscoe 1995 ou de m canismes transformationnels agissant lors de la composition de mots en syntagmes Pustejovsky 1995 la description de la polys mie r guli re pr sente au moins deux avantages D un point de vue th orique tout d abord il s agit d offrir une repr sentation de l un des aspects de la formation du lexique la polys mie r guli re constituant une source importante de cr ativit lexicale Par exemple en disposant d une r gle de polys mie r guli re entre une unit de type ANIMAL et une unit de type PERSONNE le lexique dispose potentiellement d entr es de type PERSONNE d riv es a partir d entr e existantes de type ANIMAL Cette alterna
215. e liste de mots indiquant une population ayant un besoin naturel de protection nous incluons galement dans cette liste des mots tels que troupes touristes 148 5 Par exemple un mot inconnu de WordNet est probablement un nom propre auquel cas nous gardons son initiale inchang e 1 On remarquera toutefois que l tiquette nsubj de la d pendance entre predicts et victory devrait tre dobj de m me la d pendance entre insists et predicts devrait tre coord 119 e Les acronymes d notant un jargon technologique Pour ceci nous avons d fini une liste de soci t s technologiques et une expression r guli re tr s simple indiquant qu un mot absent de WordNet contenant des nombres ou des majuscules hormis l initiale repr sente un l ment high tech cette simple r gle semble bien fonctionner sur PS3 iPod NASA Nous employons ces indices de contexte high tech pour augmenter la mesure de la joie e Des l ments lexicaux que nous pensons tre des indicateurs pertinents de la surprise n gations auxiliaires modaux points d interrogation ce stade nous effectuons un post traitement sur les mots pris individuellement Quels facteurs causent la col re plut t que la tristesse Notre hypoth se est qu une volont humaine mal fique suscite de la col re alors que des causes naturelles la maladie les catastrophes climatiques engendrent plut t la tristesse Nous avons cod que
216. e phrase ou d un paragraphe sans pr tendre fournir une compr hension globale de l information contenue dans un document Tannier 2006 fournit un panorama des techniques de traitement automatique du langage naturel utilis es en extraction et recherche d informations Les premiers syst mes d extraction d information ayant une importance historique sont FRUMP DeJong 1982 et FASTUS Hobbs et al 1996 Plusieurs campagnes d valuation d envergure ont permis de mesurer les progr s dans ces domaines On peut citer pour l anglais les conf rences MUC 112 The identification and consequent or concurrent classification and structuring into semantic classes of specific information found in unstructured data sources such as natural language text providing additional aids to access and interpret the unstructured data by information systems C est notre traduction 89 Message Understanding Conference qui se sont d roul es de 1987 1998 Grishman Sundheim 1996 sous l gide du DARPA puis ACE Automatic Content Extraction men es de 2000 2008 Doddington et al 2004 En France les campagnes d valuation Amaryllis 1997 1999 et ESTER transcription d une centaine d heures de nouvelles orales ont permis des valuations sur le francais MUC7 1998 portait notamment sur l identification des noms propres dans des textes journalistiques Cette tache est actuellement celle qui obtient les meilleures perfor
217. e pour les syst mes bas s sur des thesaurus et autres taxonomies En pratique cependant la plupart des constructions disponibles en OWL DL peuvent se ramener des combinaisons complexes des fonctionnalit s d OWL Lite Le d veloppement d outils pour OWL Lite s av rant presque aussi difficile que le d veloppement d outils pour OWL DL OWL Lite n est que peu utilis La tendance qui semble se d gager est la pr dominance d OWL 2 3 Similitudes et diff rences entre OWL et UML OWL pr sente de nombreuses similitudes avec UML II est possible d automatiser la traduction d un diagramme de classes UML en ontologie au moins pour en cr er la partie taxonomique et le sous ensemble axiomatique correspondant aux cardinalit s de relations N anmoins la description d une ontologie et la mod lisation d un syst me ne recouvrent pas exactement les m mes objectifs Une importante diff rence d approche r side dans le fait qu UML d crit essentiellement des classes d objets alors qu une ontologie peut travailler au niveau des instances en plus des classes Ainsi le typage d une instance doit tre explicit en UML alors que dans une ontologie il peut tre d duit par raisonnements des propri t s de l instance notamment des relations qu elle entretient avec les autres instances Une autre diff rence sensible est qu en UML on exprime des contraintes alors que les m canismes d OWL sont orient s vers l inf
218. e requ rant que peu de comp tences informatiques Le public vis par les deux plates formes n est pas exactement identique Pour Antelope il s agit essentiellement de d veloppeurs informaticiens la cible de LinguaStream est peut tre davantage constitu e de linguistes informaticiens d sireux de r aliser facilement des exp rimentations sur corpus 4 LingPipe LingPipe est une biblioth que commerciale Java qui permet de traiter des corpus en langue anglaise ou chinoise LingPipe permet de r aliser les traitements linguistiques suivants conversion d un texte html en xhtml segmentation d un texte en phrases avec prise en compte des acronymes tiquetage morphosyntaxique reconnaissance d entit s nomm es lieux personnes r solution d anaphores pronominales et de cor f rences LingPipe se base sur des exemples d apprentissage pour construire certains de ses mod les LingPipe est notamment utilis e en bioinformatique Carpenter 2007 5 UNL UNL Hiroci et al 1999 S rasset Boitet 2000 n est pas stricto sensu une plate forme mais plut t une langue artificielle pouvant tre utilis e comme formalisme de repr sentation des connaissances ou comme langage pivot interlingue en traduction automatique n anmoins une plate forme de d veloppement a t b tie autour UNL a t con u pour la compr hension comme pour la g n ration de texte En pratique la strat gie de d veloppement porte actu
219. e se pose sur les noms de marques qui sont aussi des noms communs l initiale en majuscule pr s L analyse d avis de consommateurs n cessite une d sambiguisation du vocable correspondant pour tre s r qu il exprime effectivement un avis sur la marque 2 D tection en utilisant des gazettes contextuelles Le syst me le plus simple de reconnaissance d entit s nomm es consiste les chercher l int rieur d une simple liste plat de termes tablie pour chaque classe reconna tre Dans la suite nous appelerons gazette une telle liste par analogie avec le terme gazetteer employ dans la litt rature 122 anglo saxonne Les exemples pr c dents montrent que se fier a une solution na ve de ce type est trop restrictif Il faut donc mettre en uvre des solutions plus sophistiqu es La difficult r side dans le fait de donner assez d information contextuelle pour lever les ventuelles ambiguit s De fa on permettre de les lever nos gazettes contextuelles associent chaque entr e des l ments contextuels de d sambigu sation sous la forme de termes activateurs de sens 121 Par exemple Orange Total Boulanger Carrefour Air Liquide Ciel Casino etc Une ambiguit de ce type existe dans un tiers des noms de soci t s du CAC40 122 ak 1 7 f Une traduction plus usuelle pourrait tre nomenclature ou r pertoire ou index g ographique 95 Notre d marche est alors e En pr
220. e syntaxique incorrecte Une fois regroup s les r sultats extraits restants concernent 245 instances distinctes de soci t s 46 instances ne sont pas pertinentes Nous avons compar les 199 autres r sultats obtenus avec ceux du site d informations financi res AlacraStore qui num re 195 soci t s 132 rachats et 63 prises de participation L application trouve 182 de ces 195 soci t s plus 17 autres Finjan Software Green Button Changhong ayant effectivement fait l objet d une op ration par Microsoft mais n apparaissant pas dans la base de donn es AlacraStore Cette m thode offre donc une pr cision encourageante En revanche le rappel semble largement am liorable car plusieurs dizaines de phrases du corpus collect contiennent aussi des occurrences pertinentes qui ne sont pas d tect es L exp rience montre que le rappel de la m thode est directement proportionnel au nombre des paraphrases d finies par l utilisateur du composant or leur cr ation manuelle est un processus chronophage et leur multiplication augmente le temps de calcul l ex cution d Discussion Nous estimons que le m canisme pr sent ici a deux forces et deux faiblesses D une part il tol re la pr sence de mots intercal s entre ceux qu on cherche y compris quand il s agit de sous phrases longues appositions relatives ce qui favorise la pr cision des r sultats D autre part grace a la couche d abstraction qu
221. e troisi me sens du verbe BEHAVE est d fini au moyen d un autre sens du m me vocable qui en constitue le genre prochain se comporter signifie dans un de ses sens se comporter d une certaine mani re en l occurrence d une mani re appropri e Dans le second exemple L1 appara t dans la seconde partie de la d finition de L2 le sixi me sens du verbe TO SWEEP ne veut pas dire balayer d une certaine mani re mais faire quelque chose en balayant en l occurrence nettoyer en balayant Outre la place de l inclusion de L1 dans la d finition de L2 nous retenons des sous chaines r currentes dans les d finitions Voici trois exemples d inclusion dans la seconde partie de la d finition distingu s selon certains l ments pertinents de leur d finition e _ MINT 5 a candy that is flavored with a mint oil that is flavored with L1 e BLUEFISH 2 fatty bluish flesh of bluefish flesh of L1 e FIN 5 a stabilizer on a ship that resembles the fin of a fish that resembles L1 On peut ainsi en m lant ces deux crit res la place de l inclusion et les l ments d finitionnels qui entourent cette inclusion attribuer de mani re automatique une cat gorie de lien de polys mie a une occurrence donn e De mani re informelle disons que si l inclusion a lieu dans la premi re partie de la d finition il s agit soit d une sp cialisation soit d une m taphore Les deux exemple
222. ecte et sinon qu elle est inverse Les relations inverses sont celles entre un modifieur et son gouverneur syntaxique de DESCENT vers EUROPEAN sur la figure 2 Les relations pr dicat argument qui ne correspondent pas directement une relation syntaxique sont dites virtuelles de DESCENT vers AMAZONRIVER sur la figure 2 Cette structure hi rarchique nous permet de contr ler la port e de certains l ments Ainsi FRANCISCO DE ORELLANA n est pas dans la port e de FIRST et notre phrase ne pourrait tre correctement paraphras e par The first descent of Francisco de Orellana was made in 1541 ou The first descent in 1541 was made by Francisco de Orellana Notre repr sentation s mantique est directement inspir e des repr sentations s mantique et syntaxique profonde de la Th orie Sens Texte Mel uk 1988a Candito Kahane 1998 Kahane 2002 et adapt e en fonction des ressources dont nous disposons Des repr sentations similaires ont t propos es par d autres auteurs sans r f rence explicite la Th orie Sens Texte Il s agit d une repr sentation s mantique du contenu linguistique et non d une s mantique d notationnelle comme les repr sentations s mantiques bas es sur la logique Il n y a donc pas proprement parler de calcul de valeurs de v rit associ es Par contre ce type de repr sentation permet des calculs de paraphrases Mel uk 1988b Mili evi 2007 et a t impl ment avec suc
223. ectement la plate forme Benjamin Surma Ricardo Minhoto Julien Jacquelinet St phanie Paina Jean Damien Hatzenbuhler Remi Takase Joanne Boisson et Roxane Anquetil L quipe Proxem qui appr cie d autant plus la R amp D quand elle s applique aux projets concrets Jocelyn Coulmance Nicolas Frelat Etienne Coumont Am lie Cochet Grasset Fanny Parganin Paul B daride Eglantine Schmitt et Eric Vernet pour leur point de vue digital humanities et commercial Celles et ceux qui ont eu la gentillesse de relire ce document et de formuler commentaires remarques et critiques constructives Last but not least Carole mon ind fectible soutien et Cerise Emilie et Mahaut qui j ai vol trop de temps ces derni res ann es Contenu Partie Introduction 5 nent iersebnnesseunee echec enebrieneus siens 1 A Pourquoi une plate forme de TAL nee 1 B Vers une meilleure compr hension des textes 3 C PFODI MATIQUES ESS E ne en tre M ne E een menti E iii 4 D Contributions sccvescccceciscceciveaccscevencccusveases deennccecssanccectvaaceeusseaccads saaccedssaaucdsrvaaseutessaverdesaadenderaanedaeeas 5 E Plain du document cdsssccsiessesccccsnsiececnveasecdndenccderdascecdstaneccersaaceddebaaccdesvaacesdessdecduneaacacddeaectes NNa 6 F CONVENTIONS ET notations sesinin teen Taig cece sbeuresedecucedesanes E sd bu en este den ion 8 Partie Il Formalismes de repr sentation du sens d un nonc cccsssecesseeceseeceeeee
224. eferringLink ReferringLinkType Interface Interface Enum gt IMultiwordExpression 5P Anaphora 7 S Properties Pronominal naphora Properties gt Distance SameName Gender M Antecedent A Salence Hypernym FP Auber lt gt Expressions F Heuristics IHeuristicManager IHeuristic InterFace gt gt Interface l ICoreference Interface Interface THeuristicManager y SP Coreferencer ICoreferenceResolver 5 Figure 40 Mod le de programmation pour la r solution d anaphores Etant donn un pronom dans une phrase l algorithme effectue un parcours de l arbre syntaxique de la phrase et ventuellement de la phrase pr c dente la recherche de son ant c dent 17 Identification des pronoms pl onastiques algorithme de liage identifiant l ant c dent d un pronom r fl chi ou r ciproque dans la m me phrase assignation d une valeur de saillance pour chaque syntagme nominal 8 Pr cisons toutefois que l analyse syntaxique a t corrig e manuellement 123 La figure 40 pr sente les classes mises en uvre par notre composant la classe CoreferenceResolver joue le r le de chef d orchestre local c est dire sans interaction avec d autres composants une expression r f rentielle ReferringExpression est un cas particulier d expression multi mots qui g re les ambiguit s avec une liste de candidats possibles dont un seul sera retenu en tant qu anaphore Nous u
225. elle exhaustive La r ponse est clairement n gative car on peut toujours la raffiner en fonction de la t che exacte r aliser Une analyse d avis de consommateurs ne se contentera g n ralement pas de d tecter des produits alimentaires FOOD mais identifiera plus finement les r f rences aux fruits l gumes fromages etc Un syst me sp cialis dans les fromages sp cialisera la reconnaissance en fonction de leur origine ou de leur type p te crue p te cuite On voit donc que la reconnaissance d entit s nomm es a une dimension fractale et qu en fonction de l application vis e on cherchera a reconna tre des types tr s g n raux personnes lieux ou au contraire arbitrairement fins b Ambigui t s r soudre La caract risation de la nature de l entit nomm e est tout aussi essentielle que sa d tection Toutefois ceci peut se r v ler une t che d licate car un m me mot tel que Paris peut endosser diff rentes classes selon le contexte e Il vit Paris Ville e _ Paris se r volte contre la hausse de prix des horodateurs Les habitants de Paris e _ Paris n a pas accept les exigences de Bruxelles Le gouvernement fran ais Le mot Paris peut aussi appara tre comme partie d une expression multi mots ou d une entit nomm e comme dans e C est Paris Hilton pr nom d une Personne e On lit Paris Match Magazine Le m me probl m
226. ellement plus sur la g n ration d un nonc en langage UNL vers une langue naturelle la compr hension de texte est aujourd hui envisag e avec une approche semi automatique avec une validation humaine interactive L objectif principal d UNL est donc de favoriser la traduction d un nonc en plusieurs langues UNL repr sente un texte phrase par phrase comme un hypergraphe compos d un ensemble de liens tiquet s dirig s les relations entre les n uds ou hypern uds mots universels Universal Words ou UW qui repr sentent les concepts Les UW peuvent aussi tre annot s avec des attributs contenant des informations de contexte UNL est un programme issu de l Universit des Nations Unies une agence de l ONU cr e en 1973 qui a notamment pour objectif d tablir des relations entre ONU et la communaut universitaire L int r t d une automatisation des traductions est vident pour l ONU UNL revendique une ambition de couverture d un grand nombre de langues mais il semble que les travaux soient surtout actifs sur l anglais et le japonais 34 Anglais R presentation UNL sous forme de graphe R presentation UNL tabulaire aoj blue icl gt color entry past interrogative exclamation sky icl gt natural world def Figure 6 Repr sentation UNL de la phrase anglaise the sky was blue Dans l exemple de la figure 6 ci dessus sky icl gt natural world et blue ic
227. emble sur ce qui se passe sur une p riode de temps et en d gager les tendances le composant de regroupement de documents d Antelope est utilis cet effet La figure 54 montre comment le module de d tection des tendances affiche sur une timeline synth tique les documents de chaque semaine p riode d activit commerciale de r f rence dans la grande distribution La taille de chaque regroupement est proportionnelle au nombre de documents qui la constituent leur couleur indique le motif principal par exemple les ruptures de stocks apparaissent en vert les probl mes de qualit en rouge etc L utilisation d une volution du composant d analyse de sentiments Cf V D page 115 permet de mesurer l volution dans le temps du nombre d avis positifs et n gatifs Cette interface rend service au quotidien plusieurs publics la direction du marketing dispose d un instantan des avis exprim s par les consommateurs au niveau national un directeur de magasin a une id e pr cise de ce qui se passe dans son p rim tre un responsable qualit sp cialis dans une gamme de produits peut se faire une opinion sur l volution de la qualit et d couvrir d ventuels probl mes de production 144 proxem Retail Administrateur Produits t soisy 10 RER Bnthelos pas rayons arr ter produits ronca 12 direction vis ma vie points a m m dias op ration de notre association france 13 pa
228. emier lieu identifier les termes potentiellement ambigus par exemple ORANGE e Identifier les expressions multi mots contenant orange mais qui correspondent a des entit s distinctes JUS D ORANGE SIROP D ORANGE CONFITURE D ORANGE NECTAR D ORANGE CANARD A L ORANGE SORBET A L ORANGE e Ensuite pour chaque terme ambigu chercher les diff rents sens int ressants a reconnaitre dans le contexte sur des avis de consommateurs dans l univers de la grande distribution on peut chercher distinguer les sens d ORANGE 1 Fruit et ORANGE 2 marque t l com N renon ant reconna tre ORANGE 3 couleur t ORANGE 4wie Si on estime que la probabilit d apparition de ces sens dans le corpus est marginale e Enfin num rer pour chaque sens cibl les termes qui seront fr quemment en co occurrence dans un contexte local tel qu une fen tre de mots et qui joueront le r le d activateur de sens ventuellement en association avec des contraintes morphosyntaxiques En ce qui concerne ce dernier point dans notre exemple on obtiendra e ORANGE 1 fruity fruit press e kg sanguine corce salustiana filet maltaise citron manger d guster Un d terminant comme des les ou une juste gauche permet aussi d activer ce sens ORANGE 2Imarque t l com internet mobile mobicarte t l phone abonnement contrat t l com op rateur sfr bouygues messagerie wanadoo boutique
229. emple une extraction terminologique permet de d couvrir dans un corpus donn les termes simples ou compos s ayant de l importance on peut alors confronter ces termes au lexique de r f rence pour ventuellement l enrichir de nouveaux concepts De notre point de vue l approche pragmatique consiste mixer ces deux d marches pour disposer du lexique le mieux adapt une application donn e nous pr ciserons les d tails de notre approche d acquisition de connaissances sp cifiques un domaine page 136 dans la partie consacr e aux applications de la plate forme 111 g y RE re els i Les expressions multi mots ont l int r t d tre plus pr cises que les termes simples par exemple num ro de t l phone num ro de facture num ro de client d signent des concepts moins ambigus que num ro 87 Partie V Composants de traitement A Introduction 1 Composants d velopp s pour la plate forme Notre objectif est de fournir une plate forme facilitant les exp riences de TAL Nous souhaitons donc fournir l utilisateur un ensemble de composants de traitement pr ts l emploi l utilisateur peut alors les assembler rapidement pour les mettre en uvre dans le cadre d une application donn e Nous pr sentons dans cette partie la conception des composants d analyse s mantique que nous avons directement d velopp s pour notre plate forme Ces composants orient s vers l
230. ens macroscopiques pour faciliter la d sambiguisation lexicale 1 Enrichissement du lexique par l utilisateur Antelope permet l utilisateur d enrichir le lexique s mantique de base correspondant aux donn es du Princeton WordNet en cr ant des lexiques sp cialis s Ce m canisme permet d ajouter de nouveaux synsets lemmes et relations d crits dans un format XML Deux lexiques de ce type sont livr s avec Antelope contenant e La traduction fran aise de 44 200 lemmes provenant de WOLF le WordNet libre du fran ais e 300000 nouveaux synsets repr sentant des entit s nomm es marques produits personnes lieux correspondant un sous ensemble de la Wikip dia anglaise Nous allons pr sent expliquer le mode op ratoire ayant permis de construire ce second lexique 2 Appariement de synsets de WordNet et d articles encyclop diques Ruiz Casado Alfonseca Castells 2005 pr sente l impl mentation d un algorithme rapide permettant de r aliser la correspondance entre un article de la Simple Wikipedia et le synset correspondant de WordNet Si aucun synset n a de lemme en commun avec le titre de l article ce dernier est ignor Si un seul synset de WordNet a un lemme gal au titre l article y est li sans autre analyse En cas d ambiguit l article fait l objet d un tiquetage morphosyntaxique apr s un filtrage des marqueurs syntaxiques sp cifiques la Simple Wikipedia pour ne conserver
231. ent capitalis ccom comp nsubj cm ie pores obj noe Bush NNP insists VBZ troops NNS stay VB in IN Iraq NNP predicts VBZ midterm JJ victory NN Figure 39 Sortie du Stanford Parser avec un titre correctement d capitalis f valuation des mots pris individuellement ce stade nous consid rons la sortie du Stanford Parser comme une liste de mots dont la partie du discours est connue l utilisation de routines morphologiques permet alors de trouver la forme de base de chaque mot Nous n avons pas essay de proc der une d sambiguisation lexicale Nous avons en effet estim qu avec des phrases aussi courtes peu d heuristiques pouvaient s appliquer Nous avons choisi une autre solution en consid rant que la tonalit affective et la valence d un mot taient la combinaison lin aire de celles de tous ses sens possibles pond r par la fr quence de chaque lemme Nous avons ainsi calcul la tonalit affective et la valence de chaque mot en utilisant notre version enrichie de WordNet Affect et SentiWordNet Nous avons galement cherch d tecter certaines informations suppl mentaires e Une septi me motion que nous qualifions de compassion pour des personnes ayant besoin de protection Notre hypoth se est que certains mots expriment un besoin implicite de protection Par exemple il y a l ve derri re cole et enfant derri re adoption Ainsi nous avons tabli un
232. ent Automatique des Langues 51 1 pp 65 a 96 MEYERS A REEVES R MACLEOD C SZEKELY R ZIELINSKA V YOUNG B GRISHMAN R 2004 The NomBank Project An Interim Report Actes de HLT NAAC MIHALCEA R MOLDOVAN D 2001 eXtended WordNet Progress Report Actes de NAACL Workshop on WordNet and Other Lexical Resources Pittsburgh PA MILICEVIC J 2007 La paraphrase Mod lisation de la paraphrase langagi re Bern Peter Lang MILLER G 1995 WordNet A lexical database In Communications of the ACM novembre 1995 pp 39 41 Minsky M 1974 A Framework for Representing Knowledge MIT Al Laboratory Memo 306 R imprim dans The Psychology of Computer Vision P Winston Ed McGraw Hill 1975 MITKOV R 1998 Robust pronoun resolution with limited knowledge COLING Montr al Moens M F 2006 Information Extraction Algorithms and Prospects in a Retrieval Context The Information Retrieval Series 21 New York Springer IE MOLDOVAN D NoviscHI A 2002 Lexical Chains for Question Answering Actes de COLING NAZARENKO A 2004 Donner acc s au contenu des documents textuels Acquisition de connaissances et analyse de corpus sp cialis s Habilitation a Diriger les Recherches Universit Paris Nord NGUYEN T PHUNG D ADAMS B TRAN T VENKATESH S 2010 Classification and Pattern Discovery of Mood in Weblogs Advances in Knowledge Discovery and Data Mining Lecture Notes in Computer Science Sprin
233. er 2004 qui permettent d atteindre les diff rents objectifs pr cit s tout en maintenant la complexit d ensemble un niveau raisonnable Cette volution a n cessit en premier de s parer l impl mentation de l environnement d ex cution appel conteneur de celle des composants L quipe Proxem a con u un conteneur sp cialis pour chaque environnement cible et fait voluer les composants d analyse pour les rendre compatibles avec les contraintes de chaque environnement La d cision d assemblage des composants pour former une configuration applicative se fait d sormais uniquement au niveau du conteneur d une fa on explicite Les d pendances entre composants ne sont donc plus exprim es de fa on statique dans le code mais d termin es dynamiquement l ex cution ce qui permet de les modifier sans recompilation 64 V inversion de contr le Inversion of Control ou plus simplement oC en anglais est un patron d architecture commun a plusieurs boites a outils logicielles Son principe est de faire en sorte que le flot d ex cution du code n est plus sous le contr le direct de l application elle m me mais de la bo te outil sous jacente 65 y 5 A gt 6 F F y 4 l injection de d pendances Dependency Injection ou DI en anglais est un m canisme qui permet d impl menter le principe de l inversion de contr le Il consiste cr er dynamiquement injecter les d pendances entre les diff rentes classes
234. ervices taux fixe taux variable d bit imm diat e Des op rations courantes ouverture de compte e Des d lais 3 semaines 3 mois 6 mois 5 ans 25 ans ouverture de compte BNP Paribas taux fixe centre financier Societe Generale site internet Cr dit Mutuel 6 mois Cr dit poneer ba ngue ostale livretA Credit Agricole lt ans d bit imm diat 3 mois ING Direct taux variable assurance vie caisse d pargne service client cr dit immobilier pr t immobilier carte bancaire Figure 47 Extraction terminologique de 3 500 avis publics de consommateurs sur leur banque Nous organisons ensuite ces termes en classes s mantiques Cette tape est actuellement manuelle Nous commen ons essayer d automatiser cette tape avec des approches d analyse distributionnelle comme celle d crite dans Van de Cruys 2010 mais n avons pas r ussi pour l instant le faire d une fa on satisfaisante Le regroupement des termes sous forme de concepts se fait en cr ant des relations e De synonymie pour cr er ou enrichir des synsets pr t immobilier est synonyme de cr dit immobilier par exemple e D hyperonymie hyponymie carte bleue est un type de carte bancaire taux fixe et taux variable sont des taux etc 4 Extension du lexique s mantique standard Le lexique s mantique standard d Antelope compte aujourd hui 73 000 lemmes en fran ais 44 200 proviennent d
235. es ni la fa on de s en servir Cette architecture reste donc un niveau tr s g n rique sur la notion d annotation et ne propose pas de mod le de r f rence destin stocker les r sultats des diff rents types d analyses Plusieurs composants annoteront donc successivement ou en parall le des textes mais ils ne pourront pas facilement partager les interm diaires de calcul d j effectu s s il n y a pas de d finition pr alable d un CAS Common Analysis System standard IBM a cr une impl mentation de r f rence open source d UIMA en C et en Java avant de la transf rer la fondation Apache L ambition d UIMA est de s imposer en tant que standard industriel et norme UIMA a d ailleurs t approuv e par l OASIS en 2009 2 Int gration d Antelope l architecture UIMA Antelope a des objectifs moins universels qu UIMA et ne traite que l analyse de documents textuels orient e vers l extraction de connaissances Le mod le unifi d Antelope est con u sur mesure pour assurer cette t che il ne s agit donc pas d un m tamod le comme c est le cas dans UIMA On peut souligner une similarit d architecture entre UIMA et Antelope dans les deux cas la conception est orient e composants et s appuie sur un mod le de programmation par interfaces avec des structures extensibles Chaumartin et al 2009 pr sente en d tail les modalit s d int gration d Antelope l
236. es A 1 et B 1 ne doivent pas tre synonymes pas plus que les lexies A 2 et B 2 Illustrons cette notion de polys mie r guli re avec des donn es extraites de WordNet Notre hypoth se est qu il s agit forc ment d une autre lexie sinon la d finition serait r cursive Id alement WordNet aurait pu d finir un synset PERSONNE AYANT UNE FONCTION hyponyme de PERSONNE La mule avait ing r 90 boulettes en plastique contenant la drogue Romandie 20 10 2011 II devrait mettre un coup de frein une faille du Code de proc dure des douanes sur la remise en libert des mules DNA 15 10 2011 II s appelle David et c est une mule un passeur de coca ne Le Figaro 21 10 2011 72 e CERISE 1 CHERRY 4 CHERRY RED 1 the red color of cherries e CHESTNUT H4 the brown color of chestnuts Les vocables CHERRY et CHESTNUT pr sentent la m me alternance s mantique entre un FRUIT et une COULEUR respectivement le rouge des cerises et le marron des chataignes On peut donc d ores et d ja dire que ce lien est r gulier et chercher d autres occurrences dans WordNet afin de d terminer son degr de r gularit Barque 2008 Bien entendu ce dernier d pendra du degr de sp cificit de la caract risation s mantique du lien Par exemple le lien entre FRUIT et COULEUR sera associ moins d occurrences que le lien entre une ENTITE et une COULEUR le type ENTITE tant plu
237. es cadres dans FrameNet 84 Interface Web du serveur ResearchCyc ccceceseessssececececessesneaecececseeeseaeseeeeecesseseaeaeeeesens 85 Progression entre 1998 et 2011 des articles d ACL mentionnant machine learning 91 Hi rarchie d entit s nomm es version 6 1 2 propos e par Sekine et al 2002 94 Temps d apprentissage sur le corpus anglais d entit s nomm es 102 F score sur le corpus anglais en fonction de la taille du corpus d apprentissage 103 Temps d apprentissage sur le corpus fran ais d entit s nomm es cccccccceesteeeeeesees 103 F score sur le corpus fran ais en fonction de la taille du corpus d apprentissage 104 Interface graphique de l outil d apprentissage cccccccccessssssseceeccecessessaeeeeeeseessessaees 104 Patron morphosyntaxique de la relation d acquisition d une soci t par une autre 107 Analyse en d pendances d une phrase o on reconna t une acquisition 107 Repr sentation syntaxique de surface d une phrase en anglais 109 Syntaxe de surface au dessus des mots et syntaxe profonde en dessous 110 Extraction des compl ments de temps et de lieu 110 Diagramme des classes utilis es par le composant d extraction d information 112 Interfaces de saisie des crit res de recherche ss 113 Progression entre 2003 et 2011 des articles d ACL mentionnant sen
238. es de presse projet SCRIBO 1 Objectif SCRIBO Semi automatic and Collaborative Retrieval of Information Based on Ontologies est un projet collaboratif de recherche appliqu e en informatique en linguistique et en ing nierie des connaissances qui s est d roul de mi 2008 fin 2010 Ce projet a t labellis par le groupe de travail Logiciel Libre du p le de comp titivit Systematic Son objectif tait la mise au point d algorithmes et d outils collaboratifs libres pour l extraction de connaissances a partir de textes ou images et l annotation semi automatique de documents num riques Les principaux acteurs du projet SCRIBO sont le CEA LIST l INRIA le LRDE EPITA Nuxeo Proxem Tagmatica et XWiki ainsi que l AFP Agence France Presse et Mandriva en tant qu entreprises utilisatrices pilotes L AFP a mis en uvre les composants SCRIBO dans le contexte de l annotation semi automatique de flux d informations multim dia multilingues aussi bien dans des domaines g n raux que th matiques ainsi que dans un contexte de veille Mandriva a exp riment les composants SCRIBO sur deux chantiers d une part pour proc der l annotation automatique de la documentation du syst me d exploitation Mandriva Linux manuels techniques questions r ponses articles de presse interviews etc dans le but d am liorer l acc s a des informations sp cifiques dans diff rentes langues d autre part pour enrichir les
239. es diacritiques Le premier filtre consiste g n ralement passer tous les mots en minuscule et enlever les diacritiques Le r sultat de l application de ce filtre est alors je tenais a feliciter la caissiere celine pour son accueil chaleureux et souriant du samedi 16 fevrier malgre la foule incroyable ce jour la elle a su faire abstraction de cela et garder le sourire et la bonne humeur felicitations L int r t de ce premier traitement de surface est de normaliser les termes et de rendre les recherches subs quentes tol rantes aux petites fautes d accentuation hu tre huitre mang mange L inconv nient est qu une partie de l information dispara t il est difficile de faire ensuite la distinction entre p te et p t par exemple de m me des marques telles que Total ou Orange deviennent indiscernables du nom commun correspondant c Suppression des mots vides Le filtre suivant enl ve notamment les mots grammaticaux mots vides pour reprendre la terminologie de Tesni re 1959 stop words en anglais Sont g n ralement compt s dans cette cat gorie les mots qui ne sont pas des noms verbes adjectifs et adverbes ainsi que les formes des auxiliaires tre et avoir Nous obtenons alors tenais feliciter gt caissiere celine accueil chaleureux souriant samedi fevrier foule incroyable jour su faire abstraction garder sourire bonne humeur _ felicitations L objectif de ce filtre est de dimi
240. es param tres du mod le Ils permettent d attacher plus ou moins d importance certaines caract ristiques ou m me d indiquer que le ph nom ne caract ris par une feature ne doit pas se produire si le poids est n gatif Un CRF est donc d fini par e Un graphe d ind pendances G e Un ensemble de caract ristiques f auxquelles sont associ s des poids La probabilit conditionnelle d une annotation connaissant une observation telle que d finie par un CRF s exprime alors par 1 p y x 0 ar las 2 fie Ver x c k cec o Z x se r crit 2 x D exp gt gt ufero k y cEC 204 Le premier probl me associ aux CRF est celui de l annotation qui consiste rechercher l annotation la plus probable associ e une observation Le second probl me est celui de l inf rence ou de l apprentissage du CRF qui consiste estimer les param tres A qui maximisent la vraisemblance du mod le par rapport un chantillon d observations annot es Ces param tres peuvent tre appris en utilisant une m thode classique de maximisation de la log vraisemblance Les param tres optimaux ne pouvant pas tre calcul s de fa on analytique des m thodes de descente de gradient sont utilis es La plus performante dans ce contexte semble tre l algorithme BFGS m moire limit e L BFGS Dans la litt rature les CRF ont pour l instant t utilis s essentiellement dans le cas de l annotatio
241. es que dans vers alors qu on trouvera plus souvent des titres tels que Madame Monsieur Ministre Professeur pour introduire une entit de type personne De m me on introduit une caract ristique correspondant au mot suivant celui qu on souhaite annoter 3 Casse du mot Les entit s nomm es sont souvent des noms propres et donc des mots commen ant par une majuscule nom de personne ou de lieu il est donc utile de s int resser la casse du mot pour aider la d tection d entit s nomm es 123 Ph nom ne qui se produit lorsqu un mod le statistique d crit des propri t s qui s av rent trop sp cifiques aux exemples d entra nement l apprentissage risque alors d tre bruit et de contenir des erreurs 100 Pour effectuer cette d tection on compare les mots rencontr s des expressions r guli res e A Z a z v rifie qu un mot commence par une majuscule e a z v rifie qu un mot est enti rement en minuscules en effet il est aussi important de cr er des caract ristiques qui vont indiquer qu un mot n est pas une entit nomm e e 0 9 v rifie qu un mot est uniquement compos de chiffres e A 7Z v rifie qu un mot est enti rement en majuscules c est utile pour les sigles notons que dans les d p ches de presse le premier mot est enti rement en majuscules et correspond au lieu sur lequel po
242. es ressources pour le fran ais ont t fournies par la soci t MemoData sur la base de son Dictionnaire Int gral 54 o WOLF WOLF Sagot Fi er 2008 est un WordNet libre du fran ais construit partir du Princeton WordNet et de diverses ressources multilingues Les lex mes polys miques ont t trait s par alignement d un corpus parall le en cinq langues le lexique multilingue extrait a t d sambigu s s mantiquement l aide des wordnets des langues concern es Une approche bilingue obtenue partir de la Wikip dia et de th saurus a permis de construire de nouvelles entr es gr ce aux mots monos miques 2 Gloses d sambiguis es a eXtended WordNet Men l Universit de Dallas eXtended WordNet ou XWN Mihalcea Moldovan 2001 enrichit WordNet 2 0 en associant chaque synset une analyse syntaxique de sa d finition la d sambiguisation lexicale de chaque mot de la d finition ainsi qu une forme logique Par exemple la d finition du nom cousin 1 the child of your aunt or uncle l enfant de votre tante ou de votre oncle a pour analyse syntaxique TOP S NP NN cousin VP VBZ is NP NP DT the NN child PP IN of NP PRPS your NN aunt CC or NN uncle Ainsi que la forme logique suivante cousin NN x1 gt child NN x1 of IN x1 x4 aunt NN x2 or CC x4 x2 x3 uncle NN x3 Les informations pr sentes dans XWN sont de qualit go
243. es technologies JAVA J2EE NET allie l assistance la MOA la conception le d veloppement et le d ploiement des Syst mes d Informations dans les domaines de l industrie de la distribution de la banque de l ass rance du service public et des t l communications Nous avons su gr ce l expertise de nos consultants notre proximit avec les clients et les collaborateurs d velopper notre activit et nous constituer un large portefeuille de diente Aujourd hui nous recherchons pour l un de nos clients voluant dans le secteur de la distribution un chef de projet avec un profil technique Comp tences techniques Ma trise JBoss 4 EJB3 JPA Flex Eclipse 3 FlexBuilder UML classe activit use LT 346 autres AN CUTTESTE JAA NIIET le 4 men Figure 57 Interface d Ubiq permettant la recherche dans les documents RH 27247606 Conseil en syst mes et logiciels informatiques Informatique de gestion Analyste Programmeur Cobol MVS 21m 15 Soci t de service informatique sp cialis e en NTIC D cisionnel et Grands Syst mes recrute pour accompagner son fort d veloppement Dans le cadre de nos projets r alis s en r gie et au forfait vous serez charg de r aliser des tudes techniques et fonctionnelles de d veloppement d laborer les plans d int gration et de r diger des documentations techniques Rattach un Chef de Projet vous int grez une quipe chez l un de nos clients et participe
244. esseceesesseeeeeees 139 Reconnaissance d entit s nomm es apr s g n ralisation par apprentissage 139 Processus de l analyse s mantique effectu e par Ubiq 142 Capture d cran de l analyse d un verbatim relatif au monde bancaire 144 Capture d cran de l analyse d un verbatim relatif la grande distribution 144 Vision de synth se de plus de 10 000 documents sur deux semaines 145 Analyse multidimensionnelle permettant d effectuer un zoom jusqu au verbatim 145 Tableaux de bord synth tiques d Ubiq ccccccccssscccsessececeessececeeeececsessececeesaeeeesesaeeeeeeaaes 146 Interface d Ubiq permettant la recherche dans les documents RH 147 Un exemple d analyse de CV avec les diff rentes informations extraites 147 Exemples de d tection de rattachement hi rarchique dans des offres d emploi 148 Deux rattachements pr positionnels possibles sur une phrase de type V NP PP 162 L identification d expressions multi mots permet de lever des ambiguit s syntaxiques 163 Exemple d interface syntaxe s mantique en GUP cccccccsssceceessececeeseceeeesesesessseeeeeees 165 R gle extraite concernant le temps verbal 166 R gle extraite concernant le progressif 166 R gle lexicale extraite partir du cadre give 13 1 de VerbNet cccccccccceesseceeeesteeeeeees 167 Extraction de la r gle pour
245. est des performances d effectuer simplement un choix des caract ristiques utiliser sans avoir a modifier le code source Au lancement du programme l initialisation du mod le de CRF cr e tous les objets correspondant aux g n rateurs de caract ristiques gr ce cette liste et aux param tres choisis par l utilisateur EP NER CRFLib Base directory c AFP EAAForNER Training directory 2007 01 01 Model directory Out Test input dir 2007 01 02 Test output dir Out 2007 01 02 Select Features Features to be used WordFeatures Prev PrefixFeatures 2 2 Selected Feature options CaseFeatures 1 EdgeHistFeatures 2 Features EdgeHistFeatures 2 WordFeatures PrevWordFeatures UnknownFeatures Prev PrefixFeatures 2 2 Next PrefixFeatures 2 2 Prev SuffixFeatures 2 2 Next SuffixFeatures 2 2 CaseFeatures Clear All Used Features Remove this feature Figure 29 Interface graphique de l outil d apprentissage g R sultats L impl mentation de notre d tecteur d entit s nomm es utilise une biblioth que de code CRF et permet de d finir des caract ristiques sp cifiques un projet venant ventuellement compl ter celles d crites plus haut en sous section c Les caract ristiques mises en place permettent l obtention de F scores coh rents par rapport ceux obtenus avec le Stanford NER 104 Notre premi re mise en uvre effective a concer
246. est l Agent de ACHETER mais le Destinataire de VENDRE tandis que l Agent de VENDRE est le Vendeur 131 Cf par exemple Mel uk 1988a D autres entit s sont int ressantes d tecter dans un tel contexte comme le Montant de l acquisition si cette information apparait dans le texte 132 106 Nos composants d tiquetage de r les travaillent sur la sortie d un analyseur syntaxique en d pendances Si les deux types de calculs utilisent des ressources lexico s mantiques tr s diff rentes le m canisme de calcul utilis dans les deux cas est le m me la recherche de sous graphe dans le graphe de d pendances en utilisant plusieurs patrons de recherche nous abordons ces points dans les deux sous sections suivantes Ce m canisme peut tre utilis sans changement d algorithme aussi bien sur la RSyntS que la RSyntP Dans ce dernier cas le rappel est en principe am lior Nous pr senterons notre approche de l analyse syntaxique profonde en section 2 page 108 b Recherche de sous graphe dans un graphe Nos composants d tiquetage de r les th matiques ou s mantiques sont impl ment s d une fa on similaire Leur algorithme consiste essentiellement chercher un sous graphe dans un graphe en v rifiant ventuellement des contraintes de s lection Le sous graphe correspond au patron morphosyntaxique de la relation que nous souhaitons reconna tre au sein du graphe par exemple la figure 30 correspond
247. et une correspondance partielle vers la Wikip dia p 64 L ensemble constitue un lexique s mantique homog ne utilis pour la d sambiguisation la r solution d anaphores et l ISS Notons que l interop rabilit entre ces diff rentes ressources lexico s mantiques et WordNet est permise par la pr sence d un identifiant unique pour chaque synset Ces ressources l exception de la correspondance vers la Wikip dia fournissent explicitement l information de tra abilit vers un synset et sont donc homog nes avec WordNet Leur int gration n cessite un travail d ing nierie mais ne soul ve pas de difficult conceptuelle En l absence d une telle information l int gration de la ressource WordNet se heurte un probl me d h t rog n it conceptuelle Il faut alors tablir une correspondance entre chaque entr e d une telle ressource et un synset c est ce que nous avons tabli dans le cas de la Wikip dia voir le chapitre IV C Combin es ces ressources fournissent un lexique pr t l emploi pour des applications de TAL telles que la recherche d information l inf rence pour la compr hension automatique de textes la d sambiguisation lexicale ou la r solution d anaphores Le fait de mettre en commun plusieurs ressources large couverture permet d esp rer des progr s dans les applications de TAL Par exemple Shi Mihalcea 2005 revendique la construction d un analyseur s mantique robust
248. eur propre associ a la seconde plus grande valeur propre de la matrice Laplacienne du graphe Les autres tapes permettant d viter de calculer cette matrice elle m me Ensuite l algorithme de fusion reprend l arbre g n r et regroupe les feuilles de ce dernier pour avoir un regroupement optimal dans l arbre Algorithme de l tape de fusion Entr e Un arbre avec les lignes de comme feuilles Sortie Un ensemble de regroupement des lignes de A 1 Pour chaque feuille de l arbre cr un regroupement C 2 Pour chaque n ud on calcule g C o C C LC et gl C g C avec C et C les regroupements optimaux dans l arbre pour les fils gauche et droite du n ud n et g tant une fonction valuant la qualit des regroupements Sa S 1 A4 4 A DS AA o p est la ii ligne de A i u veC ueC v C 3 Sig C gt g C g C4 alors les regroupements C et C sont fusionn s sinon on s arr te 202 Pour l impl mentation de l algorithme de fusion nous utilisons une structure permettant de garder les valeurs de la fonction g ainsi que de ses composantes pour chaque n ud Les formules suivantes sont utilis es pour calculer g c de l tape 2 24 Ay DA A DA A 2 DA UC VEC ul VEC Ul Vy Ce qui revient la formule suivante si on note D gt AA ueC vec B B PB 2 dif De la m me mani re DiA A4 D1A A 21A4 4 D AA UNG UV uvea UC Vy Ce qu
249. eurs millions de documents de nouveaux besoins sont apparus pouvoir traiter un corpus volumineux sur une ferme de serveurs traiter plusieurs corpus simultan ment exploiter la puissance et la souplesse du cloud computing 2 Les liens hypertexte donnent un indice important de d sambiguisation lexicale pour les entit s nomm es dans les articles d encyclop die par exemple L informatique dans le nuage consiste d porter sur des serveurs distants des stockages et des traitements informatiques traditionnellement localis s sur des serveurs locaux ou sur le poste de l utilisateur L acc s a des ressources virtualis es et mutualis es s effectue la demande via Internet et en libre service L int r t pratique est par exemple de louer plusieurs dizaines de machines pour une dur e limit e sans avoir les acheter afin d effectuer ponctuellement des calculs lourds Le choix de Proxem s est port en l occurrence sur Azure la plate forme publique de cloud computing de Microsoft 38 En 2011 l quipe Proxem a fait voluer Antelope pour permettre ses composants de s ex cuter sur des environnements diff rents allant du poste de d veloppeur au cloud computing en passant par la ferme de serveurs Le fait d utiliser un mod le de programmation par interfaces a grandement facilit cette transition Antelope s appuye d sormais sur les principes d inversion de contr le et d injection de d pendances Fowl
250. eut tre soit une donn e soit une autre ressource Le sujet et l objet dans le cas o l objet est une ressource peuvent tre identifi s par une URI ou tre des n uds anonymes Le pr dicat est n cessairement identifi par une URI 2205 e Un document RDF ainsi form correspond a un graphe orient tiquet Chaque triplet correspond alors un arc orient dont le label est le pr dicat le n ud source est le sujet et le n ud cible est l objet 203 ds La notion de ressource s est progressivement tendue de son sens original de document Web page HTML des sens plus g n raux et plus abstraits Dans les langages d ontologie ou le langage SKOS les ressources d crites sont des concepts comme des classes des propri t s 2 On peut comprendre ces triplets de plusieurs fa ons quivalentes sujet pr dicat objet ressource propri t valeur sujet verbe compl ment 25 Notons que cette repr sentation de l information sous forme de triplets n est pas une nouveaut en tant que telle un atelier de g nie logiciel tel qu IEW nformation Engineering Workbench utilisait une telle repr sentation d s les ann es 1990 pour proposer un m tamod le souple et extensible 189 Pr dicat La s mantique d un document RDF peut tre exprim e en logique du premier ordre sujet pr dicat objet pr dicat objet sujet Partant du principe de base tout est ressource
251. exicale D Utilisation dans le cadre de nos travaux WordNet est notre point de d part pour alimenter un lexique utilisable par la machine Ce lexique est utilis e D une part pour d terminer les diff rents sens d un mot donn e D autre part pour rechercher quels sens d un nom v rifient des contraintes de s lection par exemple les sens du nom chat correspondent un lt animal gt m cosyst me de WordNet Plusieurs autres ressources linguistiques large couverture constitu es manuellement ou automatiquement se rattachent WordNet Des programmes issus du monde de l intelligence artificielle ont galement tabli des passerelles avec WordNet L ensemble constitue un cosyst me 52 complet couvrant des aspects lexicaux syntaxiques et s mantiques La figure 15 pr sente quelques unes de ces ressources On pourrait y ajouter les ressources que nous avons produites par exemple les relations de polys mie r guli re que nous avons extraites de WordNet voir page 71 Al La 5 WOLF 7 ST fe AE r LS pd Wikipedia ea ni VerbNet gt x eXtended WordNet gt gt Senti WordNet E WordNet Affect LZ lt WordNet Domains Figure 15 Liste non exhaustive de ressources disposant d un lien vers WordNet Antelope combine WordNet avec WOLF p 55 eXtended WordNet p 55 VerbNet voir p 56 WordNet Domains p 60 WordNet Affect p 61 SentiWordNet p 61 ontologie SUMO p 62
252. faitement ces probl matiques La recherche en Traitement Automatique des Langues fait de plus en plus souvent appel des infrastructures logicielles complexes Faute de mod lisation int grative du langage on en produit des mod lisations r gionales partielles et une plate forme est le moyen de les articuler entre elles de les faire coop rer de ce fait il est souvent n cessaire d assembler au sein d un m me processus des traitements et des ressources de natures et de provenances diverses ce qui pose d importants probl mes d interop rabilit D un autre c t la complexit croissante des mod les linguistiques demande des moyens de formalisation sophistiqu s tandis que la g n ralisation d une approche exp rimentale sur des corpus larges et de formats vari s impose galement des contraintes fortes sur les outils mis en uvre Nous avons cr Antelope une plate forme industrielle de traitement du langage pour apporter des r ponses concr tes ces probl matiques faciliter la r solution des probl mes purement informatiques aider ma triser une complexit croissante et am liorer la productivit du d veloppement en TAL Nous allons pr sent aborder plus pr cis ment les probl mes que nous voulons r soudre notamment les enjeux de la compr hension des textes B Vers une meilleure compr hension des textes La compr hension de textes est un domaine qui a p riodiquement soulev
253. finalis e d ici courant 2013 et s accompagner de l int gration d analyseurs syntaxiques de surface pour ces langues 2 D sambiguisation et ISS Nos travaux en cours portent sur l am lioration de l ISS actuelle Pour nous rapprocher progressivement de la repr sentation s mantique id ale que nous souhaitons obtenir nous voulons am liorer les performances de l ISS travers les actions suivantes e Exploiter les n grammes de Google Cf VII B 6 b dans les t ches de d sambiguisation lexicale et syntaxique ainsi que pour la r solution d anaphores e introduire de nouvelles heuristiques de d sambiguisation utilisant un apprentissage e Prendre en compte simultan ment plusieurs types d ambiguit s e Augmenter l interaction et le partage de r sultats entre composants de traitement pour arriver un meilleur syst me de coop ration entre agents linguistiques e Approfondir le mod le th orique de r gles de r criture de graphes de l ISS e Pr voir un param trage des r gles de l ISS qui permette d int grer de nouveaux analyseurs moindre co t comme pr sent au chapitre VII C e Continuer d tendre le lexique s mantique en y int grant de nouvelles ressources e Renforcer dans la plate forme les passerelles entre TAL et intelligence artificielle une prochaine tape consiste int grer les ressources CYC et ConceptNet voqu es en IV D 4 3 Et apr s Se rapprocher de notre objectif rendre le
254. fonctionnalit s du bureau s mantique KDE 2 Reconnaissance d entit s nomm es SCRIBO tait subdivis en plusieurs sous projets L un d eux pilot par Proxem consistait en l acquisition de connaissances depuis des documents textuels L objectif du sous projet tait notamment la d tection des personnes lieux organisations et montants mon taires cit s dans les d p ches de l AFP a Compatibilit des annotations avec UIMA Le projet SCRIBO a permis d tendre la plate forme Antelope d une part en cr ant une premi re impl mentation de la reconnaissance d entit s nomm es et d autre part en rendant ses r sultats conformes au standard UIMA Cf chapitre III H page 35 En effet comme plusieurs diteurs de composants de TAL participaient au projet cette architecture a t retenue pour partager les annotations provenant de diff rents composants La fusion de ces diff rents jeux d annotations ventuellement en contradiction relevait de la responsabilit de AFP b R sultats En utilisant la convention IOB Cf V B 5 b on cherche attribuer les tiquettes B_ Personne Personne B Lieu Lieu B_ Organisation Organisation B Monnaie Monnaie et O Les caract ristiques prises en compte sont la forme de base du mot sa partie du discours ainsi que la pr sence de majuscules et de nombres Le corpus de test tait constitu de 130 articles Nous avons men deux exp riences d apprentissage en u
255. ge 199 4 SPARQL De nombreux langages de requ te destin s interroger les graphes RDF ont t d velopp s Le langage SPARQL d fini par le W3C est devenu un standard dans ce domaine SPARQL d finit la syntaxe et la s mantique n cessaires l expression de requ tes sur une base de donn es de type RDF et la forme possible des r sultats SPARQL est adapt la structure sp cifique des graphes RDF et s appuie sur les triplets qui les 208 constituent En cela il est diff rent du classique SQL il s en inspire toutefois clairement dans sa syntaxe et ses fonctionnalit s SPARQL permet de modifier les donn es requ tes CONSTRUCT Les requ tes d extraction de donn es SELECT permettent d extraire du graphe RDF un sous graphe correspondant un ensemble de ressources v rifiant les conditions d finies dans une clause WHERE Il a donc aussi des ressemblances avec le langage PROLOG 5 RIF SWRL RIF Rule Interchange Format est un format d change pour les moteurs d inf rences du Web s mantique permettant de convertir des r gles crites dans des formalismes diff rents SWRL Semantic Web Rule Language est une proposition de langage de r gles combinant des l ments d OWL et de RuleML Datalog SWRL permet d exprimer en XML une r gle telle que si on a un parent qui a un fr re alors on a un oncle hasParent x1 x2 amp amp hasBrother x2 x3
256. ger Verlag Volume 6119 2010 pp 283 290 cr NILES l PEASE A 2003 Linking Lexicons and Ontologies Mapping WordNet to the Suggested Upper Merged Ontology Actes de International Conference on Information and Knowledge Engineering IKE 03 Las Vegas Nevada OSINSKI S STEFANOWSKI J WEISS D 2004 Lingo Search Results Clustering Algorithm Based on Singular Value Decomposition Advances in Soft Computing Intelligent Information Processing and Web Mining Actes de International IIS IIPWM 04 Conference 359 368 CLUSTERING OSTLER N ATKINS B 1991 Predictable Meaning Shift Some Linguistic Properties of Lexical Implication Rules In Pustejovsky J Bergler S eds Lexical Semantics and Knowledge Representation First SIGLEX Workshop Proceedings Berlin Springer Verlag 180 PEDERSEN T PATWARDHAN S MICHELIZZI J 2004 WordNet Similarity Measuring the Relatedness of Concepts Actes de Nineteenth National Conference on Artificial Intelligence AAAI 04 San Jose CA PETERS W 2006 In Search for More Knowledge Regular Polysemy and Knowledge Acquisition Actes de GWC POIBEAU T 2003 Extraction automatique d information Du texte brut au web s mantique Paris Lavoisier IE SW POLANYI L ZAENEN A 2006 Contextual Valence Shifters In J G Shanahan Y Qu and J Wiebe eds Computing Attitude and Affect in Text Theory and Application Springer Verlag PORTER M F 1980 An algorith
257. gme nominal et un syntagme pr positionnel se suivent la phrase elle a vu l homme avec des jumelles peut tre interpr t e comme elle a vu l homme en utilisant des jumelles ou elle a vu un homme qui avait des jumelles Nous proposons en section 6 ci dessous une heuristique pour r soudre les ambigu t s de ce type f Ant c dents d une anaphore Le composant de r solution d anaphores d Antelope g re les ambiguit s de la fa on suivante chaque anaphore pronom non pl onastique ou groupe nominal d termin a une liste d ant c dents possibles avec un accord en genre et nombre si c est pertinent dans la langue consid r e A chaque ant c dent est associ un score calcul par plusieurs heuristiques une autre information qui peut tre utilis e pour choisir parmi ces ant c dents est le nombre de mots s parant l anaphore et l ant c dent L extraction des cha nes de cor f rences se fait ensuite par calcul des composantes connexes du graphe des anaphores une difficult non g r e actuellement consiste v rifier la coh rence globale de chaque cha ne de cor f rence c est dire de s assurer qu on n introduit pas de contradiction g Cadre de sous cat gorisation L tiquetage des r les th matiques Cf section V C 3 page 110 peut aussi d boucher sur l identification de diff rents cadres de sous cat gorisation Par exemple dans Brutus killed Caesar l uti
258. gre et il existe bien une m taphore entre les deux lexies bas e sur la f rocit de l animal n anmoins il ne le retient pas car les deux d finitions ne partagent aucun mot e TIGER 1 a fierce or audacious person e TIGER 2 large feline of forests in Asia having a tawny coat with black stripes c R sultats Nous proposons ici une classification non exhaustive des relations de m tonymie et de m taphore sur la base des patrons identifi s pendant l tude Dans cette classification nous indiquons entre parenth ses deux nombres occurrences correctes nombre total d occurrences d tect es suivis d exemples significatifs choisis pour illustrer le caract re r gulier de la relation 1 Classification des relations de m tonymie L2 repr sente L1 L_ Carte jouer repr sente Figure ou Nombre entier 5 6 QUEEN 7 KINGH9 TEN 2 NINE 3 L2 est caus par L1 D pense caus e par Action 27 27 ADMISSION 3 ANCHORAGE 2 Maladie caus e par Organisme 13 17 ERGOT 1 HERPES 1 L2 est produit par L1 Son produit par Instrument Mouvement ou Appareil 15 15 DRUM 2 WHISTLE 1 BELL 3 uvre crite par Personne Livre crit par Auteur pas d exemple dans WordNet ce pourrait tre Shakespeare L_ Livre crit par Proph te 15 15 JoB 12 JEREMIAH 2 Musique crite par Compositeur 9 9 MOZART 2 WAGNER 3 L2 produit par Plante ou Arbre Fruit produit par Arbre ORANGE 1 CITRUS 1 Fleur produite par
259. h orie couvrant l intervalle de temps 1790 1800 l assertion HSCAPITALCITY SUNITEDSTATES HS PHILADELPHIA sera vraie et dans une micro th orie couvrant le si cle HSCAPITALCITY SUNITEDSTATES SWASHINGTON sera galement vraie ResearchCyc 1 0 est la version r serv e au monde de la recherche Elle compte 300 000 concepts et 3 000 000 d assertions faits et r gles utilisant 26 000 relations Des modules en langage naturel permettent de poser des questions et de rentrer de nouveaux faits sans avoir besoin de connaitre 85 CycL La version OpenCyc 1 0 est librement accessible mais ne contient qu un sous ensemble de ces r gles et assertions Les deux versions contiennent ce jour une correspondance partielle entre les concepts de CYC et les synsets de WordNet 2 0 Approximativement 11 300 synsets 8800 noms 2110 verbes 330 adjectifs et 35 adverbes sont li s aux concepts de CYC b ConceptNet De m me que CYC ConceptNet Liu Singh 2004 est une base de connaissances cherchant mod liser le sens commun sous forme d un vaste r seau s mantique ConceptNet propose aussi un ensemble d outils permettant d analyser du texte pour en extraire des th matiques ou y trouver des analogies Le r seau s mantique de ConceptNet est un graphe orient dont les n uds sont des concepts et dont les arcs sont des assertions du sens commun portant sur ces concepts En 2004 il comptait 1 6 millions d assertions couvrant
260. haque groupe nominal On examine ensuite les num rations ayant une longueur d au moins trois groupes nominaux avec au moins deux groupes nominaux reconnus en tant qu entit s nomm es et au moins un groupe nominal non reconnu en tant qu entit nomm e Le syst me peut alors faire l hypoth se qu un groupe nominal non reconnu est un bon candidat pour devenir une nouvelle entit nomm e ll reste associer un type au nouveau candidat avec deux cas de figure e Si les autres entit s reconnues dans l num ration partagent le m me type alors ce dernier convient pour le nouveau candidat Soit la phrase suivante tir e d une offre d emploi V ritable r f rent technique vous tes expert des technologies CISCO vous faites tat de certifications CCNA CCNP CCSP CCIE La reconnaissance initiale d entit s nomm es avait reconnu CCSP et CCIE soulign es en rouge comme tant des instances de CERTIFICATION INFORMATIQUE Le d tecteur d num rations a trouv une num ration de quatre groupes nominaux dont deux connus il peut donc proposer de typer aussi CCNA et CCNP en tant que CERTIFICATION INFORMATIQUE e En revanche si les entit s reconnues ont des types diff rents on attribue l entit nomm e candidate leur plus proche anc tre commun dans la hi rarchie des types Prenons l exemple Habitu travailler avec l outil informatique notamment AutoCAD FreeCAD MS Project La reconnaissance d
261. hasUncle x1l x3 C OWL et les logiques de description Bas sur une syntaxe RDF le langage OWL Web Ontology Language fournit les moyens pour d finir des ontologies structur es c est dire des terminologies concepts et propri t s d crivant des domaines concrets instance de concepts OWL tend RDFS pour permettre l expression de relations complexes entre diff rentes classes RDFS ainsi que l expression de contraintes plus pr cises sur des classes et des propri t s sp cifiques Cela permet par exemple de e Limiter les propri t s d une classe en termes de cardinalit et de type 2 Structured Query Language langage de requ te utilis dans les bases de donn es relationnelles 192 e Induire que les valeurs d une propri t sont des membres d une classe particuli re ou non e D terminer si tous les membres d une classe auront une propri t particuli re ou seulement certains d entre eux e S parer des relations de types un a un de relations de type plusieurs un ou un a plusieurs pour repr senter des cl s trang res d une base de donn es dans une ontologie e Exprimer des relations entre des classes d finies dans diff rents documents sur le Web e Construire de nouvelles classes en dehors de toute union intersection et compl ment avec d autres classes e Contraindre un domaine des combinaisons classe propri t sp cifiques L axiomatique d OWL se base sur
262. hen 8 P P u 9 Rnew RU ui 10 Pree PON u 11 Xnew X NN u i l 2 IK_x Rass Phew Xnew 13 X XU u Figure 43 Algorithme de Bron Kerbosch 128 L avantage du regroupement par cliques est de permettre d avoir simplement un regroupement flou o un l ment peut appartenir plusieurs classes Ceci est int ressant pour le lexique s mantique puisqu un sens donn peut tre regroup dans plusieurs sens macroscopiques Dans ce contexte notre impl mentation est raisonnablement rapide quelques millisecondes pour trouver les cliques dans un graphe d une centaine d l ments b Regroupement spectral L avantage du regroupement spectral est de dispenser l utilisateur de devoir fournir un seuil a priori En effet ces seuils sont parfois difficiles trouver pour avoir un bon regroupement L algorithme de regroupement spectral proc de en deux phases La premi re phase division consiste cr er un regroupement hi rarchique en bipartitionnant r cursivement le graphe r sultant de la matrice de similarit La seconde phase fusion cherche le meilleur regroupement arborescent suite la phase de division La figure 44 illustre le principe de l algorithme Son fonctionnement pr cis est d taill en annexe page 202 le point tr s int ressant de l algorithme est qu il tient compte du fait que la matrice est creuse pour optimiser les calculs Figure 44 Exemple simplifi de mise en uvre de
263. i pourraient exister comme celle entre SOAP 1 savon et BATH 2 bain ou celle entre KITTEN 1 chaton et CAT 1 chat sont absentes de WordNet D Correspondance entre diff rentes versions Il existe une correspondance des identifiants de synsets entre versions de WordNet Elle est indispensable pour assurer une tracabilit avec la version la plus r cente En effet plusieurs ressources compl mentaires a WordNet et dignes d int r t ont t d finies pour d anciennes versions 1 7 ou 2 0 Curieusement le site Web de Princeton n offre de correspondance officielle que pour les noms et les verbes Heureusement d autres sites en proposent galement construites automatiquement pour les adjectifs et adverbes k Corpus tiquet s par rapport a WordNet A notre connaissance peu de corpus sont tiquet s manuellement par rapport aux sens de WordNet Nous pouvons citer le corpus SemCor un sous ensemble du corpus Brown compos de 352 documents comptant 2000 mots chacun approximativement Plus pr cis ment le corpus SemCor compte au total 676546 mots hors ponctuations 234 135 noms verbes adjectifs et adverbes ont fait l objet d une d sambiguisation lexicale manuelle par rapport WordNet 1 6 puis d une correspondance automatique vers les versions suivantes de WordNet jusqu la 2 1 Ce corpus permet par exemple un d but d apprentissage automatique pour des taches de d sambiguisation l
264. i revient la formule suivante si on note S 1 A 4 uve a a a di Fydi f Ainsi le calcul de g est plus efficace et revient au calcul de diff qui correspond a un seul l ment pour deux feuilles C Les CRF 1 Pr sentation Les CRF sont des mod les graphiques non dirig s ayant pour objectif de d finir une distribution de probabilit s sur les annotations Y les classes d entit s nomm es tant donn e une observation X la s quence de mots Ils sont d finis comme suit Soit G V E un graphe non dirig appel graphe d ind pendances o V est l ensemble des n uds et E l ensemble des arcs et X et Y deux champs al atoires d crivant respectivement l observation et son annotation de sorte que pour chaque n ud v pris dans V il existe une variable al atoire Y dans Y On dit que X Y est un champ conditionnel al atoire si chaque variable al atoire Y respecte la propri t de Markov suivante vv p IX Yw w v pOIX Yw V W E E C est dire que chaque variable al atoire Y d pend uniquement de X et de ses voisins dans le graphe d ind pendances D apr s le th or me de Hammersley Clifford Hammersley Clifford 1971 cette condition d ind pendance permet d crire la probabilit d une annotation y tant donn e une observation x comme un produit de fonctions de potentiel W y x sur tous les sous graphes compl tement connect s i e les cliques du graphe d ind
265. ifique et technologique a lever usuellement qualifi de knowledge acquisition bottleneck Disposer de ressources a large couverture pr tes l emploi peut donc s av rer int ressant nous allons en pr senter deux ici l une constitu e manuellement CYC et l autre obtenue par analyse d un corpus de phrases d crivant des faits ConceptNet a CYC CYC Lenat 1995 est un projet lanc en 1984 par la soci t Cycorp CYC vise regrouper une ontologie et une base de donn es compl tes sur le sens commun pour permettre des applications d intelligence artificielle d effectuer des raisonnements similaires ceux des humains Cycorp revendiquait d j en 1995 un investissement de plus de 100 ann es homme sur ce projet sous forme de saisie de faits et de d finition d une axiomatique Des fragments de connaissances typiques sont par exemple les chats ont quatre pattes Paris est la capitale de la France Elles contiennent des termes PARIS FRANCE CHAT et des assertions 84 qui relient ces termes entre eux Gr ce au moteur d inf rence fourni avec la base CYC il est possible d obtenir une r ponse une question comme Quelle est la capitale de la France La base CYC contient des millions d assertions faits et r gles rentr es la main Elles sont crites en langage CycL qui est un langage logique avec une syntaxe proche de celle de LISP La figure 22 montre par exemple la description
266. illions de mots e Simple mettre en uvre elle est livr e avec un programme d installation et une documentation compl te tutoriel exemples de code fichier d aide Un informaticien non linguiste peut int grer des traitements syntaxiques et s mantiques complexes au sein d un progiciel ou d un syst me d information d entreprise e Extensible un informaticien linguiste peut facilement impl menter des heuristiques sp cifiques et tendre le lexique s mantique avec ses propres donn es e Compl te les composants livr s en standard couvrent plusieurs des principales t ches classiques de TAL e Solide elle a pour base th orique la TST e Riche la plate forme int gre un grand nombre de ressources libres proposant ainsi en standard un lexique s mantique de plus de 400 000 entr es Nous avons aussi d velopp des ressources propres la plate forme par exemple les relations de polys mie r guli re Toutes ces ressources sont interop rables ce qui est le propre d une plate forme nous les avons converties dans un m me format homog ne La plate forme est r guli rement mise jour et nous pouvons int grer les mises jour des ressources externes tout en conservant les corrections et modifications de format que nous avons effectu es dessus La conception de la plate forme est all e de pair avec une r flexion m thodologique sur l acquisition semi supervis e de connaissances Cette d marche permet de cons
267. inctement des ressources que nous pr voyons d int grer dans le futur en indiquant quel en serait l int r t pour les traitements de la plate forme 41 1 Dictionnaires lexiques taxonomies et ontologies a Diversit des informations repr sent es Les donn es lexicales prennent des formes tr s vari es allant de la simple liste de mots au lexique s mantique en passant par le th saurus Elles concernent traditionnellement des aspects phonologiques lexicaux d finitoires morphologiques pragmatiques encyclop diques ou s mantiques d autres types d informations sont apparues r cemment en TAL par exemple les motions ou sentiments associ s aux sens des mots En plus des ressources linguistiques d crivant des mots et les relations qu ils entretiennent les encyclop dies lectroniques proposent des connaissances g n rales sur le monde g n ralement sans formalisme structur Les taxonomies organisent ces connaissances en arborescence le plus souvent au sein d un domaine restreint dans ces arbres les n uds proches de la racine repr sentent les concepts les plus g n raux et les feuilles les concepts les plus sp cifiques Les ontologies enrichissent les taxonomies avec une axiomatique c est dire un ensemble de relations et de formules logiques qui d crivent les contraintes existant entre les concepts L objectif premier d une ontologie est donc de mod liser un ensemble de connaissances dans un domaine
268. ing 2 dh Mt BaseKB successorInPositiondh definingMt 9 HistoricalPeopleDataMt Synonymousextemal oncept P monymousEstemalConc t Mt HistoricalPeopleDataMt gt Y Arg2 19 ethnicity 9 CensusGroupOfCaucasians Mt EnglishMt informationArtifactAuthora familyName Lincoln lifetimeOf genStringAssertion nameString AbrahamLincoin Abraham Lincoln monumentHonorsi E D Me nameString AbrahamLincoin Abe Lincoln a givenNames Abe 9 Abraham movieDirector nameString Abraham Lincoln Abe Lincoln Mt HistoricalPeopleDataMt successorInPosition Abrahaml incoln JamesBuchanan President HeadOfGovernmentOrHeadOfState UnitedStatesOfAmerica Mt DOC RE ASE oreo synonymousExternalConcept AbrahamLincoln WordNet Version2 0 N10408858 100 Intranet local Figure 22 Interface Web du serveur ResearchCyc La base de connaissance est divis e en plusieurs milliers de micro th ories Mt collections de concepts et faits concernant typiquement un domaine particulier de la connaissance Une micro th orie est donc un ensemble d assertions qui partagent le m me point de vue un domaine particulier un certain niveau de d tail un certain intervalle de temps etc la diff rence de la base de connaissance dans son ensemble chaque micro th orie doit tre exempte de contradictions Par exemple Philadelphie tait la capitale des Etats Unis de 1790 1800 Dans une micro t
269. ington captured Lee s troops during the Battle of Gettysburg le g n ral qui Lincoln a donn tous les pouvoirs a Washington a captur les troupes de Lee pendant la bataille de Gettysburg son analyse syntaxique de surface est repr sent e figure 32 ie T3 ee en ire generat t0 aaaea TS TE a zen ET TC lt det dep gt lt nsubj jo SF ssessive gt lt det dobj gt lt poss pobj gt lt rel prep gt dobj gt remod gt pp ES Figure 32 Repr sentation syntaxique de surface d une phrase en anglais a Calcul des d pendances syntaxiques profondes Pour calculer les d pendances en syntaxe profonde nous partons d une copie de l arbre de d pendances en syntaxe de surface Nous y appliquons ensuite des restructurations successives en cherchant y reconna tre une liste finie de ph nom nes linguistiques correspondant aux formes verbales passives aux relatives aux subordonn es Nous appliquons des r gles de r criture pour modifier cr er ou supprimer des d pendances Les paires de d pendances introduisant des groupes pr positionnels verbe vers pr position pr position vers t te du groupe nominal sont fusionn es pour que le verbe pointe directement vers la t te nominale du groupe pr positionnel en m morisant la pr position r gime La figure 33 montre l analyse de la phrase d exemple avec les d pendances en syntaxe de surface au dessus des mots et en sy
270. inguistiques et des composants d analyse syntaxique et s mantique Nous pr sentons bri vement les cat gories de composants de traitement linguistique permettant d effectuer les transitions entre niveaux de repr sentation ainsi que la conception des changes au sein de la plate forme La plate forme propose un mod le de donn es linguistiques unifi qui permet aux diff rentes t ches de partager leurs r sultats Ce mod le unifie les diff rents niveaux de repr sentation linguistique et autorise pr server autant que possible les ambigu t s au niveau lexical syntaxique et s mantique L architecture technique est aussi abord e nous pr sentons la conception informatique de la plate forme en insistant sur des bonnes pratiques de g nie logiciel destin es faciliter la modularit du logiciel et la r utilisation de composants Cette partie expose aussi quelques caract ristiques d Antelope capacit de passage l chelle pr sence d un m canisme d extensibilit au niveau des principaux objets int gration de composants externes crits en divers langages Enfin cette partie pr sente des plates formes de TAL de r f rence en positionnant Antelope par rapport celles ci Soulignons que notre plate forme est compatible avec l architecture UIMA qui est une norme et un standard elle peut donc tre utilis e au sein de cha nes d annotation faisant intervenir de multiples outils 3 Int gration de
271. inies par VerbNet d Exemple la classe de verbe murder Illustrons cette structure sur un exemple la classe de verbe murder Le fichier murder xml d crit trois constructions typiques 2 Source Kipper Schuler 2003 58 e Agent limine Patient Brutus tua Jules C sar e Agent limine Patient avec Instrument Brutus tua C sar avec un poignard e Instrument limine Patient le pesticide tua les insectes 1 Chaque description de classe de verbes d clare des contraintes de s lection sur les r les th matiques Par exemple pour murder l Agent et le Patient doivent avoir un trait lt anim gt en pratique lt humain gt ou lt organisation gt et l Instrument doit tre lt concret gt Le fichier pr cise ensuite la syntaxe et la s mantique de la classe de verbe Par exemple la deuxi me construction de la classe de verbe murder d crit lt SYNTAX gt lt NP value Agent gt lt VERB gt lt NP value Patient gt lt PREP value with gt lt NP value Instrument gt lt SYNTAX gt lt EXAMPLES gt lt EXAMPLE gt Brutus killed Caesar with a knife lt EXAMPLE gt lt EXAMPLES gt pal Enfin sa s mantique est d crite pour pr ciser qu au d marrage de l v nement Patient est vivant mais qu il ne l est plus la fin de l v nement e alive start E Patient e a
272. intes de s lection sur ses arguments D autres ressources lectroniques comme NomLex qui d crit le cadre de sous cat gorisation des d verbatifs et la correspondance entre noms et verbes ou un dictionnaire de locutions ou de collocations pourraient aussi tre utilis es pour cr er des r gles 4 Articulation lexique grammaire et soustraction de r gles Consid rons une phrase telle que They were lending me a bicycle Nous pouvons y appliquer les r gles grammaticales extraites en section 2 et notamment la r gle du progressif Mais cette r gle consomme le lien sujet et nous ne pourrons pas y appliquer la r gle lexicale du verbe LEND que nous avons cr e partir de VerbNet La solution habituelle ce probl me est celle adopt e par exemple par les grammaires TAG consistant produire partir de la diath se de base toutes les r alisations possibles Candito 1999 C est par exemple la solution adopt e par B daride Gardent 2009 II en r sulte un lexique grammaire assez volumineux en raison de la croissance rapide du nombre de r gles en fonction du nombre de ph nom nes pris en compte le lexique inclut en fait la grammaire Plut t que d additionner divers ph nom nes au sein d une m me r gle nous proposons au contraire de soustraire aux r gles grammaticales la partie lexicale pour permettre la r gle lexicale de se combiner avec les r gles grammaticales Prenons l exemple du progressif r alis par une
273. ion du monde aussi exhaustive que possible sous le prisme des objets linguistiques Mais cette d marche permet elle de tout couvrir Evidemment non Des concepts nouveaux mergent r guli rement de nouveaux termes permettent de d signer ou renommer des concepts d j existants Et un lexique aussi large soit il ne permet de couvrir que partiellement toutes les subtilit s d un domaine donn 107 5 z Par exemple l analyse d un article de presse contenant les concepts arme feu magasin r clamer de l argent et s chapper pourrait sugg rer les th matiques vol qualifi et crime 108 2 r hoe Par exemple les concepts ciseaux rasoir coupe ongles et p e sont probablement proches de couteau parce qu ils sont tous lt pointus gt et peuvent tre utilis s pour couper quelque chose 109 spj rere A Par ailleurs le lecteur pourra trouver dans Cailliau 2010 plusieurs autres strat gies possibles de gestion de ressources linguistiques 110 A Pe ee eae Par exemple le m tier de community manager n existait pas il y 3 ans des marques et soci t s se cr ent quotidiennement de nouveaux produits apparaissent r guli rement etc 86 A l oppos d une approche universaliste une d marche bottom up ou d marche ascendante consiste exploiter le corpus que l on souhaite traiter dans le cadre d une application Par ex
274. ions de sens appliqu es lors de l tiquetage des r les th matiques par application des cadres de sous cat gorisation pr cision 42 7 b Heuristiques privil giant le rappel D autres heuristiques sont au contraire de port e tr s g n rale Dans cette famille l algorithme consistant prendre le premier sens dans WordNet d un mot anglais sert souvent de base de comparaison Son impl mentation est particuli rement simple il propose toujours un r sultat pour un nom commun sauf quand le nom est inconnu du lexique ce qui lui donne un rappel proche de 100 nous avons valu sa pr cision sur le corpus SemCor 71 3 C est l que le bat blesse nous n avons pas pour l instant trouv d algorithme g n ral applicable avec un rappel lev qui donne une meilleure pr cision que cette baseline Notons que cet algorithme n est pas facilement transposable au fran ais en effet dans une ressource comme WOLF les diff rentes lexies d un m me vocable ne sont pas ordonn es pi Cf IV B 1 k Ce sous ensemble du corpus Brown compte 676 546 mots dont 234 135 noms verbes adjectifs et adverbes qui ont t annot s manuellement en sens par rapport WordNet 1 6 158 c Algorithme de Lesk L autre algorithme privil giant le rappel impl ment dans Antelope est Lesk 1986 enrichi pour WordNet d crit dans Banerjee Pedersen 2003 il consiste compter le nombre de mots communs entre les d finitions
275. iques sont d velopp s avec diff rents formalismes en intension o en extension dans diff rents formats XML s impose progressivement comme format d change les formats mergents du Web s mantique RDF RDFS SKOS OWL jouent un r le d importance grandissante pour repr senter les lexiques th saurus et autres ontologies c est pourquoi nous leur consacrons une annexe page 187 Rendre interop rables ces donn es lexicales n cessite g n ralement un travail d ing nierie important et souvent aussi un travail conceptuel d adaptation pour tablir une correspondance entre les entr es de deux lexiques Le c ur de notre lexique s mantique est WordNet d velopp pour l anglais l Universit de Princeton Miller 1995 Fellbaum 1998 Dans le chapitre B nous pr sentons en d tail WordNet puis l cosyst me des autres ressources qui gravitent directement autour Nous les avons int gr es au sein d une base unique pour en faciliter l utilisation dans la plate forme Antelope Le chapitre C d crit plusieurs exp riences qui nous ont permis d tendre ces donn es d une fa on endog ne ou exog ne notamment partir d articles encyclop diques Nous avons enrichi les entr es lexicales existantes nous en avons aussi ajout de nouvelles partir d autres sources nous avons enfin cr de nouveaux types de relations notamment de polys mie r guli re Enfin dans le chapitre D nous pr sentons succ
276. ir un syst me modulaire avec une approche paresseuse en calculant certaines r gles par soustraction de r gles moins modulaires Sans les rejeter nous nous d marquons des approches statistiques qui prennent en compte la fr quence des constructions qu elles extraient nous consid rons au contraire que l on peut extraire une r gle partir d une seule occurrence Cf la m thode classique d extraction des morph mes partir d une paire minimale ce qui n emp che pas ensuite de pond rer ces r gles en fonction de leur fr quence d utilisation dans l analyse d un corpus donn B Gestion des ambigu t s dans la plate forme L ambiguit est un objet polymorphe omnipr sent dans les langues naturelles et qui se manifeste a travers diff rents types de ph nom nes Nous recensons ici diff rents cas que nous avons rencontr s lors de l impl mentation des diff rents composants de traitement sans pr tendre l exhaustivit en pr cisant dans chaque cas comment il est g r ou non par la plate forme Nous commen ons par pr senter le m canisme g n ral de la plate forme permettant de pr server les ambigu t s en retardant leur lev e Nous pr cisons ensuite quels sont les ph nom nes pris en compte par ce m canisme Nous finissons par ceux auxquels il ne s applique pas soit parce que l ambigu t peut tre lev e imm diatement dans la plupart des cas soit au contraire parce que le ph nom ne est
277. istique de ce type d entit nomm e e Lors de la phase d annotation si un mot poss de cette caract ristique il est fort probable qu il soit de la m me classe d entit nomm e que les mots du corpus d entra nement qui la poss dait Cette fonction permet donc d identifier de nombreux mots ou groupes de mots correspondant des entit s nomm es rencontr s dans le corpus d entra nement Ainsi en utilisant uniquement cette caract ristique on obtient un F score l g rement sup rieur 60 Toutefois ces caract ristiques restent limit es Utilis es seules elles ne permettent de d tecter que les mots d j rencontr s il est galement impossible d utiliser ce type de caract ristiques pour des t ches de d sambigu sation De plus on va cr er une caract ristique unique pour chaque forme des mots rencontr s sans tre capable d effectuer des regroupements vers la forme de base d un mot prise en compte des variations morphologiques formes de verbes genre et nombre d un nom commun ou d un adjectif 2 Mot pr c dent et mot suivant Le contexte autour du mot courant est une caract ristique int ressante pour d tecter des entit s nomm es Commen ons par examiner le mot juste avant celui que l on souhaite annoter Cette d marche peut tre comprise comme la recherche de mots d clencheurs En effet pour introduire un lieu on peut supposer qu en fran ais on trouvera souvent des pr positions tell
278. itioner Guide to Conditional Random Fields for Sequential Labelling Notes de cours Curtin University of Technology Australie ML TSUR O DAVIDOV D RAPPOPORT A 2010 A Great Catchy Name Semi Supervised Recognition of Sarcastic Sentences in Product Reviews Actes de ICWSM Washington TSURUOKA Y TSUJI J 2005 Bidirectional Inference with the Easiest First Strategy for Tagging Sequence Data Actes de HLT EMNLP pp 467 474 VALITUTTI A STRAPPARAVA C STOCK O 2004 Developing Affective Lexical Resources In Psychology Journal 2 1 VAN DE CRUYS T 2010 Mining for meaning the extraction of lexico semantic knowledge from text Th se de doctorat University of Groningen VAN DEEMTER K KIBBLE R 2000 On Coreferring Coreference annotation in MUC and related schemes Computational Linguistics 26 4 pp 615 623 VAN DEN EYNDE K MERTENS P 2003 La valence l approche pronominale et son application au lexique verbal Journal of French Language Studies 13 63 104 VAN WILLEGEN l ROTHKRANTZ L WIGGERS P 2009 Lexical Affinity Measure between Words Proceedings of the 12th International Conference on Text Speech and Dialogue Lecture Notes in Computer Science Springer Verlag Volume 5729 2009 pp 234 241 ciT VARGA E FURLAN B JAKUS G MILUTINOVI V 2010 Document Filter Based on Extracted Concepts Transactions on Internet Research 6 1 pp 5 9 cIT VEALE T 2006 A typology of Lexical Ana
279. l gt color repr sentent des concepts diff rents et sont des UW aoj attribute of an object est une relation binaire s mantique dirig e reliant les deux UW def interrogative past exclamation et entry sont des attributs modifiant les UW Les UW repr sentent des concepts universels exprim s par des mots en anglais ou dans toute autre langue naturelle lisibles par un humain Ils se composent d une t te la racine de UW et d une liste de contraintes le suffixe entre parenth ses permettant de lever l ambigu t de la t te L ensemble des UW est organis sous forme d une ontologie UW System o les concepts du haut sont utilis s pour lever l ambigu t de leurs hyponymes gr ce aux relations ic1 est une sorte de iof est une instance de et equ est gal Les relations repr sentent les liens s mantiques entre mots dans toutes les langues Elles peuvent tre ontologiques comme icl et iof logiques comme and et or ou actancielles comme agt Agent ins Instrument tim Temps plc Lieu La sp cification UNL compte actuellement 46 relations qui d finissent sa syntaxe Les attributs donnent des informations qui ne sont pas port es par les UW et les relations par exemple sur le temps past future la d termination def indef la modalit can must le sujet de la discussion topic focus H Compatibilit avec l architecture UIMA 1 Principes d UIMA
280. la colonne de gauche en donne le nombre initial figurant en standard dans la ressource celle de droite repr sente le nombre de vocables ajout s par nos soins En partant des synsets explicitement associ s chaque motion notre syst me a propag r cursivement cette relation aux synsets voisins en suivant les relations d hyponymie de d rivation morphologique de similarit entre adjectifs et de participe pass Sentiment Noms Verbes Adjectifs Adverbes Col re 48 37 19 26 39 16 21 0 D go t 3 35 6 19 6 9 4 0 Peur 23 71 15 26 29 20 15 4 Joie 73 50 40 22 84 14 30 1 Tristesse 32 88 10 37 55 29 26 4 Surprise 5 16 7 29 12 13 4 2 Tableau 12 Nombre de nouveaux vocables ajout s par motion et par partie du discours Enfin nous avons utilis SentiWordNet Esuli Sebastiani 2006 qui rappelons le assigne chaque synset de WordNet trois valeurs relatives sa positivit sa n gativit ou au contraire son objectivit l absence de connotation affective Ici aussi nous avons propag r cursivement les scores de positivit et de n gativit dans tous les synsets voisins en suivant les relations d hyponymie pour les noms et les verbes de d rivation morphologique et d antonymie en changeant dans ce dernier cas les scores de positivit et de n gativit e D capitalisation des mots du titre Un probl me pr liminaire que no
281. lasses fonction du nombre de mots d entit s nomm es est faible Elle augmente avec le nombre de classes d entit s nomm es reconna tre Cette caract ristique a rendu en pratique quasi impossibles les tests portant sur plus de cinq classes d entit s nomm es sur une machine de test disposant de 2 Go de m moire vive Temps s 7000 6000 5000 4000 3000 2000 1000 o 50000 100000 150000 200000 250000 300000 350000 Figure 25 Temps d apprentissage sur le corpus anglais d entit s nomm es 128 Pr cisons que depuis l impl mentation initiale l quipe Proxem a effectu un travail de fond d optimisation des performances avec la version la plus r cente le temps d apprentissage est devenu sensiblement plus court qu avec les autres impl mentations que nous avons pu valuer CRF et Wapiti 102 Nous avons valu notre impl mentation pr cision rappel et F mesure en comparant ses annotations avec celles obtenues par OpenCalais automatiquement puis en partie corrig es humainement La pr sence simultan e des annotations attendues et des annotations obtenues permet de compter les vrais positifs les vrais n gatifs et les faux positifs La figure 26 montre le gain de F mesure observ lorsqu on augmente le nombre de mots dans le corpus d entra nement On constate que l am lioration du F score est lente mais r elle par rapport la taille du corpus
282. ld valid humainement silver accord entre deux analyseurs syntaxiques ou normal Le tableau 6 pr sente le taux de validation des mots des d finitions dans cette ressource par partie du discours Synsets Nombre de Mots de classe Mots mono Qualit Qualit Qualit WN 2 0 d finitions ouverte s miques gold silver normal Noms 79 689 505 946 138 274 10 142 45015 296 045 Verbes 13 508 48 200 6 903 2 212 5 193 30 813 Adjectifs 18 563 74 108 14 142 263 6 599 50 359 Adverbes 3 664 8 998 1 605 1 829 385 4 920 Tableau 7 Taux de validation des mots des d finitions dans eXtended WordNet Pour un total de 637 252 mots de classe ouverte utilis s dans les d finitions seuls 14 446 mots sont de qualit gold 2 3 Du fait de la complexit de la t che de d sambiguisation lexicale et de l absence de validation humaine syst matique il est sage de penser que les mots tiquet s avec une qualit silver ou normal ne sont pas forc ment d sambigu s s d une fa on correcte les d finitions gold ne repr sentent que 3 2 des mots polys miques En d pit de ces limitations XWN a t utilis pour am liorer les r sultats d un syst me de questions r ponses Moldovan Novischi 2002 55 b WordNet Gloss Corpus Le lexique d Antelope a finalement remplac XWN par les donn es du WordNet Gloss Corpus Publi en avril 2008 par l Universit de Princeton ce projet offre le d
283. le calcul e par parcours du graphe d hyperonymes Lin 1998 d finit la mesure de similarit entre deux synsets s1 et s2 avec la formule suivante 2 log P s 2 1 9 D ns 2 in sim s1 s2 log P s1 log P s2 Dans cette formule s est le synset le plus sp cifique subsumant s1 et s2 dans la hi rarchie de WordNet et P s repr sente le contenu informationnel Cf page 51 du synset s Le r sultat de cette similarit est dans l intervalle 1 ce et vaut 1 quand les deux synsets compar s sont identiques il est d autant plus lev que les deux synsets sont diff rents ou plus pr cis ment loign s dans le graphe d hyperonymie Nous ramenons cette valeur dans l intervalle 0 1 en prenant son inverse Notre impl mentation introduit deux niveaux suppl mentaires dans la hi rarchie des verbes En effet s il existe pour les noms une racine unique ENTITY 1 ce n est pas le cas pour les verbes or la qualit de la mesure de similarit est fonction de la finesse de la hi rarchie De fa on rendre tous les verbes comparables nous avons cr un pseudo synset qui sert de racine commune tous les verbes ainsi que des pseudo synsets regroupant les cat gories lexicales Verbes de mouvement d tat etc 2 Mesure de similarit conceptuelle calcul e par recouvrement des gloses Cette mesure vectorielle est bas e sur le recouvrement des mots entre gloses et utilise une pond ration de type TF IDF
284. le avec le formalisme des graphes conceptuels Notons que le formalisme autorise aussi une forme lin aire d criture avec un m canisme de cor f rence Le m me GC peut s crire Go Agnt gt Person John Dest gt City Boston Inst gt Bus 18 Partie III Antelope une plate forme pour extraire les sens du texte A Objectifs de la plate forme Nous avons pr sent jusqu ici nos objectifs les principes g n raux de la plate forme de TAL que nous avons r alis e et les formalismes de repr sentation du sens d un nonc que nous cherchons obtenir Cette partie va rentrer dans le d tail de notre plate forme baptis e Antelope Advanced Natural Language Object oriented Processing Environment pr senter sa conception et la comparer d autres projets de r f rence Elle souligne aussi les pr cautions architecturales prendre pour qu un tel d veloppement complexe reste maintenable En partie bas e sur la Th orie Sens Texte Antelope permet l analyse syntaxique et s mantique de textes sur des corpus de volume important Un effort d int gration reposant sur des bonnes pratiques de g nie logiciel permet de rendre interchangeables les diff rentes ressources d di es a une m me t che Par exemple l tiquetage morphosyntaxique dans une langue peut tre effectu par plusieurs composants Le choix du meilleur d entre eux d pend typiquement du corpus a traiter une applicatio
285. le de reconna tre le r f rent d un pronom on parle de r solution d anaphore lorsque l on peut retrouver l ant c dent de ce pronom dans le texte qui pr c de Le fait de regrouper toutes les r f rences un m me objet est l extraction d une cha ne de cor f rences Dans le cadre de la plate forme nous avons mis en uvre un syst me de ce type Il a originellement t con u et valu pour un projet d extraction de connaissances encyclop diques Nous utilisons simultan ment des techniques pauvres en connaissances et des outils linguistiques plus volu s analyse syntaxique en profondeur et lexique s mantique L ensemble offre des performances encourageantes sur des articles encyclop diques En effet ces articles poss dent des caract ristiques linguistiques et discursives topique unique et clair absence d humour etc qui permettent d obtenir des r sultats meilleurs que sur d autres types de textes tels que des articles de journaux ou des articles scientifiques 2 Complexit de la r solution d anaphores Une anaphore est un mot ou un syntagme qui dans un nonc assure la reprise d un pr c dent segment appel ant c dent L utilisation d anaphore permet d viter les r p titions que provoquerait le fait de parler toujours des m mes entit s de la m me fa on Dans les exemples figurant dans la suite les anaphores sont annot es en gras et les ant c dents identifi s en soulign
286. le du titre n en est pas le mot principal par exemple dans un titre commen ant par une tude dit que des scientifiques affirment que la police pr tend que le mot principal serait la t te de la compl tive Nous multiplions ainsi la valence du mot principal et ses scores d motion individuels par 6 La derni re partie importante du traitement linguistique est la d tection des contrastes et des accentuations entre bonnes et mauvaises choses Nous recherchons des patrons dans la sortie en d pendances par exemple un nom sujet d un verbe ou un nom compl ment d objet direct d un verbe avec des verbes qui augmentent ou diminuent une quantit nous avons red couvert 150 Ce facteur a t obtenu d une fa on empirique 120 ici la notion de valence shifter introduite par Polanyi Zaenen 2006 Ceci nous donne la capacit de d tecter de tr s bonnes nouvelles augmente la puissance de r flexion ou de bonnes nouvelles li es la d t rioration de quelque chose de n gatif dont l importance diminue r duit le risque ralentit le d clin l ouragan s affaiblit h R sultats Les r sultats de la t che 14 de SemEval 2007 ont t mesur s avec une mesure de corr lation de Pearson Notre syst me bas sur des r gles d tecte les six motions dans les titres d articles de presse avec une exactitude moyenne atteignant 89 43 cependan
287. leil de Garnier Acheter merguez le 27 08 2010 pas app tissant sur le barbecue de marque PRIM GRILL CDE larroche mazet Cabernet 2 cartons J ai re u le sommier et matelas de marque ivana Bonjour je voulais commander un automatisme pour portail mon magasin de B thune Figure 50 Reconnaissance d entit s nomm es apr s g n ralisation par apprentissage c G n ralisation par exploration des num rations Une des m thodes que nous avons adopt es consiste rep rer dans le texte des num rations de syntagmes nominaux L id e est que si la plupart de ces syntagmes sont des entit s connues alors les syntagmes restants sont vraisemblablement galement des entit s Il y a galement une forte probabilit pour que le type d une entit inconnue soit le m me que celui des entit s connues qui l entourent ou un type proche Cette m thode s est av r e tr s efficace pour l adaptation des analyseurs au domaine des ressources humaines voir plus loin la section VI E 2 En effet lors de l analyse de CV ou d offres d emploi on rencontre tr s fr quemment des listes de comp tences ou de dipl mes 139 L algorithme est le suivant On part d un texte pr alablement annot en entit s nomm es La premi re tape consiste explorer les groupes nominaux contigus s par s par des virgules ou des conjonctions telles que et et ou on v rifie si une entit nomm e a t reconnue dans c
288. les avec l analyseur de notre choix puis d extraire une grammaire permettant de faire la correspondance entre ces arbres de d pendance et les graphes s mantiques qui leur sont associ s Une des principales difficult s est d arriver obtenir la grammaire la plus modulaire possible et la plus couvrante sans multiplier les r gles inutilement et sans avoir fournir des quantit s astronomiques d exemples pour l apprentissage Nous avons voqu au chapitre II C page 15 le type de repr sentation s mantique que nous consid rons et le type de calculs qu elle permet Nous pr senterons ici le formalisme que nous utilisons pour l criture d une ISS section 1 puis les principes g n raux de l extraction de r gles grammaticales sans utiliser de connaissances lexicales section 2 L exploitation de ressources lexicales pour la production de nouvelles r gles sera esquiss e section 3 Nous terminerons en montrant comment r aliser une interface lexique grammaire par la soustraction de r gles lexicales nos r gles grammaticales section 4 1 crire une ISS Nous utilisons comme formalisme pour crire notre ISS la Grammaire d Unification Polaris e GUP Kahane 2004 Il permet d crire des grammaires de correspondances entre graphes et a d j t propos pour l ISS Kahane Lareau 2005 Il permet aussi l image de TAG de combiner des structures l mentaires afin d obtenir une structure compl te
289. les recherches effectu es dans le domaine des logiques de description Description Logics OWL d finit plusieurs sous langages allant du moins expressif mais garantissant un calcul de preuve rapide au plus expressif mais n cessitant ventuellement un temps de calcul dissuasif selon la logique de description sous jacente Notons que le pouvoir d expression des variantes d OWL est inf rieur a celui d autres formalismes comme KIF Knowledge Interchange Format le langage de la norme Common Logic Nous allons maintenant pr senter les bases math matiques sous jacentes au langage OWL ainsi que ses diff rentes variantes et les m canismes de raisonnement qui s y appliquent Nous comparerons aussi OWL avec UML le langage unifi de mod lisation 1 Les logiques de description a Concepts de base Les logiques de description sont une famille de langages de repr sentation de connaissances utilis s pour formaliser et structurer la connaissance terminologique d un domaine d application Le nom logique de description provient des caract ristiques suivantes d une part ces langages d finissent leur s mantique formelle en logique du premier ordre d autre part ces langages ont t labor s pour crire la description des concepts pertinents d un domaine d application Les logiques de description ont une double ascendance Elles s inspirent des r seaux s mantiques de Quillian 1968 des graphes orient s
290. lis en profils techniques hautes LEE 333 Java langage 270 comp tences recherche pour son client Editeur de logiciels un INGENIEUR EN DEVELOPPEMENT Gestion de projet M Net 37 JAVA J2EE H F dans le cadre d un CDI Dipi me A Poste et missi trang re XML 26 es ual Bimetiogic 23 Consultant J2EE H F 1 Agarinique M EE 23 Consultant J2EE H F Implant dans plus d une trentaine de pays agwreinin aide ses clients innover se R seau sat 20 transformer et devenir plus performants Technologies web 3 Entreprise o Oe Ing nieur d tude et d eloppement JavaJ2ee H F 1 Pr MSP 19 des march s et une expertise sur J2EE serviets JSP EJB Websphere JMS Webservices RMI Profil Mode a Ee 19 ra internet 16 Ing nieur tudes et d veloppement JAVA J2EE ATG EJB Langages et technologies 6 mois 1 an minimum de d veloppement J2ee sur ATG Competences ATG Java J2ee UML PHP Hypertext Preprocessor 15 a EE Feuilles de style en cascade 15 CHEF DE PROJET JAVA J2EE H F 1 Unix 14 Flex 14 Java Serviet 13 Tomcat 12 CoBoL 12 Ing nieur d Etudes et de D veloppement H F 1 Vous disposez de connaissance dans les environnements J2EE et ou PHP Vous tes ambitieux se Chef de projet H F 1 Chef de projet H F gt 31EDM SSII taille humaine positionn e sur les nouvell
291. lisation d une ressource comme VerbNet indiquera que Brutus peut tre Agent ou Instrument de l v nement Une phrase comme il peint la nuit est plus complexe on peut l interpr ter comme il peint pendant la nuit ou bien comprendre que la nuit est le th me de la peinture 188 ae z 2 r4 ae On est confront ici un cas de m tonymie r guli re SOCIETE cr e par PERSONNE 156 3 Cas d ambiguit s lev es imm diatement a Langue du document Actuellement les applications crites avec Antelope font l hypoth se qu un document est r dig dans une seule langue Un composant de d tection de langue est appliqu au niveau du document soit dans sa globalit soit en se restreignant aux premi res phrases pour des raisons de performance La plate forme est n anmoins pr vue pour g rer le multilinguisme et l information de langue peut ventuellement tre raffin e au niveau du mot Dans le futur cela permettra par exemple de g rer des citations dans une langue autre que la langue principale du document ou des textes fran ais contenant ponctuellement des termes techniques anglais Plusieurs indices peuvent tre utilis s pour d tecter un document multilingue l absence dans le lexique d un mot dans la langue principale mais sa pr sence dans une autre langue des marques typographiques comme des italiques ou des guillemets constituent aussi un bon indice b Segmentation d un document en phrases
292. live result E Patient e Prise en compte de l h ritage entre classes La balise lt SUBCLASSES gt d clare les ventuelles sous classes qui sp cialisent une classe de verbe donn e Une sous classe permet e Deraffiner les contraintes de s lection portant sur les r les th matiques e De d clarer de nouveaux r les th matiques e D associer de nouveaux lemmes de WordNet la sous classe e De cr er de nouvelles constructions typiques f Utilisation dans le cadre de nos travaux Nous pr senterons en section V C 3 page 110 la fa on dont nous utilisons VerbNet et WordNet pour impl menter un composant d tiquetage de r les th matiques qui est utilis au sein de l ISS Dans une tape pr paratoire nous traduisons les descriptions en XML des classes de verbes de VerbNet en graphes l mentaires Lors de l analyse effective d un texte on cherche alors a reconna tre dans le graphe syntaxique issu d une analyse en d pendances de chaque phrase les cadres de sous cat gorisation de verbes en y recherchant les sous graphes pr compil s lors de l tape pr paratoire Le Remarquons que cette entr e est sujette caution seuls les moyens comme le pesticide peuvent devenir sujet mais pas les instruments e poignard tua C sar 59 4 Appartenance d un synset un ou plusieurs domaines a WordNet Domains La notion de domaine a t employ e aussi bien en linguistique qu en lexicographie
293. llement chronologique Mes parents qui m ont immerg dans un environnement litt raire et transmis le go t des mots mais qui m ont pouss vers les tudes scientifiques qui fournissent un cadre formel pour les comprendre Les cr ateurs d ELIZA FRUMP HAL et d autres programmes spectaculaires qui donnent du r ve Bruno Petazzoni Professeur de math matiques et d informatique pour ses enseignements dispens s pendant mes jeunes ann es Christian Jacquelinet Docteur en m decine et en linguistique informatique qui m a donn l id e de reprendre la voie des tudes via la recherche douze ans apr s mon dipl me d ing nieur Laurence Danlos Professeur de linguistique informatique l Universit Paris Diderot Paris 7 qui a accueilli et soutenu un tudiant atypique dans son master de recherche puis dans son laboratoire Sylvain Kahane Professeur l Universit Paris Ouest Nanterre qui jongle avec les constituants de la langue avec la dext rit du linguiste et la rigueur du math maticien dont j ai prouv la patience Pierre Zweigenbaum et Adeline Nazarenko qui ont accept d tre rapporteurs de cette th se Guy Perrier membre du jury avec qui les conversations sur l ISS sont toujours passionnantes Les 2 500 internautes ayant t l charg et utilis Antelope qui ont contribu au projet par leurs avis Les stagiaires que j ai encadr s chez Proxem et qui ont particip directement ou indir
294. locaux sous forme de contraintes compatibles ou non entre elles L ensemble des contraintes obtenues apr s l analyse d un document complet peut repr senter un graphe de taille significative la recherche d une solution optimale exacte satisfaisant toutes les contraintes risque alors de d boucher sur un temps de calcul prohibitif du fait d une explosion combinatoire nous explorons l id e d utiliser plut t des algorithmes capables de calculer rapidement une solution approch e comme ceux dits de colonies de fourmis Une approche de ce type est propos e par Schwab et al 2011 pour la d sambiguisation lexicale par propagation de mesures s mantiques locales C crire et extraire une interface syntaxe s mantique Ce chapitre porte donc essentiellement sur des questions th oriques li es l criture et l extraction d une ISS m me si une impl mentation est en cours Il a fait l objet d une publication Chaumartin Kahane 2010 163 Le d veloppement manuel d une ISS peut tre co teux de plus il est p rilleux de construire une ISS qui s appuie sur les sorties d un analyseur syntaxique particulier qui peut rapidement devenir obsol te Notre objectif est donc de pouvoir extraire une interface s mantique automatiquement partir de n importe quel analyseur syntaxique Notre id e est de partir d une base de phrases d exemples associ es leur repr sentation s mantique de traiter ces exemp
295. logy in WordNet Actes de Global WordNet Conference Jeju Cor e VERONIS J 2001 Sense tagging does it make sense In The Corpus Linguistics Conference Lancaster UK VICTORRI B FUCHS C 1996 La polys mie Construction dynamique du sens Paris Herm s WALLACH H M 2004 Conditional Random Fields An Introduction NER ML Xu W Liu X GONG Y 2003 Document clustering based on non negative matrix factorization Actes d ACM SIGIR conference on Research and development in information retrieval 267 273 CLUSTERING ZIDOUNI A GLOTIN H QUAFAFOU M 2009 Recherche d Entit s Nomm es dans les Journaux Radiophoniques par Contextes Hi rarchique et Syntaxique Actes de CORIA 2009 Conf rence en Recherche d Information et Applications NER 183 B Ressources ACE Automatic Content Extraction http www itl nist gov iad mig tests ace BalkaNet http www ceid upatras gr Balkanet CiteSeer http citeseer ist psu edu Colt http acs lbl gov hoschek colt ConceptNet http conceptnet5 media mit edu COSMO http micra com COSMO CRF http crf sourceforge net package Java DBpedia http dbpedia org Dicouebe MEL CUK POLGUERE http olst ling umontreal ca dicouebe Dicovalence MERTENS VAN DEN EYNDE http bach arts kuleuven be dicovalence eXtended WordNet MIHALCEA MOLDOVAN http xwn hlt utdallas edu FrameNet BAKER FILLMORE LOWE http
296. lques r gles utilisant la hi rarchie de noms de WordNet bas e sur l id e qu un nom hyponyme d un synset donn amplifie certaines motions Le tableau 13 d taille ces r gles Le nom h rite t il de motions amplifier UNHEALTHINESS ATMOSPHERIC PHENOMENON peur tristesse AGGRESSION HOSTILITY WRONGFUL CONDUCT col re peur tristesse d go t WEAPONRY WEAPON SYSTEM col re peur tristesse UNFORTUNATE PERSON tristesse compassion HUMAN WILL col re Tableau 13 Concepts d clenchant l amplification d une motion Les motions d tect es servent alors mettre a jour la valence en augmentant la positivit ou la n gativit comme indiqu dans le tableau 14 motion Positivit N gativit Joie Augmentation Diminution Col re d go t tristesse peur compassion Diminution Augmentation Tableau 14 Impact des motions sur la valence g Evaluation globale de la phrase ce stade notre syst me essaie d identifier le th me principal du titre Nous exploitons pour cela l arbre de d pendances produit par l analyseur syntaxique Nous consid rons que le mot principal du titre est sa t te syntaxique c est dire le mot qui ne d pend d aucun autre Nous pensons que la contribution de ce mot principal est plus importante que celle des autres mots du titre Dans certains cas n anmoins nous consid rons que la t te lexica
297. lt THEMROLES gt indique les r les th matiques de la classe lt SELRESTRS gt pr cise leurs ventuelles contraintes de s lections lt SYNTAX gt sa syntaxe lt SEMANTICS gt sa s mantique lt EXAMPLES gt un ou plusieurs exemples O e lt FRAMES gt indique chacune des constructions typiques en donnant chaque fois o o e lt SUBCLASSES gt regroupe ventuellement en sous classes o lt VNSUBCLASS gt les cas particulier d une classe de verbes b Les r les th matiques Les r les th matiques font r f rence aux relations s mantiques sous jacentes entre un pr dicat et ses arguments Ils ont t introduits la fin des ann es 60 Gruber 1965 Fillmore 1968 Jackendoff 1972 de fa on cr er un ensemble fini de types de participants en tant qu arguments de pr dicat Ces r les sont utilis s pour d crire les comportements lexicaux et syntaxiques des verbes Ces r les sont ind pendants de la construction syntaxique Par exemple dans les deux phrases suivantes Jean a le r le th matique Patient de l action de frapper et Marie a le r le Agent e Marie frappe Jean e Jean est frapp par Marie Chaque argument du verbe chaque actant joue un r le th matique Il peut tre par exemple Agent Patient Th me Instrument Source de l action ou de l v nement d crit par le verbe Chaque argument d un verbe
298. ltilingual NLG Systems Based on Uniform Lexico Structural Processing Actes de 6th Conference on Applied Natural Language Processing ANLP Seattle LENAT D 1995 CYC A large scale investment in knowledge infrastructure In Communications of the ACM 1995 Lesk M 1986 Automatic sense disambiguation using machine readable dictionaries How to tell a pine cone from an ice cream cone Actes de Fifth International Conference on Systems Documentation ACM SIGDOC LEVIN B 1993 English Verb Classes and Alternation A Preliminary Investigation Chicago IL University of Chicago Press LIN D 1998 An information theoretic definition of similarity Actes de 15th International Conf on Machine Learning p 296 304 LIN D PANTEL D 2001 DIRT Discovery of Inference Rules from Text Actes de ACM SIGKDD Conference on Knowledge Discovery and Data Mining LISON P 2006 Impl mentation d une interface s mantique syntaxe bas e sur des grammaires d unification polaris es Master s thesis Universit Catholique de Louvain Louvain la Neuve Belgium Iss LITKOWSKI K 2002 Digraph Analysis of Dictionary Preposition Definitions Actes de SIGLEX SENSEVAL Workshop on Word Sense Disambiguation Recent Successes and Future Directions Philadelphia LIU H SINGH P 2004 ConceptNet A Practical Commonsense Reasoning Toolkit BT Technology Journal vol 22 pp 211 226 LOTH R BATTISTELLI D CHAUMARTIN F R DE MAZANCOU
299. m for suffix stripping Program 14 3 pp 130 137 POTTIER B 1992 S mantique g n rale Paris PUF PUSTEJOVSKY J 1995 The Generative Lexicon Cambridge MIT Press QUILLIAN M R 1968 Semantic memory In M Minsky Ed Semantic information processing pp 216 260 Cambridge MA MIT Press RAMSHAW L MARCUS M 1995 Text Chunking Using Transformation Based Learning In Yarovsky D and Church K eds Actes de Third Workshop on Very Large Corpora Association for Computational Linguistics Somerset New Jersey pp 82 94 RATNAPARKHI A 1996 A maximum entropy part of speech tagger Actes de Actes de Empirical Methods in Natural Language Processing Conference Univ of Pennsylvania RESNIK P 1995 Using Information Content to evaluate semantic similarity in a taxonomy Actes de UCAI 95 448 453 ROUILLARD J TARBY J C 2011 How to communicate smartly with your house International Journal Ad Hoc and Ubiquitous Computing Volume 7 No 3 pp 155 162 c t ROSSET S GROUIN C ZWEIGENBAUM P 2011 Entit s nomm es structur es guide d annotation Quaero Notes et documents LIMSI n 2011 04 NER RUIZ CASADO M ALFONSECA E CASTELLS P 2005 Automatic assignment of Wikipedia encyclopedic entries to WordNet synsets Actes de AWIC 380 386 SAGOT B BOULLIER P 2008 SxPipe 2 architecture pour le traitement pr syntaxique de corpus bruts Traitement Automatique des Langues 49 2 pp 155 188 SA
300. mances en extraction d information avec des scores approchant un jugement humain Sur des corpus journalistiques les scores obtenus moyenne harmonique combinant pr cision et rappel sont proches de 90 les particularit s d une langue notamment en ce qui concerne l usage des majuscules peuvent faire varier ces r sultats L adoption progressive par les projets industriels des standards mergents du Web s mantique Feigenbaum et al 2007 a r cemment accentu l int r t pour cette t che Dans ce contexte elle 114 permet d associer des m tadonn es un texte pour en am liorer l indexation par un moteur de recherche 3 Des syst mes de r gles l apprentissage automatique L volution la plus significative que nous avons per ue en TAL depuis le d but de nos travaux concerne l importance grandissante des m canismes d apprentissage automatique machine learning en anglais Ce champ d tude de l intelligence artificielle vise d couvrir automatiquement les corr lations pr sentes dans un jeu de donn es afin d en extraire les connaissances Cela revient donc calculer les param tres d un mod le en s assurant de sa validit a Int r ts de l apprentissage L approche classique en TAL consiste cr er un mod le linguistique symbolique avec un syst me de r gles crites manuellement Mais un tel mod le est lourd mettre en place il requiert des connaissances pointues en linguistique et deman
301. ments clustering Nous introduirons ce niveau une pr sentation des techniques d apprentissage automatique machine learning dont l importance est grandissante en TAL et que nous avons mis en uvre dans certains des composants 5 Applications La partie VI page 131 donne plusieurs exemples d applications compl tes r alis es grace aux composants d Antelope Nous y pr sentons en premier des applications op rationnelles d velopp es par l quipe Proxem dans diff rents domaines veille conomique e r putation analyse d avis de consommateurs et ressources humaines Nous introduisons ensuite une d marche semi supervis e d acquisition de connaissances large chelle Nous montrons enfin que la plate forme a aussi t mise en uvre par plusieurs quipes de recherche sans n cessiter d interaction avec Proxem 6 Interface syntaxe s mantique La partie VII page 153 commence par dresser un premier bilan des objectifs que nous estimons avoir atteints Elle trace ensuite la route qui reste selon nous parcourir pour concr tiser la r alisation d une ISS op rationnelle Un point critique concerne la d sambiguisation aussi fine que possible des diff rents l ments langagiers Ce point soul ve une question importante chaque composant d analyse effectue une t che particuli re quand un composant g re une ambigu t il porte g n ralement un jugement dont la port e n est que locale Une difficult
302. mes d un synset en leur fournissant une liste plut t qu un graphe La figure 12 montre les hyperonymes du synset BREAD 1 pain sous forme de graphe gauche et de liste droite 7 On remarquera que WordNet n est pas exempt d erreurs mineures on voit ici une redondance CATECHOLAMINE tant d j un hyponyme de HORMONE 7 Dans WordNet version 2 0 sur un total de 92 634 relations d h ritages entre synsets noms et verbes seulement 2 117 pr sentaient un h ritage multiple et seulement 70 avaient 3 hyperonymes directs ou plus 49 Noun bread breadstuff staff of life Hypernym Hypernym baked goods Y starches food solid food Y foodstuff food product Y solid food nutrient matter substance physical entity baked goods Y entity food solid food starches solid Y foodstuff food product matter food nutrient physical entity substance entity matter physical entity Y entity Figure 12 Hyperonymes du synset BREAD 1 pain sous forme de graphe et de liste e Exemples de relations d holonymie et de m ronymie Comme montr en figure 13 on peut d terminer grace a ces relations qu un chat a des pattes un pelage une queue HasPart Inherited from feline felid Y paw a clawed foot of an animal especially a quadruped W pad the fleshy cushion like underside of an animal s foot or of a human s finger Inherited from mammal mammalian
303. mes n gatifs otage menace mort et un seul qui est positif dans le contexte lib r l ensemble repr sente toutefois une bonne nouvelle 117 d Ressources utilis es Nous avons galement utilis le lexique s mantique plus pr cis ment WordNet et les ressources d di es l analyse de sentiments WordNet Affect et SentiWordNet Une pr sentation d taill e de ces deux ressources figure en section IV B 5 page 61 Nous allons d crire ici comment nous les avons aussi enrichies cette occasion Rappelons que WordNet Affect Strapparava Valitutti 2004 est une hi rarchie de labels dans le domaine affectif les synsets repr sentant des concepts affectifs sont annot s avec ces labels Nous avons employ la liste d motions du sous ensemble de WordNet Affect fourni par les organisateurs de SemEval Pour l am liorer nous avons ajout manuellement une liste de nouveaux mots d notant des motions qui nous semblaient pertinents au vu du corpus de test Par exemple nous avons associ l motion peur des noms CANCER DANGER POVERTY pauvret verbes DEMOLISH d molir INJURE blesser KIDNAP enlever adjectifs COMATOSE comateux NUCLEAR nucl aire VIOLENT et adverbes DEADLY mortellement WORSE pire Le nombre de synsets explicitement associ s chaque sentiment est indiqu dans le tableau 12 pour chaque partie du discours
304. mples de synsets associ s des tiquettes affectives 61 Valence affective des trois sens de l adjectif ESTIMABLE selon SentiWordNet 000000 62 R sultats de la reconnaissance d entit s nomm es sur le projet SCRIBO 0 008 105 Nombre de nouveaux vocables ajout s par motion et par partie du discours 118 Concepts d clenchant l amplification d une motion 120 Impact des motions sur la valence cccccesscsecsscececsescececseeeececssecececsessesecssseeeeesseaeees 120 R sultats de l annotation des motions 121 R sultats de l annotation de la valence 121 R sultats de la reconnaissance d entit s nomm es avec une fen tre de taille 2 133 R sultats de la reconnaissance d entit s nomm es avec une fen tre de taille 5 133 R sultats de la fouille d erreur sur les entit s nouvelles propos es par le CRF 133 Typologie des sources trait es par Ubiq ss 141 R sultats de la recherche du nombre d occurrences de pizza With X scceesseeeeeees 161 R sultats de la recherche du nombre d occurrences de eat With X 161 R sultats du rattachement pr positionnel sur diff rentes phrases 162 Partie I Introduction A Pourquoi une plate forme de TAL Une application informatique vise a rendre un service a des utilisateurs humains ou autres systemes informatiques en
305. mps de calcul lev une heure sur cet exemple en incluant la collecte Web Notons que cet outil peut s interfacer avec Prot g diteur d ontologie au format OWL L utilisateur y associe directement des paraphrases une classe de relations en utilisant le m canisme d annotations de Prot g Le composant d extraction d information importe ces annotations l aide d une interface de programmation qui permet de lire l ontologie au format OWL Une fois les donn es extraites elles peuvent tre export es au format RDF et venir enrichir l ontologie avec de nouvelles instances 3 Visualisation des r sultats Sur l exemple pr cit utilisant onze paraphrases la recherche des rachats effectu s par Microsoft collecte d abord 2 160 pages Web Le composant d extraction d information affichait initialement un r sultat brut sous la forme d une liste a plat de 1353 noms comme montr en figure 45 ou plusieurs lignes peuvent faire r f rence a une m me soci t 172 Actuellement Microsoft Bing ou Yahoo proposent une interface de programmation applicative permettant de piloter des recherches Web partir d un programme Google en a aussi offert une jusqu novembre 2010 173 Web Ontology Language langage de mod lisation d ontologies bas sur les logiques de description et standard du Web s mantique Cf page 186 134 results buyer Microsoft company mobile advertising fir v
306. n le projet SCRIBO Cf chapitre VI A page 132 Il s agissait de d tecter les personnes lieux organisations et montants mon taires cit s dans des articles de presse en fran ais Nous avons manqu de temps sur ce projet pour am liorer les caract ristiques prises en compte pendant l apprentissage Les r sultats que nous avons obtenus figurent dans le tableau 11 ci dessous on y constate que les organisations semblent plus difficiles a identifier que les personnes ou les lieux notamment en ce qui concerne le rappel Classe d entit pr cision rappel F mesure Personne 0 8515 0 8123 0 8314 Lieu 0 8882 0 8886 0 8881 Organisation 0 7266 0 4909 0 5852 Monnaie 1 0 9626 0 9809 Tableau 11 R sultats de la reconnaissance d entit s nomm es sur le projet SCRIBO Sur un autre projet portant sur l analyse d avis de consommateurs Cf chapitre VI D page 141 nous avons cherch d tecter des classes d entit s diff rentes des produits des marques des enseignes concurrentes et des concepts tels que le risque juridique le risque sanitaire ou le r gime sans gluten par exemple Nous avons introduit plusieurs autres caract ristiques d apprentissage notamment en prenant en compte les d pendances syntaxiques Nous avons aussi am lior le m canisme standard en ajoutant un traitement particulier pour reconna tre les produits compos s de la forme NP PP partir des produits d j reconnus Cf page 143 section VI
307. n de s quences m me si des travaux r cents portent sur l apprentissage sur des structures d arbres Dans ces travaux sur les s quences le graphe d ind pendances utilis est une cha ne lin aire du premier ordre Dans ce type de mod le la probabilit d une annotation s exprime comme suit T 1 PO zs em D D Aah rv Yet k t 2 o T est la longueur de la s quence x Les caract ristiques sont de la formefk Yt 1 Yt X t car les cliques du graphe d ind pendances sont les paires de n uds y _1 Yt On note ici que par souci de simplification on ne consid re que les cliques deux n uds dans l criture des formules et algorithmes En effet les cliques un n ud peuvent tre trait es de fa on similaire L int r t principal de travailler avec un graphe d ind pendances aussi simple que celui ci est de permettre de mettre en uvre des techniques de programmation dynamique pour un calcul efficace des deux t ches principales des CRF que sont a la recherche de l annotation la plus probable et b l apprentissage des param tres du mod le Nous donnons ici un aper u de ces deux algorithmes 2 Recherche de l annotation la plus probable La recherche de l annotation la plus probable consiste a trouver l annotation y maximisant la probabilit p y x tant donn s une observation x et un CRF dont les param tres sont connus T 9 arg max p ylx argmax X Y aufeev ex 0 k
308. n ralement d un contexte d appr ciation plus large que le composant La plate forme ne propose donc ici qu un choix local et ne g re pas l ambigu t contrairement SxPipe Sagot Boullier 2008 qui g re des entr es et sorties ambigu s sous forme de graphes orient s acycliques 4 Cas d ambiguit s non trait es Finissons par donner quelques exemples de ph nom nes qui nous semblent trop subtils pour tre trait s aujourd hui par une application informatique Ils n cessitent pour tre r solus une prise en compte d un contexte large et une v ritable construction de l tat du monde 189 noe E ey Un point non g r dans la plate forme concerne les mots ayant des formes similaires dans des langues diff rentes comme pain baguette en francais douleur en anglais 157 e Le chat saute sur la table tait il dessus au d but C est un probl me classique bien connu notamment des traducteurs du fran ais vers l allemand e Pierre a encore cass sa montre parle t on d une seule montre cass e plusieurs reprises ou de plusieurs montres e Jean et Pierre ont crit 6 livres ont ils crits 6 livres chacun ou 6 livres eux deux ou 6 livres ensemble On a ici une ambigu t de port e de quantifieurs et de composition des groupes nominaux quantifi s Kahane 2011 5 Ambigu t lexicale Ide V ronis 1998 rappelle que la d sambiguisation lexicale est une tache
309. n maximum d indices 2 Cas d ambiguit s dont la lev e est retard e Un tel m canisme permet de g rer les ambigu t s pouvant apparaitre lors des op rations d analyse syntaxique de calcul de la forme de base d un mot de d sambigu sation lexicale de reconnaissance d entit s nomm es de calcul des anaphores et enfin d tiquetage du r le s mantique des actants d un pr dicat a Etiquettes morphosyntaxiques L tiquetage morphosyntaxique d une phrase peut produire plusieurs sorties de m me que l analyse syntaxique en d pendances Par exemple un sens de le boucher sale la tranche a pour paraphrase le boucher qui est sale tranche la viande un autre sens possible ayant le verbe saler pour t te Quand un analyseur syntaxique de surface est en mesure de produire des sorties multiples pour une phrase la plate forme les associe la phrase avec un ventuel score s il est disponible b Formes de base d un mot La ou les forme s de base d un mot et la liste des sens possibles pour chaque forme de base sont initialis es partir des donn es du lexique s mantique et de routines morphologiques Dans I found the city le verbe peut tre FOUND au pr sent je fonde la ville ou FIND au pass j ai trouv la ville La plate forme associe chaque mot les diff rentes formes de base possibles Il existe aussi des cas o une analyse globale permet de trouver la seule
310. n peut alors proposer l utilisateur de choisir le composant le mieux adapt dans un contexte donn Antelope int gre plusieurs composants pr existants notamment pour l analyse syntaxique Notre contribution directe concerne la constitution d un lexique s mantique partir de donn es linguistiques large couverture provenant de diff rentes sources voir la partie IV page 41 l ajout de composants d analyse s mantique d crits plus pr cis ment en partie V page 89 et la formalisation d un mod le linguistique unifi pr sent au chapitre C page 22 Antelope propose une cha ne compl te de traitement du langage Con ue initialement pour l anglais pour des raisons de disponibilit de ressources dans cette langue la plate forme a t ensuite adapt e au fran ais Elle est progressivement enrichie pour traiter d autres langues europ ennes La prise en compte du multilinguisme dans la plate forme est d taill e au chapitre D page 24 Antelope vise tre simple mettre en uvre pour en permettre l utilisation par un informaticien n ayant pas de connaissances particuli res en linguistique Pour cela les principaux composants disposent de param trages par d faut privil giant un mode de traitement rapide ou pr cis Un utilisateur expert aura en revanche la possibilit de jouer sur des param tres plus fins ou d inclure ses propres modules d di s une t che donn e Le niveau de traitement le plu
311. na flows west as far as then southwest until about 45 miles from Mobile The unites with the Weall to form the and Tensas rivers which discharge into Mobile Bay Encyclop die 3 The is formed by the and rivers northeast of The winds westward to and then flows south for a length of 318 mi The AADAMA RNE is joined above Mobile by the Tombigbeel Jel to form the Tensaw and Mobile rivers which flow into the Gulf of Mexico The isa river 315 mi long formed in central Alaska by the confluence of the Sse and of Flowing southwest to rivers north Figure 18 Comparaison de trois articles encyclop diques anglais portant sur la rivi re Alabama Survolons le fonctionnement de l algorithme qui permet sur cet exemple de calculer que la rivi re Alabama serpente jusqu Selma est une paraphrase de la rivi re Alabama coule vers Selma Nous repr sentons les paraphrases sous forme de triplets sujet verbe compl ment La d sambiguisation des entit s nomm es permet d tablir que RIVIERE 1 serpente pr position VILLE 1 est une paraphrase de RIVIERE 1 coule pr position VILLE 1 L utilisation d une mesure de similarit entre les deux verbes permet enfin de d terminer les sens pr cis des vocables SERPENTER et COULER dans le contexte Nous obtenons au final l quivalence entre deux cadres de sous cat gorisation dont les l me
312. nce s applique par exemple aux vocables GORILLE LIEVRE TAUPE REQUIN etc En revanche l unit de type PERSONNE pour le vocable MULE individu charg de transporter de la drogue n est pas encore r f renc e dans les dictionnaires m me s il appara t de plus en plus souvent dans les textes journalistiques parfois entre guillemets Autrement dit les r gles de polys mie constituent l un des moyens de rendre compte de l aspect dynamique du lexique ce qui est int ressant dans certains algorithmes de d sambiguisation Le second avantage d ordre pratique concerne la valorisation du lexique a partir duquel s effectue l tude de la polys mie r guli re en occurrence WordNet Les r gles lexicales de polys mie r guli re permettent en effet de syst matiser l encodage des donn es en fournissant au lexicographe un canevas d finitionnel Par exemple le sch ma de d finition L2 quantit de X contenue dans L1 pourra servir la d finition d autres paires de lexies de type pi ce de vaisselle quantit de qqch li es par une m tonymie r guli re e ASSIETTE 2 de X quantit de X contenue dans une ASSIETTE 1 e BOL 2 de X quantit de X contenue dans un BOL 1 2 D finition de la polys mie r guli re Selon Apresjan 1974 une polys mie est r guli re s il existe au moins deux vocables A et B ayant chacun deux lexies A 1 A 2 et B 17B 2 li es par la m me relation s mantique Les lexi
313. nier de yoplait asie cagnotte 13 direction points a am liorer a l gume 4833 i foot pro training games volley goal id al 135 2 direction enseignes lidi vis m J rs ee direction possible me transmettre son adresse nom 30 coca cola classic 17 a jeu 3957 p rayon fruits et l gumes trouve 19 direction permanence ras coute metz semecour J e vin 3953 4 vin de table cambras 51 12 classeur de rangement 27 viande 3879 Suchan fr avez bien confirmation annulation 11 Vente d equipement re u confirmation souhaite annuler auchan 13 cal A direction baisser prix moins magasin produits cherbourg la glacerie 72 _ s 5 trop attente en longue 13 a jouet 3064 int n choix its cherbourg la glacerie 91 ab circle pro 39 n bon 12 01 rampe mini douai sin le noble 31 auto bricolage 5w40 huile diesel 14 a fromage 2735 layette baby pampers dry budget 31 i i H a caf 2698 electromenager set pi ces tefal seb prix 23 toupie lade fusion 77 chocolat 2532 caisses h tesse personnel accueil 22 sport loisirs sante table de massage ab pro suite 50 our ao nouvelle carte utiliser cagnotte 19 t l viseur Icd q media 50 yaourt 2065 9 commer ant en bijoux et j aimerai possible 18 boucherie bonne rayon viande 43 b b 1865 drive fois pas auchan 16 produits pas rayon bio 21 tr ee po le c ramique 16 direction magasin t
314. nne par exemple se suivent de fa on contig e 5 Lex misation TT z Bw ie 127 a Les diff rentes formes fl chies d un mot partagent en principe la m me racine aimer aime aim aimions ou aim t ont la m me racine aim La lex misation permet donc d effectuer des regroupements de mots provenant d une m me racine Nous avons utilis une lex misation en amont de la g n ration des caract ristiques d crites ici en 1 et 2 ce qui am liore la reconnaissance des entit s nomm es et r duit la taille des ensembles de caract ristiques 6 Pr fixes et suffixes Les pr fixes et les suffixes des mots entourant le mot consid r peuvent donner des informations d ordre morphosyntaxique Par exemple en anglais ou en fran ais les deux ou trois derni res lettres des verbes sont un bon indicateur du temps du mode du genre et du nombre L observation des pr fixes permet une lex misation du pauvre Cette caract ristique a pour param tre la longueur des pr fixes ou suffixes observer 126 gts z A pes 4 ny x Pour viter que la d tection de ces diff rentes expressions r guli res se r v le co teuse en temps machine elles sont pr compil es 127 Cf la discussion en section I1 A 3 d 101 7 Gazettes La d tection d entit s nomm es peut tre facilit e par l ajout de caract ristiques qui vont tester l appartenance du mot une liste pr d finie
315. ns a partir de graphes RDF e RIF Rule Interchange Format un format d change de r gles de gestion Nous avons estim les applications d OWL en TAL sont suffisamment importantes pour m riter de lui d dier le chapitre suivant Ce sera notamment l occasion de d tailler les diff rents niveaux des logiques de description leur pouvoir d expression et le m canisme de raisonnement 1 RDF RDF Resource Description Framework est un mod le de graphe destin a d crire de fa on formelle les ressources Web et leurs m tadonn es L objectif est de permettre le traitement automatique de telles descriptions En annotant des documents non structur s et en servant d interface vers le monde des donn es structur es RDF permet l interop rabilit entre applications changeant de l information sur le Web RDF XML est l une des syntaxes de ce langage permettant le stockage et les changes sous forme XML Notons que XML est un format de s rialisation possible pour les triplets RDF mais pas le seul par exemple les formats N3 et Turtle sont concus pour tre plus compacts et plus facilement lisibles par des humains a Principe Un document RDF est un ensemble de triplets Chaque triplet RDF est une association sujet pr dicat objet o e Le sujet repr sente la ressource d crire e Le pr dicat repr sente un type de propri t applicable cette ressource e L objet est la valeur de la propri t qui p
316. ns donc d cid de mettre en uvre une autre biblioth que de CRF N anmoins les r sultats obtenus ici nous ont servi de r f rence et d l ments de comparaison 5 Notre impl mentation a Pr sentation Apr s un examen des biblioth ques de code open source g rant des CRF notre choix s est port sur une impl mentation crite en Java pour l annotation de donn es s quentielles Sarawagi Cohen 2004 Cette biblioth que de code CRF a t con ue pour tre r utilis e par d autres programmes en tendant son comportement d origine Il est relativement ais de travailler avec tout type de donn es condition d crire un adaptateur sp cifique b Annotation d un corpus d apprentissage Afin d entrainer le module d apprentissage par CRF il faut lui fournir une quantit de donn es d entra nement suffisante sous forme d un corpus pr annot Nous disposions pour ce faire de deux corpus de d p ches l un en anglais et l autre en francais annot s avec l outil OpenCalais Ces corpus se pr sentaient sous la forme de fichiers au format RDF XML Nous avons proc d une correction manuelle sans garantie d exhaustivit de ce premier corpus A l issue de ce pr traitement nous disposons d un corpus d entra nement annot Les entit s nomm es ne se r sument pas forc ment un mot isol Par exemple un nom de personne se compose g n ralement d un pr nom suivi d un nom de famille
317. nt de l enrichissement typographique Antelope traite des documents au format texte brut ou au format HTML Dans ce dernier cas un traitement pr alable s pare le texte de son enrichissement typographique l analyse des balises HTML permet un d coupage du document en paragraphes Ces paragraphes sont ensuite d coup s en phrases en utilisant un ensemble de r gles L information permettant de relier les mots phrases et paragraphes aux balises est par la suite toujours disponible ce qui permet e De d terminer si un paragraphe est un titre ou un l ment d une num ration e D identifier les r f rences quand le document contient des liens hypertexte 61 P a x n a Mata Auquel cas il n cessite peut tre un traitement particulier d capitalisation des initiales pour un titre analyse syntaxique de phrase averbale pour un l ment d num ration 37 3 tiquetage morphosyntaxique chunking ou analyse syntaxique En fonction de ses besoins de vitesse ou de pr cision l utilisateur peut choisir entre un tiquetage morphosyntaxique un chunking ou une analyse syntaxique Antelope utilise pour cela les composants externes pr sent s en section F 3 Dans les trois cas le mod le unifi d crit en section III C page 23 est aliment mais seules les repr sentations concern es RMorphS RMorphP ou RSyntS sont renseign es 4 Identification des expressions multi mots Antelope utilise le
318. ntaxe profonde en dessous des mots On remarquera la d pendance syntaxique profonde PropObject to qui identifie general en tant que compl ment d objet indirect du verbe give 135 On remarquera toutefois que l expression multi mots Battle of Gettysburg y est d j reconnue 109 nsubj prep re obj pg p p roe obj 7 the general to Py sp gave all T in Washington captured Lee s troops during the Battle_of_Gettysburg Ji Dire ne NounO N PrepObject to PrepObject in DirectObject Subject PrepObject during Figure 33 Syntaxe de surface au dessus des mots et syntaxe profonde en dessous b Identification des compl ments de temps et d espace Nous avons aussi impl ment une d tection basique des compl ments de temps et d espace Un syst me de r gles de r criture est utilis pour identifier les d pendances syntaxiques profondes correspondantes Par exemple si une d pendance de type PrepObject utilise une pr position compatible avec un compl ment de temps et que le groupe pr positionnel est une date ou un nom qui a pour hyperonyme un synset comme EVENT DYNASTY o DECADE alors la d pendance est affin e en TimeComplement comme illustr figure 34 De m me si une d pendance de type PrepObject utilise une pr position compatible avec un compl ment de lieu et que le groupe pr positionnel est un nom qui a pour hyperonyme un synset comme LOCATION REGION STRUCTURE LAN
319. nts externes cod s en diff rents langages e _L tiqueteur morphosyntaxique SS Tagger composant C e Un tiqueteur morphosyntaxique la Brill r impl ment nativement en C e Deux analyseurs syntaxiques robustes pour la langue anglaise qui traitent avec succ s des phrases complexes et tol rent la pr sence de mots inconnus o Le Stanford Parser Manning Klein 2002 est un analyseur probabiliste crit en Java fourni avec plusieurs grammaires allemande chinoise arabe Il produit une for t d arbres de constituants et sait les traduire en arbres de d pendances o Le Link Grammar Parser Sleator Temperley 1991 cod en C repose sur des r gles Il produit un ou plusieurs arbres de d pendances plus pr cis ment de liens typ s reliant des paires de mots puis les transforme en arbres de constituants e Un analyseur syntaxique du francais le TagParser Francopoulo 2008 cod en Java qui produit comme analyse un arbre de d pendances entre chunks Antelope utilisant syst matiquement le mod le de programmation par interfaces ces composants externes sont encapsul s par une interface ITagger ou IParser ce qui permet de les rendre interchangeables a Link Grammar Parser Partant d une phrase cet analyseur en d termine la structure syntaxique qui consiste en un ensemble de liens typ s reliant des paires de mots La grammaire de d pendances utilis e pour l anglais distingue
320. nts sont d sambiguis s par rapport au lexique SERPENTER 1 RIVIERE 1 VILLE 1 COULER 2 RIVIERE 1 VILLE 1 c Traitement unitaire pr alable d un article Notre algorithme commence par traiter chaque article s par ment avec les tapes suivantes e Analyse syntaxique profonde du texte Nous obtenons un ensemble de d pendances o les constructions de syntaxe de surface sujet invers sont gomm es Wikip dia en anglais Britannica online Columbia Electronic Encyclopedia 89 A ine A me Rappelons que le suffixe i indique le i sens du mot dans le lexique Nous avons conscience que dans cet exemple la pr sence d un argument de type VILLE 1 dans le cadre de sous cat gorisation est discutable 69 e R solution des anaphores pronominales e Identification des entit s nomm es autres que le sujet de l article donc autres que RIVIERE ALABAMA dans notre exemple et cit es une seule fois sans reprise anaphorique Pour chacune de ces entit s nomm es o D sambiguisation lexicale par rapport WordNet o Au sein d une phrase donn e recherche du plus court chemin reliant cette entit au sujet de l article dans le graphe de syntaxe profonde Pr cisons sur ce dernier point une limite importante de notre syst me actuel Une paraphrase ne se limite g n ralement pas au remplacement d un mot par un autre mais plut t d un groupe de mots par un autre sans que les deux groupes aien
321. nuer le nombre de termes a indexer les mots vides tant tr s fr quents et tellement communs qu il semble au premier abord inutile de les indexer Son d faut est de supprimer plusieurs cat gories de mots porteurs de sens En filtrant aussi les pr positions le moteur de recherche perd la capacit tablir le contraste entre des livres crits pour des enfants et des livres crits par des enfants de m me Jean dort chez Marie n a pas exactement le m me sens que Jean dort avec Marie Sans les n gations il devient difficile de faire du calcul d opinions ou de sentiments Les ponctuations sont aussi g n ralement enlev es ce stade l aussi une information utile l analyse de sentiments est perdue par exemple les motic nes ou points d exclamation 18 sea 2 law p Nous montrons ici les calculs effectu s par l analyseur de Lucene la r f rence open source dans ce domaine 11 Certains adjectifs possessifs sont galement int ressants pour d sambiguiser le nom qu ils qualifient Dans un avis de consommateur une heuristique simple pour s parer les sens juridique et fruit du nom avocat est de regarder le premier mot gauche mon avocat d signant sans ambigu t l homme de loi d Lex misation Les mots sont ensuite tronconn s pour n en retenir que la racine Sur notre verbatim cela donne ten felicit caiss celin accueil chaleur souri samed fevri foule incroy jour su faire abst
322. ois aucun de ces wordnets n atteint pour l instant la largeur de couverture de la version anglaise c Wikip dias Lanc e en 2001 l encyclop die libre collaborative Wikip dia compte en juin 2011 plus de 18 millions d articles en 281 versions et presque autant de langues avec 37 langues dot es de plus de 100 000 articles Ses int r ts en TAL sont multiples Elle peut tre vue comme un corpus multilingue de 5 De plus on peut imaginer que WordNet n est cit que dans le cadre d articles autour du TAL alors que Wikip dia l est aussi dans d autres contextes 43 volume significatif qui permet de r aliser des comptages statistiques dans un grand nombre de langues certaines d entre elles tant faiblement dot es en ressources lexicales Wikip dia propose en plus du texte encyclop dique un premier niveau de structuration des connaissances la limite pratique est la bonne volont ou la comp tence des internautes qui ditent les articles La figure 10 illustre ces diff rentes possibilit s de structuration e Le texte encyclop dique point 1 sur la figure est structur en sections et sous sections e Les InfoBox sont des tables pr format es pr sentant des donn es importantes sur un sujet sous forme d un encadr plac en haut droite 2 ou a la fin 3 de l article e Les articles peuvent tre rattach s a des portails 4 c est a dire des regroupements th matiques permettant de se rep
323. omplexes e La recherche permet tant donn un concept de trouver les instances de ce concept dans la base de connaissance e La r alisation vise tant donn un individu mentionn dans la base de connaissance trouver le concept le plus sp cifique dont l individu est une instance en accord avec les relations de subsomption e La saturation de la A Box sert compl ter les informations sur les individus en accord avec les connaissances de la T Box concepts et r les c est dire inf rer des propri t s qui sont vraies m me si elles n ont pas t d finies explicitement D Web des donn es Linked Data Le projet Linked Data vise comme son nom l indique publier des donn es structur es non pas en silos ind pendants les uns des autres mais au contraire en les reliant entre elles pour constituer un norme graphe d informations L augmentation du nombre de sous projets parties prenantes dans le Web des donn es est nette entre juillet 2009 figure 71 et septembre 2011 figure 72 Ces sous projets concernent aussi bien des m dias BBC New York Times des donn es g ographiques GeoNames US Census des publications CiteSeer ACM projet Gutenberg des contenus g n r s par les utilisateurs Flickr Revyu des donn es gouvernementales NASA Eurostat US SEC des sources de connaissances a large chelle DBpedia FreeBase OpenCalais WordNet YAGO OpenCyc ou les sciences de la
324. ons de capacit s de raisonnement le corollaire sera la possibilit d automatiser des t ches aujourd hui r serv es aux tres humains gr ce des agents conversationnels intelligents 8 Dans la version 3 7 datant de septembre 2011 DBpedia compte plus d un milliard de triplets En utilisant SPARQL le langage de requ te du Web s mantique 7 D velopp initialement par la soci t MetaWeb rachet e par Google en juillet 2010 et utilis e depuis mai 2012 sur la version US du moteur de recherche pour alimenter un Knowledge Graph ia Berners Lee et al 2001 finissait sur la promesse de tels agents logiciels The real power of the Semantic Web will be realized when people create many programs that collect Web content from diverse sources process the information and exchange the results with other programs The effectiveness of such software agents will increase exponentially as more machine readable Web content and automated services including other agents become available On peut estimer que cet objectif n est atteignable qu long terme N anmoins l iPhone 4S lanc en octobre 2011 int gre l application Siri qui permet d utiliser la voix pour entre autres envoyer des messages d finir des rappels ou passer des appels t l phoniques C est un pas significatif dans la direction d agents conversationnels grand public utilisables sans apprentissage pr alable 45 Dans le survol des ressources pro
325. opinions 1 Introduction L analyse automatis e d opinions est une t che r cente qui suscite un int r t grandissant nous entre 2003 et 2011 du pourcentage d articles d ACL mentionnant le terme sentiment analysis En effet elle est associ e d importants enjeux montrons en figure 37 la progression soci taux et conomiques La promesse est de permettre de comprendre la polarit positive neutre ou n gative des avis exprim s sur tel ou tel sujet par en fonction du contexte les consommateurs les citoyens ou les usagers A l chelle individuelle l analyse de sentiments permet par exemple une entreprise de d terminer qu un courrier envoy par un consommateur m content n cessite un traitement prioritaire 10 0 8 0 6 0 4 0 2 0 0 0 r 2003 2004 2005 2006 2007 2008 2009 2010 2011 Figure 37 Progression entre 2003 et 2011 des articles d ACL mentionnant sentiment analysis 142 zy E cape Par exemple pour le pr dicat acquisition en sp cifiant acheteur Microsoft et societeAchetee Powerset 18 Pour tablir ce graphique nous avons utilis ACL Anthology Searchbench http aclasb dfki de en calculant pour chaque ann e le ratio entre le nombre total d articles et ceux citant sentiment analysis 115 L agr gation des avis permet de d terminer les tendances du moment Les grandes marques comme les organisations politi
326. ore bien connu des praticiens du TAL nous avons jug utile de faire ici une introduction ces concepts et standards mergents Les descriptions figurant dans cette annexe sont videmment inspir es de celles pr sent es sur le site du W3C Nous essayons de les mettre en perspective mais aussi de mettre en vidence les forces et faiblesses qui pourraient en acc l rer ou en freiner l adoption au vu de l exp rience concr te que nous en avons Commen ons par esquisser une pr sentation intuitive des volutions d usage entre le Web initial et le Web s mantique Aux d buts du Web qualifi a posteriori de Web 1 0 l internaute venait lire de l information ou effectuer un achat sur un site d e commerce sans r elle interactivit j ach te une pizza en ligne Le Web 2 0 a marqu une volution importante concernant aussi bien les technologies employ es application cliente riche que les usages les internautes sont d sormais capables d interagir entre eux et avec le contenu des pages on est pass je fais une pizza party la maison et mes amis votent en ligne pour la date qui leur convient Le Web s mantique est un nouveau saut technologique qui offre une meilleure connaissance de l information en temps r el permettant d automatiser des sc narios complexes en dotant les applications de capacit s de raisonnement mon assistant personnel organise une pizza party dimanche midi en tenant compte
327. orkshop on Parsing Technologies SOTO A FLORES HERNANDEZ J DE LOS ANGELES BUENABAD ARIAS M DIEZ G 2009 Using Ontologies to generate Learning Objects automatically Actes de MICAI Guanajuato Mexico cIT Sowa J F 1976 Conceptual Graphs for a Database Interface IBM Journal of Research and Development 20 4 pp 336 357 STRAPPARAVA C VALITUTTI A 2004 WordNet Affect an Affective Extension of WordNet Actes de LREC Lisbonne pp 1083 1086 STRAPPARAVA C MIHALCEA R 2007 SemEval 2007 Task 14 Affective Text Actes de SemEval 2007 ACL Workshop Prague SUCHANEK F KASNECI G WEIKUM G 2007 YAGO A Core of Semantic Knowledge Actes de 16th international World Wide Web conference WWW 2007 Banff Canada sw SUTTON C MCCALLUM A 2006 An Introduction to Conditional Random Fields for Relational Learning Introduction to Statistical Relational Learning NER ML SzoLovits P 2003 Adding a Medical Lexicon to an English Parser Actes de AMIA 2003 Annual Symposium 639 643 TANGUY L HATHOUT N 2002 Webaffix un outil d acquisition morphologique d rivationnelle a partir du Web Actes de TALN Nancy TANNIER X 2006 Traitement automatique du langage naturel pour l extraction et la recherche d informations Rapport de recherche 2006 400 006 Saint Etienne ENSM IE TESNIERE L 1959 l ments de syntaxe structurale Paris Klincksieck 182 TRUYEN T T PHUNG D 2008 A Pract
328. orsqu un composant de reconnaissance d entit s nomm es sait associer une liste de classes possibles une annotation Dans la phrase Thierry Mugler annonce le lancement de sa nouvelle gamme de parfums m me un humain peut l gitimement h siter est ce que Thierry Mugler est une r f rence la soci t ou a son cr ateur e Ambigu t syntaxique L ambiguit syntaxique est une propri t des phrases qui peuvent raisonnablement tre interpr t es de diff rentes fa ons L ambiguit peut provenir d un mot ayant deux parties du discours ou des homonymes L ambiguit syntaxique se distingue de l ambigu t lexicale car elle provient non des diff rents sens qu un mot pris isol ment peut avoir mais des diff rentes relations possibles entre les mots dans la structure d une phrase Ainsi la phrase il regarde manger la biche peut signifier soit que la biche mange soit que quelqu un mange la biche Les analyseurs syntaxiques int gr s a Antelope associent une phrase ses diff rents arbres syntaxiques chacun d eux tant pond r par un co t ou une probabilit initiale Pour viter une explosion combinatoire on peut fixer un nombre maximal d arbres Des ambiguit s syntaxiques artificielles i e sur lesquelles un humain n aurait a priori pas d h sitation apparaissent en cas de rattachements pr positionnels multiples par exemple dans la configuration syntaxique V NP PP o un verbe un synta
329. ory ou un m canisme d injection de d pendances 28 l ensemble des tests unitaires peut tre rejou afin de rechercher d ventuelles r gressions du code c est dire l apparition d erreurs nouvelles c Conception technique permettant le passage l chelle La capacit monter en charge est un point essentiel pour traiter des corpus importants L environnement NET dispose de nombreux protocoles de communication entre machines qui permettent de distribuer facilement des traitements et d infrastructures de grilles de calcul massivement parall le La course la puissance des processeurs passe aujourd hui davantage par la multiplication des c urs sur un processeur que par l augmentation de leur fr quence Pour en tirer parti et ne pas sous exploiter les architectures mat rielles actuelles il faut distribuer les calculs sur ces diff rents c urs en lan ant des t ches multiples multithreading au sein d un m me processus Ce type de d veloppement est au centre des syst mes d exploitation et des serveurs de bases de donn es La conception de tels syst mes est connue depuis longtemps pour tre complexe Dijkstra 1965 De plus les outils qui aident d tecter un risque d interblocage sont rares une erreur nouvelle risque toujours d apparaitre l ex cution dans une configuration qui n aura jamais t rencontr e lors des tests Les composants sp cifiquement crits pour Antelo
330. ouble avantage de reposer sur WordNet version 3 0 et de disposer d une validation beaucoup plus couvrante 29 des mots ont t d sambigu s s manuellement c Utilisation dans le cadre de nos travaux Les gloses d sambiguis es nous servent dans le cadre de l analyse s mantique d terminer les contraintes de s lection En effet elles nous permettent de savoir si un nom a un trait particulier lt rigide gt lt allong gt lt pointu gt Pour ce faire nous recherchons un adjectif de ce type dans les mots de la d finition du nom ou de ses hyperonymes 3 Cadres de sous cat gorisation des verbes Conna tre les cadres de sous cat gorisation des verbes est un l ment essentiel d une ISS Ils peuvent provenir de diff rentes ressources proposant des informations de contrainte de s lection plus ou moins fines Des dictionnaires g n ralistes offrent souvent un premier niveau grossier d informations de ce type Par exemple dans WordNet chaque verbe est associ un ou ventuellement plusieurs cadres donnant un premier niveau de typage il existe une dizaine de cadres en tout Somebody s something Somebody s Somebody s PP sans r elle explicitation des contraintes de s lection Certaines ressources d di es sont construites manuellement Les plus connues pour la langue anglaise sont VerbNet pr sent e en d tail dans cette section et FrameNet que nous survolerons page 83 VerbNet s appuie
331. p de l Universit de Stanford Ce programme permet l tiquetage de s quences de mots en classes d entit s nomm es Il impl mente une version g n rale des CRF ainsi que de nombreuses caract ristiques adapt es la reconnaissance d entit s nomm es il est con u initialement pour la d tection d entit s nomm es dans des textes en anglais b D marche adopt e Nous avons proc d une utilisation en bo te noire utilisation de la documentation et des exemples fournis puis en bo te blanche par examen du code source du Stanford NER cela nous a permis de nous familiariser rapidement avec les techniques d apprentissage automatique ainsi qu avec la d finition des caract ristiques adapt es la t che de d tection d entit s nomm es Nous avons ensuite tudi l adaptation de ce programme des corpus en fran ais Pour cela il fallait d terminer les l ments sp cifiques l anglais pr sents dans le programme puis les adapter afin qu ils fonctionnent galement pour le fran ais L examen du code source du nous a montr que certains l ments taient difficilement utilisables avec une langue autre que l anglais On retrouve par exemple des patrons morphosyntaxiques visant reconna tre des titres honorifiques des dates ou encore des l ments ordinaux first eleventh sp cifiques l anglais Il existe galement une classe charg e de remplacer certains suffixes typiquement
332. pe ont t con us pour s ex cuter dans un environnement multit che Les composants externes sont encapsul s avec un m canisme qui garantit l invocation s quentielle des m thodes Nous avons pu par exemple effectuer une analyse syntaxique compl te de la Simple Wikipedia en trois jours Pour cela nous avons distribu Antelope sur cinq ordinateurs tournant avec un processeur double c ur ils communiquaient via des services Web avec un serveur charg de leur affecter des analyses de phrases et de consolider et stocker les r sultats Sur une seule machine mono c ur ce calcul aurait alors pris pr s d un mois d Sauvegarde et restauration du r sultat d une analyse De m me qu un logiciel bureautique permet d enregistrer un document sur disque puis de le rouvrir Antelope peut sauvegarder le r sultat de l analyse d un texte dans un fichier typiquement dans un format XML puis le recharger en m moire Ce m canisme autorise le transport d un r sultat d analyse entre machines donc la r partition des traitements ainsi que leur interruption et reprise e Pr sence d un m canisme d extensibilit par annotations Les annotations sont un mod le tr s fr quemment utilis offrant un m canisme d enrichissement de l information Dans Antelope ce mod le est utilis pour le stockage par exemple dans des fichiers XML et aussi si n cessaire pendant des op rations de calcul en m moire Il permet de g
333. permet ensuite d effectuer simplement des recherches par mots cl s par facettes ou par une combinaison simultan e de ces deux types de recherche Ubiq permet aussi de chercher les verbatims similaires un verbatim donn avec ou sans limitation de plage de temps ce qui est pratique pour d terminer si un ph nom ne est chronique ou ponctuel b Rapports et tableaux de bord Une fois les documents analys s on peut facilement faire des requ tes sur les documents mesurer l volution dans le temps d un ph nom ne d finir des indicateurs de synth se pour constituer un tableau de bord effectuer des analyses croisant deux axes etc La figure 56 montre des exemples de tableaux de bord synth tiques g n r s par Ubiq qui servent d outil de pilotage quotidien volution des avis au fil du temps griefs les plus voqu s etc R partition des verbatims dans les hypermarch s 2181 1x10 Comparaison de deux semaines 4 2 X 5 Concurrents cit s e 2 xjo MM LECLERC ST E concurrence I AUCHAN 2065 MMM INTERMARCHE i E GEANT CASINO MM autres enseignes Cuo E SUPER U 81 1xI0h Evolution du nombre de verbatims OOBE 8000 1600 1400 Top Produits PGC ajal x n 1200 ri ji aa i Ji Rayons Koea r iz eM AA ee 600 rad a an y V 200 PRODUITS FRAIS SERVICES 1441 o 01 04 2012 08 04 2012 15 04 2012 22 04 2012 29 04 2012 TEXTILE 707 Sur une semaine e 21
334. plate forme prend en compte plusieurs types d ambiguit s et impl mente diff rentes heuristiques qui calculent un score pour chaque candidat possible ces diff rents choix sont m moris s aussi longtemps que possible en fin de processus les candidats ayant le meilleur score cumul sont retenus Cette d marche permet de repousser un choix d finitif en fin d analyse de fa on a disposer d un maximum d indices Nous souhaitons dans le futur am liorer ce syst me qui reste limit la juxtaposition d un ensemble de choix locaux et manque donc d une vision globale Chaque composant d analyse linguistique effectue sa t che ind pendamment des autres en portant un jugement local Par exemple un module de d sambiguisation lexicale pourra attribuer un nom tel que Paris ou Washington un sens de type lieu un module de r solution d anaphore pourra consid rer que ce m me nom est l ant c dent d un pronom d signant une personne les deux modules ne peuvent pas avoir raison simultan ment sauf si l utilisation d une figure de style comme une m tonymie permet de personnifier le lieu dans le cas d esp ce Un enjeu futur important pour la plate forme concerne donc sa capacit f d rer ses diff rents composants de d sambiguisation sous la supervision d un chef d orchestre charg de garantir la coh rence d ensemble Nous travaillons actuellement sur la formalisation des diff rents choix
335. pos la section pr c dente on constate que plusieurs d entre elles trouvent leurs racines dans le Web s mantique et que plusieurs projets visent mettre automatiquement en relation diff rentes ressources L apparition r cente des formats d ontologie du Web s mantique est un facteur important de normalisation de ces diff rentes donn es Ils permettent en effet de les repr senter d une fa on unifi e ces formats autorisent aussi la mise en correspondance entre des concepts identiques d finis dans des r f rentiels linguistiques diff rents Par exemple on peut facilement exprimer le fait que les concepts DOMESTIC_CAT 1 dans WordNet 3 0 et CAT dans DBpedia sont identiques ainsi on regroupe facilement des connaissances linguistiques morphologie hyperonymie et encyclop diques sur le m me sujet L annexe 1 page 187 pr sente en d tail le Web s mantique et ses standards mergents En TAL ils permettent de repr senter non seulement des r f rentiels linguistiques mais aussi des graphes complexes issus de traitements d analyse syntaxique ou d extraction d entit s nomm es et de relations par exemple Une fa on rapide d impl menter une application d extraction d information consiste alors faire une requ te SPARQL sur de tels graphes B WordNet et son cosyst me 1 Princeton WordNet Le Princeton WordNet version 3 0 constitue la base du lexique s mantique d Antelope Ce projet men
336. ppliqu es dans n importe quel ordre Au d part tous les synsets candidats partent avec un m me Carr et al 1991 d finit p 48 une heuristique comme une r gle qu on a int r t utiliser en g n ral parce qu on sait qu elle conduit souvent la solution bien qu on n ait aucune certitude sur sa validit dans tous les cas 65 indice de confiance qui est modifi durant l application des heuristiques Apr s cette tape les synsets candidats qui disposent d un poids manifestement trop faible pour correspondre l article sont supprim s de la liste Dans notre cas nous avons d termin exp rimentalement un poids minimal de 0 6 Ensuite on conserve les synsets dont l indice de confiance vaut au moins 40 de celui du synset le mieux class Ceci permet de supprimer les synsets non significatifs 1 Distance vectorielle sur les mots Cette heuristique est identique celle d crite dans Ruiz Casado Alfonseca Castells 2005 2 Comparaisons des contextes domaines implicites et noms propres Nous extrayons du texte les domaines biologie sport ventuellement associ s chaque mot ainsi que les noms propres Nous comparons la liste d l ments extraits de l article avec celle de chaque synset candidat galement l aide d une mesure vectorielle 3 Comparaison des domaines cit s explicitement dans le texte Cette heuristique recherche dans une d finition des
337. pus sp cialis s de produire une repr sentation du sens plus riche que celle manipul e par un moteur de recherche classique Cf II A 3 page 10 En effet une partie significative des l ments est d sambigu s e gr ce la reconnaissance d entit s nomm es et la structure reliant ces l ments est partiellement pr serv e avec l extraction de relations Nous sommes en pr sence d une forme restreinte d ISS qui constitue un progr s par rapport au vecteur termes fr quences o le sens est aplati avec une compression destructive de l information Notre objectif long terme reste de rendre le texte calculable apr s une ventuelle adaptation un domaine particulier en d veloppant une ISS g n rale capable de produire la repr sentation s mantique id ale voqu e au chapitre II C page 15 un graphe hi rarchis de relations pr dicat argument entre des acceptions lexicales d sambiguis es La r alisation d une telle ISS est donc subordonn e une d sambiguisation fine des diff rents l ments langagiers A notre connaissance cet objectif n est encore atteint par aucun syst me aujourd hui 2 Plan de cette partie Notre syst me n est pas encore la hauteur de nos ambitions mais nous avons plusieurs d veloppements en cours que nous souhaitons pr senter dans cette partie Nous y exposerons nos id es sur la prise en compte de l ambigu t et sur l criture d un prototype d ISS L un
338. que les noms verbes et adjectifs Le syst me analyse les d finitions de WordNet et construit pour chacune d entre elles un vecteur bool en contenant 1 pour chaque terme en commun avec l article et 0 pour chaque mot en disjonction L algorithme calcule alors une mesure de type cosinus entre les vecteurs et retient le meilleur article au sens de cette mesure de similarit Les auteurs revendiquent une pr cision de 91 11 83 89 sur les mots polys miques Nous avons tendu et am lior cet algorithme Chaumartin 2007b avec une m thode permettant d tablir automatiquement une correspondance directe entre les articles d une encyclop die crite en anglais ici la Simple Wikipedia ou un sous ensemble de English Wikipedia et les entr es d un lexique s mantique de r f rence ici les synsets de Princeton WordNet Deux cas de figure se rencontrent alors quand un article correspond d j a une entr e du lexique nous tablissons la correspondance entre les deux sinon nous enrichissons le lexique en cr ant une nouvelle entr e et en la rattachant via une relation d hyperonymie hyponymie au meilleur anc tre existant C est actuellement un format XML propri taire qui correspond un sous ensemble de SKOS Nous pr voyons de mettre jour ce format dans le futur pour tre compatible avec le format standard SKOS 64 Antelope est utilis e ici d une part pour effectuer une analyse s
339. que suite aux attentats du 11 septembre et aux conflits subs quents d p t de bilan de quelques clients ma vie professionnelle tait redevenue plus facile Mais je m ennuyais Mod lisation orient e objet du m tier g n ration automatique de code persistance des objets en base relationnelle bus logiciel asynchrone J avais commenc d couvrir en autodidacte des projets comme WordNet et le Link Grammar Le manque de liant entre ces diff rentes briques logicielles m intriguait Je d plorais de ne pas arriver les int grer et les manipuler facilement avec une bo te outils comme celles permettant de construire des interfaces ou des bases de donn es Ce manque m a pouss cr er progressivement les bases de ce qui allait devenir la plate forme Antelope Venant du monde de l industrie j avoue r trospectivement une certaine ignorance cette poque de ce qu est la recherche acad mique Un matin de 2004 je prends mon b ton de p lerin et vais toquer la porte de la patronne d un laboratoire de TAL La discussion est courte Moi tout sourire Bonjour je m appelle Francois je suis ing nieur et je voudrais faire une th se elle index pointant la porte Dehors Apr s ce premier change encourageant et l envoi d une longue lettre de motivation je d marre un master de recherche en TAL en parall le mon activit principale en jonglant avec l agenda et en apprenant intercaler un T
340. ques r vent de disposer de sondages large chelle et en temps r el pour prendre le pouls de l opinion publique Elles sont tr s attentives la ma trise de leur communication et leur crainte est de souffrir d une mauvaise r putation en ligne Ce type d analyse constitue le champ de recherche traditionnel des sondeurs Son automatisation est relativement r cente Plusieurs campagnes d valuation en fouille d opinion sont apparues ces derni res ann es DEFT FODOP SemEval NTCIR et ont trac les contours de ce qui est techniquement envisageable Elles ont aussi rappel la redoutable complexit des probl mes scientifiques soulev s Les repr sentations du sens de type sac de mots Cf section II A 3 montrent ici leurs limites elles peuvent produire le m me vecteur termes fr quences partir d nonc s proches mais sur lesquels l opinion exprim e diff re sensiblement e Ce produit ne vaut rien Rien ne vaut ce produit e Ce produit est de bonne qualit Ce produit tait de bonne qualit e Je ne suis pas satisfait de tout Je ne suis pas satisfait du tout La difficult de l analyse automatique de sentiments porte aussi bien sur la construction de ressources d di es lexique sp cifique que sur l num ration des situations d crivant un m me ph nom ne paraphrases st r otypes voire la d finition m me de la t che S agit il d attribuer une polarit globale un
341. r sur des tests pr liminaires il offre une pr cision de l ordre de 60 Une autre approche serait de ne prendre en compte que les heuristiques qui ont une pr cision sup rieure a celle de la baseline 71 3 quitte a accepter un rappel faible Concevoir et impl menter plusieurs algorithmes ne s appliquant que dans un cas pr cis n cessiterait un important investissement et il en faudrait un grand nombre pour augmenter sensiblement le rappel Soulignons que dans l ensemble des heuristiques de d sambiguisation lexicale donnant une pr cision lev e la reconnaissance d entit s nomm es est probablement celle qui offre le meilleur rappel sur un corpus sp cialis 6 Ambiguit syntaxique Nous pr sentons ici des id es dont l objectif est de contribuer lever les ambiguit s syntaxiques en utilisant des ressources externes a l analyseur Elles sont au stade de l exp rimentation nous ne les voquerons donc que bri vement a Utilisation d un tiqueteur morphosyntaxique comme oracle d un analyseur syntaxique Nous avons men une exp rience informelle autour de l analyseur syntaxique du fran ais FRMG de la Clergerie et al 2009 L exp rience consistait utiliser un second tiqueteur morphosyntaxique ind pendant de celui mis en uvre en interne par FRMG de fa on tenir compte d une seconde source d information pour calculer la partie du discours de chaque mot Cela a permis d am liorer la F
342. r s agr able bien 18 a table 1504 pain petits 15 agence sav toujours pas tr s 17 PC 1467 cuisine autour 15 pas rayons vetements soldes 14 aportat 1455 la cave cubis vin rouge france 15 drive courses auchan magasin 14 C client particuli rement rayon choix 15 pas cagnotte carte utiliser 14 direction parviens trouve facilement les produits noyelles godault 14 caisses pas utiliser cagnotte carte 14 obtenir diter faire facture D possonnene crevettes pas achet 13 technique stationnement place parking handicape 13 beaut savait vendait ces produits petite foret 13 commer ant en piercings bijoux int rieur ou l ext rieur 12 l gume fruit 13 ted equipement toujo 3 7 z aT st fev 1 ant lazer C13 Tr zy zy Le mal Figure 54 Vision de synth se de plus de 10 000 documents sur deux semaines 6 Interface de la solution Ubiq a Recherche et analyse multidimensionnelle Retail Adm trateu Motifs Marques PRODUIT 1037 PRIX ET PROMOTIONS 240 gt Concurrents DIVERS OU ABSENCE MOTIF 80 CONFORT D ACHAT 68 EEE E RE Produits SERVICES AUCHAN FR O DRIVE FIOUL BILLETERIE 34 PAIEMENT CARTE WAAOH ACCORD 27 m orange 896 INFORMATIONS CONCERNANT UN PRODUIT 19 i m jus d orange 401 SERVICE APR S VENTE 15 Aff n 290652 02 04 2010 via Carnet collaborateur AUCHAN ARRAS PB QUALIT fruit 99 QUALITE ET
343. ract gard souri bon humeur felicit Le principal int r t de la lex misation des termes est de faciliter une recherche subs quente sur les concepts approchants sans avoir g rer explicitement des relations de d rivation morphologique par exemple une recherche sur a chine investit en Afrique renverrait aussi un texte parlant d investissements chinois sur le continent africain La limite de cette approche est d entra ner souvent une confusion des concepts en effet si on peut consid rer que cheval et chevalier ont effectivement un rapport le lien avec chevaleresque est plus t nu et celui avec chevalet est inexistant a contrario la relation avec cavalier est quant elle purement et simplement ignor e par les algorithmes usuels de lex misation e Obtention d un vecteur termes fr quences Au final le verbatim d origine est transform en un vecteur associant la racine de chaque terme sa fr quence dans le document abstract 1 accueil 1 bon 1 caiss 1 celin 1 chaleur 1 fair 1 felicit 2 fevri l foul 1 gard 1 humeur 1 incroy 1 jour 1 samed 1 souri 2 su 1 ten 1 Le sens d un document est donc repr sent par un point dans un espace vectoriel de grande taille dont les dimensions sont les termes Lors d une recherche la requ te effectu e par un utilisateur est transform e de la m me facon sous forme de vecteur normalis le moteur recherche alors au sein de l index les doc
344. raction de relations de polys mie r guli re Nous avons proc d Barque Chaumartin 2008 Barque Chaumartin 2009 a une analyse et une mod lisation des relations de polys mie r guli re Cette tude exploite la hi rarchie des noms et verbes de WordNet et la d finition associ e chacun de ces synsets Un ensemble de r gles a permis d identifier d une fa on largement automatis e 2 350 instances de relations de m taphore et de m tonymie avec une pr cision voisine de 91 La m thode utilis e permet aussi d obtenir une d sambiguisation lexicale partielle de la d finition associ e aux synsets Nous commencerons par dresser un rapide tat des lieux des recherches d di es la description de la polys mie r guli re Ensuite nous exposerons les objectifs de cette tude et les moyens mis en uvre pour y parvenir nous proposerons notamment une m thode de construction des patrons de polys mie assist e par ordinateur Enfin nous pr senterons les r sultats obtenus sous forme d une classification de ces patrons et d une mesure de leur r gularit dans WordNet a Etat de l art WordNet a d j t exploit en vue d une caract risation de la polys mie Peters 2006 Veale 2006 Dans cette lign e notre exp rience propose une d marche pour cr er des patrons de polys mie r guli re puis pour d tecter automatiquement leurs occurrences dans ce lexique Consid rons la d finition lexicographique d
345. ration de ce point avec les sorties produites par le Stanford Parser sur la le rattachement du PP au NP est syst matiquement propos prep gt dobj gt pobj gt m lt e lt e eat L L with a phrase I eat the pizza with a friend comme tant le plus vraisemblable dob gt pobj gt rede poten lt e I eat the pizza with a friend Figure 60 Deux rattachements pr positionnels possibles sur une phrase de type V NP PP L heuristique que nous avons pr sent e ici semble donc int ressante pour lever l ambigu t de certaines configurations syntaxiques Le temps de calcul n est pas n gligeable par rapport celui de l analyse syntaxique elle m me mais rien n emp che de mettre en place une optimisation telle qu un cache des r sultats d j calcul s pour chaque Google fight Nous avons effectu nos tests en anglais Le principe semble toutefois g n ralisable d autres langues dont le fran ais du moment qu on dispose d une ressource de n grammes constitu e partir d un corpus de taille significative Elle peut tre calcul e pour une langue donn e partir de l encyclop die Wikip dia ou du projet Gutenberg par exemple notons que le projet Google Books Ngram propose le t l chargement direct de tels jeux de donn es pour l anglais le chinois le fran ais l allemand l h breu le russe et l espagnol c Reconnaissance d expressions multi mots Disposer d un lexique
346. rdNet Cette ressource a t cr e d une fa on semi supervis e en mixant des r gles linguistiques et de l apprentissage automatique par utilisation de classifieurs Les r sultats n ont pas fait l objet d une validation manuelle syst matique certains peuvent sembler incorrects 6 Ontologies SUMO et MILO SUMO pour Suggested Upper Merged Ontology Niles Pease 2003 est une proposition de standard soumise IEEE pour repr senter un haut g n rique d ontologie r pertoriant d une fa on r utilisable et g n rique de grandes cat gories de la pens e humaine MILO Mid Level Ontologies est un ensemble d ontologies multi domaines de niveau interm diaire cr es en se basant sur SUMO L ensemble crit en une version simplifi e du Knowledge Interchange Format langage logique du premier ordre compte 20 000 termes et 60 000 axiomes a Notion de haut d ontologie Les ontologies sont des artefacts construits en fonction d une t che pr cise L une des difficult s g n ralement constat es est qu une ontologie donn e est rarement r utilis e pour une t che autre que celle qui a motiv sa construction originelle Il d coule de ce constat de nombreuses recherches sur la r utilisabilit du haut des ontologies leur argumentaire est puisqu il est difficile voire impossible de r utiliser directement des ontologies trop proches de vues d taill es qu on peut avoir sur
347. re 1916 28 29 2 Nos objectifs dans ce domaine Nous ne chercherons ici ni th oriser sur ce qu est le sens d un nonc d autres l ayant d j fait avec brio ailleurs ni le comprendre compl tement Atteindre un niveau fin de compr hension automatique d un nonc est un objectif notoirement difficile par exemple la traduction automatique de qualit humaine est r put e impossible dans l tat actuel des connaissances Cet objectif ambitieux a t r guli rement ajourn au profit de t ches plus locales et moins complexes Les travaux men s ont n anmoins permis de r aliser des perc es concr tes Ils ont d bouch sur quelques applications industrielles rendant chaque jour un service r el des dizaines de millions d utilisateurs on peut notamment citer la recherche de documents sur le Web ou dans le cadre d applications sp cialis es dans un domaine et la correction grammaticale Notre objectif est de pr senter une d marche outill e pour am liorer les applications analysant de grandes quantit s de textes tout venant Nous cherchons modestement extraire une plus grande partie du sens contenu dans des nonc s Nous souhaitons contribuer ainsi am liorer le fonctionnement actuel des applications industrielles de TAL 3 Repr sentation du sens utilis e par un moteur de recherche Le moteur de recherche est probablement l application du TAL la plus populaire ce jour en
348. re ambition in fine est de rendre calculable du texte tout venant Plus pr cis ment nous souhaitons en calculer une repr sentation s mantique dont les l ments soient au moins partiellement d sambigu s s Une telle repr sentation a de multiples int r ts et facilite la r alisation de t ches de haut niveau comme la traduction automatique ou le r sum de texte Elle am liore aussi la qualit des informations qu un utilisateur peut trouver sur Internet une compr hension fine de sa requ te d passant le simple mot cl permet alors d am liorer la pertinence des r sultats 10 Quasi acronyme pour Advanced NaTural Language Object oriented Processing Environment Le rapport Bar Hillel concluait en 1960 l impossibilit d une traduction automatique de qualit humaine Nazarenko 2004 propose la formulation suivante De mani re abstraite on peut consid rer que comprendre un texte signifie tre capable de modifier sa repr sentation du monde en fonction des informations v hicul es par le texte Cela suppose qu un tre humain ou un syst me intelligent dispose d un ensemble de connaissances qui constitue sa vision de son environnement physique intellectuel social et symbolique Dans cette perspective la compr hension se traduit par l ajout la suppression ou la correction de connaissances En pratique le niveau de compr hension d pend de l objectif vis et de la nature du texte consid r On ne lit p
349. re ces n uds seront polaris s en noir dans la r gle Dans le cas du progressif illustr figure 64 nous ne savons pas si le sujet sera reli l auxiliaire ou au verbe lexical Nos deux analyseurs de r f rence le Stanford Parser et le Link Grammar font d ailleurs des choix diff rents C est pourquoi nous int grons le sujet dans la r gle et consid rons donc une relation s mantique lt arg1 correspondante Nous verrons dans la section 4 comment retirer cette information E Ho ie p 1 ss lt Baux ex a O L Cle O l He N BE Ving BE Ving Om LJ a progressive a progressive a progressive Lemara L aa nel LL aurai Figure 64 R gle extraite concernant le progressif 3 Des r gles lexicales pour l ISS L utilisation d un lexique lectronique permet l extraction automatique de r gles Par exemple une ressource d crivant des cadres de sous cat gorisation Cf IV B 3 telle que VerbNet pour l anglais ou Dicovalence pour le fran ais peut tre mise profit L id e est alors d analyser les exemples fournis pour en d duire les r gles Par exemple le cadre give 13 1 de VerbNet est d crit de la fa on suivante 166 lt DESCRIPTION descriptionNumber 0 2 primary NP V NP PP recipient gt lt EXAMPLES gt lt EXAMPLE gt They lent a bicycle to me lt EXAMPLE gt lt EXAMPLES gt lt SYNTAX gt lt NP value Agent gt lt VERB gt lt NP value Theme gt lt PREP value
350. reau 2005 pour l articulation de plusieurs modules l aide de polarit s d interface entre modules 165 du temps verbal Par exemple en analysant ces deux phrases avec le Link Grammar on voit que seule change l tiquette cat gorielle VBZ pour sleeps et VBD pour slept On obtient ainsi deux r gles flexionnelles Figure 63 Cle VBZ Je VBD O t present Figure 63 R gle extraite concernant le temps verbal De la m me facon pour identifier le trait porteur du lemme il suffit de comparer Mary left avec Ann left Nous ne souhaitons pas crire une r gle pour chaque lemme mais avoir une r gle tr s g n rale de copie de la valeur du lemme Voyons maintenant comment extraire la r gle pour l aspect progressif Nous savons que l aspect progressif est exprim par BE Ving et nous voulons r cup rer au niveau s mantique un attribut aspect progressive sur le verbe Pour apprendre la r gle nous allons construire un exemple de phrase avec un progressif en l occurrence Mary is sleeping en indiquant que pour is le lemme seul sera consomm MO et que pour sleeping la flexion seule sera consomm e L1 voir figure 64 Par ailleurs nous devons indiquer quelles d pendances syntaxiques seront consomm es Or nous ne savons pas exactement ce que va faire l analyseur nous lui indiquons simplement une liste de noeuds surlign s dans nos exemples et nous consid rons que tous les liens syntaxiques ent
351. reffer dynamiquement de nouvelles informations a des instances d objets sans imposer une modification du code de leur classe ou une sp cialisation Les principaux objets du mod le unifi d Antelope document phrase analyse syntaxique mot cor f rence ainsi que ceux du lexique s mantique lemme synset disposent d annotations Elles permettent de stocker 51 Web services XML sur TCP NET remoting flux binaire sur HTTP ou TCP Par exemple www alchemi net ou www digipede net Antelope ne les exploite pas encore A cette poque la Simple Wikipedia comportait 15 000 articles crits en anglais simplifi 54 i s i i as x r Xn i i Une annotation est impl ment e sous forme d une structure de dictionnaire c est dire une liste de paires nom valeur avec la syntaxe objet Annotations nom valeur 29 e Des r sultats interm diaires pendant un calcul par exemple lors du calcul des anaphores une annotation pr cise si un pronom est pl onastique ou non e Des donn es compl mentaires optionnelles un concept du lexique s mantique peut ainsi tre reli l URL de l article correspondant dans la Wikip dia 3 Int gration de composants externes L quipe Proxem a d velopp ses propres analyseurs syntaxiques partir de 2011 par apprentissage automatique un tiquetage morphosyntaxique en utilisant des CRF et un analyseur robuste du fran ais Antelope int gre aussi plusieurs composa
352. rence La principale caract ristique commune UML et OWL est que tous deux sont bas s sur la notion de classes Une classe est un ensemble d instances l ensemble des instances d une classe est son extension Il existe toutefois une subtile diff rence e En UML l tat d une instance consiste en un ensemble de propri t s contenant des valeurs d un type connu e En OWL l extension d une classe est un ensemble d individus d instances qui sont repr sent es par leur nom un individu est d fini ind pendamment des classes il existe une classe anc tre universel Thing dont l extension est constitu e de tous les individus d un mod le donn et toutes les classes h ritent de Thing 211 Une description d taill e est disponible dans The Even More Irresistible SRO 7Q de lan Horrocks Oliver Kutz et Ulrike Sattler http www cs man ac uk sattler publications sroiq TR pdf 195 La principale diff rence entre OWL et UML du point de vue des instances est qu un individu peut tre une instance de Thing mais d aucune autre classe Une classe OWL est d clar e en donnant un nom au type consid r lt owl Class rdf ID Societe gt Un individu est a la base une ressource RDFS c est dire essentiellement un nom Un individu 1D3101 est d clar de la fa on suivante lt owl Thing rdf ID ID3101 gt En OWL les relations entre classes sont appel es des propri t s c est l
353. repr sentation de matrice creuse est le format Yale Sparse Matrix On parle de classification ou de discrimination quand ces derni res informations sont connues a priori L inertie intra classe est la variance des points d un m me groupe L inertie inter classes est la variance des centres des groupes 166 167 168 126 Le regroupement hi rarchique peut galement tre descendant tous les l ments sont initialement consid r s appartenir une m me classe on cherche ensuite s parer cette classe en deux en maximisant l inertie inter classes De m me l arbre r sultant peut tre coup selon un certain seuil d inertie intra classe b Regroupement par cliques ou regroupement flou Le corpus est ici consid r comme un graphe les documents sont interconnect s les arcs du graphe repr sentant la similarit entre ces documents Le regroupement par cliques cherche regrouper les l ments qui se trouvent dans une m me clique du point de vue de ce graphe L avantage est que le regroupement n est pas strict un document pouvant appartenir plusieurs classes c est pourquoi on le qualifie aussi de regroupement flou c Regroupement QT Le regroupement QT Quality Threshold Heyer et al 1999 consiste chercher pour chaque l ment un regroupement possible qui ne d passe pas un diam tre fourni par l utilisateur puis choisir le regroupement contenant le plus d l ments Cette phase est r p t e
354. rer tous les l ments En pratique il n est pas si facile de d terminer leur liste de fa on exhaustive The Preposition Project Litkowski 2002 est un projet con u pour fournir une caract risation compl te adapt e au TAL des sens des pr positions en anglais 334 pr positions avec 673 sens ont t d crites avec un r le s mantique ou un nom de relation et une description des propri t s syntaxiques et s mantiques de son compl ment Une d finition et des exemples d usage sont donn s pour chaque sens dans TPP Une ressource proche pour le fran ais nous semble tre PrepLex Fort Guillaume 2007 c est un lexique de pr positions cr en premier pour fournir des informations un analyseur syntaxique On peut aussi citer le projet PrepNet Saint Dizier 2005 qui vise d crire la syntaxe et la s mantique des pr positions ce projet semble n anmoins en tre rest a un stade pr liminaire nous n avons pas trouv de ressource exploitable 3 FrameNet FrameNet Baker Fillmore Lowe 1998 projet men a Berkeley l initiative de Charles Fillmore est fond sur la s mantique des cadres frame semantics en anglais FrameNet a pour objectif de documenter la combinatoire syntaxique et s mantique pour chacun des sens d une entr e lexicale travers une annotation manuelle d exemples choisis dans des corpus sur des crit res de repr sentativit lexicographique Les annotations sont ensuite synth
355. ressed Genes Genome Research 11 9 1106 1115 1999 CLUSTERING HIROCHI U MEIYING Z DELLA SENTA T 1999 The UNL A Gift for a Millenium UNU IAS Tokyo Hoses J 1978 Resolving Pronoun References Lingua 44 311 338 177 Hoses J ET AL 1996 FASTUS a cascaded finite state transducer for extracting information from natural language text In Finite State Devices for Natural Language Processing Cambridge MA MIT Press IE IBRAHIM A KATZ B LIN J 2003 Extracting Structural Paraphrases from Aligned Monolingual Corpora Actes de Second International Workshop on Paraphrasing IDE N VERONIS J 1998 Introduction to the special issue on word sense disambiguation the state of the art Computational Linguistics 24 1 1 40 IORDANSKAJA L KITTREDGE R POLGUERE A 1988 Implementing a Meaning Text Model for Language Generation Actes de COLING 1988 Iss JACKENDOFF R 1972 Semantic interpretation in generative grammar Cambridge MA MIT Press JACKIEWICZ A HUNSTON S EL BEZE M 2010 Opinions sentiments et jugements d valuation pr face Traitement Automatique des Langues 51 3 pp 7 17 JOUSSE F GILLERON R TELLIER l TOMMASI M 2006 Champs conditionnels al atoires pour l annotation d arbres NER ML KAHANE S MEL CUK 1999 Synth se de phrases extraction en fran ais contemporain du r seau s mantique l arbre syntaxique Traitement Automatique des Langues
356. reur en revanche une erreur dans du code C C peut r sulter en une corruption de la m moire et une erreur fatale au programme C est donc difficile accepter dans un contexte industriel avec des contraintes de production en 24 7 Concr tement nous avons constat ce probl me avec un correcteur orthographique une solution est alors d effectuer un portage du code C C vers du code natif CH c Adaptation un format commun Il est relativement ais d int grer un nouvel tiqueteur morphosyntaxique pour l anglais dans la mesure o le jeu d tiquette du Penn TreeBank est un standard de fait g n ralement bien suivi quelques d tails pr s parfois comme des tiquettes particuli res pour les verbes to be et to have L effort fournir est plus important pour les analyseurs syntaxiques En effet m me s ils produisent des structures de m me nature arbres de constituants et arbres de d pendances avec des tiquettes de constituants normalis es NP VP PP les tiquettes et l organisation des d pendances diff rent radicalement entre les diff rents analyseurs que nous avons utilis s La figure 5 permet de le constater en comparant la RSyntS produite par le Link Grammar Parser gauche avec celle du Stanford Parser droite lors de l analyse syntaxique d une m me phrase l arbre de constituants est au dessus des mots l arbre de d pendances en dessous Nous verrons au chapitre VII A que lors
357. rmation fonctionne sur des textes fran ais ou anglais 111 b Architecture technique du composant d extraction d information La figure 35 d taille les classes utilis es par le composant Un pr dicat classe Template est d crit par des exemples classe Sample qui sont des paraphrases d une construction donn e Ces exemples peuvent tre formul s dans l une des langues pour lesquelles Antelope dispose d un analyseur syntaxique actuellement le fran ais ou l anglais IScoredWord ES Interface Samples Sample G F Language Language G SlotType A 3 base interfaces gt gt Class f gt Enum Class 2 7 7 3 Keywords _ k ap x a Pp z w gt gt Properties Template Properties Properties RP partofspeech Class CanonicalText D SF IsDefinedByLiterals FR Tet F Slots Slot s k 5 amp Definition L Class Tr Name ey LogicalForm ri re Le PartOfSpeech B S Macros E Properties m RestrictionEvent SF Lemmas ILemma s gt iey IsMandatory t Nested Types Interface 2 base interfaces TemplateSlots T Name 2 Figure 35 Diagramme des classes utilis es par le composant d extraction d information Une relation a un ou plusieurs arguments classe Slot d un certain type classe SlotType Un argument peut tre obligatoire ou optionnel Par exemple dans la relation acquisition de soci t par une autre les deux arguments Acheteur et Soci t Achet e sont oblig
358. rte la d p che On cherche galement d tecter des patrons un peu moins triviaux par exemple des mots contenant des majuscules d autres emplacements qu au d but du mot quand ils ne sont pas enti rement en majuscules C est un cas int ressant lorsqu on cherche d tecter des produits technologiques des noms compos s ou encore des noms d entreprises e A Z a z A Z a z McCallum Bluetooth e a z A Z A Za z iPhone eeePC Notons que les caract ristiques portant sur la forme des mots ne peuvent pas tre utilis es seules si l on va ais ment d tecter qu un mot commen ant par une majuscule est une entit nomm e sa seule casse ne permettra pas d en d terminer la classe Ces caract ristiques permettent d augmenter le rappel lorsqu elles sont utilis es conjointement avec d autres types de caract ristiques 4 Transitions Tout comme les encha nements entre les mots peuvent se r v ler int ressants les d pendances sur les suites d tiquettes peuvent aussi apporter des informations utiles la d termination des classes d entit s nomm es Pour illustrer ce point sur un exemple concret on imagine facilement que deux mots cons cutifs puissent constituer une entit type Personne dans le cas o pr nom et nom se suivent En revanche il est tr s rare de retrouver une suite de mots o deux entit s de type Personne Technologie ou Lieu Perso
359. rticles quarante six ont t d tect es correctement L ant c dent a t correctement trouv dans quarante trois cas Sur ce jeu de tests r duit la pr cision est donc de 93 et le rappel de 97 F Regroupement de documents L Introduction Le regroupement de documents clustering en anglais permet de partitionner un corpus en sous ensembles pr sentant des similitudes Une telle op ration porte donc non plus sur un document individuel mais sur la globalit d un corpus Elle offre de l int r t pour plusieurs applications de TAL Nous souhaitions donc int grer en standard un composant de regroupement dans la plate forme Nous pr sentons ici un tat de l art non exhaustif mais repr sentatif des diff rentes voies possibles et des pr cisions sur notre impl mentation de deux algorithmes Bron Kerbosch et Spectral Clustering 2 Pr ambule propos des impl mentations L information fournie en entr e un algorithme de regroupement est une matrice termes documents C est une matrice dont les colonnes repr sentent les documents et les lignes les termes du corpus chacune des cellules compte le nombre de fois o un terme donn appara t dans un document donn Cette matrice peut devenir tr s volumineuse par exemple un corpus de 200 000 documents crits avec 30 000 termes distincts repr senterait une matrice de six milliards de cellules l espace m moire n cessaire pour stocker un tel tableau bidimen
360. rture et extensibilit OWL Lite a t pr vu l origine pour des utilisateurs ayant principalement besoin de manipuler une hi rarchie de classification et des contraintes simples Par exemple OWL Lite autorise des contraintes de cardinalit mais seulement avec les valeurs 0 ou 1 OWL Lite est bas sur la logique de description SHIF Des algorithmes d cidables existent pour OWL Lite OWL DL a t con u pour fournir une expressivit maximale tout en garantissant la compl tude le calcul de toutes les conclusions est garanti la d cidabilit tous les calculs finiront en un temps fini et des algorithmes de raisonnement impl mentables OWL DL inclut toutes les constructions d OWL mais elles ne peuvent tre employ es que sous certaines restrictions par exemple des restrictions de nombre ne peuvent tre plac es sur les propri t s qui sont d clar es comme transitives OWL 2 est une extension d OWL DL avec des constructeurs suppl mentaires qui en simplifient l usage courant Les probl mes d inf rence peuvent tre en temps exponentiel pour OWL DL en pratique 209 On peut citer par exemple CycL Common Logic standard pouss par l ISO http common logic org DAML OIL pr d cesseur direct d OWL FLogic http flora sourceforge net OCML Operational Conceptual Modeling Language http technologies kmi open ac uk ocml XOL Ontology Exchange Language PowerLoom http www isi edu isd LOOM Po
361. ruction 6 6 BUILDING 4 FLOOR 7 Quantit contenue dans Conteneur 39 39 TEASPOON 1 BAG 5 L_ Nourriture contenue dans Plat 5 5 PLATE 8 CASSEROLE 1 Rivi re passant dans R gion 6 6 ALABAMA H3 DELAWARE 1 Pays situ dans le 22 22 IRELAND 1 MALTA 1 L2 est caract ris par L1 Balle caract ris par Jeu 9 10 PAINTBALL 1 VOLLEYBALL 2 Vin provenant de R gion 4 4 CHABLIS 2 BORDEAUX 2 Couleur caract ristique de L1 7 7 Couleur caract ristique de Gemme TOPAZ 3 EMERALD 3 Couleur caract ristique de M tal GOLD 2 COPPER 4 Couleur caract ristique de Fruit CHERRY 4 CHESTNUT 4 Nourriture au go t de L1 13 25 L_ Nourriture au go t d Herbe MINT 5 RATAFIA 2 V tement caract ris par Partie du corps 12 14 BACK 7 SHOULDER 4 Personne caract ris e par L1 Sportif caract ris par Position 31 31 CENTER 13 WINGBACK 1 Chanteur caract ris par Voix 11 11 CONTRALTO 1 SOPRANO 1 Langue parl e par Personne 199 223 KOREAN 2 PORTUGUESE 1 2 Classification des relations de m taphore L2 est analogue L1 Communication humaine est analogue Communication animale 3 4 BARK 1 CACKLE 1 Partie du corps animal correspond Partie du corps humain 3 3 LEG 2 THROAT 4 Individu ressemble dans son comportement Animal 36 54 PIRANHA 1 POPINJAY 1 perroquet Objet ressemble par sa forme Objet naturel 38 38 MOON 2 SNAKE S L Artefact ressemble Partie du corps 5 5 NOSE
362. s vastes marges SVM ou encore des champs conditionnels al atoires CRF On disposera alors d autant de composants HmmTagger SvmTagger CrfTagger respectant tous les sp cifications de l interface ITagger Le reste de l application manipulera ces composants d une fa on abstraite en tant que ITagger sans avoir besoin de conna tre leur impl mentation particuli re L application utilisant ces composants peut alors tr s facilement substituer une impl mentation une autre cela permet de choisir pour une t che donn e celui qui donne les meilleurs r sultats en fonction de la nature des documents analyser b D finition de tests unitaires et de tests de non r gression Un test unitaire est destin s assurer du fonctionnement correct d un composant d un logiciel ind pendamment du reste du programme afin de v rifier qu il r pond aux sp cifications pr vues Apr s une modification substantielle du code ou un changement de version d un autre composant 7 MONO http www mono project com est un portage libre de NET sur Linux et Mac OS En C une interface peut se d finir comme une classe abstraite virtuelle pure Ici cod e en langage C par convention le nom d une interface commence par la lettre en majuscule Sauf videmment lors de l instanciation il faut quand m me pr ciser un moment donn qui fait quoi qui peut tre effectu e avec un design pattern de type Fact
363. s UML peuvent tre dans une grande mesure transform s automatiquement en ontologies Les donn es en production au format SQL peuvent galement tre traduites en RDF Les pages Web existantes peuvent tre progressivement enrichies de m tadonn es aux formats du Web s mantique en utilisant RDFa par exemple Toutefois l un des enjeux du Web s mantique est de d montrer sa capacit s appliquer une large chelle et pas seulement dans un cadre restreint Si les technologies du bas de la pile sont prouv es Unicode XML URI ou en train de prendre de l importance RDF RDFS SPARQL celles du haut de la pile OWL raisonneurs SWRL ont des sp cifications encore fluctuantes et trop peu d impl mentations Par ailleurs si les bases de donn es SPARQL permettent maintenant de faire des requ tes sur des milliards de triplets RDF la capacit des raisonneurs d op rer effectivement sur des grands volumes de donn es ne nous semble pas encore prouv e 200 Annexe II Notions math matiques A Rappel pr cision F mesure et exactitude Pour valuer la qualit d extraction des entit s nomm es nous utilisons les mesures classiques de rappel de pr cision et de F mesure Nous en rappelons ici la d finition Le rappel correspond la proportion d entit s nomm es correctement trouv es et annot es par rapport au total d entit s nomm es r ellement pr sentes dans le texte Il est donc sensible au
364. s une deuxi me polarit blanche indique que la flexion verbale doit aussi tre consomm e En haut a droite se trouve le r sultat attendu c est dire un graphe s mantique associ la phrase et polaris en noir puisque produit par l interface Pour assurer cette correspondance nous utilisons les trois r gles qui figurent 15 Les d pendances syntaxiques sont orient es vers la gauche lt nsubj ou vers la droite xcomp gt 164 en dessous Ce sont des r gles lexicales associ es aux lemmes SEEM SLEEP et MARY Comme on peut le voir la r gle associ e SEEM consomme la totalit des d pendances syntaxiques mais ne produit qu une d pendance s mantique La deuxi me d pendance s mantique est produite par la r gle de SLEEP Mais pour que cette r gle puisse s appliquer il est n cessaire que la r gle de SEEM restitue une d pendance syntaxique Par souci de simplicit nous laissons de c t ici comme ensuite la question des tiquettes cat gorielles sur les n uds Notons pour terminer que la r gle de SEEM impose son xcomp gt d tre un verbe infinitif Vinf et consomme ainsi sa polarit flexionnelle xcompll gt f subi f Dau MAEV seems ES SLSeN Mary sems EO Sen lt Onsubj c lt compl gt il lt Maux re Ho O E E i mpd oi f oa h La rqli _ Figure 62 Exemple d interface syntaxe s mantique en GUP Notons qu on peut avoir plusieurs types de polarit s sur un m
365. s 201 A Rappel pr cision F mesure et exactitude 201 B Algorithme de regroupement spectral ss 202 Ci LOS CRE Al RER Pin ren en a ra ne Tete cgdveda Pin ne Lies 203 Annexe III R f rences linguistiques eesssssssssosssssesseesscossssocsssscesssesessseseoossssoossssseseee 209 A Liste des r les th matiques de VerbNet csscssscecssscesssecseseecseeeessaeesssaecseseecsesssseeseaeeesees 209 Inde hate nain hunter t 213 Liste des figures Figure 1 Figure 2 Figure 3 Figure 4 Figure 5 Figure 6 Figure 7 Figure 8 Figure 9 Figure 10 Figure 11 Figure 12 Figure 13 Figure 14 Figure 15 Figure 16 Figure 17 Figure 18 Figure 19 Figure 20 Figure 21 Figure 22 Figure 23 Figure 24 Figure 25 Figure 26 Figure 27 Figure 28 Figure 29 Figure 30 Figure 31 Figure 32 Figure 33 Figure 34 Figure 35 Figure 36 Figure 37 Figure 38 Figure 39 Figure 40 Repr sentation s mantique partielle d un avis de consommateur 13 Repr sentation s mantique id ale que nous souhaitons obtenir 16 Repr sentation d une phrase simple avec le formalisme des graphes conceptuels 18 Vue d ensemble du mod le de donn es linguistiques unifi d fini pour Antelope 23 Comparaison des sorties du Link Grammar et du Stanford Parser cccccccccssssssseeeee
366. s 9 Repr sentations du Sens 5 3isnse ii nas ni ANENA tnt er ea lente NEANS ENNS 9 B La Th orie Sens Texte einer 14 C Notre repr sentation s mantique id ale 15 D Autres formalismes de repr sentation du sens cccsccccesssececsessececeessececeesaeeecsesaececeesaeeeeseaaes 18 Partie Ill Antelope une plate forme pour extraire les sens du texte cccssccesseeeeees 19 A Objectifs de la plate ToOrmess sc lt sceacezesssstececuccteesess sa ane nn ins ae eneee aien Eees aaaeaii aet 19 B Diversit des l ments analyser 20 C Mod le unifi des niveaux de repr sentation linguistique 22 D Prise en compte du multilinguisme ss 24 E Capacit pr server les ambigu t s 27 Fe Architecture technique ananas atataenere nan ren A Catane eee nest ee 27 G Positionnement par rapport d autres plates formes ccccescccccsssseceesssseceesseseceesssseeessssaeees 33 H Compatibilit avec l architecture UIMA ns 35 Composants de traitement jusqu l analyse syntaxique ccssccccccecsssssssseseeeescessesesteaeeeeeess 37 J Evolutions de la plate forme ns 38 Partie IV Lexique s mantique multilingue large couverture ss 41 IntroOdU tiOn ass sn ne ii A a inner Mai ati ut 41 B WordNet et SON GCOSYStOME cccccccesssscecssssececeesseeecsesaececsesseeecsesaeeeceesaesecsessesecsesaeseceesaeeeeseaaes
367. s activateurs ou inhibiteurs de sens S il donne de premiers r sultats satisfaisants il ne fonctionne qu avec un nombre fini de cas qui doivent tre explicitement pr vus il n est pas capable de g n ralisation et ne saura reconnaitre de nouvelles instances d entit s si elles sont absentes des gazettes Or dans la plupart des domaines de nouvelles entit s apparaissent r guli rement produits et marques dans un contexte dans la grande distribution soci t s et personnes dans les articles de presse par exemple L apprentissage automatique permet de d passer ces limites Le type d apprentissage automatique que nous utilisons pour la d tection d entit s nomm es repose sur les champs conditionnels al atoires CRF Ces mod les probabilistes ont t propos s par Lafferty McCallum Pereira 2001 afin de pallier certains d fauts des mod les utilis s jusqu alors dans le domaine du traitement et de l annotation de s quences de donn es Ils ont rapidement montr leur int r t dans l tiquetage morphosyntaxique et la d tection d entit s nomm es nous nous en servons d ailleurs pour effectuer ces deux t ches Une introduction leur utilisation peut tre trouv dans Wallach 2004 ou Sutton McCallum 2006 Des extensions XCRF ont t propos es plus r cemment Jousse et al 2006 pour effectuer des annotations sur des arbres et pas seulement sur des structures lin aires Un mod le bas sur
368. s ci dessous montrent en effet deux cas d inclusion de L1 dans la premi re partie de la d finition mais le premier exemple rel ve de la sp cialisation tandis que le second rel ve de la m taphore Voir n anmoins la section sur les gloses d sambiguis es page 53 A la date o nous avions r alis cette exp rience nous ne disposions que d Extended WordNet Le ratio de validation humaine de d sambigu sation des gloses tant faible 2 3 nous n avions pas utilis cette ressource 74 e ARRANGE 5 arrange attractively e GROW 9 grow emotionally Si l inclusion a lieu dans la seconde partie de la d finition il s agit soit d une m tonymie soit d une m taphore selon le type d l ment qui introduit l inclusion Parmi les trois exemples d j pr sent s plus haut les deux premiers MINT 5 et BLUEFISH 2 sont des cas de m tonymie le troisi me FIN 5 est un cas de m taphore Ici l ambigu t sur la cat gorie d appartenance d un lien donn peut tre lev e gr ce aux canevas d finitionnels Par exemple si l inclusion est pr c d e de la s quence that resembles comme c est le cas pour le vocable FIN nageoire ci dessus on sait qu il s agit d un cas de m taphore et non de m tonymie 2 Recherche d occurrences Notre m thode de d tection des liens de polys mie r guli re s applique dans un premier temps l ensemble des 1984 synsets dont la d finition inclu
369. s complet vise extraire d un texte tout un ensemble de connaissances s mantiques entit s nomm es relations cor f rences multiples sens des mots et de les repr senter l aide du formalisme d crit au chapitre II C on peut choisir de pr server les ambigu t s ou de ne conserver que le meilleur sens 2 On remarquera que les outils de TAL ont plus souvent l objectif inverse 19 calcul Cette souplesse permet donc d extraire diff rents niveaux de sens partir d un m me texte et de choisir celui qui est pertinent calculer dans un contexte applicatif donn B Diversit des l ments analyser Commen ons par d tailler les t ches l mentaires qu un programme informatique peut effectuer et les informations qu il peut associer lors de l analyse d un ensemble de textes chacun de ses l ments mot phrase paragraphe document en allant jusqu au corpus dans sa globalit 1 Mot Le mot est l l ment atomique constituant un texte Plusieurs op rations sont possibles sur un mot correction orthographique calcul de sa langue de sa racine d une tiquette morphosyntaxique de sa flexion de sa forme de base de sa valence num rer les sens possibles d un mot est un probl me discret qui se r sout par rapport un lexique de r f rence La notion de lexique appara t donc d s l analyse des constituants les plus fins des textes nous la pr ciserons dans la partie I
370. s d emploi et de CV Ubiq RH 146 F Autres projets de R amp D utilisant Antelope ss 149 Partie VII Interface syntaxe S Mantique c ceccccsssscccccsssseccccssssccccecssceceecessceeceessseees 153 Aco Introduction veccecsesccccescsccevsebeecunsekcevssaceccasenccdcunobcdeddnvackcevsoncaccuseneaddvasbidcddasbcaddvesnencdensseadoeasbiase 153 B Gestion des ambiguit s dans la plate forme 154 C crire et extraire une interface syntaxe s mantique 163 Partie VII ConcIiSion san nina nie ont 171 A Bilans nr Re nent retenir aie 171 B Perspectives cece ed RE LR ES A Diane din MAL eect t nie ie 172 R f rence Sinn a ive edreiiane beeen 173 Az Bibliographies 5eme E amener nier Tat noe Sativa tees ies ee Reo 173 B RESSOULCES 2 sic nt Lin ne AE M alos A lent sd an ag on va dans sn n tem Tagua bn naine dates none 184 Annexe Le Web s mantique sccccccssssceccessssececcesssceccecssceccccssseesccesssceccecsseseeenenss 187 v Introd tionassssstssinrnain ts TETE TTC REE nr 187 B Standards introduits par le Web s mantique cccecccceesssceceessececeessececeeaeeeceeaeeesecsaeeeeeees 188 C OWL et les logiques de description ss 192 D Web des donn es Linked Data 197 E Repr sentation de WordNet avec SKOS 199 F Conclusions caen ane in nt ne tion een tee teen the 200 Annexe II Notions math matiques ssssccccssssseccccssssccccesssceccecssseeeccesssceccesseeeeeeees
371. s g n ral que le type FRUIT Une chose est de d terminer le degr de r gularit d un lien de polys mie une autre de d terminer a quelle cat gorie il appartient Nous distinguons dans la suite trois grandes cat gories de liens de polys mie r guli re Fass 1988 e Une lexie L2 est une sp cialisation d une lexie L1 si son sens est plus sp cifique que celui de L1 Ci dessous on peut voir que la lexie PRESSURE 7 d note un cas particulier de ce a quoi renvoie pressure dans la d finition PRESSURE 7 the pressure exerted by the atmosphere e Deux lexies L1 et L2 sont li es par m taphore si leurs deux r f rents sont en relation d analogie autrement dit s ils se ressemblent sur au moins un de leurs aspects Par exemple le rire d not par la lexie CACKLE 3 ressemble du point de vue du son au gloussement de la poule hen s cackle CACKLE 3 a loud laugh suggestive of a hen s cackle e Deux lexies L1 et L2 sont li es par m tonymie si le r f rent de L1 et celui de L2 sont en relation de contiguit autrement dit si les deux r f rents se touchent de fa on plus ou moins concr te Par exemple le lien entre les deux sens de CHESNUT d j voqu plus haut rel ve de la m tonymie puisque la couleur d not e par la lexie chesnut 4 est celle du fruit d not par chesnuts dans la d finition CHESNUT 4 the brown color of chestnuts b Objectif et m thode L objectif de
372. s imm diate et gratuite m me pour les virements l tranger en UE en tout cas Notification par sms pour tout achat sup rieur une certaine somme j en passe et des meilleures Inconv nients je n en vois pas si ce n est que j aurais aim prendre mon pr t immo chez eux mais qu ils ne pr tent pas dans le cadre de contrats de construction Bien dommage a m aurait vit quelques cheveux blancs chez les conccurents Figure 52 Capture d cran de l analyse d un verbatim relatif au monde bancaire b Contexte grande distribution La figure 53 montre l analyse d un verbatim relatif la grande distribution Les produits marques concurrents et concepts y sont correctement d tect s La faute d orthographe sur bagette est corrig e en baguette Remarquons que le syst me proc de une normalisation des noms de produits papier toilette PQ et de marques saint Hubert 41 ST HUBERT 41 Je trouve que depuis un certain temps vous avez augment les prix Avant j avais LE LE l habitude d aller au Cm de Emme Depuis j ach te chez Lidl le lait 0 55 le litre et le saint Hubert 41 5 20 le kilo soit 2 60 les 2 fois 250g et bien d autres produits De temps en temps je vais chez ED il y a de moins en moins d ED car ils deviennent Carrefour City 0 60 bien moins cher que chez vous Mais j ai t malade sur des produits 88 Donc j y vais le moins possible La viand
373. s normes et standards repr sentent un facteur important d harmonisation pour une industrie donn e Or s ils sont abondants en informatique leur nombre reste faible dans le domaine du TAL On peut n anmoins citer UIMA les normes approuv es par l ISO ou encore les jeux d tiquettes des treebanks largement diffus s e Les plates formes sont tout aussi essentielles pour structurer une industrie elles revendiquent d ailleurs souvent une compatibilit avec telle norme ou tel standard Or il en existe relativement peu d di es au TAL on peut toutefois citer GATE LingPipe ou OpenNLP comme architectures logicielles permettant de f d rer des composants de traitement l industriel le chercheur ou l tudiant qui souhaite impl menter un algorithme de TAL ou d velopper une application compl te consacre aujourd hui une partie significative de son temps r soudre des probl mes techniques sans grande valeur ajout e Quel langage de programmation utiliser Avec quel jeu de composants Comment les faire communiquer entre eux Comment passer facilement d une langue une autre i Eclipse dans l univers Java Visual Studio dans le monde Microsoft pour ne citer que les plus connues Am lioration de la robustesse largissement de la couverture capacit de passage chelle L ISO d finit une norme comme un document tabli par consensus et approuv par un organisme reconnu qui fournit pour des
374. s tendances d analyser les opinions d anticiper les probl mes et de visualiser d un coup d il les sujets chauds du moment 2 Filtrage de documents provenant de sources diverses Ubiq permet aux entreprises d analyser les avis de consommateurs quelle qu en soit l origine comme le r sume le tableau 20 Les verbatims d expression spontan e se trouvent en effet le plus souvent dispers s sur des sources externes blogs forums news RSS tweets et ou internes mails envoy s spontan ment r ponses aux questions ouvertes d enqu tes Documents Ecrits spontan ment par les clients Sollicit s par la marque Voix du Client Etudes Sources priv es Emails envoy s spontan ment Sondages d opinion Retranscriptions t l phoniques Enqu tes de satisfaction R clamations courriers scann s Evaluation d applications mobiles e r putation Enqu te publique Sources publiques Blogs forums r seaux sociaux Exemple la grande enqu te de Radio France Twitter Facebook Quel travail voulons nous Commentaires sur les news Tableau 20 Typologie des sources trait es par Ubiq a Collecte d avis sur le Web L explosion du Web 2 0 permet a tout un chacun de s exprimer sur sa page Facebook ou sur son blog sur des forums sur Twitter et plus r cemment sur Google en attendant le prochain r seau social a la mode L ensemble de ces contributions cr e un norme volume d avis et de jugemen
375. s traits morphosyntaxiques pr d finis d Antelope e Mots de classe ferm e Antelope permet de d clarer l ensemble des mots de classe ferm e Par exemple la d claration du d terminant les en fran ais est cod e de la fa on suivante FrenchLanguage Declare PartOfSpeech Determiner les features Number Number Plural features Gender Gender Masculin Gender Feminine features Definiteness Definiteness Definite 3 Niveaux de prise en charge d une langue La reconnaissance de la langue d un texte est effectu e avec JLangDetect Champeau 2008 ce composant effectue un apprentissage de n grammes sur les diff rentes langues du corpus EuroParl une op ration similaire serait possible sur les Wikip dias ce qui permettrait de couvrir un plus grand nombre de langues Lors d une analyse chaque mot est associ sa langue la forme de base est ensuite calcul e partir de la forme fl chie Les lemmes du lexique s mantique ont aussi une information de langue ce qui permet de faire le lien avec un mot analys Le premier niveau de prise en charge d une langue par Antelope consiste savoir effectuer un certain nombre d op rations linguistiques de base segmentation en phrases et en mots lex misation obtention de l ensemble des mots de classe ferm e d une partie du discours donn e conversion d un jeu d tiquettes sp cifique a une langue ou a un analyseur particulier
376. se en commun des l ments pr c dents Nous pensons avoir propos une approche originale de cette interface que nous qualifions d approche paresseuse dans la mesure o le calcul de ses r gles est largement d duit d exemples fournis par l utilisateur 12 On retrouve cette dualit dans les traitements de texte Word et Open Office proposent des fonctionnalit s de ce type les applications commercialis es par Antidot et Synapse sont compl tement d di es ces t ches Au final Antelope facilite grandement le d veloppement rapide d applications de TAL Ce point est illustr concr tement en partie VI page 131 a travers la pr sentation de plusieurs applications qui ont t crites avec la plate forme E Plan du document Le plan du document ci dessous pr sente plus en d tail ces diff rentes contributions 1 Notre cadre th orique La partie Il page 9 propose diff rentes approches et formalismes de repr sentation du sens Elle introduit celle que nous souhaitons obtenir en tablissant les liens n cessaires vers les donn es linguistiques large couverture disponibles Cette partie pr sente notamment les principes sous jacents notre plate forme inspir s par la Th orie Sens Texte qui postule des niveaux de repr sentation morphologique syntaxique et s mantique 2 La plate forme Antelope La partie Ill page 19 pr sente la plate forme Antelope qui int gre et f d re diff rentes ressources l
377. seconde lettre _s minuscule pr cise qu il est singulier singular 1 Robustesse et rapidit de l analyseur L analyseur offre de bonnes performances pour un analyseur en profondeur ainsi qu une excellente robustesse Il traite avec succ s des phrases complexes et est tol rant la pr sence de mots inconnus Quand il en rencontre il essaie de d terminer leur partie du discours en fonction du contexte Par exemple dans la phrase suivante machining n est pas pr sent dans le lexique de r f rence comme l indique l annotation mais est suppos tre le g rondif d un verbe extension E KEDR George n was v machining g in Najaf 2 Stockage externe de la grammaire La LinkGrammar s appuie sur une grammaire lexicalis e qui couvre d une fa on relativement compl te la langue anglaise courante Chaque l ment du lexique est associ un ensemble de structures l mentaires qui sont des configurations de la structure de d pendance d crivant les liens possibles de cette unit lexicale Le formalisme est quivalent a une CFG et l algorithme d analyse est en O n La grammaire est stock e ind pendamment du code dans des fichiers textes qui contiennent galement le lexique de r f rence approximativement 60 000 mots Ce stockage externe permet de modifier ou d enrichir la grammaire ou le lexique En revanche le formalisme de stockage est propri taire et plut t complexe ma triser No
378. segmentation d extraction de relations apr s analyse syntaxique de reconnaissance d entit s nomm es et de regroupement de documents Cet outil permet d automatiser des requ tes de veille conomique sur le Web pour y trouver des v nements reliant des entit s nomm es comme par exemple le rachat d une soci t par une autre le lancement d un nouveau produit par une entreprise la nomination ou le d part d un dirigeant 2 Modeop ratoire L utilisateur de l outil exprime d abord ses requ tes sous forme de plusieurs paraphrases de l v nement qu il recherche La figure 36 page 113 illustre l exemple rachat de soci t avec onze r alisations linguistiques en anglais Ces paraphrases permettent ensuite d effectuer des requ tes sur un moteur de recherche du Web Les adresses obtenues sont d doublonn es puis chaque page HTML est charg e et examin e L outil filtre les phrases et retient celles qui contiennent dans le m me ordre les mots cl s de l une des paraphrases de la requ te La m thode d extraction d information utilis e s appuie sur une traduction des paraphrases en patrons syntaxiques les phrases susceptibles de contenir l information recherch e font l objet d une analyse syntaxique en d pendances puis d un appariement de formes avec les graphes syntaxiques des patrons pr sent en section V C 1 b Cette m thode fournit donc des r sultats pr cis mais au prix d un te
379. sente les applications d Antelope notamment aux sections VI B 3 partie 134 et VI D 5 page 144 6 Conclusion Nous pr voyons d utiliser dans le futur des algorithmes incr mentaux ou algorithmes online qui modifient dynamiquement les regroupements d j cr s lors de l ajout de nouveaux documents Ils vitent en effet de tout recalculer et permettent ainsi de traiter de grands volumes de donn es en constante augmentation Nous envisageons aussi d impl menter l algorithme Lingo Osi ski et al 2004 Il trouve d abord les descriptions qui pourraient s appliquer aux documents en r duisant les dimensions puis assigne ces documents chacune des descriptions trouv es 130 Partie VI Applications Plusieurs applications du TAL ont produit des logiciels largement utilis s Parmi les plus connues on peut citer la traduction automatique application pionni re du TAL la correction orthographique ou grammaticale la recherche d information moteurs de recherche la reconnaissance vocale la synth se de la parole la g n ration automatique de textes le r sum automatique de textes En plus de ces applications historiques le TAL trouve aujourd hui sa place en entreprise dans des domaines tr s divers La classification de documents peut ainsi servir au routage automatique de documents entrants vers les bons destinataires D autres applications mettent en uvre une extraction d information sur mesure pour anal
380. seront crits en petites majuscules les lexies d un m me vocable tant diff renci es par des suffixes 1 2 3 etc Nous ajouterons si besoin apr s la lexie en indice entre crochets une indication permettant au lecteur humain de d terminer son sens Par exemple le vocable BAGUETTE a plusieurs sens correspondant a autant de lexies e BAGUETTE 1 pain d signe celle fabriqu e par le boulanger e BAGUETTE 2jinstrument de musique Celle utilis e par le chef d orchestre BAGUETTE 3objet magique Celle du sorcier D une fa on g n rale nous noterons LEXIE i la i lexie d un vocable dans notre lexique s mantique WordNet dans le cas des mots anglais Si n cessaire nous pr ciserons entre apostrophes la traduction en fran ais d un terme anglais comme dans l exemple suivant MINK 3 animay Vison Nous repr senterons un concept ou synset dans le jargon de WordNet en tant qu ensemble de lexies synonymes regroup es entre accolades comme par exemple NATURAL LANGUAGE 1 TONGUE 2 Dans les cas o il n y a pas de risque d ambiguit nous nous autoriserons un raccourci en ne gardant que la premi re lexie NATURAL LANGUAGE 1 s il s agit du premier sens du vocable nous pourrons aussi omettre le suffixe de sens NATURAL LANGUAGE Les r les th matiques seront not s en italiques Agent Patient Leurs contraintes de s lection seront indiqu es entre chevrons lt humain gt lt anim
381. si l algorithme SASI Semi supervised Algorithm for Sarcasm Identification destin la reconnaissance des sarcasmes dans les avis de consommateurs Cet algorithme comporte deux 144 P f 5 gt A 5 Si la notion de veille conomique est ancienne le terme e r putation n est apparu que r cemment en m me temps que le m tier de community manager 75 Dans la pr face de la revue TAL 2010 51 3 d di aux Opinions sentiments et jugements d valuation Jackiewicz et al 2010 propose d envisager les axes de recherche suivants i la mod lisation linguistique et informatique ainsi que la gestion des donn es d opinion qu est ce qu une opinion comment la repr senter informatiquement ii l expression en langue et en discours comment les opinions sous leurs diff rentes facettes sont elles formul es iii la construction l acquisition et la validation des ressources linguistiques iv les m thodes pour identifier annoter et extraire automatiquement opinions et sentiments dans des documents textuels ou audiovisuels v la pr sentation synth tique de la diversit des opinions 116 tapes une acquisition semi supervis e des patrons correspondants et la classification des sarcasmes L exp rience a t men e sur 66 000 avis sur Amazon portant sur des livres ou d autres produits Les auteurs revendiquent une pr cision de 77 et un rappel de 83 1 pour identifier les phrases sarcastiq
382. sible de L1 autres que L2 et s arr te quand le couple L2 L1 est compatible avec l un des couples de types d finis dans le patron la hi rarchie d hyperonymie des noms ou des verbes est explor e si besoin On obtient alors une d finition dans laquelle le sens de L1 est d sambiguis e EMERALD 3 the green color of an EMERALD 1 jgem e TAN 2 TOPAZ 3 a light brown the color of TOPAZ 2 gem e COPPER 4 a reddish brown color resembling the color of polished COPPER 1 metai c G n ralisation par largissement du champ d application des patrons Les patrons sont ensuite appliqu s l ensemble des lexies ayant plusieurs sens sans imposer aux synsets la contrainte d inclure un synset de m me forme dans leur d finition Cette tape permet d identifier 367 synsets suppl mentaires Par exemple GOLD or a cinq sens les pi ces d or la couleur le m tal une bonne sant quelque chose de pr cieux La paire de lexies GOLD 2 GOLD 3 est de type COLOR METAL elle est donc compatible avec la r gle colorOf et peut donc s appliquer m me si la d finition de GOLD 2 a deep yellow color ne contient pas directement le vocable GOLD Le m me traitement est appliqu pour CORAL 1 On obtient alors aussi e AMBER 1 GOLD 2 a deep yellow color lien implicite vers GOLD 3 metal e cORAL 1 a variable color averaging a deep pink lien implicite vers CORAL 2 gem corail Cette g n r
383. sionnel avec des entiers 32 bits serait donc de 24 giga octets ce qui exc de la capacit m moire usuelle des ordinateurs actuels Heureusement tous les termes du corpus ne se retrouvent pas dans chaque document 163 z m i Nous pourrions nous risquer a proposer comme algorithme non subtil de r solution d anaphores dans le texte de l article un brutal recherche amp remplace du pronom qui y appara t le plus fr quemment par son titre Un tel algorithme pourrait servir de baseline dans ce cas particulier 164 Ep s On y remarquera une erreur Atbara River se retrouve cor f rent avec Nile River 125 pour des corpus larges seuls 1 5 des termes vont effectivement se retrouver dans un document donn cette matrice est donc surtout remplie de z ros Le stockage d une matrice termes documents n cessite donc une structure de donn es adapt e appel e matrice creuse L id e est de n y stocker que les entr es non nulles de la matrice pour conomiser la m moire utilis e par rapport une structure naive de tableau Les manipulations de telles matrices doivent aussi tre impl ment es soigneusement Par exemple l algorithme naif de multiplication matricielle produirait une matrice pleine en traitant deux matrices creuses Nous avons initialement utilis la librairie Colt d velopp par le CERN en Java qui permet de faire des calculs sur des matrices creuses de fa on optimis e l quipe
384. sources Humaines offre d embauche ou Curriculum Vitae de candidat L adaptation d Ubiq au domaine RH est pr sent e au chapitre VI E page 146 Antelope permet une extraction fine des postes comp tences talents dipl mes lieux langues etc Les r sultats obtenus autorisent ensuite a trouver les offres d emploi correspondant le mieux a un CV donn ou d une facon sym trique de filtrer les profils de candidat pour retenir ceux qui sont les mieux adapt s a une offre C Mod le unifi des niveaux de repr sentation linguistique 1 Conception des changes dans la plate forme Une approche r pandue dans la fabrication des cha nes de traitement en TAL consiste ex cuter s quentiellement plusieurs programmes chacun d entre eux se focalisant sur une t che particuli re Les donn es chang es sont sp cifi es via un format d entr e et un format de sortie attendus par 15 000 articles en 2007 lors de nos premiers travaux dessus 72 000 articles en juin 2011 soit 50 fois moins d articles que la version anglaise compl te qui en compte 3 650 000 la m me date 22 chaque programme Un tel pipeline de traitement repr sente l architecture la plus l mentaire d un syst me modulaire Ce mod le nous semble toutefois comporter deux faiblesses En premier lieu le lancement d un nouvel ex cutable a un co t fixe en ressources ce qui rendrait p nalisante la multiplication de t ches courtes portant sur un mo
385. spondre au titre d un article donn Pour les personnes par exemple chaque article poss de un ou plusieurs titres normalis s de la forme Pr nom Nom ou Nom Pr nom Il suffit de rechercher les synsets correspondants dans WordNet Pour un nom commun il est n cessaire de tenir compte d ventuelles variantes morphologiques et de retrouver la forme de base du mot Nous appliquons alors un ensemble d heuristiques pour retenir le meilleur candidat S il n en existe pas nous cherchons le synset correspondant le mieux l objet du monde d crit dans l article parle t on d une rivi re d un pr sident Ensuite nous cr ons un nouveau synset rattach en tant qu hyponyme ou instance hyponyme au synset du th me de l article c est dire son genre prochain b Heuristiques utilis es dans notre approche Notre approche am liore celle pr sent e dans Ruiz Casado Alfonseca Castells 2005 avec deux diff rences D une part nous avons ajout plusieurs heuristiques afin d augmenter la pr cision D autre part nous appliquons ces heuristiques m me dans le cas o un seul synset de WordNet a un lemme gal au titre de l article Comme nous l avons vu l English Wikipedia ne contient pas moins de vingt articles sur Abraham Lincoln cette d cision permet d viter des appariements erron s Les heuristiques utilis es sont ind pendantes les unes des autres elles peuvent donc tre a
386. sseesees 33 Repr sentation UNL de la phrase anglaise the sky was blue ccccccccssscccesstececessteeeeeesaes 35 Architecture technique permettant l appel d analyseurs crits en NET a partir d UIMA 37 Identification de l expression multi mots Battle Of Gettysburg ccccecsessceceeeeessenssaeess 38 Une partie de l ontologie SUMO affich e dans l diteur d ontologie Prot g 00 42 Exemple de page de la Wikip dia fran aise article sur saint Isidore 44 Exemple de relations d hyperonymie et d hyponymie ccccccccsesssssseseceeecessssesneaeeeesens 49 Hyperonymes du synset BREAD 1 pain sous forme de graphe et de liste 50 Exemples de relations d holonymie et de m ronymie 50 Mod lisation du lexique s mantique 51 Liste non exhaustive de ressources disposant d un lien vers WordNet 53 Hi rarchie des contraintes de s lection d finies par VerbNet c cccccssccccesssececeesteeeeeeaes 58 Analyse syntaxique de la d finition en anglais du nom chat 67 Comparaison de trois articles encyclop diques anglais portant sur la rivi re Alabama 69 Regroupement des sens du verbe EAT avec l algorithme de Bron Kerbosch s scccee8 81 Regroupement des sens du verbe EAT avec l algorithme spectral 82 Exemple de relations entr
387. st aussi possible Powerset qui a t rachet e par Microsoft M me si une combinatoire de ce type de constructions existe leur nombre de variantes semble fini Pour prendre en compte ce type de paraphrases nous effectuons la recherche de sous graphe non sur la RSyntS mais sur la RSyntP cette approche permet d am liorer le rappel du syst me L impl mentation de l interface RSyntS RSyntP est pr sent e en section 2 Des variantes plus complexes peuvent tre formul es en utilisant un synonyme du verbe pr dicat Microsoft acquiert Powerset ou une construction avec une nominalisation rachat de Powerset par Microsoft Microsoft proc de l acquisition de Powerset Une expression s mantiquement quivalente ou une implicature peuvent aussi tre utilis es Microsoft prend le contr le de Powerset Dans notre impl mentation actuelle ces variantes doivent tre explicit es toutefois rien n emp che d utiliser le m canisme d apprentissage de paraphrases pr sent en section IV C 3 page 68 pour amorcer une liste de variantes 2 Analyse syntaxique profonde Nous allons pr sent illustrer concr tement la transition r alis e par l interface RSyntS RSyntP c est dire allant de la syntaxe de surface vers la syntaxe profonde Cf la section I B 1 page 14 108 La phrase que nous utiliserons pour illustrer cette transition est the general to whom Lincoln gave all powers in Wash
388. st l v nement ou l objet qui provoque une r action chez un Exp rimentateur comme dans l orage effraya les enfants Ce r le n impose g n ralement pas de contrainte de s lection 21 Th me Th me est un participant qui est localis dans un endroit ou qui se d place d un endroit l autre L emphase est mise sur la localisation ou la possession Jean donne un ballon Marie marche Th mel et Th me2 peuvent tre utilis s en cas de r les sym triques comme dans Jean change le livre pour une revue 22 Topique Topique est le r le utilis par les verbes de communication pour exprimer le th me ou le sujet d une conversation ou d un transfert de message comme dans Pierre a mis en garde Marie contre les effets de la col re 211 Index NET 27 acquisition de connaissances 136 algorithme de Lesk 159 analyse de sentiments 61 115 141 anaphore 122 Antelope 3 19 apprentissage automatique 90 Conditional Random Fields 93 203 BalkaNet 54 cloud computing 38 ConceptNet 86 contenu informationnel 51 cor f rence 122 corpus SemCor 52 CYC 84 DBpedia 45 d cidabilit 194 d sambiguisation 154 172 d sambiguisation lexicale 158 d sambigu sation syntaxique 159 Dicovalence 56 encodage 42 EuroWordNet 54 expressions multi mots 38 162 eXtended WordNet 55 extraction d information 89 132 extraction de relations 105 Fr
389. st que le code des deux versions est quasiment identique l adaptation au domaine se faisant par simple param trage La figure 57 montre l interface d Ubiq dans ce contexte on voit a gauche les taxonomies correspondant aux m tiers et aux comp tences La figure 58 d taille les informations extraites suite l analyse d un CV Lieux amp France 259 International 14 Maroc 4 af P Suisse 2 Espagne 2 Londres 1 E Informatique 30 Direction informatique 15 E Informatique de gestion 13 int grateur 9 analyste programmeur 2 analyste concepteur 2 Informatique web sites et portails internet 6 Curriculum Vitae ing nieur en Informatique et Statistiques 1 a y y 04 P eae TEE REA Comp tences Informatiques Langages Technologies JAVA 1 5 J2EE Java Beans EJB 3 0 JSP 2 Entit s nomm es fl Ma trise d ouvrage et fonctionnel 1 H ktaha RUB Mai Septembre 2007 Stagiaire tude et d veloppement J2 E ATOS WORIDLINE des choix de livraison Java J2EE JSP ISTL Tomcat Apache MySQL Rational Rose clipse Langages et technologies mn Ein Comp tences informatique Ing nieur en D veloppement H F 1 Architecture logicielle D Ing nieur en D veloppement H F Logiciels Outils de d veloppement Ville amp Langages et technologies 333 E r Entreprise Afaas Gonslitigs cabinet de recrutement sp cia
390. st une aventure d velopper une entreprise en est une autre J ai la chance de pouvoir concilier deux passions exigeantes l innovation et l entreprenariat Mes parents tant de purs litt raires mon choix d tudes s est logiquement port l adolescence sur les math matiques et l informatique Un dipl me d ing nieur en poche j ai cr en 1994 une premi re soci t d di e au service et au conseil informatique Notre quipe a men pendant douze ans des projets innovants pour le compte de grands clients Je citerai ici trois projets significatifs qui ont exerc une influence sur mon parcours et m ont indirectement conduit au choix incongru de d marrer une th se 37 ans e De 1997 2002 nous avons r alis avec succ s la partie technologique d une refonte compl te d un syst me d information projet global 50 000 jours hommes Nous avons con u et impl ment une architecture logicielle ambitieuse en avance sur son temps et compatible avec le standard d alors du d veloppement logiciel en entreprise COM de Microsoft Ce syst me a donn par la suite un important avantage concurrentiel notre client en lui permettant de d velopper rapidement de nouveaux produits et en facilitant l int gration d autres syst mes d information suite des fusions et acquisitions e Fin 2000 Microsoft annon ait une nouvelle architecture de d veloppement d entreprise NET faisant table rase du pass un
391. sur une vingtaine de r les th matiques et une quarantaine de contraintes de s lection Pour les verbes fran ais la ressource la plus compl te semble tre le Lexique Grammaire du LADL Gross 1994 Des lexiques comme Dicovalence van den Eynde Mertens 2003 le DEV Dictionnaire Electronique des Verbes fran ais de Dubois ou le Lefff Cl ment Sagot Lang 2004 apportent aussi des descriptions fines des cadres de sous cat gorisation pour le fran ais Danlos Sagot 2007 compare les mod les lexicaux du Lexique Grammaire de Dicovalence et du Lefff D autres ressources r sultent d un m canisme d apprentissage Par exemple Messiant Gabor Poibeau 2010 d crit une m thode permettant l acquisition automatique d un lexique de sous cat gorisation des verbes fran ais LexSchem partir de l analyse syntaxique du corpus LM10 Nous montrerons page 68 comment l apprentissage de paraphrases obtenues partir de paires d articles encyclop diques comparables nous permet de construire des cadres de sous cat gorisation fins dont les actants sont d sambiguis s par rapport a WordNet comme par exemple SERPENTER 1 RIVIERE 1 VILLE 1 COULER 2 RIVIERE 1 VILLE 1 a Pr sentation de VerbNet Nous avons int gr dans le lexique d Antelope un lexique des classes de verbes anglais VerbNet Men sous l impulsion de Martha Palmer d abord l Universit de Pennsylvanie puis Boulder au 78 n r
392. t le rappel est bas Le tableau 15 d taille ces r sultats Corr lation de Pearson Exactitude Pr cision Rappel Col re 93 60 16 67 1 66 D go t 95 30 0 00 0 00 Peur 87 90 33 33 2 54 Joie 82 20 54 54 6 66 Tristesse 89 00 48 97 22 02 Surprise 88 60 12 12 1 25 Tableau 15 R sultats de l annotation des motions Le tableau 16 montre les r sultats de d tection de la valence L exactitude 55 est plus faible que dans l annotation des motions Nous attribuons cette diff rence au fait qu il est plus facile de d tecter des motions provenant des contributions individuelles de chaque mot plut t que la valence qui n cessite une compr hension globale de la phrase Corr lation de Pearson Exactitude Pr cision Rappel Valence 55 00 57 54 8 78 Tableau 16 R sultats de l annotation de la valence 3 Bilan En nous inspirant de l exp rience men e pour SemEval nous avons r alis d autres syst mes d analyse de sentiments pour les appliquer notamment aux avis de consommateurs La t che est complexe et son automatisation est aujourd hui imparfaite m me en d ployant des efforts importants pour ajuster le comportement d un syst me une t che pr cise N anmoins ses d bouch s sont suffisamment attractifs pour encourager la recherche sur le sujet Nous estimons que la perspective la plus prometteuse est du c t de l
393. t 2 205 Il est videmment impossible de calculer na vement cette valeur pour toutes les annotations y 213 possibles Toutefois la forme du graphe permet de mettre en place l algorithme de Viterbi Pour cela on d finit le coefficient d y comme tant le score la somme pond r e des caract ristiques sur toute la s quence de la meilleure annotation de x x o x est annot par y Sa formule de r currence est d finie comme suit Besa e 1 max 6 00 xP Afet et 1 k Cette variable permet d obtenir ais ment le score de la meilleure annotation T max D AkfkOt 1 Ye X t max r yr k t 2 En m morisant le chemin de Viterbi correspondant on obtient la meilleure annotation y de l observation x 3 Apprentissage des param tres du mod le La t che d apprentissage d un CRF consiste tant donn un ensemble d apprentissage S x 1 y 1 X N y N trouver les poids A qui maximisent la log vraisemblance du mod le N Li 2 log pa y x i 1 o pay x est la probabilit de l annotation y sachant l observation x dans le CRF dont les param tres sont A L algorithme de maximisation de la log vraisemblance utilis tant une descente de gradient L BFGS L est calcul chaque tape avec des param tres A diff rents Il est donc n cessaire de calculer cette fonction efficacement La partie co teuse de ce calcul est le coefficient de normalis
394. t avec WordNet Pour valuer la pr cision de l appariement nous avons examin manuellement le r sultat sur 800 articles e 505 ont t associ s un synset existant d j dans WordNet l appariement a t fait correctement dans 465 cas soit une pr cision de 92 e 295 nouveaux synsets ont t cr s l hyperonyme a t correctement identifi dans 251 cas soit une pr cision de 85 Cette exp rience montre qu il est possible d enrichir automatiquement WordNet partir d une encyclop die Un autre int r t est d augmenter la taille de la d finition textuelle d un synset cela permet en principe d am liorer l application de l algorithme de Lesk de d sambiguisation lexicale Cf VII B 5 c 3 Apprentissage de paraphrases partir de paires d articles encyclop diques comparables a Objectif L apprentissage automatique de paraphrases peut se faire sur la base de textes align s ou comparables Ibrahim Katz Lin 2003 d crivent ainsi l utilisation de plusieurs traductions diff rentes en anglais d uvres litt raires par exemple 20 000 lieues sous les mers et am liore l approche de Lin Pantel 2001 traitant de corpus comparables L algorithme mis en uvre consiste effectuer une analyse syntaxique de deux textes et identifier le plus court chemin dans chaque arbre de d pendance entre deux ancres typiquement des entit s nomm es Notre objectif est ici d enrichir le lexique
395. t collaborateur AUCHAN SAINT GENIS LAVAL PB Peto QUALIT OU CONFORMIT DU PRODUIT FRUITS LEGUMES 0 88 ORANGES A JUS TROP SECHES Aff n 50561 09 04 2009 l phone AUCHAN PETITE FORET DEMANDE D INFORMATIONS CARACT RISTIQUES TELEPHONIE COMMUNICATION 0 88 sur op rateur orange divers renseignements th 23 pomme 22 parfum 22 a fleur 22 a p che 21 a caf 20 t l viseur 19 sirop 19 Aff n 419668 04 11 2010 via Fiche suggestion AUCHAN SAINT CYR SUR LOIRE BB PB QUALIT OU CONFORMIT DU PRODUIT FRUITS LEGUMES 0 86 R Le jus d orange est amer aa 5 REPS Sine ON Sa Sage RES OP Sate Sa ee ag TR EY SR BS SPY CEPI ROT RP Fame a eee ag IE PA ne Aff n 189108 18 11 2009 via Accueil AUCHAN MERU PB QUALIT OU efo LG demande EST 283 CONFORMITE DU PRODUIT FRUITS LEGUMES 0 86 EE a3 pinions amp OUEST 228 pe SUD 212 d angues amp NON FA Entit s Langues nommees Fruits et L gumes Boissons sans alcool Marque a EEEE picerie sucr e Canaux reponse Nature Figure 55 Analyse multidimensionnelle permettant d effectuer un zoom jusqu au verbatim 145 Lors de la phase d analyse Ubiq extrait des conversations les produits et rayons les enseignes concurrentes les marques les th matiques et concepts ainsi que les probl mes exprim s par les consommateurs Comme montr en figure 55 Ubiq
396. t dites qui permettent de construire le graphe s mantique de lever certaines ambigu t s et de reconstruire certaines d pendances virtuelles D Autres formalismes de repr sentation du sens La TST n est pas le seul formalisme qui propose une repr sentation du sens et ayant d bouch sur plusieurs impl mentations effectives Nous pouvons citer en particulier les graphes conceptuels GCs initialement introduits dans Sowa 1976 et dont on peut trouver une pr sentation plus r cente dans Nazarenko 2004 Les graphes conceptuels sont un syst me logique inspir s des graphes existentiels de Charles Sanders Peirce et des r seaux s mantiques utilis s en intelligence artificielle Leur int r t est de permettre la repr sentation du sens sous une forme pr cise du point de vue de la logique d tre faciles lire pour un humain et d une complexit suffisamment raisonnable pour que des syst mes informatiques puissent effectuer des calculs dessus Les graphes conceptuels peuvent servir de langage interm diaire entre des formalismes informatiques et des langues naturelles dans un sens comme dans l autre Les GCs ont t mis en uvre dans le domaine du TAL notamment en recherche d information mais aussi pour la conception de bases de donn es et le d veloppement de syst mes experts La figure 3 montre le GC repr sentant la phrase John is going to Boston by bus Figure 3 Repr sentation d une phrase simp
397. t isol par exemple En second un programme donn va se sp cialiser sur une t che particuli re il est toujours possible d largir le champ de son traitement mais cela se fait en complexifiant les formats d entr e et de sortie Pour faciliter l int gration dans Antelope de diff rents types de composants de traitement nous avons choisi une approche plus complexe que celle du pipeline de fa on favoriser la coop ration entre composants de traitement linguistique Un mod le de donn es unifi regroupe les diff rents niveaux de repr sentation de la TST Les composants de traitement peuvent alors interagir facilement avec ces donn es 2 Pr sentation du mod le de donn es unifi Tous les objets linguistiques r sultant de l application d un traitement phrase mot d pendance sens de mot r le syntaxique r le s mantique anaphore sont d finis dans un mod le de donn es unifi d crit la figure 4 Ce mod le correspond l union de l ensemble des formats d entr e et de sortie des composants utilis s Le y DeepSyntaxDependencies T ra prm r __ SP Lemmas gt IDeepDependency Lemma lt i Interface k DS IDependency IDepende ISynset Dependendies Interface ti gt gt ISerializable T EAN p S MiddleWord f Lemma i _ P Dependent s BestAnalysis En Governor M V senses _ ISentence gt Analysis IWord x h l
398. t lui m me une unit lexicale avec sa r f rence FRANCISCODEORELLANA TYPE PERSON WNSENSE 1 1541 TYPE YEAR WNSENSE 1 Enfin tant donn qu on est dans l article de l Amazon River on peut lever une anaphore z ro sur le deuxi me argument de descent Le trait FORM NULL indique que le n ud s mantique AMAZONRIVER n est pas lexicalement r alis 7 WordNet propose un seul sens pour l adjectif European mais celui ci est doublement disjonctif ce qui donne en tout 6 sens EUROPEAN 1 of or relating to or characteristic of Europe or the people of Europe Le sens propos pour first est galement disjonctif FIRST 1 preceding all others in time or space or degree Cf l ambigu t de Microsoft est le premier producteur de logiciels 7 Cela n implique pas que MAKE 1 n est pas un verbe plein mais que ce verbe n a pas d apport s mantique suppl mentaire par rapport au nom pr dicatif qu il supporte ici descent L information qu il s agit d un verbe support vide est importante puisqu elle signifie que le verbe a essentiellement un r le syntaxique et qu il peut ne pas avoir de correspondant dans une paraphrase comme The Amazon River was descended for the first time by an European in 1541 by Francisco de Orellana Les traits grammaticaux sont galement calcul s comme le temps pour un verbe ou la d finitude et le nombre pour un nom DESCENT DEFINITENESS DEFINITE NUMBER SINGULAR Dans l absolu les
399. t n cessairement la m me taille Or pour des raisons de complexit calculatoire nous nous sommes restreint dans cette exp rience aux triplets de la forme sujet verbe compl ment Nous ne sommes donc actuellement en mesure de traiter que des cas simples de paraphrases Lever cette contrainte permettra dans le futur de traiter des cas plus g n raux en appariant des arbres de d pendances plus complexes En partant de l article de l English Wikipedia sur la rivi re Alabama nous obtenons ainsi des triplets de la forme sujet verbe compl ment dont le sujet et le compl ment sont d j d sambiguis s RIVIERE COOSA former RIVIERE ALABAMA RIVIERE TALLAPOOSA former RIVIERE ALABAMA RIVIERE ALABAMA couler VILLE SELMA RIVIERE ALABAMA unir RIVIERE TOMBIGBEE RIVIERE ALABAMA former RIVIERE MOBILE De m me un article d une autre encyclop die traitant galement de la rivi re Alabama fournit RIVIERE TALLAPOOSA former RIVIERE ALABAMA RIVIERE COOSA former RIVIERE ALABAMA RIVIERE ALABAMA serpenter VILLE SELMA RIVIERE TOMBIGBEE rejoindre RIVIERE ALABAMA RIVIERE ALABAMA former RIVIERE MOBILE d Rapprochement des informations entre paires d articles Nous pouvons alors rapprocher ces informations En enlevant les triplets identiques il reste RIVIERE ALABAMA couler VILLE SELMA RIVIERE ALABAMA serpenter VILLE SELMA et RIVIERE ALABAMA unir RIVIERE TOMBIGBEE RIVIERE TOMBIGBE
400. t un synset de m me forme Nous avons cr manuellement une soixantaine de patrons en analysant des d finitions de ces synsets qui correspondaient manifestement un cas de polys mie r guli re L application de ces patrons a permis d obtenir un premier classement de 1427 synsets Nous allons d tailler ce processus en montrant notamment comment il permet de d sambigu ser L1 Nous verrons ensuite comment cette m thode peut se g n raliser aux autres synsets ne pr sentant pas la particularit d inclure un synset de m me forme dans leur d finition a D finition de patrons de polys mie r guli re Voici quelques lignes de code d finissant un patron appel colorOf couleur de patterns Add new Pattern colorOf AddType color fruit AddType color gem AddType color metal AddMatchingRule color of La premi re ligne de code d finit le patron de polys mie Les trois lignes suivantes indiquent que les paires de lexies susceptibles d instancier ce patron sont de type COLOR pour L2 et FRUIT GEM ou METAL pour L1 Enfin la derni re ligne indique que la d finition de L2 doit pour tre d clar e occurrence du patron contenir la chaine de caract res color of suivie de L1 indicateur a droite Consid rons un autre patron de polys mie produit par notre tude patterns Add new Pattern causedBy AddMatchingRule resulting from AddMatchingRule
401. temps verbaux devraient tre d sambiguis s mais nous ne connaissons pas de ressource qui nous propose des valeurs Nous indiquons galement la voix qui bien que n ayant g n ralement pas d incidence sur le contenu propositionnel joue un r le dans la structure communicative Les diff rents arguments de chaque unit lexicale sont num rot s arg1 arg2 etc Lorsqu il s agit de verbes dont le cadre de sous cat gorisation est d crit dans une ressource comme VerbNet on peut pr ciser un r le th matique On notera que le verbe MAKE n est pas dans cette ressource Par contre la ressource NomLex d crit pr cis ment la relation de d rivation entre le nom DESCENT et le verbe DESCEND permettant de d duire que descent of the Amazon River by Francisco _ de _Orellana est quivalent Francisco _ de Orellana descends the Amazon River WordNet d crit galement une relation de d rivation morphologique entre le nom DESCENT 1 et le verbe DESCEND 1 WordNet indique juste que ce verbe est intransitif Someone something s VerbNet en d crit aussi l usage transitif o l on r cup re les r les th matiques ARG1 VNTHEMATICROLE Theme et ARG2 VNTHEMATICROLE Location Nous conservons dans notre repr sentation s mantique une trace de la structure hi rarchique de la syntaxe Lorsqu une relation pr dicat argument correspond a une d pendance syntaxique dans le m me sens nous disons que celle ci est dir
402. tent un pourcentage significatif des documents consult s sur le Web Ils partagent des propri t s communes suites d assertions ou de faits peu de quantificateurs B Le p rim tre exact de cette partie du sens variera en fonction des objectifs d une application et des contraintes impos es qualit vs rapidit du traitement 1 Modulo les colossaux investissements d infrastructure effectu s par des g ants du Web comme Google Microsoft et Yahoo Le parc mat riel de Google a t valu en 2010 plus d un million de serveurs 17 Une compression est qualifi e de destructive quand les donn es compress es ne permettent pas de reconstruire les donn es originales 10 On constate que ce verbatim contient quelques fautes d orthographe et une capitalisation abusive n anmoins un lecteur humain n aura aucune difficult le lire et nul doute sur son intention communicative D autres types d erreurs pourraient rendre la lecture plus difficile pour certaines cat gories de lecteurs abus de style SMS trop grand nombre d erreurs de syntaxe ponctuation totalement absente etc Lors de l indexation de ce verbatim par un moteur de recherche classique un analyseur de texte commence par d couper le texte en tokens Le moteur d indexation applique ensuite plusieurs filtres cons cutivement Chacun de ces filtres va simplifier ou normaliser le texte au prix d une perte d information b Suppression d
403. terop rabilit N anmoins des probl mes d incompatibilit entre les services Web expos s par UIMA et leur mise en uvre en NET sont apparus En effet les services Web d UIMA exposent certaines classes utilisant les biblioth ques Axis qui ne peuvent pas tre facilement traduites dans leur quivalent NET 36 Analyseurs Machine Machine d Antelope virtuelle virtuelle Reconnaissance d entit s nomm es Extraction de relations Fusion d annotations Microsoft MET Figure 7 Architecture technique permettant l appel d analyseurs crits en NET partir d UIMA I Composants de traitement jusqu l analyse syntaxique 1 Nettoyage de documents templating Le nettoyage de pages Web templating ou scrapping en anglais a pour objectif de diminuer le bruit dans les documents Web apr s leur collecte et avant leur analyse En effet les pages Web contiennent souvent des donn es qui parasitent l l ment principal de la page comme les menus les liens vers d autres pages li es ou encore des liens commerciaux Le nettoyage permet de sauvegarder une copie locale all g e des pages Web avec un volume stock moins important l analyse de cette copie est plus pertinente Nous avons explor plusieurs pistes pour effectuer un tel nettoyage Cette t che n tant toutefois qu un pr alable celles du TAL nous ne les d crirons pas plus en d tail ici 2 Segmentation et traiteme
404. texte calculable force cheminer sur une route longue sinueuse et parfois troite L intuition n y est pas toujours la meilleure boussole et ne remplace jamais une exp rience avec une mesure des r sultats Quand on commence emprunter cette route on d couvre un troublant effet d horizon avec un objectif qui donne parfois le sentiment de s loigner alors qu on s en rapproche Mais comme dit le proverbe gitan ce n est pas la destination mais la route qui compte 172 R f rences A Bibliographie Remarque le th me principal de chaque r f rence bibliographique est pr cis le cas ch ant par une tiquette en fin de r f rence quand il concerne sp cifiquement la reconnaissance d entit s nomm es NER le regroupement de documents CLUSTERING l extraction d information IE l interface syntaxe s mantique iss l apprentissage automatique Mi le Web s mantique sw ou les ressources humaines RH enfin l tiquette ciT indique une publication mentionnant Antelope AMMARI A DIMITROVA V DESPOTAKIS D 2011 Semantically Enriched Machine Learning Approach to Filter YouTube Comments for Socially Augmented User Models Workshop on Augmented User Models at the 19th Int Conference on User Modeling Adaptation and Personalization UMAP 2011 Girona Spain CIT ANDREEVSKAIA A BERGLER S 2006 Mining WordNet for fuzzy sentiment Sentiment tag extraction from WordNet glosses Actes d
405. tilisant les CRF en consid rant les caract ristiques du mot courant combin es celles des n mots pr c dents et suivants au sein d une fen tre de taille 2 et 5 Le tableau 17 d taille les r sultats mesur s sur la fen tre de taille n 2 et le tableau 18 ceux de la fen tre de taille n 5 Dans ces tableaux chaque tiquette sont associ es le 132 nombre de mots annot s dans le corpus de test colonne ref le nombre de mots reconnus par le CRF colonne model et le nombre de mots annot s dans le corpus de test galement reconnus par le CRF colonne match On constate que la qualit de reconnaissance varie selon le type d entit la comparaison des deux tableaux montre que l largissement de la fen tre de 2 5 n am liore pas la F mesure Etiquette ref model match pr cision Rappel F mesure O 44137 44350 43887 0 9896 0 9943 0 9919 B_Personne 678 644 538 0 8354 0 7935 0 8139 _Personne 663 635 551 0 8677 0 8311 0 8490 B_Lieu 1082 1052 993 0 9439 0 9177 0 9306 I_Lieu 185 191 159 0 8325 0 8595 0 8457 B_Organisation 225 142 113 0 7958 0 5022 0 6158 _Organisation 148 108 71 0 6574 0 4797 0 5547 B_Monnaie 40 38 38 1 0000 0 9500 0 9744 _Monnaie 81 79 79 1 0000 0 9753 0 9875 Moyenne 0 8802 0 8114 0 8404 Tableau 17 R sultats de la reconnaissance d entit s nomm es avec une fen tre de taille 2 Etiquette ref model match pr cision rappel F mesure O 44137 44338 43882 0 9897 0 9942 0 9920 B_Personne 678 641
406. tilisons simultan ment des heuristiques classiques pauvres en connaissances qui s appliquent d s le niveau d tiquetage morphosyntaxique et des techniques requ rant une analyse syntaxique profonde ainsi que le lexique s mantique A un niveau macroscopique notre algorithme encha ne d une fa on classique les op rations suivantes e Analyse syntaxique du texte tiquetage morphosyntaxique ou analyse syntaxique e Parcours du document o D tection des pronoms personnels et possessifs o D termination du caract re anaphorique du pronom par limination de chaque il pl onastique It is possible that ou impersonnel il pleut e Pour les pronoms anaphoriques Marquage des diff rents ant c dents candidats o V rification des contraintes syntaxiques c commande o V rification de l accord en genre et en nombre o Application de diff rentes heuristiques qui augmentent ou diminuent le score de chaque candidat celui pr sentant au final le score le plus lev est retenu e Extraction des cha nes de cor f rences par calcul des composantes connexes du graphe des anaphores Les heuristiques sont le c ur de traitement de ce composant Notre premi re impl mentation utilisait les heuristiques de Mitkov 1998 syntaxique nous avons pu y ajouter les caract ristiques de l algorithme de Lappin Leass 1994 Disposant d une plate forme autorisant une analyse Nous avons galement
407. timent analysis 115 Sortie du Stanford Parser avec un titre incorrectement capitalis 0 0 ecesceeseeeeeees 119 Sortie du Stanford Parser avec un titre correctement d capitalis 119 Mod le de programmation pour la r solution d anaphores cccccceessceceesseeeeeesteeeeeees 123 Figure 41 Figure 42 Figure 43 Figure 44 Figure 45 Figure 46 Figure 47 Figure 48 Figure 49 Figure 50 Figure 51 Figure 52 Figure 53 Figure 54 Figure 55 Figure 56 Figure 57 Figure 58 Figure 59 Figure 60 Figure 61 Figure 62 Figure 63 Figure 64 Figure 65 Figure 66 Figure 67 Figure 68 Figure 69 Figure 70 Figure 71 Figure 72 Identification des cha nes de cor f rences sur un article portant sur le Nil 125 Un exemple de regroupement hi rarchique 126 Algorithme de Bron Kerbosch ss 128 Exemple simplifi de mise en uvre de l algorithme de regroupement spectral 129 R sultat brut de l extraction d information sans regroupement des r sultats 135 Visualisation de l extraction d information avec regroupement des r sultats 135 Extraction terminologique de 3 500 avis publics de consommateurs sur leur banque 137 Concept banque commerciale dans le lexique s mantique d Antelope 138 Reconnaissance initiale d entit s nomm es par gazettes cceceeccceessccee
408. tion de la r gle pour le passif lt Odobj rcmodil gt rcmod gt lt dobj dob gt lt Mdobj lt det lt nsub posud lt det the book that Peter reads Peter reads the book N Hat Figure 68 Extraction de la r gle pour les relatives Ro posts mer the book that Peter wants to read the book that Peter reads gt N V to V Figure 69 D pendances non born es 5 Conclusion Nous avons pr sent une approche de la conception d une ISS bas e sur l exemple Notre approche sait prendre en compte des r gles de diff rents niveaux grammaticales temps passifs relatives ou lexicales sous cat gorisation Notre choix est de proc der au calcul de r gles l mentaires par soustraction de r gles en vitant l explosion combinatoire du nombre et de la complexit des r gles que provoque une pr compilation du lexique et de la grammaire Nous pensons que cette approche est pragmatique dans la mesure o elle met en uvre des ressources large couverture dans leur tat actuel Les avantages escompt s de cette approche sont une grande modularit et une facilit de maintenance de l ISS obtenue l ind pendance vis a vis de tout analyseur syntaxique particulier et une facilit de prise en compte de nouvelles ressources Ce chapitre portait principalement sur l extraction de r gles pour l ISS Notons que notre grammaire est compl tement r versible et peut servir aussi bien pour
409. tiques optionnellement pr vus dans le cadre de sous cat gorisation 110 du verbe peuvent ne pas tre explicitement renseign s ici Asset et Source dans le premier pr dicat Source et Beneficiary dans le second El gave Agent Lincoln canimates Theme powers Recipient general lt animates Asset Source Location in Washington E2 captured Agent general canimate gt Theme troops Source Beneficiary Time during Battle_of_Gettysburg L tiquetage des r les th matiques contribue directement a la d sambiguisation lexicale En effet dans le cas de l exemple VerbNet restreint les sens possibles du verbe et de ses actants dans WordNet par application des contraintes de s lection e Seuls huit sens du verbe GIVE parmi les quarante neuf num r s par WordNet sont compatibles avec l analyse syntaxique de surface de la phrase e Le nom GENERAL tant contraint par un trait lt anim gt ses deux sens possibles sont GENERAL 1 et 2 le troisi me sens d crit dans WordNet g n ral par opposition particulier est exclu e Le seul sens possible du verbe CAPTURE dans le contexte est CAPTURE S5 VerbNet d crit aussi la s mantique fine de chaque cadre de sous cat gorisation avec un jeu de deux cents pr dicats de base Par exemple la traduction du premier pr dicat dans ces concepts l mentaires donne e Has_possession start E1 Agent Lincoln Theme powers e Has_possession end E1
410. tiquet s dont les n uds sont des concepts et les arcs des relations Elles sont aussi influenc es par la s mantique des cadres de Minsky 1974 les concepts y sont repr sent s par des cadres caract ris s par un certain nombre d attributs ou slots qui contiennent de l information sur leur contenu Les logiques de description utilisent trois notions de base e Les concepts correspondent des classes d l ments des ensembles dans un univers donn Personne Soci t e Les r les correspondent aux liens entre les l ments des relations binaires sur un univers donn personneDirigeSoci t personneTravailleDansSoci t e Les individus correspondent aux l ments d un univers donn la personne Francois la soci t Proxem leChatDeMaVoisine Ces notions permettent de partitionner la connaissance en deux parties nomm es classiquement e T Box axiomes terminologiques regroupant les concepts et les r les la T Box d finit les r gles qui r gissent le monde Ces informations sont g n riques globales vraies pour tous les individus 193 e A Box les individus du monde les assertions sont sp cifiques ou locales et s appliquent a certains individus particuliers b Survol des familles de logiques de description Il existe diff rentes logiques de description avec plus ou moins de pouvoir d expression Leur base commune est la logique appel e AL Ell
411. tis es dans des tables qui r sument pour chaque mot les cadres avec leurs actants s mantiques et arguments syntaxiques FrameNet II compte 825 cadres s mantiques 10 000 unit s lexicales dont 6 100 compl tements annot es ainsi que 130 000 phrases d exemples annot s Les outils et donn es sont distribu s librement Il existe une correspondance entre les verbes de FrameNet II et ceux de WordNet A titre indicatif voici la description textuelle du cadre Crime_scenario A putative is committed and comes to the attention of the Authorities In response there is a Criminal_investigation and often Arrest and criminal court proceedings The Investigation Arrest and other parts of the Criminal_ Process are pursued in order to find a who then may enter the Criminal_process to become the Defendant and determine if this matches the of the and also to determine if the eters match the ME If the is deemed to have committed the Crimel then they are generally given some punishment commensurate with the Charges Les diff rents acteurs de ce cadre frame elements en anglais sont galement d crits ETAT The group which is responsible for the maintenance of law and order and as such have been given the power to investigate Crime find Sais and determine if a should be submitted to the Criminal_process Charge A description of a type of act that is not permissible according to the law of society 83 Crime An
412. titionner le graphe jusqu ce que la coupe soit en dessous d un certain seuil Cette id e est utilis e dans l algorithme NCut d crit dans Shi Malik 1997 et am lior dans Ding et al 2001 Le probl me de cet algorithme est que le partitionnement s arr te au niveau du seuil e Une troisi me technique a vu le jour pour contourner ce genre de probl me Elle consiste construire enti rement la hi rarchie du graphe en le bipartitionnant puis regrouper les n uds dans l arbre r sultant avec un crit re d agr gation L algorithme d crit dans Cheng et al 2006 utilise ce principe 127 e R duction de dimensions Le probl me le plus important dans le regroupement de documents provient de la dimension lev e des matrices termes documents Pour pallier ce probl me des techniques visant r duire la dimension de l espace ont t introduites La recherche des composantes principales vise ne retenir que les axes qui contiennent le plus d informations Le regroupement est alors am lior car une partie du bruit l information non pertinente a t supprim e Cependant le fait que les composantes principales qui correspondent a priori aux diff rents sujets soient orthogonales pose un probl me dans les regroupements de documents car des sujets diff rents ne sont pas forc ment ind pendants par exemple la biologie et l informatique ont en commun la bio informatique La r duction de dimension peut
413. trop subtil pour tre trait par la plate forme 1 M canisme permettant de pr server les ambiguit s Antelope permet de pr server aussi longtemps que possible l ambigu t des diff rentes unit s linguistiques Un m canisme technique g n rique est utilis avec un processus qui se d roule en trois phases Au d but un l ment potentiellement polys mique est cr avec ses diff rents sens analyses ou interpr tations A ce stade tout l ment porteur d ambiguit a une liste de candidats possibles poss dant chacun un score initial 186 x aS i Une paire comme nous chantons CHANTER ing pr s 1 p VS nous chantions CHANTER ing imp 1 p SUffit faire l hypoth se que l imparfait est exprim par i et le pr sent par un morph me z ro 154 Ce score volue ensuite dans le cadre d un vote effectu par les composants de traitements qui 7 Pr cisons que la plate forme est livr e en appliquent successivement diff rentes heuristiques standard avec plusieurs heuristiques L utilisateur peut les tendre ou coder ses propres heuristiques il peut aussi choisir celles qui seront utilis es pour un traitement donn en param trant leur importance relative et leur ordre d ex cution En fin de processus les candidats ayant le meilleur score sont retenus Cette approche permet donc de retarder un choix d finitif autant que possible de fa on l effectuer avec u
414. truire rapidement des extensions du lexique sp cifiques un domaine Elle a t mise en uvre sur plusieurs cas de figure concrets pour cr er des applications capables d analyser des textes et d en extraire diff rents niveaux de repr sentation du sens en fonction des objectifs recherch s Antelope fonctionne en principe sous Mac OS avec MONO mais le test reste a effectuer 171 B Perspectives Nous souhaitons continuer faire progresser Antelope Nos axes prioritaires concernent le multilinguisme la d sambiguisation et le mod le th orique de l interface syntaxe s mantique ISS 1 Multilinguisme Initialement la plate forme traitait uniquement l anglais Nous avions amorc la prise en compte du fran ais dans Antelope en 2009 en int grant l analyseur syntaxique TagParser et la ressource lexicale WOLF WordNet libre du fran ais A ce jour l anglais et le fran ais sont pris en charge au niveau du lexique s mantique et des composants de traitement avec un niveau de traitement s mantique comparable modulo la couverture des ressources utilis es L quipe Proxem pr voit d int grer aussi Antelope l analyseur syntaxique du fran ais FRMG de la Clergerie et al 2009 Une extension du lexique s mantique aux principales langues europ ennes espagnol portugais italien et allemand a d marr notamment gr ce aux versions en diff rentes langues de la Wikip dia et du Wiktionnaire Elle devrait tre
415. ts plus ou moins pertinents portant sur des personnalit s des v nements ou des produits Nous n entrerons pas ici dans le d tail de la collecte sur le Web qui n est pas un probl me de TAL Les difficult s sont n anmoins nombreuses trouver les bonnes sources d couper correctement une page Web Cf III 1 1 s assurer de la r cence de l information qui s y trouve A ce stade les composants d analyse s mantique entrent en jeu en permettant par exemple de d terminer la pertinence d une information puis d extraire les entit s nomm es La collecte de conversations ciblant une marque ou un produit donn sur le Web soul ve des difficult s sp cifiques S parer en amont le bon grain de l ivraie n cessite d appliquer des filtres de d sambiguisation de r cence et de pertinence pour viter de traiter des milliers de conversations trop anciennes ou sans int r t 177 z P TFE t R Ou r putation en ligne ou notori t num rique l opinion globale qu ont les internautes sur la marque 178 Business to Consumer B2C ou B to C c est dire les activit s ayant le consommateur final comme client 141 lllustrons ce point travers quelques exemples ciblant la soci t Carrefour Cette marque est aussi un nom commun une collecte par mot cl renvoie donc aussi des documents qui sont hors sujet car contenant des homonymes de l enseigne L accident de voiture a eu lieu sur le carrefour giratoire
416. ts de base pour la d finition d ontologies ou vocabulaires destin s structurer des ressources RDF Les composants principaux de RDFS sont repris dans le langage d ontologie OWL qui offre un pouvoir d expression plus lev a Classes rdfs Class permet de d clarer une ressource RDF comme une classe pour d autres ressources Un exemple de rdfs Class est foaf Person dans le vocabulaire FOAF Une instance de la classe foaf Person est une ressource li e la classe en utilisant un pr dicat rdf type L expression formelle suivante traduit en RDFS la phrase en langage naturel Fran ois est une personne Francois rdf type foaf Person rdfs subClassOf permet de d finir des hi rarchies de classes Par exemple toute personne est un agent foaf Person rdfs subClassOf foaf Agent b Propri t s RDFS pr cise la notion de propri t d finie par RDF en permettant de typer le sujet et l objet des triplets Pour cela RDFS ajoute deux notions e rdfs domain d finit la classe des sujets li e une propri t correspondant au domaine de d finition d une fonction e rdfs range d finit la classe ou le type de donn es des valeurs de la propri t donc l ensemble d arriv e de la fonction RDFS d finit aussi les notions de classe ressource litt ral propri t sous classe sous propri t champ de valeurs et domaine d application Par exemple on pourra exprimer que la propri t employeur
417. u Web s mantique comme illustr en figure 70 User Interface amp Applications sa URI IRI Figure 70 La pile des standards du Web s mantique Crypto Les plus importants de ces standards sont e RDF Resource Description Framework un mod le conceptuel permettant de d crire toute information sous forme de triplets produisant donc un graphe d informations 1 MeSH Medical Subject Headings est le thesaurus de r f rence dans le domaine biom dical MeSH est utilis par la base Medline PubMed et sert d outil d indexation de recherche et de classement 202 UMLS Unified Medical Language System est une compilation de nombreux vocabulaires contr l s en sciences biom dicales Il fournit une structure de correspondance entre ces vocabulaires et permet ainsi de les traduire en diff rents systemes terminologiques UMLS peut galement tre vu comme un thesaurus et une ontologie des concepts biom dicaux 188 e RDFS RDF Schema un langage autorisant la cr ation de vocabulaires par d finition de classes et de propri t s permettant de structurer les donn es en RDF e SKOK Simple Knowledge Organization System un langage de d finition de taxonomies et de th saurus e OWL Web Ontology Language un langage permettant de cr er des ontologies servant de support aux traitements logiques inf rence classification e SPARQL un langage de requ tes pour manipuler des informatio
418. ue par exemple le code d un automate peut se ramener a un param trage Prise individuellement chaque t che d analyse est intrins quement complexe compte tenu de la nature par essence ambig e de la langue Pour la plupart des t ches aucun algorithme prenant du texte tout venant ne fonctionne 100 Cette complexit est augment e par le fait que ces t ches n cessitent des connaissances de plusieurs niveaux que pourrait apporter une compr hension pr alable du contexte alors m me que chaque t che contribue cette compr hension au moins d une fa on parcellaire Mener plusieurs t ches d analyse simultan ment revient faire coop rer diff rents composants dans une cha ne de traitement et s av re encore plus compliqu En effet un probl me pratique en TAL provient du fait que les ressources sont g n ralement con ues et impl ment es pour une t che donn e avec un formalisme d di L interop rabilit entre deux composants est la possibilit de leur faire analyser successivement un texte donn en permettant au second composant d utiliser les r sultats du premier Un exemple classique d interop rabilit op rationnelle concerne un analyseur syntaxique travaillant sur la sortie d un tiqueteur morphosyntaxique Le pr requis ici est que les deux composants partagent le m me jeu d tiquettes celui du Penn Treebank par exemple faute de quoi leur dialogue est impossible Le m me
419. ue d crite pour i aider valider l homog n it des d finitions produites et ii comparer les polys mies r guli res partag es entre diff rentes langues 5 Granularit des sens dans le lexique a Mesures de similarit entre synsets Les algorithmes effectuant des traitements s mantiques ont souvent besoin de comparer deux synsets cela peut tre le cas par exemple lors de la r solution d anaphores nominales De nombreux auteurs ont propos des d finitions de mesures de similarit et plusieurs impl mentations bas es sur WordNet sont disponibles Par exemple Pedersen Patwardhan 102 CHIANTI 1 dry red Italian table wine from the Chianti region of Tuscany DRINK 1 IMBIBE 3 take in liquids DRINK 2 BOOZE 1 FUDDLE 2 consume alcohol http www chaumartin fr download wnpolysemy zip 103 104 79 Michelizzi 2004 pr sente plusieurs de ces algorithmes de similarit et une impl mentation en Perl appel e WordNet Similarity Nous avons impl ment plusieurs mesures de similarit dans Antelope De cette fa on un composant de traitement peut choisir celle qui lui semble la mieux adapt e dans un contexte donn Pour tre comparables les r sultats de toutes ces mesures sont ramen s dans l intervalle 0 1 La mesure est un nombre r el valant 1 quand les deux synsets sont identiques et d autant plus proche de 0 que les synsets sont diff rents 1 Mesure de similarit structurel
420. ues 2 Notre participation SemEval 2007 a Objectifs Le but de la tache 14 de la campagne SemEval 2007 workshop ACL tait de trouver les sentiments et motions ressentis par un humain lisant des titres d articles de presse crits en anglais Plus pr cis ment il fallait reconna tre les six motions de base col re d go t peur joie tristesse et 146 surprise et aussi d terminer point tout aussi complexe s il s agissait globalement d une bonne ou d une mauvaise nouvelle Antelope nous a permis de construire en une semaine soit une quarantaine d heures de d veloppement le syst me d crit dans Chaumartin 2007a qui a obtenu SemEval 2007 la meilleure exactitude 89 43 dans la d tection des motions mais avec un rappel modeste Une difficult sp cifique dans cette t che tait li e au faible nombre de mots contenus dans chaque titre b Architecture globale Notre syst me est principalement bas sur des r gles et emploie une approche linguistique D un point de vue macroscopique notre hypoth se est que tous les mots portent potentiellement des motions dans un titre d article Si les ressources linguistiques permettent de d tecter ces motions individuellement une question qui se pose est comment traiter les titres qui contiennent simultan ment des termes positifs et n gatifs notre approche est d identifier la t te syntaxique du titre en consid rant qu elle a une importanc
421. uit la partition classique de la mod lisation d un nonc en niveaux de repr sentation phonologique phon tique morphologique syntaxique et s mantique La sp cificit de l approche Sens Texte consiste en une subdivision profond vs de surface des trois premiers niveaux Plusieurs impl mentations en ont d j t effectu es 1 Diff rents niveaux de repr sentation Notre objectif est de permettre une analyse de textes qui puisse aller jusqu une repr sentation s mantique sans que ce soit syst matiquement une obligation On peut imaginer par exemple qu un article d encyclop die soit analys finement sur les premiers paragraphes et plus superficiellement sur la suite Nous souhaitons donc repr senter diff rents niveaux d information au sein d un m me document Sans forc ment viser une impl mentation compl te et orthodoxe de ce mod le nous mettons en uvre les niveaux de repr sentation suivants e Morphologie de surface nous utiliserons dans la suite l abr viation RMorphS et morphologie profonde RMorphP ces niveaux permettent de repr senter une information lin aire r sultant d un tiquetage morphosyntaxique ou d un chunking e Syntaxe de surface RSyntS cette repr sentation consiste en un arbre de d pendances syntaxiques dont les n uds repr sentent des lex mes pleins ou vides et les arcs des d pendances syntaxiques de surface sp cifiques une langue donn e voire
422. uments les plus proches c est a dire ceux maximisant le produit scalaire entre le vecteur de la requ te et celui des documents avec g n ralement une pond ration de type TF IDF tenant compte de la fr quence des termes au sein de l index f Bilan On constate donc que la repr sentation du sens d un nonc par un moteur de recherche sous forme de sac de mots compresse l information d une fa on destructive On retrouve ici le ph nom ne bien connu en traitement d image une compression excessive entra ne une pixellisation de l image 19 Eoy P P see La lex misation ou stemming en anglais revient prendre la racine des mots priv s de leur terminaison On obtient apr s lex misation d un mot son lex me concept souvent synonyme de radical du mot Dans les exemples que nous donnons ici l algorithme de Porter 1980 est utilis 20 ms x sii r C est dire une position sur une sph re de dimension gale au nombre de termes possibles 21 TF IDF term frequency inverse document frequency est une m thode de pond ration souvent utilis e dans la fouille de textes Cette mesure statistique nous permet ici d valuer l importance d un mot au sein d une d finition Le poids augmente proportionnellement en fonction du nombre d occurrences du mot dans la d finition Il varie galement en fonction de la fr quence du mot dans le corpus form par l ensemble des d finitions 12
423. un analyseur syntaxique particulier pour des raisons de commodit Antelope permet aussi de la repr senter sous forme d un arbre de constituants e Syntaxe profonde RSyntP c est un arbre de d pendances non lin airement ordonn dont les n uds sont des unit s lexicales et les arcs des d pendances syntaxiques profondes universelles les unit s lexicales sont d sambiguis es et peuvent tre des locutions des expressions multi mots un lex me vide comme une pr position r gime n appara t pas dans la RSyntP e S mantique RS m c est un graphe dont les n uds repr sentent les sens d sambiguis s des unit s lexicales et grammaticales les arcs sont des relations pr dicat argument une repr sentation quivalente peut tre donn e dans le formalisme du calcul des pr dicats La TST propose un mod le bidirectionnel utilisable en analyse ou en g n ration Notre objectif vise dans le cadre de nos travaux actuels a extraire des connaissances d un texte nous mettons donc en uvre des interfaces unidirectionnelles r alisant les transitions Texte RMorphS RMorphP gt RSyntS RSyntP RS m Notre contribution sp cifique porte sur l ISS qui effectue les transitions RSyntS RSyntP et RSyntP gt RS m le passage d un niveau au suivant tant effectu par une interface clairement d finie Pour une mod lisation formelle de la TST on pourra consulter Kahane Mel uk 1999 ainsi que Kahane
424. une m thode pour les personnaliser gr ce des textes collect s sur les r seaux sociaux Antelope y est utilis e pour effectuer l analyse s mantique de commentaires d internautes sur des vid os de recrutement Des th matiques proches sont explor es dans Ammari et al 2011 150 Rouillard Tarby 2011 pr sente plusieurs solutions voix geste interface haptique pour communiquer avec un environnement domotique Des solutions large couverture de vocabulaire sont maintenant disponibles pour la reconnaissance vocale L article pr sente une architecture de traitement qui encha ne plusieurs modules externes Antelope est le candidat propos pour effectuer le traitement s mantique en sortie du module de reconnaissance vocale Il est int ressant pour un syst me domotique de savoir qu un FOUR A MICRO ONDES est une sorte d APPAREIL ELECTRIQUE par exemple le lexique s mantique permet donc d enrichir le dialogue entre la maison et ses habitants D apr s Doumit Minai 2011 les m dias ont un biais Un article politique peut par exemple pr senter une influence lib rale conservatrice ou centriste Des recherches r centes visent a identifier et classer ces biais gr ce l analyse des sentiments exprim s par les adjectifs et adverbes trouv s dans les articles de presse mais les m thodes d valuation des mod les utilis s les rendent critiquables L article propose un syst me d extraction d information et d an
425. urus Roget 43 UIMA 35 132 Unicode 43 UNL 34 vecteur termes fr quences 12 veille conomique 134 VerbAction 82 VerbNet 56 vocable 8 Web s mantique 187 WOLF 55 WordNet Domains 60 WordNet Gloss Corpus 56 214
426. us avons d r soudre est li l habitude anglo saxonne de mettre en majuscule les initiales de tous les mots d un titre La premi re passe de notre syst me vise ainsi d tecter dans un titre les mots incorrectement capitalis s et repasser leur initiale en minuscule Pour cela nous avons effectu un tiquetage morphosyntaxique du titre avec le SS Tagger Tsuruoka Tsujii 2005 En fonction de la partie du discours laquelle appartient chaque mot d informations 147 La somme des trois valeurs vaut toujours 1 0 par exemple pour l adjectif ESTIMABLE 1 on a positivit 0 75 n gativit 0 objectivit 0 25 118 trouv es dans WordNet et de quelques heuristiques le syst me choisit de garder ou non l initiale inchang e L impact de cette tape pr liminaire de transformation est loin d tre n gligeable du point de vue du Stanford Parser On peut voir par exemple le contraste entre l analyse d un titre avant figure 38 et apr s figure 39 ce traitement On remarquera que sur la figure 38 presque tous les mots sont consid r s comme tant des noms propres et les d pendances sont incorrectes en revanche sur la figure 39 les mots sont tiquet s avec la bonne partie du discours et les d pendances sont maintenant presque correctes Bush NNP Insists NNP Troops NNPS Stay NNP in IN Iraq NNP Predicts NNP Midterm NNP Victory NNP Figure 38 Sortie du Stanford Parser avec un titre incorrectem
427. us avons import la ressource LinkGrammar WN qui enrichit le lexique du Link Grammar Parser de 14 000 nouveaux noms provenant de WordNet Elle a t cr e en se basant sur la d marche de fusion de lexiques pr sent e dans Szolovits 2003 31 b M canismes techniques d int gration L int gration des composants externes se fait de diff rentes fa ons Si le code source du composant est disponible et crit dans un langage pour lequel il existe un compilateur pour NET une recompilation suffit Si le composant est crit en Java nous utilisons le logiciel IKVM qui est capable de traduire un fichier binaire Java class ou jar dans le bytecode quivalent de NET C est le m canisme que nous avons mis en uvre pour int grer les analyseurs d Antelope l architecture UIMA voir page 36 Pour du code en C ou C nous encapsulons le composant travers un m canisme standard de biblioth que dynamique DLL l interface de programmation du composant est pr sent e en utilisant un design pattern classique de type Fa ade qui regroupe l ensemble des services du composant dans une classe unique L exp rience nous a toutefois montr qu il est dangereux de m langer du code NET ou Java avec du code C ou C en effet le premier s ex cute en b n ficiant de la protection offerte par une machine virtuelle m me en cas d erreur d ex cution dans le programme les m canismes d exceptions permettent une reprise sur er
428. utilisateur d une fa on interactive sous forme d un nuage de concepts Soto et al 2009 explore l utilisation d ontologies comme WordNet et YAGO Cf IV A 2 d en tant que bases de connaissances afin de construire automatiquement les objets d apprentissage pour des applications d e learning Le syst me pr sent g n re des exercices interactifs au format HTML pour diff rents cours Sur la base d un exercice pr c demment crit manuellement et des ontologies pr cit es le syst me permet de cr er de nouvelles versions de l exercice et d en changer le contenu sp cifique Le lexique s mantique d Antelope est utilis pour la g n ration des exercices van Willegen et al 2009 investigue la similarit entre mots et d finit une distance d affinit s mantique Cette distance utilise le lexique s mantique d Antelope notamment WordNet o deux concepts peuvent tre reli s par une cha ne de synonymes le nombre de sauts correspondant la distance entre les mots Despotakis 2011 rappelle que les serious games ont une importance grandissante en formation professionnelle les apprenants am liorent leurs comp tences en tant immerg s dans des simulations d activit s r elles La personnalisation de l exp rience et l adaptation aux besoins de l apprenant jouent un r le cl dans l utilisabilit de ces environnements L article pr sente le cas des formations aux entretiens d embauche avec
429. utomatiquement sur corpus des nouveaux concepts qui seront soumis une validation humaine un linguiste peut alors valider ou infirmer les nouveaux concepts propos s Nous utilisons pour cela diff rents m canismes d apprentissage nous en pr sentons deux ici le premier utilisant les CRF et le second qui op re par exploration des num rations b G n ralisation par apprentissage utilisant les CRF Un apprentissage utilisant le m canisme des CRF Cf V B 3 page 97 est alors effectu sur ce corpus annot La figure 50 montre en soulign les r sultats de cet apprentissage qui propose de nouvelles entit s nomm es ou compl te celles qui taient d j identifi es Par exemple de nouvelles marques sont d tect es Le syst me a appris que le mot ou groupe de mot qui suit le terme marque en est justement une Il d tecte alors les marques ivana et PRIM GRILL qui n existaient pas dans les gazettes de m me il consid re que le nom de la marque est Laroche Mazet et non Laroche En ce qui concerne les produits le syst me identifie correctement lait apr s soleil et non lait tout seul Il trouve aussi le produit automatisme pour portail inconnu jusqu alors le syst me a donc aussi appris que dans ce corpus le groupe nominal qui suit le verbe commander est probablement un produit On a appel la cliente pour venir chercher une commande Lait Apr s So
430. w w3 org 2002 07 owl gt dct lt http purl org dc terms gt wn lt http wordnet princeton edu gt wiki lt http simple wikipedia org gt mpleWiki rdf type skos ConceptScheme OCETE itle Simple English Wikipedia wn wordNet30 rdf type skos ConceptScheme OCELTE skos wn hasP wn kitt skos skos skos skos skos skos skos wiki Ca skos skos itle WordNet 3 0 hasTopConcept wn entity l art rdfs subPropertyOf skos related en l rdf type skos Concept inScheme wn wordNet30 prefLabel kitten en prefLabel chaton fr broaderTransitive wn young mammal 1 definition young domestic cat en related wn domestic cat l example our cat kittened again this year en t rdf type skos Concept inScheme wiki simpleWiki preflabel Cat en 199 skos definition Cats also called domestic cats or house cats are carnivorous meat eating mammals of the family Felidae wiki Cat skos closeMatch wn domestic cat 1 wn violin l rdf type skos Concept skos broaderTransitive wn stringed instrument 1 skos prefLabel violin en skos altLabel fiddle en wn hasPart wn string 3 wn hasPart wn fingerboard 3 F Conclusion Le Web s mantique offre des promesses fortes Une migration progressive peut tre envisag e entre les formalismes actuellement utilis s et ceux du Web s mantique par exemple les mod les existant
431. werLoom SHOE Simple HTML Ontology Extension Ontolingua http ksl stanford edu software ontolingua La plupart des syst mes qui utilisent DAML OIL et DAML OIL sont en train de migrer vers OWL 210 Un nonc est d cidable dans une axiomatique si on peut le d montrer ou d montrer sa n gation 194 les inf rences sont souvent effectu es en un temps satisfaisant OWL DL se fonde sur SHOIN son volution OWL 2 est bas e sur SROJQO OWL Full est d fini avec une s mantique diff rente d OWL Lite ou d OWL DL permettant la m ta classification OWL Full dispose d un pouvoir d expression plus lev et a t con u pour pr server la compatibilit avec RDFS Par exemple en OWL Full une classe peut tre trait e simultan ment comme une collection d individus et en tant qu instance ce qui n est pas possible en OWL DL OWL Full permet une ontologie d tendre un vocabulaire pr d fini RDF ou OWL Contrairement aux versions pr c dentes il n existe aucun algorithme d inf rence d cidable pour OWL Full une proposition peut y tre ind montrable le contraire de la proposition tant galement ind montrable ou dit autrement certaines propositions ne peuvent pas y tre prouv es Comment choisir entre les diff rentes versions d OWL On aurait pu penser qu il serait plus simple de fournir des outils pour OWL Lite que pour les autres variantes plus expressives d OWL permettant une migration rapid
432. x Charcuterie Parfumerie Hygi ne Fruits et L gumes Boissons alcoolis es Figure 56 Tableaux de bord synth tiques d Ubiq E Analyse d offres d emploi et de CV Ubiq RH 1 Objectif Les offres d emploi et CV disponibles en ligne constituent un mat riau potentiellement tr s riche disponible en temps r el Son analyse est rendue difficile en raison de la masse d informations a analyser de la vari t des supports de publication en ligne de la faible standardisation des formats 180 Un moteur de recherche facettes affiche des donn es structur es extraites du texte en les regroupant par cat gories La figure 55 montre sur la gauche de la capture d cran les th matiques calcul es motifs et rayons et sur la droite les entit s nomm es marques concurrents produits concepts qui constituent les diff rentes facettes dans le cas d esp ce 146 d annonce de l absence de r f rence des nomenclatures communes et du caract re souvent implicite des contenus L analyse s mantique offre un moyen de traiter rapidement des volumes importants de documents RH Apr s avoir t originellement con ue pour traiter les avis de consommateurs la solution Ubiq a t adapt e au domaine RH par l quipe Proxem pour analyser des offres d emploi et des CV Ubiq RH permet aussi de chercher les CV correspondant le mieux a une offre ou les meilleurs postes pour un profil donn Un point a souligner e
433. x faux n gatifs l ments oubli s ou annot s diff remment Le rappel peut galement tre interpr t non pas comme un ratio mais comme une probabilit celle qu une entit nomm e s lectionn e al atoirement soit correctement annot e Il est d fini comme we Entit s correctement annot es i Rappel wen Entit s appartenant a la classe i n i 1 Rappel Rappel _ n La pr cision est sensible aux faux positifs l ments annot s par erreur comme appartenant a une classe donn e La pr cision peut elle aussi tre interpr t e comme une probabilit celle qu une annotation constat e soit juste Elle est d finie comme nen Be Entit s correctement annot es i Pr cision _ wen Entit s annot es i UE 1 Pr cision Pr cision n Aussi appel e F score la F mesure est la moyenne harmonique de la pr cision et du rappel En g n ral on utilise la F1 mesure Pr cision Rappel FE 2 x Pr cision Rappel Pour pond rer l importance accord e la pr cision et au rappel on utilise la F Beta mesure 4 Pr cision x Rappel Fg 1 B 7p a Dak atau DA p4 x Pr cision Rappel On retrouve relativement fr quemment l utilisation de cette mesure avec des valeurs de Beta 0 5 ou Beta 2 On privil giera par exemple le rappel dans des t ches o l on est capable d effectuer un tri parmi les r ponses propos es
434. xique en profondeur de la d finition en utilisant le Stanford Parser Cet analyseur statistique fournit une sortie sous forme de d pendances syntaxiques comme montr en figure 17 Dans cette tape nous comptons les domaines associ s chaque sens possible d un mot du contenu de l article 8 Si l hyperonyme est qualifi par un adjectif ou un compl ment de nom l algorithme teste l existence d un synset constitu par l expression compl te de fa on tre le plus pr cis possible 66 re Nous supposons que l hyperonyme se situe dans la 1 phrase de l article qui tient le plus souvent lieu de d finition nous ne traitons donc que celle ci Comme une d finition se r sume souvent un groupe nominal il convient de la modifier pour la rendre grammaticalement correcte Notre exp rience montre que c est indispensable dans le cas d un analyseur bas sur des r gles comme le Link Grammar Parser et souhaitable dans le cas d un analyseur statistique tel que le Stanford Parser La premi re passe consiste donc en un tiquetage morphosyntaxique de la d finition ensuite en fonction de la partie du discours adjectif nom verbe etc du premier mot l algorithme pr fixe ventuellement la d finition par c est ou c est un usually having having ability prep gt pobj gt cer conj gt Figure 17 Analyse syntaxique de la d finition en anglais du nom chat
435. ynset F Interface d Interface 5 Synse IConcept _ Lenis IConcept lt ISynsetRelation 7 TR Relations Interface E Properties E Properties EA P Frequeny Sf Synset AA Definition Z Senseo amp Domain ef Text PR Examples 2T wordvo A InformationContert SP OrderedHypenyms T LerCstegoy H pum sme FE ILemmaRelation Y Interface Figure 14 Mod lisation du lexique s mantique g Fr quence des lemmes WordNet associe chaque lemme une fr quence qui est son nombre d occurrences dans le corpus Brown WordNet peut donc classer les diff rents sens d un m me mot les diff rentes lexies d un vocable dans l ordre d croissant de fr quence Si la lexie n apparait pas dans le corpus Brown le lexicographe cr e les entr es en fonction de importance d usage suppos e Par exemple les diff rents sens de MINK vison sont class s dans l ordre suivant 1 fourrure de l animal 2 manteau de fourrure 3 animal h Contenu informationnel Pour un nom ou un verbe la somme cumul e des fr quences d un synset et de ses hyponymes au sein d un sous arbre de la hi rarchie permet de d finir son contenu informationnel Cette notion donne l importance relative d un concept m me si ses lexies apparaissent peu fr quemment dans un corpus Par exemple la fr quence d apparition de MAMMAL 1 MAMMALIAN 1 mammif re est tr s faible le terme n apparait que 3 fois tel quel d
436. yntaxique de la premi re phrase d un article de fa on d tecter son genre prochain d autre part pour calculer une distance entre d finitions de fa on proposer des appariements Pour l appariement entre WordNet et un sous ensemble de 15 800 articles de la Wikip dia anglaise nous obtenons une pr cision de 92 En cas de cr ation d un nouveau synset I hyperonyme est correctement identifi dans 85 des cas a Recherche des synsets de WordNet candidats l appariement avec un article encyclop dique L English Wikipedia poss de une vingtaine d articles dont le titre contient au moins partiellement Abraham Lincoln e Abraham Lincoln l homme politique 16 Pr sident des Etats Unis e Abraham Lincoln assassination l assassinat de l homme politique e Abraham Lincoln Pullman car le plus ancien wagon de passagers des Etats Unis e Sans oublier deux films biographiques trois lieux g ographiques plusieurs coles deux vaisseaux militaires galement nomm s en m moire de l homme politique Nous constatons donc qu une similarit entre le titre d un article et un lemme ou groupe de mots d signant un synset de WordNet ne suffit pas d duire qu ils traitent du m me sujet Notre approche consiste identifier le ou les synset s de WordNet auquel un article se rattache Pour ce faire nous commen ons par extraire de WordNet les synsets candidats pouvant corre
437. yser par exemple des opinions exprim es par des consommateurs ou des d cisions de justice Nous pr sentons d abord trois applications que nous avons d velopp es avec l quipe Proxem Elles int grent tout ou partie des composants d Antelope avec une complexit croissante qui refl te une progression chronologique Les deux premi res concernent l extraction d information Le chapitre A pr sente un sous ensemble du projet SCRIBO le composant de reconnaissance d entit s nomm es Cf V B 5 page 99 est appliqu aux articles de presse en respectant le standard UIMA Cf III H page 35 L outil de veille conomique d crit au chapitre VI B page 134 utilise en plus les composants d extraction de relations Cf V C page 106 et de regroupement de documents Cf V F page 125 La troisi me application s appelle Ubiq D velopp e par l quipe Proxem elle exploite tous les composants de la plate forme Antelope Ubiq est une solution d aide la d cision aujourd hui d clin e en deux versions La premi re pr sent e au chapitre D concerne l e r putation par analyse d avis de consommateurs La seconde d taill e au chapitre E porte sur les documents RH apr s une analyse s mantique elle permet de trouver les meilleurs CV correspondant une offre ou les meilleurs postes pour un profil donn Dans ces deux cas nous avons d proc der en amont l acquisition de connaissances sp cifiques au domaine tr
438. z des projets de d veloppement ou maintenance d application De formation Bac 2 4 ing nieur informatique ou quivalent vous avez 1 an d exp rience minimum en tant qu mainframe Vous poss dez les connaissances suivantes Cobol DB2 CICS Mvs Candidature 85 Direction RH sh hegy co Poste bas en r gion Centre M tiers Analyste programmation Ing nierie informatique Comp tences informatique Planification Projet chef de projet COBOL MVS IBM DB2 Customer Information Control System Documentation Talents qualit s r dactionnelles Lieux Centre Description entreprise Soci t de service informatique Dipl mes BAC 2 Comp tences linguistiques qualit s r dactionnelles Codes job Informatique de gestion Exp rience 1 an d exp rience Figure 58 Un exemple d analyse de CV avec les diff rentes informations extraites 147 2 Adaptation d Ubig au domaine RH a Adaptation des analyseurs Diff rents types d ambiguit sont pr sents dans les documents RH Un nom propre comme Orange peut d signer une ville o habite un candidat o un poste est a pourvoir une entreprise celle qui recrute ou bien une exp rience cit e dans un CV ou encore un patronyme Un nom de m tier d signe des r alit s diff rentes en fonction du secteur par exemple on recrute des architectes en informatique et dans le BTP Plusieurs villes portent le m me nom Evry peut tre le chef lieu du d p
Download Pdf Manuals
Related Search
Related Contents
CS-400G User Manual INSTALLATION AND USE MANUAL Permettre à des demandeurs d`emploi cadre ou non cadre Home Decorators Collection YG493OD-ORB Instructions / Assembly 取扱説明書 Vodafone One Net Vodafone One Net Genetics Construction Kit (GCK) Version 1.0.3 User`s Manual Harbor Freight Tools 30 In. x 16 In. Three Shelf Steel Service Cart Product manual Bajar Manual - Simchoni México Copyright © All rights reserved.
Failed to retrieve file