Home

Article

image

Contents

1. Arts et sciences des textes Paris PUF 303 p RASTIER F 2011 La mesure et le grain S mantique de corpus Paris Honor Champion 272 p RASTIER F amp PINCEMIN B 1999 Des genres Pintertexte I Kanellos d Cahiers de Prax matique 33 S mantique de l intertexte p 83 111 ROSSIGNOL M 2005 Acquisition sur corpus d informations lexicales fond es sur la s mantique diff rentielle Th se de doctorat Universit de Rennes 1 SALEM A LAMALLE C MARTINEZ W FLEURY S FRACCHIOLLA B KUNCOVA A amp MAISONDIEU A 2003 Lexico3 Outils de statistique textuelle Manuel d utilisation Universit de la Sorbonne nouvelle Paris 3 SAUSSURE F DE 2002 crits de linguistique g n rale Paris Gallimard TANGUY L 2012 Complexification des donn es et des techniques en linguistique contributions du TAL aux solutions et aux probl mes M moire d habilitation diriger des recherches Universit Toulouse Le Mirail Toulouse EGLE EENSOO MATHIEU VALETTE TANGUY L amp FABRE C 2014 volutions de la linguistique outill e m faits et bienfaits du TAL L information grammaticale 142 p 15 23 THLIVITIS T 1998 S mantique Interpr tative Intertextuelle assistance informatique anthropocentr e la compr hension des textes Th se de doctorat Rennes 1 VERNIER M MONCEAUX L DAILLE B amp DUBREIL E 2009a Cat gorisation des valuations dans un corpus de
2. essentiel des efforts en mati re de cr ation d outils en textom trie se porte actuellement sur l ergonomie logicielle et la visualisation des donn es Les m thodes math matiques employ es qui satisfont le plus grand nombre voluent peu depuis 30 ans mais les heuristiques et les savoir faire analytiques sont d terminants Souvent les talistes s tonnent du peu de vari t des m thodes statistiques des textom tres et leur opposent d impressionnantes biblioth ques de traitements C est qu ils ne prennent pas la mesure des t ches herm neutiques qui font la sp cificit de l ADT L interpr tation des r sultats d analyse en TAL est non cruciale et souvent occult e au profit de deux types de commentaires commentaires sur les performances de la m thode utilis e d une part commentaires sur les r sultats d valuation qui suivent des m thodes normalis es L valuation des performances du syst me repose en effet sur les mesures de congruence entre le r sultat de la classification et le corpus de test annot taux d exactitude pr cision rappel f score etc Or comme l observe Yvon 2006 41 d autres valuations sont possibles analyse s mantique des valeurs discriminantes s lectionn es par l algorithme ad quation avec une th orie linguistique plausibilit cognitive etc mais les alternatives sont rares et peu valoris es en termes acad miques Mieux encore les donn es langagi res propr
3. analyse factorielle des correspondances sp cificit s fond es sur le mod le hyperg om trique etc et des outils de visualisation des corpus nuages de mots histogrammes etc et documentaires concordanciers destin s l aide l interpr tation des textes 3 1 La textom trie et le TAL La linguistique de corpus et la textom trie ne rel vent pas du TAL En d pit de quelques traits communs les corpus num riques les algorithmes math matiques informatis s et d affinit s intercommunautaires ponctuelles elles se distinguent tous les gards On dresse ci apr s l inventaire de ces diff rences Du point de vue pist mologique Le TAL fondamentalement vise l automatisation des processus l limination de la part de l humain dans les traitements tandis que la textom trie repose sur une it ration entre l analyse des sorties logicielles et la consultation des textes ou de fragments en cela il s agit davantage d une linguistique assist e par ordinateur Par ailleurs le TAL est utilitariste et a pour finalit des applications informatiques ce qui implique une recherche de performance et d optimisation la textom trie a des objectifs pist miques accro tre les connaissances et participer l interpr tation d un corpus Enfin la diff rence du TAL o la mise en place d un protocole d valuation est indispensable l valuation et la reproductibilit ne sont pas probl mati
4. blogs multi domaine Revue des nouvelles technologies de l information RNTI p 45 70 VERNIER M MONCEAUX L amp DAILLE B 2009b DEFT 09 d tection de la subjectivit et cat gorisation de textes subjectifs par une approche mixte symbolique et statistique Actes de l atelier de cl ture de la S me dition du D fi Fouille de Textes VILLENA ROMAN J COLLADA PEREZ S LANA SERRANO S GONZALEZ CRISTOBAL J C 2011 Hybrid Approach Combining Machine Learning and a Rule Based Expert System for Text Categorization Proceedings of the Twenty Fourth International Florida Artificial Intelligence Research Society Conference p 323 328 WHITELAW C GARG N amp ARGAMON S 2005 Using appraisal groups for sentiment analysis ACM d Proceedings of the 14th ACM International Conference on Information and Knowledge Management p 625 631 YVON F 2006 Des apprentis pour le traitement automatique des langues M moire d habilitation diriger des recherches Universit Pierre et Marie Curie Paris ZWEIGENBAUM P BELLOT P GRAU B LIGOZAT A L ROBBA I ROSSET S TANNIER X et VILNAT A 2008 Apports de la linguistique dans les syst mes de recherche d informations pr cises Revue fran aise de linguistique appliqu e 1 2008 Vol XII p 41 62
5. renvoyons le lecteur En voici les principaux l ments susceptibles d alimenter notre discussion Le texte ne fait l objet d aucune pr conception r ductrice Les signes qui composent le texte ne sont pas hi rarchis s les substantifs ne sont pas pr f r s a priori aux mots grammaticaux ou aux signes de ponctuation et ne sont pas substituables par des constructions artefactuelles en particulier si elles sont de haut niveau tels les concepts les hyperonymes les synonymes Or l annotation de corpus au moyen de ressources vari es est non seulement tr s courante en TAL mais ne fait gu re l objet de r flexion critique Pourtant m me le traitement basique qui consiste lemmatiser un corpus parce qu elle en factorise les formes fait l objet de d bats circonspects en textom trie Brunet 2000 comme en s mantique des textes Bourion 2001 5 Par exemple Beust 1998 Thlivitis 1998 Perlerin 2004 Rossignol 2005 22 Traitement Automatique des Langues Naturelles Caen 2015 Le retour au texte est la condition de l interpr tation L analyse en textom trie comme en s mantique textuelle repose sur une it ration entre l analyse des sorties logicielles et la consultation des textes en d autres termes la connaissance des textes est une condition n cessaire leur analyse elle est notamment g n ratrice d hypoth ses interpr tatives Le contexte global construit par le corpus de r f re
6. trie dans M Valette d Textes documents num riques corpus Pour une science des textes instrument e Syntaxe et s mantique 9 p 53 72 MICHELI R HEKMAT I amp RABATEL A Eds 2013 Les motions argument es dans les m dias Le discours et la langue 4 1 EME ditions 222 p PANG P LEE L amp VAITHYANATHAN S 2002 Thumbs up Sentiment Classification using Machine Learning Techniques Proceedings of EMNLEP p 79 86 PEDAUQUE R T Coll 2007 La redocumentarisation du Monde Paris ditions C padues 213 p PERLERIN V 2004 S mantique l g re pour le document Assistance personnalis e pour l acc s au document et l exploration de son contenu Th se de doctorat Caen PINCEMIN B 2010 Sem ntica interpretativa y textometria dans C Duteil Mougel et V C rdenas Eds Sem ntica e interpretaci n T picos del Seminario 23 Enero junio 2010 p 15 55 PLATT J 1998 Machines using Sequential Minimal Optimization dans B Schoelkopf C Burges et A Smola ds Advances in Kernel Methods Support Vector Learning Cambridge MIT Press RASTIER F d 1995 L analyse th matique des donn es textuelles l exemple des sentiments Paris Didier collection Etudes de s mantique lexicale 270 p RASTIER F 1998 Le probl me pist mologique du contexte et le statut de interpr tation dans les sciences du langage Langages 129 p 97 111 RASTIER F 2001
7. Analysis of French Movie Reviews E Mugellini P Szczepaniak M Pettenati M Sokhn Eds Advances in Intelligent Web Mastering 3 Berlin Heidelberg Springer 86 p 19 28 GROUIN C BERTHELIN JB EL AYARI S HEITZ T HURAULT PLANTET M JARDINO M KHALIS Z amp LASTES M 2007 Pr sentation de DEFT 07 Actes de l atelier de cl ture du 3 me D fi Fouille de Textes 2007 Grenoble France p 1 8 HATZIVASSILOGLOU V amp WIEBE J 2000 Effects of adjective orientation and gradability on sentence subjectivity Proceedings of the International Conference on Computational Linguistics COLING HALL M EIBE F HOLMES G PFAHRINGER B REUTEMANN P amp WITTEN I H 2009 The WEKA Data Mining Software An Update SIGKDD Explorations Volume 11 Issue 1 HALL D JURAFSKY D amp MANNING C D 2008 Studying the history of ideas using topic models Proceedings of the conference on Empirical Methods in Natural Language Processing EMNLP p 363 371 HEIDEN S MAGUE J P amp PINCEMIN B 2010 TXM Une plateforme logicielle open source pour la textom trie conception et d veloppement I C Sergio Bolasco d ZADT 2010 vol 2 p 1021 1032 KIM S M VALITUTTI amp CALVO R A 2010 Evaluation of unsupervised emotion models to textual affect recognition Proceedings of the NAACL HLT 2010 Workshop on Computational Approaches to Analysis and Generation of Emotion in Text
8. CAAGET 10 Association for Computational Linguistics Stroudsburg PA USA p 62 70 LAFON P 1980 Sur la variabilit de la fr quence des formes dans un corpus Mots 1 p 127 165 LAFON P 1981 Analyse lexicom trique et recherche des cooccurrences Mots 3 p 95 148 22 Traitement Automatique des Langues Naturelles Caen 2015 LAVALLEY R CLAVEL C amp BELLOT P 2010 Extraction probabiliste de cha nes de mots relatives une opinion Traitement Automatique des Langues 51 p 101 130 LIN W H amp HAUPTMANN A 2006 Are these documents written from different perspectives a test of different perspectives based on statistical distribution divergence Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics ACL 44 Association for Computational Linguistics Stroudsburg PA USA p 1057 1064 LIU H LIEBERMAN H amp SELKER T 2003 A model of textual affect sensing using real world knowledge Proceedings of the 8th international conference on Intelligent user interfaces IUI 03 ACM New York NY USA p 125 132 MCCALLUM A amp NIGAM K 1998 A Comparison of Event Models for Naive Bayes Text Classification 4441 98 Workshop on Learning for Text Categorization p 41 48 MAYAFFRE D 2008 De l occurrence l isotopie Les cooccurrences en lexicom
9. de la textom trie et celles du TAL opposent les notions de sources et de ressources les documents analys s en textom trie sont vari es et souvent caract ris es avec pr cision la fin des ann es 1990 les uvres litt raires dominaient romans po sie th tre mais on tudiait aussi des enqu tes ouvertes des textes politiques syndicaux etc Au milieu des ann es 2000 les nouveaux genres de l Internet font leur apparition mails puis forums de discussion tweets On retrouve en partie ces types documentaires en TAL tr s rarement les textes litt raires mais les textes vocation technique ou encyclop dique telles que Wikip dia apparaissent privil gi s Surtout davantage que des sources pr cises i e des uvres ou des diteurs lectroniques des sites web etc ce sont des ressources g n rales qui sont d sign es Internet Web Google Google Books Facebook Les corpus en TAL sont avant tout des r servoirs d objets linguistiques infratextuels termes structures pr dicatives etc L tablissement philologique du corpus en TAL est souvent r duit quelques valeurs quantitatives nombre d occurrences de mots nombre de textes quand les textom tres pr sentent leur corpus de mani re plus qualitative description des auteurs des genres textuels etc Du point de vue des m thodes c est probablement au niveau des m thodes d analyse que la diff rence entre la textom trie et le TAL est la
10. dialectiques 64 crit res 65 68 Crit res dialectiques et dialogiques 90 crit res 66 70 TABLE 3 R sultat de la classification d bats parlementaires pour et contre la loi en examen La classification effectu e comme pr c demment avec SMO donne un taux d exactitude de l ensemble de nos crit res textom triques de 70 en validation crois e sur 10 sections et 66 sur le corpus de test fourni par DEFT 2007 les r sultats sont en de des lignes de comparaison mais pr sentent la particularit de n avoir t obtenus qu partir des formes et des n grammes de formes sans lemmatisation sans tiquetage morphosyntaxique sans normalisation de la casse ni recherche de patrons de cooccurrences On notera que l cart entre le taux d exactitude obtenu avec nos crit res et celui de la ligne de comparaison est moins important sur le corpus de test que par validation crois e ce qui t moigne d une certaine robustesse 6 Conclusion En couplant la s mantique textuelle la textom trie et des m thodes d apprentissage automatique nous avons tent de valider la pertinence applicative du concept de composante s mantique dans le cadre de diff rentes t ches de classification de textes subjectifs La m thodologie pr sent e permet d identifier un tr s petit nombre de crit res textuels de classification qui sont pertinents et surtout non triviaux pour de telles t ches et de les inter
11. e les th mes et les domaines actualis s de fa on valuer l autonomie des positions agonistiques par rapports aux th matiques des trois exp riences expos es ci apr s m dicaux et sanitaire en 5 1 id ologiques en 5 2 et politiques et l gislatifs en 5 3 43 laboration textom trique des crit res s mantiques de cat gorisation Pour les exp rimentations pr sent es dans le paragraphe 5 ont t utilis s plusieurs types de crit res i unit s isol es un choix de formes lemmes ou cat gories morphosyntaxiques ii collocations n grammes de taille vari e de 2 4 unit s et iii cooccurrences phrastiques multiniveaux combinant les l ments de diff rents niveaux de description linguistique formes lemmes ou cat gories morphosyntaxiques Tous les crit res ont t s lectionn s selon quatre principes leur caract re sp cifique un sous corpus leur r partition uniforme dans le sous corpus leur fr quence et leur pertinence linguistique L analyse du corpus et l identification des crit res ont t effectu es avec deux logiciels textom triques Lexico 3 Salem et al 2003 et TXM Heiden ef al 2010 qui impl mentent les algorithmes de sp cificit s Lafon 1980 et de cooccurrences Lafon 1981 Les deux premiers types de crit res sont choisis selon la proc dure suivante 1 calcul des sp cificit s des items isol s formes lemmes et cat gories morphosyntaxiques et de leurs
12. e automatique d informations conception et mise en uvre d une linguistique textuelle pour la caract risation des destinataires et des documents Th se de Doctorat Universit Paris IV Sorbonne BOURION E 2001 L aide l interpr tation des textes lectroniques Th se de doctorat Universit Nancy 2 BRUNET E 2000 Qui lemmatise dilemme attise Lexicometrica 2 1 19 CHARAUDEAU P 1992 Grammaire du sens et de l expression Hachette Education CHURCH K 2011 A pendulum swung too far Linguistic Issues in Language Technology 6 EENSOO E amp VALETTE M 2012 Sur l application de m thodes textom triques la construction de crit res de classification en analyse des sentiments dans G Antoniadis H Blanchon G S rasset Eds Actes de la conf rence conjointe JEP TALN RECITAL 2012 vol 2 TALN 4 8 juin 2012 Grenoble p 367 374 EENSOO E amp VALETTE M 2014a S mantique textuelle et TAL un exemple d application l analyse des Sentiments dans D Ablali S Badir D Ducard Eds Documents textes uvres Presses Universitaires de Rouen Collection Rivages linguistiques EENSOO E amp VALETTE M 2014b Approche textuelle pour le traitement automatique du discours valuatif dans A Jackiewicz d Etudes sur l valuation axiologique Langue fran aise d cembre 2014 184 p 107 122 GHORBEL H amp JACOT D 2011 Further Experiments in Sentiment
13. effectu e par les auteurs de l tude selon une lecture et interpr tation macroscopique des textes excluant l identification des l ments lexicaux discrets qui pourraient se confondre avec les crit res de classification automatique Par la suite les auteurs inventorient 42 crit res dialectiques et 11 crit res dialogiques partir de l analyse textom trique effectu e sur ce corpus Types de crit res Exactitude validation crois e Mots simples 6075 crit res 70 ligne de comparaison Crit res dialogiques 11 crit res 69 Crit res dialectiques 42 crit res 71 Crit res dialectiques et dialogiques 53 crit res 72 TABLE 2 R sultat de la classification agonistes hostiles et non hostiles aux Roms Les crit res ont t valu s au moyen de l algorithme Na ve Bayes Multinomial Mccallum amp Nigam 1998 Comme dans l exp rience pr c dente la ligne de comparaison demeure la classification sur formes simples qui permet d obtenir un taux d exactitude de 70 L l ment marquant ici est que le r sultat de la classification avec seulement 11 crit res dialogiques gale pratiquement la ligne de comparaison quand les crit res dialectiques la d passent tout comme la combinaison des deux cat gories On a la d monstration que des marqueurs nonciatifs en tr s petit nombre essentiellement quelques pronoms je nous vous des adjectifs possessifs et le tag NAM pour noms p
14. 14b 116 L agoniste est une construction textuelle et non psychologique ou cognitive reposant sur une combinaison d l ments linguistiques relevant des composantes s mantiques M thodologie g n rale La m thodologie de s mantique de corpus adopt e repose sur deux tapes l analyse textom trique de corpus pr alablement annot s d une part la validation par apprentissage supervis des crit res textom triques obtenus et qualifi s s mantiquement au moyen de la grille interpr tative adopt e d autre part L analyse textom trique effectu e en amont de toute classification automatique permet d identifier des crit res de classification linguistiquement explicables et suffisamment robustes pour servir comme descripteurs aux m thodes d apprentissage supervis L hypoth se est que les crit res de classification interpr tables sont plus robustes que les descripteurs trouv s par des m thodes d apprentissage souvent non signifiants d un point de vue textuel et incidents au corpus d apprentissage Ainsi lors de l tape de s lection de crit res le textom tre carte les crit res li s l chantillon du corpus et choisit les crit res textuels coh rents avec les composantes s mantiques ici la composante dialogique et la composante dialectique actualis es dans le corpus des fins exp rimentales nous avons cart de cette tude les crit res textuels relevant de la composante th matique i
15. AL en termes d algorithmiques mais aussi de pratiques valuatives L article est construit en quatre parties Le paragraphe 2 offre une lecture optimiste des relations qu entretiennent le TAL et la linguistique et de leur r union possible autour de l objet texte Le paragraphe 3 proc de l examen en miroir des outils et m thodes n cessaires l tablissement d une s mantique instrument e en mettant notamment en vis vis la textom trie et le TAL Le paragraphe 4 pr sente les concepts linguistiques et la m thodologie adopt s par les auteurs pour une t che de fouille de textes subjectifs Enfin le paragraphe 5 pr sente des fins illustratives trois exp rimentations adoss es la m thodologie d crite dans le paragraphe pr c dent 2 Le statut contemporain du texte dans le TAL Longtemps unis par des objets formels similaires sinon communs la proposition la phrase et un m me positionnement r f rentialiste la linguistique et le TAL ont vu leurs rapports se distendre depuis une quinzaine d ann es Les mod les th oriques de la linguistique formelle se sont en effet av r s peu adapt s la prise en compte de l volution rapide de la demande applicative laquelle le TAL a t confront Jusqu au d but des ann es 2000 la plupart des applications concernaient la th matique le lexique ou la terminologie Les t ches correspondantes n cessitant une automatisation r solution d anaphore d sambi
16. Une m thodologie de s mantique de corpus appliqu e des t ches de fouille d opinion et d analyse des sentiments tude sur l impact de marqueurs dialogiques et dialectiques dans l expression de la subjectivit Egle Eensoo Mathieu Valette 1 ERTIM INALCO 2 rue de Lille 75343 PARIS cedex 07 egle eensoo inalco fr mathieu valette inalco fr R sum Cet article entend dresser dans un premier temps un panorama critique des relations entre TAL et linguistique Puis il esquisse une discussion sur l apport possible d une s mantique de corpus dans un contexte applicatif en s appuyant sur plusieurs exp riences en fouille de textes subjectifs analyse de sentiments et fouille d opinions Ces exp riences se d marquent des approches traditionnelles fond es sur la recherche de marqueurs axiologiques explicites par l utilisation de crit res relevant des repr sentations des acteurs composante dialogique et des structures argumentatives et narratives des textes composante dialectique Nous souhaitons de cette fa on mettre en lumi re le b n fice d un dialogue m thodologique entre une th orie la s mantique textuelle des m thodes de linguistique de corpus orient es vers l analyse du sens la textom trie et les usages actuels du TAL en termes d algorithmiques apprentissage automatique mais aussi de m thodologie d valuation des r sultats Abstract A method of corpus semantics applied to opinion mi
17. atre composantes s mantiques dialogique dialectique th matique tactique La composante th matique est abord e par Eensoo amp Valette 2012 2014a 2014b mais nous n en ferons pas tat ici EGLE EENSOO MATHIEU VALETTE La composante dialogique concerne la repr sentation des acteurs le positionnement nonciatif et la distribution des r les actanciels Elle actualise essentiellement les pronoms personnels les pronoms possessifs et certaines entit s nomm es La composante dialectique est une cat gorie s mantique d di e la repr sentation du temps et du d roulement aspectuel des structures argumentatives et de certaines modalit s Le vocabulaire la caract risant est plus vari Il peut s agir de marqueurs de structuration adverbes tels que enfin donc cependant des verbes modaux falloir devoir etc et des indicateurs rh toriques emphases points d interrogation mots interrogatifs etc Cette grille interpr tative a permis Eensoo amp Valette 2012 2014a 2014b de mettre en vidence que l expression subjective pouvait tre caract ris e avec un nombre restreint de marqueurs relevant des diff rentes composantes s mantiques sans n cessairement recourir un vocabulaire subjectif Ils laborent le concept d agoniste comme une classe d acteurs st r otyp s correspondant une position ou la d fense d une valeur ou d un ensemble de valeurs Eensoo amp Valette 20
18. ectiques Les crit res dialogiques favorables la loi en examen sont le pronom personnel et possessifs de 1 personne je mon ma mes la mention de partis politiques et des verbes porteurs de la fonction expressive au sens jakobsonien C est pourquoi nous saluons le travail accompli par la commission ce dont je me r jouis etc Les crit res dialectiques sont notamment des verbes modaux il faut il doit et quelques l ments de structuration argumentative par exemple num ratifs Enfin ce projet r pond aux attentes de nos concitoyens Il serait galement souhaitable que etc Les crit res dialogiques d favorables sont les pronoms personnels et possessifs de 2 personne du pluriel vous votre vos ou encore l impersonnel on qui d notent des prises de paroles interlocutoires plus marqu es que pour les parlementaires favorables Parmi les marqueurs dialectiques d favorables on rel ve une forte saillance des marques de n gation non ne pas jamais rien Des strat gies rh toriques plus agressives sont galement observables via des adverbes d interrogation comment quand le point d interrogation et divers marqueurs argumentatifs d opposition Or Mais pourtant Types de crit res Exactitude Exactitude sur corpus de validation test DEFT 2007 crois e Mots simples 5 832 crit res 70 76 ligne de comparaison Crit res dialogiques 26 crit res 61 65 Crit res
19. ement dites sont jug es encombrantes et pour des raisons ditoriales sans doute mais peut tre par manque d outils intellectuels pour les appr hender on ne les montre gu re Hall ef al 2008 Du point de vue de ce qu est un corpus L inclination apprentiste qu a suivi le TAL ces derni res ann es a profond ment accentu les diff rences li es l utilisation et la fonction du corpus Les m thodes d apprentissage automatique dit supervis lesquelles sont encore privil gi es en TAL consistent cr er un mod le reproduisant la configuration optimale des donn es du corpus quelles qu elles soient Si dans une t che de classification de textes par exemple un corpus est compos de deux classes l entra nement du mod le consistera s lectionner les crit res par exemple les mots formes qui caract risent de fa on appropri e les textes d une classe par rapport l autre quand bien m me ces crit res ne seraient nullement interpr tables d un point de vue linguistique Le corpus en textom trie est con u comme un mode de contextualisation chelle multiple des ph nom nes observables de la cooccurrence forme minimale du contexte Mayaffre 2008 au corpus int gral qui objective l intertexte Rastier 1998 et qui mesure qu il s largit tend vers le contexte extralinguistique qu il simule Ainsi les sous corpus construits ont toujours une fonction diff rentielle On disti
20. gu sation lexicale identification des parties du discours relevaient d une s mantique de la phrase Rapidement les technologies de l information et la redocumentarisation du monde P dauque 2007 ont actualis le statut d objet scientifique du texte statut que la linguistique ne lui accorde encore que marginalement et au sein de certains courants seulement analyse du discours linguistique textuelle Des t ches telles que la classification de textes et la fouille de textes ont merg rendant n cessaire une approche macroscopique et grande chelle des productions langagi res plus en phase avec l unit texte qu avec l unit phrase Les mod les formels de la s mantique de la phrase avec leurs analyses profondes mais tr s locales apparaissent moins efficaces pour l analyse de grands corpus notamment en termes de rappel bien qu elles proposent encore des solutions pertinentes pour l extraction d information pr cise li e aux applications telles que l interface homme machine syst me de question r ponse ou r ponse des questions formul es en langue dite naturelle Zweigenbaum et al 2008 Par ailleurs les m thodes symboliques sont pl biscit es dans l industrie o beaucoup d applications n cessitent un haut taux de pr cision sans que le rappel soit d terminant Enfin la tendance actuelle est l hybridation dans le monde acad mique comme dans l industrie Le couplage de donn es pr
21. hitelaw et al 2005 Bloom amp Argamon 2010 iii les approches opportunistes qui exploitent des ph nom nes linguistiques de surface d tectables automatiquement comme des patrons morphosyntaxiques Turney 2002 Yi et al 2003 des parties du discours Hatzivassiloglou amp Wiebe 2000 etc iv les approches linguistiques th oriques qui revendiquent un cadre linguistique des fins heuristiques Vernier et al 2009a 2009b par exemple s inspirent des cat gories valuatives de Charaudeau 1992 Pour un tat de l art plus d taill on pourra lire Eensoo amp Valette 2014b C est dans un cadre m thodologique relevant de cette quatri me approche que nous situons la m ta tude pr sent e ici 4 2 Concepts et m thodologie de s mantiques de corpus Concepts Nous formulons en effet l hypoth se que les discours axiologiques se construisent par des interactions entre diff rentes composantes s mantiques qui ne rel vent pas du strict vocabulaire des valeurs Nous proposons ci dessous une synth se bas e sur trois exp riences montrant dans diff rentes t ches d analyse des sentiments et de fouille d opinion par m thodes d apprentissage que les descripteurs classifiants les plus efficaces peuvent ne relever que de deux classes de valeurs s mantiques appel es composantes s mantiques par Rastier 2001 la composante dialogique et la composante dialectique Rastier 2001 inventorie qu
22. min e par le primat r f rentiel et le choix historique de la phrase et son avatar l nonc comme unit d analyse vers une probl matique herm neutique et interpr tative dont l objet est la r ception et l interpr tation des textes consid r s comme des unit s de sens complexes d termin es par un projet de communication La proposition a notamment t formul e par Rastier 2001 et oppose in fine deux paradigmes la linguistique des langues et la linguistique des textes Ce moment de flottement paradigmatique est l occasion d esquisser des m thodes fond es non pas sur les pr suppos s th oriques du paradigme logico grammatical mais sur un paradigme herm neutique et interpr tatif peu explor encore en TAL Dans le paragraphe suivant nous proc dons donc l examen contrastif des pr supppos s pist mologiques et m thodologiques du TAL et plus particuli rement de la fouille de textes d une part et d une s mantique de corpus d di es l interpr tation des textes d autre part On pourra utilement consulter Micheli et al 2013 ce propos 22 Traitement Automatique des Langues Naturelles Caen 2015 3 La textom trie ou l interpr tation assist e par ordinateur 9 L analyse statistique des donn es textuelles ADT ou textom trie est un ensemble particulier de pratiques relevant du champ g n ral de la linguistique de corpus Elle comprend des traitements statistiques
23. n grammes fonction Segments R p t s de Lexico 3 pour chaque sous corpus 2 analyse des contextes d apparition des items sp cifiques au moyen de concordances textuelles afin de s assurer de leur pertinence textuelle et de l unicit de leur fonction les crit res ayant une seule fonction et signification ont t privil gi s 3 v rification de la r partition uniforme des items dans le sous corpus fonctionnalit Carte de Sections du Lexico 3 La s lection des cooccurrences est faite comme suit 1 calcul des cooccurrences fonction Cooccurrences de TXM des items sp cifiques fr quents et uniform ment repartis sur la totalit du corpus 22 Traitement Automatique des Langues Naturelles Caen 2015 2 analyse des contextes d apparition de ces cooccurrences 3 s lection des cooccurrences sp cifiques un sous corpus Dans les deux cas les crit res de classification pour chaque texte sont des fr quences absolues car d une part il a t d montr que les fr quences relatives sont moins performantes que les valeurs bool ennes Pang amp Vaithyanathan 2002 d autre part nous avons constat que les fr quences absolues sont plus performantes que les fr quences relatives 44 Classification par apprentissage supervis partir des crit res s mantiques labor s La deuxi me tape consiste utiliser des algorithmes d apprentissage supervis pour classer les te
24. nce joue un r le d terminant dans l interpr tation des faits s mantiques C est le principe souvent r p t de d termination du global sur le local qui relativise sans les exclure les unit s linguistiques inf rieures comme la phrase Du c t de la textom trie la constitution d un corpus de r f rence et d un corpus de travail en est une mise en uvre Dans la langue il n y a que des diff rence H rit e de la tradition saussurienne Saussure 2002 le diff rentialisme fonde la s mantique textuelle et est sans doute un aspect remarquable de la textom trie dans le contexte g n ral de la linguistique de corpus Le succ s jamais d menti des mesures de sp cificit s tests y ou d cart r duit mod le hyperg om trique destin es contraster une partie d un corpus avec une autre de mani re en faire merger les singularit s en atteste 3 3 Synth se Nous prenons acte i de l hypoth tique volution du TAL vers une probl matique herm neutique int ress e par l interpr tation des textes et non plus seulement par l extraction des donn es discr tes qu ils rec lent ii de l inad quation des mod les linguistiques dominants pr occup s par des ph nom nes relevant de la langue et non du texte iii des hiatus pist mologiques et de la compl mentarit m thodologiques observ s entre le TAL et la textom trie iv des affinit s entre celle ci et la s mantique textuelle N
25. nguera principalement le corpus de r f rence constituant le contexte global de l analyse ayant le statut de r f rentiel repr sentatif et par rapport auquel se calcule la valeur de param tres pond rations et se construit l interpr tation des r sultats et le corpus de travail ensemble des textes pour lesquels on veut obtenir une caract risation Rastier amp Pincemin 1999 84 Cette approche du corpus est indubitablement plus sophistiqu e en termes d analyse et d interpr tation des donn es mais elle carte toute instance de validation En bref les concepts de corpus en TAL et en textom trie sont fondamentalement distincts La textom trie comme la linguistique de corpus demeure un ensemble de techniques et d heuristiques qui n cessite un guidage th orique pour assurer sa pleine mesure L analyse de discours Charaudeau 1992 en est un exemple Nous porterons notre attention pour notre part sur la s mantique textuelle de Rastier 2001 2011 dont les rapports avec le TAL sont d j anciens et ont donn lieu en particulier la fin des ann es 90 et au d but des ann es 2000 plusieurs instanciations 3 2 La textom trie et la s mantique des textes Les affinit s de la textom trie et de la s mantique des textes ont t identifi es pr cocement Rastier d 1995 La plupart ont t explicit es par Mayaffre 2008 et de fa on syst matique par Pincemin 2010 laquelle nous
26. ning and sentiment analysis the impact of dialogical and dialectical features on the expression of subjectivity This paper first aims to provide a critical overview of the relationship between NLP and linguistics and then to sketch out a discussion on the possible contribution of corpus semantics in an application based context based on several subjective text mining studies sentiment analysis and opinion mining These studies break away from traditional approaches founded on the detection of axiological markers Instead they use explicit criteria related to the representation of actors dialogical component and argumentative or narrative structures dialectical component We hope to highlight the benefit of a methodological dialogue between theory text semantics meaning oriented methods of corpus linguistics i e textometrics and NLP current practices in terms of algorithmic machine learning and assessment methodology Mots cl s Textom trie S mantique de corpus Fouille d opinion Analyse des sentiments Keywords Textometry corpus semantics opinion mining sentiment analysis 1 Introduction Avec l essor dans le TAL des m thodes par apprentissage automatique et la relative d saffection pour les m thodes symboliques base de r gles linguistiques formelles dans le monde acad mique les linguistes sont aujourd hui contraints de repenser leur r le dans un contexte o dominent les m thodes math matiques Si l anno
27. oduites partir de m thodes base de r gles et de technique apprentistes permet d am liorer les performances de syst mes de mani re significative Villena Rom n ef al 2011 L essor dans le courant des ann es 2000 des applications en fouille de textes subjectifs fouille d opinion analyse des sentiments d tection des motions etc implique galement une volution des t ches alors que le TAL privil giait les unit s r f rentielles et souvent lexicales entit s nomm es concepts termes th mes il est aujourd hui confront des valeurs Certes les m thodes d extraction et de classification n ont gu re volu dans beaucoup d applications les adjectifs sont aux textes subjectifs ce que les substantifs sont aux concepts Strapparava amp Valitutti 2004 et on a tendance appliquer aux premi res les m thodes qui ont fait leur preuve sur les secondes D passer le lexicalisme du TAL est un des enjeux de la linguistique car l inventaire des objets de la linguistique susceptibles d tre appr hend s par le TAL est en effet loin d tre clos Il est par exemple probable que les contraintes de genres de discours que la structure actancielle des textes que le sch ma de la communication soient utiles l interpr tation des motions sentiments ou des opinions En somme tout se passe comme si les questions qui se posent au TAL voluaient d une probl matique logico formelle do
28. orique est 1 une histoire qui fini mal ii un t moignage exprimant des doutes des interrogations ou sollicitant de l aide Un t moignage euphorique est i une histoire triste qui finit bien ii un t moignage modulant la gravit d une situation en en soulignant les points positifs 111 un conseil Pour les besoins de l application d analyse de sentiments ils i identifient et inventorient 70 crit res s mantiques partir de l analyse textom trique puis les caract risent en fonction des composantes s mantiques Il en r sulte la construction de deux agonistes D un point de vue dialogique l agoniste dysphorique appara t gocentr surrepr sentation de la 1 personne du singulier et enclos sur son univers intime il exprime un univers impressif et non factuel Je ne sais pas comment cela va voluer Du point de vu dialectique on constate une excentration de l action On me dit que les causes de cette maladie ne sont pas encore pr cises L agoniste euphorique est labor sur un noyau s mique inverse Du point de vue de la composante dialogique c est un acteur nonciateur altruiste qui s adresse un tiers surrepr sentation de la 2 personne du singulier Alors tu vois il faut avoir espoir L agoniste euphorique construit des univers alternatifs en faisant part de son exp rience des fins d dification Je tenais faire part de mon exp rience et en intertext
29. ous formulons le projet g n ral de jeter un pont entre la s mantique textuelle et le TAL par le truchement de la textom trie afin de mutualiser les avantages d une association entre celles ci et les standards du TAL c est dire l valuation partir de m thode par apprentissage supervis Nous illustrerons notre propos partir d une t che de fouille de textes subjectifs 4 S mantique de corpus pour la fouille de textes subjectifs 4 1 Principales m thodes du champ applicatif Nous distinguerons quatre types d approche en fouille de textes subjectifs i les approches apprentistes qui ne sont pas sp cifiques la fouille d opinion ou l analyse des sentiments mais sont utilis es dans diff rentes t ches recherche d information traduction automatique tiquetage morphosyntaxique classification th matique etc Appliqu es la fouille d opinion elles ont tendance privil gier l accumulation massive de descripteurs et ne n cessitent pas une connaissance linguistique approfondie des textes par exemple Pang ef al 2002 Lin amp Hauptmann 2006 ii les approches cognitivistes qui font appel des ressources lexicales supposant l existence de cat gories cognitives pr tablies et ind pendantes des langues par exemple des ressources d riv es de Wordnet Ghorbel amp Jacot 2011 Lavalley et al 2010 Kim ef al 2010 Liu et al 2003 ou des ressources bas es sur la th orie Appraisal W
30. plus visible A la diff rence des talistes les textom tres ne sont pas des informaticiens mais Les observations faites dans ce paragraphe s appuient en partie sur une l analyse contrastive des actes de deux conf rences communautaires francophones embl matiques les Conf rences en Traitement Automatique de la Langue Naturelle TALN et les Journ es internationales d Analyses statistiques des Donn es Textuelles JADT L tude men e sur un chantillon de 8 volumes d actes de TALN et 8 volumes d actes de JADT de 1999 2014 donnera lieu une publication ult rieure Les actes des Journ es Internationales d Analyses statistiques des donn es textuelles JADT donneront au lecteur un aper u des pratiques textom triques http lexicometrica univ paris3 fr jadt EGLE EENSOO MATHIEU VALETTE en r gle g n rale des utilisateurs finaux de logiciels dot s d interface graphique Hyperbase Lexico 3 TXM Iramuteq TextObserver etc lesquels s adossent de plus en plus souvent aux outils que les talistes d veloppent ou utilisent pour leurs propres t ches biblioth ques de traitements linguistiques par exemple NLTK Stanford NLP langages de programmation par exemple Perl ou Python pour la manipulation de textes R ou Matlab pour le calcul etc En bref les textom tres sont d pendants d outils qu ils con oivent et parfois qu ils impl mentent On a l une diff rence de culture remarquable l
31. pr ter suivant une grille de lecture linguistiquement contr l e Sans viser le d passement des diff rentes m thodes voqu es dans l tat de l art paragraphe 4 1 la m ta tude effectu e apporte la d monstration que les crit res relevant des seules composantes dialectique construction narrative et argumentative et dialogique positionnements nonciatifs acteurs permettent d obtenir des r sultats de classifications approchant exp rience 5 3 voisinant exp rience 5 2 ou surpassant exp rience 5 1 une ligne de comparaison simulant les techniques apprentistes standard Mieux encore l tude souligne que ces crit res textuels classifiants identifi s selon une m thode d extraction ascendante la textom trie ne ressortissent nullement aux cat gories traditionnellement propos es souvent au moyen de m thodes descendantes par application de mod les cognitifs ou issus de la psychologie notamment EGLE EENSOO MATHIEU VALETTE R f rences BEUST P 1998 Contribution a un mod le interactionniste du sens Amorce d une comp tence interpr tative pour les machines Th se de doctorat Caen BLOOM K amp ARGAMON S 2010 Unsupervised extraction of appraisal expressions Proceedings of the 23rd Canadian conference on Advances in Artificial Intelligence Al 10 Atefeh Farzindar and Vlado Ke elj Eds Springer Verlag Berlin Heidelberg p 290 294 BOMMIER PINCEMIN B 1999 Diffusion cibl
32. ropres obtenue au moyen d un tiquetage Treetagger peuvent suffire obtenir une classification certes perfectible mais comparable celle effectuer sur les formes simples C est l indice selon nous que la seule posture nonciative observable dans la s lection des marques de personnes suffit dans certaines t ches de classification identifier la position id ologique des nonciateurs l Voir note 8 22 Traitement Automatique des Langues Naturelles Caen 2015 5 3 Agonistes favorable pour et d favorable contre dans des d bats parlementaires La troisi me exp rience r alis e pour les besoins de cet article s appuie sur le corpus de d bats parlementaires mis la disposition de la campagne DEFT 2007 Grouin et al 2007 Ce corpus regroupe 28 832 interventions de d put s l Assembl e Nationale extraites des d bats Le corpus d apprentissage totalise 17 299 interventions Il est divis en deux classes 6 899 interventions favorables la loi en cours d examen 10 400 interventions d favorables la loi en cours d examen Le corpus de test quant lui est compos de 11 533 interventions au total 4 961 intervention favorables et 6 572 d favorables La r f rence est tablie en consid rant le vote effectif favorable ou d favorable la loi en examen des intervenants L application de la m thodologie expos e ici a permis d identifier 26 crit res dialogiques et 64 crit res dial
33. s es par la textom trie Les tudes textom triques sont valid es par homologation c est dire par l assentiment d une communaut qui dans le meilleur des cas est distante par exemple communaut de la critique litt raire pour l analyse textom trique de textes litt raires mais parfois n est peut tre qu un avatar du jugement d acceptabilit contre lequel s est pourtant dress e la linguistique de corpus Du point de vue des applications Comme on l a vu les applications ne sont que marginalement un enjeu en textom trie m me si certains travaux sont susceptibles d applications constitution de ressources par exemple alors que la demande socio conomique d termine dans une large mesure les t ches auxquelles le TAL s attelle Cette demande implique le renouvellement des probl matiques de recherche il y a 15 ans l extraction d informations lexicales ou syntagmatiques destin es alimenter des bases de connaissances m moires de traduction terminologies de m tier syst me de question r ponse etc structurait le champ Puis avec l essor des r seaux sociaux sur le web des applications en fouille d opinion analyse des sentiments analyse du buzz etc se sont d velopp es La traduction automatique historiquement li e au TAL symbolique conna t galement un regain d int r t motiv par l efficacit des m thodes statistiques Du point de vue des documents Les pratiques
34. t de la classification agonistes dysphoriques et euphoriques Le tableau 1 donne voir quelques r sultats de la classification La ligne de comparaison baseline est la classification sur formes simples sans changement de casse ni de lemmatisation qui permet d obtenir un taux d exactitude c est dire le pourcentage de textes bien class s de 68 Le cumul des crit res dialectiques et dialogiques permet de s lever de 9 points au dessus de la ligne de comparaison 77 Ce r sultat est int ressant car ce sont ces composantes qui se d marquent le plus nettement des pratiques en fouille de textes lesquelles en g n ral privil gient des descripteurs th matiques ou thymiques 5 2 Agonistes hostiles et non hostiles aux Roms dans un corpus de commentaires d articles Eensoo amp Valette 2014b tudient un corpus constitu de 644 commentaires d articles de presse de 2013 ayant pour objet la communaut Rom en France Les commentaires sont crits par les lecteurs internautes Ils proviennent de quatre quotidiens Le Monde Lib ration Le Figaro et Le Parisien Ces commentaires ont t class s en deux supercat gories compos es de 445 commentaires hostiles pour la premi re supercat gories et 199 commentaires non hostiles pour la seconde Les supercat gories ont elles m mes t divis es en cinq cat gories plus fines que nous n aborderons pas dans cet article La cat gorisation manuelle des documents a t
35. tation requise pour la constitution des donn es d apprentissage n cessite un savoir faire et une connaissance experte parfois adoss e des pr suppos s th oriques les sp cialistes de la fouille de textes par exemple montrent peu d int r t pour les th ories linguistiques vraisemblablement raison tant se creuse le foss entre les pr occupations minutieuses mais ad hoc de certains linguistes et celles des talistes guid es par un principe de r alit la masse de donn es textuelles accessibles Cet article propose un panorama critique des relations entre TAL et linguistique et esquisse au moyen d exemples comment s issus d applications en fouille de textes analyse de sentiments et fouille d opinions une discussion sur l apport possible d une r flexion linguistique dans ce contexte applicatif Nous souhaitons en particulier mettre en Tanguy 2012 relate plusieurs tudes Church 2011 Hall et al 2008 o a t observ que la proportion d articles de l Association for Computational Linguistics int grant une section statistique a progress de 30 90 du d but des ann es 90 la fin des ann es 2000 EGLE EENSOO MATHIEU VALETTE lumi re le b n fice potentiel d un dialogue m thodologique entre des m thodes de linguistique de corpus orient es vers l analyse du sens la textom trie l exploitation de concepts de la s mantique textuelle Rastier 2001 2011 et les usages actuels du T
36. ualisant son t moignage Je te file une adresse http www Le caract re le plus remarquable des textes euphoriques r side au niveau de la composante dialectique la diff rence de l agoniste dysphorique l agoniste euphorique labore un texte s quenc descriptif ou argumentatif J avais d j quelques ruptions qui ont d but apr s avoir pris la d cision de d m nager Par contre j tais soign e l hom opathie Parmi les crit res construits 30 rel vent de la composante dialectique et 16 de la composante dialogique L valuation de la capacit classificatrice des crit res qualifi s a t r alis e au moyen d une classification de textes effectu e en utilisant un algorithme d apprentissage automatique de la famille des Machines vecteurs de support SMO Platt 1998 Thttp www cs waikato ac nz ml weka 8 Pour un expos complet des r sultats nous invitons le lecteur se reporter l tude originale correspondante http www same story com 1 D sormais tous les l ments en italique sont des exemples de crit res de cat gorisation EGLE EENSOO MATHIEU VALETTE Types de crit res Exactitude validation crois e Mots simples 10 700 crit res 68 ligne de comparaison Crit res dialogiques 16 crit res 64 Crit res dialectiques 30 crit res 73 Crit res dialectiques et dialogiques 46 crit res 77 TABLE 1 R sulta
37. xtes En utilisant la plateforme WEKA Hall et al 2009 plusieurs algorithmes de familles diff rentes ont t test s les arbres de d cision J48 Naive Bayes Naive bayes multinomial et les Machines Vecteurs de Support SMO L objectif est d observer les diff rences et similitudes au niveau des performances en changeant la nature et la quantit des crit res Dans le pr sent article ne sont mentionnerons que les r sultats des algorithmes les plus efficaces pour les t ches choisies A l exception de la troisi me exp rience 5 3 pour laquelle nous disposons d un corpus de test Grouin et al 2007 les valuations sont op r es suivant la m thode de la validation crois e sur 10 sections 5 Trois exp riences de s mantique de corpus 5 1 Agonistes dysphoriques et euphoriques dans les forums de discussions m dicales et sanitaires Eensoo amp Valette 2012 2014a disposent d un corpus de 300 ego documents t moignages r cits d histoires v cues post s par les internautes sur diff rents forums de discussion dominante m dico sanitaire aufeminin com doctissimo fr etc et cat goris en deux classes les textes dysphoriques et les textes euphoriques La r f rence de la cat gorisation est tablie par l agr gateur des documents Samestory Nous ne disposons pas de guide d annotation mais en analysant un chantillon du corpus nous avons pu d duire la strat gie d annotation Un t moignage dysph

Download Pdf Manuals

image

Related Search

Article articles article furniture articles of incorporation articles of organization articles of confederation article 15 article 92 ucmj article summarizer article 5 article 92 article 2 of the constitution article 134 ucmj article 134 articles of organization llc articles of association article 19 articles in english articles of organization nc articles worksheet articles of association meaning articles of incorporation ny articles of organization florida

Related Contents

Craftsman 26-in. Service Parts  HP LaserJet 3020, 3030 user guide - DEWW  Philips HB554 User's Manual  CITC FX Water Pump 100068 User's Manual  Epson R260 Start Here Card  Instruction Manual Manualde usuario  Guía del usuario - FreeStyle  diaporama 2ème campagne du Haut-Rhin  Untitled  Philips FB541/23/6U  

Copyright © All rights reserved.
Failed to retrieve file