Home

article

image

Contents

1. Tableau 2 Corr lation entre les valeurs pr dites par les m thodes et les normes 5 2 3 Performances pour les cat gories V80 V50 et GI Le tableau 3 pr sente le pourcentage de mots bien class s pour les diff rentes normes cat gorielles Les performances pour V80 et V50 sont tr s lev es mais il faut prendre en compte le fait que ces deux normes ne contiennent qu un nombre r duit de mots Pour l adaptation fran aise du General Inquirer les performances sont moins bonnes Elles d passent toutefois largement la performance de SO ASL rapport e par Turney et Littman 2003 pour le General Inquirer en version anglaise 65 valeur tr s proche de celle que nous avons obtenue pour l adaptation fran aise 64 On observe aussi que DIC ASL fait presque aussi bien que les m thodes bas es sur une proc dure d apprentissage automatique Test SO ASL DIC ASL ASGO 5 ASG1 0 ASGnorme ASG tout V80 N 128 73 88 83 87 88 91 V50 N 280 63 82 78 82 84 82 GI N 1992 64 71 70 72 73 72 Tableau 3 Pourcentage de classification correcte Dans le tableau 3 tous les mots mentionn s dans les normes sont pris en compte m me ceux qui sont pr sents dans la norme Nev qui a servi l apprentissage supervis Il s ensuit qu il est probl matique de se baser sur ces donn es pour valuer les capacit s de g n ralisation de la m thode ASG des mots qui ne fo
2. 11 exasp rer 24 26 effrayant 24 11 l gant 26 enchanter 12 mis rable 1 8 27 plainte 12 riant 27 exotique 13 trangler 28 crever 1 7 13 splendide 28 raffoler 14 affreux 1 9 29 meurtre 14 14 mythologique 29 modestement 15 assassin 30 injurier 1 9 15 composer 30 fra cheur Tableau 6 Mots germes s lectionn s par la m thode ASG 6 Conclusion Pour conclure nous avons transpos au fran ais deux m thodes de construction automatique de lexiques porteurs de valences bien tablies dans le monde anglo saxon celles de Turney et Littman 2003 et de Kamps et Marx 2002 Cette derni re montrant des r sultats encourageants nous l avons tendue en augmentant le nombre de paires de mots germes Cette modification nous a permis d obtenir les meilleurs r sultats avec plus de 80 de termes bien class s Ce pourcentage doit cependant tre relativis dans la mesure o il est calcul sur un nombre restreint de mots Nous avons galement d velopp une m thode qui s lectionne les mots germes par apprentissage supervis Avec une efficacit d environ 75 elle surpasse nettement la m thode SO ASL dont elle est d riv e Il est h las impossible de d terminer si les valeurs obtenues refl tent un niveau de performance proche de celui atteint par des annotateurs parce qu on ne dispose pas d information propos du degr d accord entre ceux ci L analy
3. Miller 1990 Un des deux objectifs principaux de notre tude est de d terminer dans quelle mesure ces m thodes sont applicables au fran ais Une autre sp cificit des recherches men es dans ce champ est que la quasi totalit des m thodes propos es utilise un petit nombre de mots comme bon mauvais gentil afin de servir de germes seed pour d terminer automatiquement la valence d autres mots voir par exemple Hu Liu 2004 Kamps Marx 2002 Turney Littman 2003 La question de l optimalit de ces mots germes a bien peu retenu l attention le plus souvent les chercheurs reprenant ceux propos s dans des travaux ant rieurs Esuli Sebastiani 2006 Harb et al 2008 Notre second objectif est de proposer une m thode permettant d identifier automatiquement ces germes au moyen d une technique d apprentissage supervis e Apr s une br ve pr sentation des travaux ant rieurs la section 3 d crit les diff rentes m thodes compar es dans le cadre de cette tude Une s rie d exp riences visant valuer leur efficacit sont pr sent es dans la section 4 La section 5 rapporte les principaux r sultats dont les implications et les d veloppements possibles sont discut s dans la conclusion 2 Travaux ant rieurs Parmi les m thodes automatiques ou semi automatiques propos es pour construire des lexiques porteurs de valences on peut distinguer deux types d approches celles bas es sur des ressources linguistiques comme
4. P 2008 D tection d opinion Comment d terminer les adjectifs d opinion d un domaine donn Document num rique 11 37 61 HATZIVASSILOGLOU V MCKEOWN K R 1997 Predicting the semantic orientation of adjectives Proceedings of EACL 1997 174 181 HEISE D R 1965 Semantic differential profiles for 1000 most frequent english words Psychological Monographs 79 1 31 HOGENRAAD R BESTGEN Y NYSTEN J L 1995 Terrorist Rhetoric Texture and Architecture In Nissan et Schmidt Eds From Information to Knowledge A8 59 Intellect Hu M LIU B 2004 Mining Opinion Features in Customer Reviews Proceedings of AAAI 755 760 KAMPS J MARX M 2002 Words with Attitude Proceedings of the Ist Interational Conference on Global WordNet 332 341 KAMPS J MARX M MOKKEN R J DE RIKE M 2004 Using WordNet To Measure Semantic Orientations Of Adjectives Proceedings of LREC 2004 1115 1118 NADJA VINCZE YVES BESTGEN KIM S M HOVY E 2004 Determining the sentiment of opinions Proceedings of COLING 1367 1373 MANQUIN J L FRAN OIS J EUFE R FESENMEIER L OZOUF C SENECHAL M 2004 Le dictionnaire lectronique des synonymes du CRISCO un mode d emploi trois niveaux Les Cahiers du CRISCO 17 1 64 MILLER G A 1990 WordNet An on line lexical database International Journal of Lexicography 3 235 312 MOUTON C CHALENDAR G 2010 JAWS Just AnotherWordNet Subset Actes
5. 2002 La plupart des impl mentations de ces classifieurs requi rent des lexiques porteurs de valence c est dire des lexiques o chaque entr e est associ e une polarit ou un degr de polarit Une s rie d approches attribuent une valence globale aux textes selon des statistiques sur la pr sence de mots subjectifs Bestgen 2006 Turney 2002 Les approches dites symboliques int grent la prise en compte de ph nom nes syntaxiques qui viennent modifier l orientation s mantique de mots ou de groupes de mots Harb et al 2008 Vernier et al 2009 Wilson et al 2005 Enfin quelques tentatives d apprentissages supervis s ont galement pris en compte des mots dont la valence est connue comme caract ristiques de leurs vecteurs Chesley et al 2006 Ces lexiques constituent donc des ressources s mantiques capitales au d veloppement de classifieurs efficaces Dans un premier temps ces lexiques ont t construits manuellement par des juges Nasukawa Yi 2003 Wiebe et al 2005 mais le travail tant lent et couteux des proc dures automatiques ou semi automatiques ont vu le jour et constituent aujourd hui un sous domaine de recherche important Comme le souligne la pr sentation des travaux ant rieurs section 2 une sp cificit des recherches men es dans ce champ est qu elles portent presque exclusivement sur l anglais langue pour laquelle de nombreuses ressources linguistiques ont t d velopp es comme WordNet
6. Nev La premi re ligne du tableau 2 pr sente les corr lations entre les valeurs donn es dans la norme Nev qui a servi pour l apprentissage et les valeurs pr dites par les diff rentes m thodes Comme on pouvait s y attendre SO ASL la seule des m thodes qui ne s appuie pas sur la norme obtient le moins bon r sultat Tout aussi attendus sont les b n fices apport s par l apprentissage supervis ASG versus DIC ASL et par la possibilit de choisir les germes parmi un nombre plus important de candidats On note n anmoins que la diff rence principale se situe entre ASGO 5 et ASG1 0 5 2 2 Performances pour Vscore L analyse de Vscore deuxi me ligne du tableau 2 donne comme attendu des valeurs inf rieures celles obtenues pour la norme ayant servi l apprentissage mais la diff rence est assez faible On note tout particuli rement que les m thodes ASG sont nettement plus performantes que SO ASL ce qui confirme l hypoth se que les mots germes employ s par cette derni re sont loin d tre optimaux Toutes les analyses ont galement t effectu es en employant la SVR SVM appliqu la r gression mais ils ne sont pas pr sent s car les deux techniques ont produit des r sultats tr s similaires NADJA VINCZE YVES BESTGEN Normes N SO ASL DIC ASL ASGO 5 ASG1 0 ASGnorme ASG tout Nev 2685 0 38 0 60 0 60 0 65 0 66 0 67 Vscore 631 0 32 0 60 0 56 0 61 0 61 0 60
7. thodes propos es ci dessus n cessitent des ressources linguistiques sp cifiques comme un dictionnaire de synonymes ou une collection de textes pour extraire l espace s mantique Les ressources que nous avons employ es sont d crites dans la pr sente section 4 1 1 Dictionnaire de synonymes L adaptation de la m thode de Kamps et Marx 2002 au fran ais n cessite une ressource plus ou moins quivalente au WordNet anglais En raison de la trop faible couverture de WOLF WordNet Libre du Fran ais et du WordNet fran ais d velopp dans le cadre du projet EuroWordNet nous avons employ le dictionnaire de synonymes d velopp par le laboratoire CRISCO de l universit de Caen Manquin et al 2004 Celui ci a t constitu partir de sept dictionnaires fran ais et comprend plus de 49 000 entr es et 396 000 relations synonymiques De mani re similaire Kamps et Marx 2002 nous avons r cup r r cursivement tous les mots li s la paire d adjectifs bon et mauvais avec des restrictions sur la cat gorie grammaticale pour viter de g n rer trop de bruit Une petite adaptation a d tre faite pour rendre la liste des synonymes r cup r s sym trique Kamps et al 2004 1115 4 1 2 Norme de valence Nev La norme de valence employ e pour les m thodes DIC ASL et ASG est compos e de 3252 mots valu s sur une chelle 7 points allant de tr s d sagr able 1 tr s agr able 7 par un minimum de 30 juges Ho
8. types d valuation Les mots ont t s lectionn s sur la base de deux normes d associations verbales de mani re constituer un ensemble de mots suffisamment diversifi pour tre repr sentatif de la langue fran aise Syssau Font 2005 De la premi re valuation Syssau et Font ont d riv deux normes cat gorielles les mots indubitablement positifs ou n gatifs qui ont t class s dans la cat gorie correspondante par au moins 80 des juges V80 et les mots majoritairement positifs ou n gatifs qui ont t class s ainsi par au moins 50 des juges V50 La seconde valuation a produit une norme valenc e Vscore avec pour chaque entr e un score compris entre 5 et 5 42 2 General Inquirer version francis e GI Le General Inquirer est un projet n en 1961 qui visait d velopper un programme d analyse objective de contenu Stone et al 1966 bas sur un dictionnaire compos de 182 cat gories s mantiques Les deux derni res cat gories ajout es sont les cat gories positive et n gative qui r pertorient respectivement 1915 et 2291 mots Ces listes n tant pas notre connaissance disponibles en fran ais nous les avons traduites automatiquement l aide du traducteur en ligne Systran Apr s avoir t lemmatis es avec TreeTagger ces deux listes ont t contr l es par deux juges Apr s suppression des doublons et des mots pr sents dans les deux listes probl mes pr sents dans la version
9. 03 et de Bestgen 2002 dans laquelle les mots germes originaux s lectionn s arbitrairement sont remplac s par des germes optimaux obtenus par une proc dure d apprentissage supervis e bas e sur la r gression Pour ce faire nous employons comme mat riel d apprentissage une norme lexicale pour la dimension valuative obtenue en demandant des juges d valuer un grand nombre de mots sur cette dimension la suite de Heise 1965 une s rie de normes de ce type ont t d velopp es principalement en psycholinguistique Syssau Font 2005 La m thode propos e est compos e des quatre tapes suivantes 1 S lectionner comme germes potentiels les mots qui sont les plus extr mes sur la dimension positif n gatif selon une norme valuative comme celle employ e dans DIC ASL 2 Sur la base d un espace s mantique obtenu par l ASL d une collection de textes calculer le cosinus entre chacun de ces germes potentiels et tous les mots qui se trouvent dans la norme 3 Utiliser une proc dure de r gression afin de construire un mod le pr dictif bas sur les germes les plus efficaces pour pr dire la valence 4 Employer le mod le construit l tape pr c dente pour estimer la valence de termes pr sents dans l espace s mantique mais non dans la norme initiale Le crit re de s lection des germes potentiels propos la premi re tape devrait permettre l identification de mots germes similaires ceux originellement c
10. G s lectionne les germes globalement un seul et m me ensemble de germes est employ pour pr dire la valence de tous les mots Il reste cependant montrer que les germes choisis par ASG sont bien pertinents Une premi re mani re de r pondre cette question consiste s int resser au mod le pr dictif construit par la r gression multiple Faute de place il n est pas possible de reprendre ici tous les mots germes s lectionn s par les diff rentes versions de ASG La liste suivante pr sente l ensemble des germes s lectionn s par ASG1 0 suivant l ordre dans lequel ils ont t introduits dans le mod le chaque fois suivi par la valence selon la norme Nev pouvantable 1 8 d licieux 6 2 irriter 1 9 admiration 6 1 affectueux 6 2 atroce 1 5 heureux 6 5 monstrueux 1 4 magnifique 6 5 embrasser 6 4 lugubre 1 8 r ver 6 3 libre 6 3 savourer 6 0 ennui 1 7 int ressant 6 0 indiff rence 2 0 espoir 6 1 pire 1 4 fid lement 6 1 gaiet 6 4 rat 1 9 insulte 1 6 maladie 1 5 laideur 1 6 enlacer 6 4 enfant 6 3 crasse 1 8 voyage 6 2 malchance 1 6 admirable 6 1 L analyse qui pr c de repose sur le mod le pr dictif construit par la r gression multiple Celui ci correspond la meilleure combinaison possible de mots germes pour pr dire la norme et non aux mots germes qui apportent individuellement la contribution la plus importante la pr diction de cel
11. McKeown 1997 ont propos un algorithme capable de d terminer l orientation s mantique d adjectifs partir de l analyse de leurs cooccurrences avec des conjonctions Turney et Littman 2003 Turney 2002 et Bestgen 2002 2008 ont propos des m thodes plus g n rales puisqu elles permettent d estimer la valence de n importe quel terme pr sent dans un corpus Ils utilisent l analyse s mantique latente ASL Latent Semantic Analysis Deerwester et al 1990 pour construire un espace s mantique partir d informations statistiques sur les cooccurrences de termes dans des textes Turney et Littman l emploient pour estimer la distance s mantique entre des mots et 14 mots germes 7 positifs good nice excellent positive fortunate correct superior et 7 n gatifs bad nasty poor negative unfortunate wrong inferior Un mot est d autant plus positif qu il est plus proche des germes positifs et plus loign des germes n gatifs Pour sa part Bestgen 2002 a recours l ASL pour identifier les mots fr quemment associ s aux mots dont il veut d terminer la valence affective Il attribue chaque mot la valence moyenne de ses plus proches voisins dont la valence est connue Pour cela il s appuie sur un dictionnaire de 3000 mots dont la valence a t valu e par des juges On notera que les similarit s peuvent tre calcul es sans passer par l analyse s mantique latente mais que dans ce cas des corpus de tr s grande t
12. TALN 2011 Montpellier 27 juin ler juillet 2011 Identification de mots germes pour la construction d un lexique de valence au moyen d une proc dure supervis e Nadja Vincze Yves Bestgen 1 UCLouvain Cental Place Blaise Pascal 1 B 1348 Louvain la Neuve Belgique 2 UCLouvain CECL B 1348 Louvain la Neuve Belgique nadja vincze uclouvain be yves bestgen uclouvain be R sum De nombreuses m thodes automatiques de classification de textes selon les sentiments qui y sont exprim s s appuient sur un lexique dans lequel chaque entr e est associ e une valence Le plus souvent ce lexique est construit partir d un petit nombre de mots choisis arbitrairement qui servent de germes pour d terminer automatiquement la valence d autres mots La question de l optimalit de ces mots germes a bien peu retenu l attention Sur la base de la comparaison de cinq m thodes automatiques de construction de lexiques de valence dont une qui notre connaissance n a jamais t adapt e au fran ais et une autre d velopp e sp cifiquement pour la pr sente tude nous montrons l importance du choix de ces mots germes et l int r t de les identifier au moyen d une proc dure d apprentissage supervis e Abstract Many methods of automatic sentiment classification of texts are based on a lexicon in which each entry is associated with a semantic orientation These entries serve as seeds for automatically determining the semantic orientat
13. WordNet et celles bas es sur des corpus de textes Les approches qui s appuient sur des bases de connaissances linguistiques calculent g n ralement la similarit entre les mots partir de leur relation de synonymie Une m thode de base consiste partir de quelques mots dont la valence est connue et lancer un algorithme d amor age bootstrapping qui parcourt les liens synonymiques et antonymiques de la base en attribuant la m me orientation aux mots synonymes et vice versa Hu Liu 2004 Kim Hovy 2004 Kamps et Marx 2002 ont probablement t les premiers proposer une telle proc dure en d rivant de WordNet un graphe dans lequel chaque n ud repr sente un terme et un lien est pr sent entre deux n uds s ils sont synonymes partir de ce graphe ils calculent une valeur normalis e pour les n uds li s aux mots good et bad Esuli et Sebastiani 2006 ont tendu cette approche pour d velopper SentiWordNet une ressource bas e sur WordNet qui assigne chaque synset trois valeurs normalis es une positive une n gative et une objective La sp cificit principale de leur approche est qu elle s appuie sur un apprentissage semi supervis bas sur les d finitions de mots germes s lectionn s manuellement CONSTRUCTION AUTOMATIQUE D UN LEXIQUE DE VALENCE Ne disposant pas d informations sur les liens synonymiques les approches qui s appuient sur des corpus calculent les similarit s diff remment Hatzivassiloglou et
14. aille semblent n cessaires Turney Littman 2003 Velikovich et al 2010 sauf si la mani re de Harb et al 2008 on emploie un corpus tr s sp cifique et des r gles d associations Peu d initiatives de construction automatique de lexiques ont eu lieu en fran ais compar l effervescence dans le milieu anglophone Nous pouvons citer Bestgen 2002 et Chardon 2010 qui a d velopp une m thode pour laborer une ressource lexicale d adjectifs d opinion partir d une liste de mots germes et d une taxinomie des mots du fran ais Pak et Paroubek 2010 ont propos une m thode de construction automatique d un lexique affectif partir de messages disponibles sur Twitter Leur proc dure est bas e sur la comparaison de la fr quence d occurrence d un mot dans les messages contenant une motic ne positive et dans ceux contenant une motic ne n gative Vernier et Monceaux 2010 ont propos une m thode d apprentissage pour enrichir automatiquement un lexique subjectif partir d un corpus annot L apprentissage automatique se base sur des tests s mantiques qui permettent de mesurer le degr de subjectivit des termes ainsi que leur valence s il s agit d adjectifs et qui sont effectu s l aide du moteur de recherche Yahoo 3 M thodes valu es pour estimer la valence de mots Cinq m thodes pour estimer automatiquement la valence de mots ont t compar es deux de celles ci consistant en une transposition de m t
15. de TALN 2010 NASUKAWA T YI J 2003 Sentiment analysis capturing favorability using natural language processing Proceedings of the 2nd international conference on Knowledge capture K CAP 70 77 PAK A PAROUBEK P 2010 Construction d un lexique affectif pour le fran ais partir de Twitter Actes de TALN 2010 PANG B LEE L WAITHYANATHAN S 2002 Thumbs up Sentiment classification using machine learning techniques Proceedings of the ACL 02 Conference on Empirical Methods in Natural Language Processing 79 86 SCHMID H 1994 Probabilistic Part of Speech Tagging Using Decision Trees Proceedings of the International Conference on New Methods in Language Processing 44 49 STONE P J DUNPHY D C SMITH M S OGILVIE D M 1966 The General Inquirer A Computer Approach to Content Analysis Cambridge MIT Press SYSSAU A FONT N 2005 Evaluations des caract ristiques motionnelles d un corpus de 604 mots Bulletin de Psychologie 58 361 367 TURNEY P D 2002 Thumbs up or thumbs down semantic orientation applied to unsupervised classification of reviews Proceedings of the 40th Annual ACL Meeting 417 424 TURNEY P D LITTMAN M 2002 Unsupervised learning of semantic orientation from a hundred billion word corpus Technical Report National Research Council Canada TURNEY P D LITTMAN M 2003 Measuring Praise and Criticism Inference of Semantic Orientation from Associati
16. es qui s appuient sur l ASL Ceci nous a conduits pr senter s par ment les r sultats de ces deux groupes de m thodes La norme initiale portait sur 605 mots mais elle a t ult rieurement tendue 735 mots Elle est disponible l adresse http www lexique org Des analyses compl mentaires ont montr que ce seuil tait proche de la valeur optimale obtenue par r gression logistique CONSTRUCTION AUTOMATIQUE D UN LEXIQUE DE VALENCE 51 Approche bas e sur le dictionnaire de synonymes KA1 et KA7 Le tableau 1 pr sente les performances des m thodes KA1 et KA7 pour les diff rentes normes Pour tous les tests KA7 la version bas e sur les 7 paires de mots germes de Turney et Litman 2003 est sup rieure KAI qui n emploie qu une seule de ces paires celle s lectionn e par Kamps et Marx 2004 Les corr lations entre la valence pr dite par les m thodes et la valence moyenne selon les juges sont lev es et m me tr s lev es pour Vscore Pour la pr diction de la cat gorie des mots les performances sont galement impressionnantes pour les trois tests Dans leur tude sur l anglais Kamps et al 2004 rapportent un pourcentage de mots bien class s par leur proc dure de 67 pour les 667 adjectifs pour lesquels ils ont pu calculer un score d valuation partir de WordNet et qui se trouvent dans la liste du General Inquirer Evaluation II Table 1 dans Kamps et al 2004 Cette valeur est nettement inf ri
17. eure celle que nous avons obtenue S il est difficile d identifier pr cis ment l origine de l am lioration force est de constater que l impl mentation de la technique de Kamps et Marx sur la base d un dictionnaire de synonymes plut t que de WordNet est une alternative viable Nev Vscore V80 V50 GI N 663 76 20 43 688 KAI 0 55 0 64 90 84 80 KA7 061 0 72 100 88 84 Tableau 1 Performances corr lation et pourcentage de classification correcte 5 2 Approches bas es sur l ASL Dans cette section nous comparons la nouvelle m thode ASG celles de Turney et Littman 2003 et de Bestgen 2002 Quatre versions diff rentes de ASG ont t test es Elles se distinguent par l tendue des germes potentiels pris en compte ASGO 5 limite ceux ci aux valeurs les plus extr mes de la norme de 1 1 5 et de 6 5 7 ASG1 0 est moins stricte et prend en compte celles comprises entre et 2 et entre 6 et 7 ASGnorme prend en compte l ensemble des mots repris dans la norme Nev et ASGtout s lectionne les germes parmi l ensemble des termes pr sents dans l espace s mantique Pour construire le mod le pr dictif sur la base de ces ensembles de germes potentiels nous avons employ une r gression lin aire multiple avec s lection des pr dicteurs par la technique ascendante forward et un seuil de probabilit pour la s lection fix 0 01 5 2 1 Performances pour le mat riel d apprentissage
18. ey Littman 2003 Ces listes n tant pas notre connaissance disponibles en fran ais nous avons recherch un mat riel quivalent dans Le WOLF couvre 30 du WordNet de Princeton Mouton amp Chalendar 2010 et selon nos calculs le WordNet fran ais couvre environ 25 des synsets de la version 1 5 de WordNet www crisco unicaen fr cgi bin cherches cgi NADJA VINCZE YVES BESTGEN cette langue La section 4 2 1 d crit les normes de valence de Syssau et Font 2005 Ces normes pr sentent l avantage d avoir t r colt es dans des conditions rigoureuses et bien document es alors qu on ne dispose de pratiquement aucune information sur la proc dure suivie pour constituer les deux listes du General Inquirer Cependant elles ne portent que sur 735 mots alors que les listes originales du General Inquirer en contiennent plusieurs milliers titre comparatif nous avons r alis une premi re adaptation fran aise des listes du General Inquirer 4 2 1 Valemo V80 V50 et Vscore Syssau et Font 2005 ont demand 600 juges d valuer 735 mots sur deux chelles une chelle nominale trois modalit s n gatif neutre et positif et une chelle bipolaire en 11 points allant de tr s n gatif 5 tr s positif 5 voir Syssau et Font pour une discussion des avantages et inconv nients de ces deux types d valuation Chaque mot a t valu par 100 juges et un m me juge n a effectu qu un seul des deux
19. genraad et al 1995 titre d exemple la liste suivante donne les valeurs attribu es quelques mots extraits al atoirement de ce dictionnaire d tresse 1 4 impassible 2 6 ambigu 3 2 outil 4 3 revenir 5 0 admiratif 5 7 doux 60 4 13 Constitution de l espace s mantique L espace s mantique utilis pour calculer les cosinus entre les mots n cessaires pour SO ASL DIC ASL et ASG a t construit sur la base d une collection de textes litt raires compos e de romans nouvelles et contes disponibles sur le Web principalement dans les bases litt raires ABU et Frantext Elle contient approximativement 5 300 000 mots Chaque texte a t subdivis en segments de 125 mots Pour construire le tableau lexical les pr traitements suivants ont t effectu s lemmatisation par le logiciel TreeTagger Schmid 1994 suppression de mots outils et suppression des mots de fr quence totale inf rieure 10 La matrice de cooccurrences des 12 285 termes dans les 40 635 segments a t soumise une d composition en valeurs singuli res et les 300 premiers vecteurs propres ont t conserv s 42 M thode pour l valuation Pour valuer l efficacit de m thodes visant d terminer automatiquement la valence de mots le test classique lorsque l tude est r alis e en anglais se base sur les listes de mots positifs et n gatifs incluses dans le General Inquirer p e Dragut et al 2010 Kamps et al 2004 Turn
20. goureusement possible les performances de toutes les proc dures test es y compris KA1 et KA7 sur une m me t che afin de les rendre comparables On a donc calcul le pourcentage de termes bien class s pour les mots de GI trait s par toutes les m thodes Le tableau 5 qui pr sente ces r sultats souligne la sup riorit de KA7 sur toutes les autres m thodes Il faut toutefois garder l esprit que K A7 propose au maximum des valeurs pour 688 mots du GI alors que les m thodes bas es sur l ASL traitent 1992 mots de cette m me liste De plus nous n avons employ qu un seul espace s mantique d un genre tr s sp cifique voir discussion Les m mes analyses ont t r alis es en supprimant en plus les mots qui sont dans la norme NEV sans que les conclusions ne soient modifi es diff rences plus petites ou gales 2 N SO ASL DIC ASL ASGO 5 ASG1 0 ASGnorme ASGtout KAI KA7 550 64 70 75 75 76 75 80 83 Tableau 5 Pourcentage de classification correcte pour les mots de GI trait s par toutes les m thodes 54 Mots germes les plus importants pour pr dire la valence Si la m thode ASG n apparait pas comme nettement sup rieure DIC ASL elle pr sente un avantage potentiellement tr s important en termes d identification de mots germes Alors que DIC ASL s lectionne les germes localement puisqu un ensemble diff rent de germes est employ pour chaque mot AS
21. hodes efficaces pour la langue anglaise celle de Turney et Littman 2002 2003 et celle de Kamps et Marx 2002 Kamps et al 2004 Nous avons galement repris la m thode de Bestgen 2002 2008 Ces trois m thodes serviront de r f rence pour valuer deux nouvelles approches une extension de la m thode de Kamps et Marx et une m thode d apprentissage supervis de mots germes La pr sente section d crit les principes la base de ces diff rentes m thodes Des pr cisions propos de leur impl mentation et des ressources linguistiques qu elles requi rent sont donn es dans la section suivante 3 1 Niveaux de base SO ASL et DIC ASL Ces deux m thodes se basent sur l analyse s mantique latente d une collection de textes pour d terminer la proximit entre des mots et des germes dont la valence est connue s SO ASL il s agit de la m thode propos e par Turney et Littman 2003 d crite ci dessus Elle est bas e sur 14 mots germes choisis en raison de leur valence extr me sur la dimension positif n gatif La valence d un mot correspond la somme des cosinus entre ce mot et les germes positifs dont on soustrait la somme des cosinus entre ce mot et les germes n gatifs s DIC ASL il s agit de la m thode propos e par Bestgen 2002 d crite ci dessus Pour chaque mot dont on veut d terminer la valence on identifie les 30 plus proches voisins dont la valence est connue et on lui affecte la valence moyenne de ceux c
22. hoisis par Turney et Littman 2003 Toutefois lorsqu on consid re le fait que le seuil pour s lectionner les mots les plus extr mes est par d finition arbitraire il devient imm diatement vident que la proc dure propos e n est qu un cas particulier d une proc dure plus g n rale dans laquelle les germes potentiels sont compos s de l ensemble des mots pr sents dans la norme Et d une mani re tout aussi vidente cette premi re g n ralisation n est elle m me qu un cas particulier d une seconde g n ralisation qui emploie comme germes potentiels tous les mots pour lesquels il est possible de calculer un cosinus avec les mots qui se trouvent dans la norme soit tous les mots pr sents dans l espace s mantique que leur valence soit connue ou non tant donn que les candidats germes pour l approche la plus restrictive forment un sous ensemble des candidats germes employ s dans les approches plus g n rales on doit s attendre ce que la qualit de la pr diction de la valence des mots du dictionnaire CONSTRUCTION AUTOMATIQUE D UN LEXIQUE DE VALENCE initial soit d autant meilleure que l approche est la plus g n rale Par contre les capacit s de g n ralisation des diff rents mod les pourraient tre quivalentes si ceux bas s sur le plus grand nombre de germes potentiels pr sentent un d faut de surapprentissage 4 Exp riences 4 1 Ressources linguistiques pour l impl mentation des m thodes Les diff rentes m
23. i NADJA VINCZE YVES BESTGEN 3 2 Estimation sur la base de relations de synonymie KA1 et KA7 Ces deux m thodes sont bas es sur la fonction d valuation d finie par Kamps et Marx 2002 s KAI cette m thode est bas e sur les liens synonymiques entre les adjectifs Le principe consiste mesurer la distance minimale c est dire le plus court chemin entre le mot auquel on veut attribuer une valeur et les mots germes good et bad La valence d un terme f est alors gale sa distance relative avec les deux germes d t mauvais d t bon KA1 t d bon mauvais o d i j repr sente la distance du plus court chemin synonymique entre les mots i et j KA7 est une adaptation de KA1 dans laquelle le nombre de paires d adjectifs de r f rence est multipli par 7 Nous avons repris les 7 paires de r f rence de Turney et Littman 2003 que nous avons traduites comme suit bon gentil excellent positif heureux correct sup rieur et mauvais m chant m diocre n gatif malheureux faux inf rieur La fonction d valuation adapt e reprend alors la somme des valuations pour chaque paire Draad i Lead jx i Aliw Je o iz et j forment une paire d adjectifs positif et n gatif des n paires prises en compte KA7 t 3 3 Apprentissage supervis de mots germes ASG Un des objectifs de cette recherche est de proposer et d valuer une m thode d riv e de celles de Turney et Littman 20
24. ion of other words Most often this lexicon is built from a small number of words chosen arbitrarily The optimality of these seed words has received little attention In this study we compare five automatic methods to build a semantic orientation lexicon One among them to our knowledge has never been adapted to French and another was developed specifically for this study Based on them we show that choosing good seed words is very important and identifying them with a supervised learning procedure brings a benefit Mots cl s Analyse de sentiments lexique de valence apprentissage supervis analyse s mantique latente Keywords Sentiment analysis semantic orientation lexicon supervised learning latent semantic analysis NADJA VINCZE YVES BESTGEN 1 Introduction La classification de textes consiste classer automatiquement les textes dans un ensemble pr d fini de cat gories Ce sont initialement les classifications th matiques et par genre qui ont motiv les recherches mais depuis une dizaine d ann es ce champ d tudes s est largi et int gre la classification de textes en fonction des sentiments qui y sont exprim s d tection de la subjectivit avec une classification objectif subjectif Wiebe et al 2004 Yu Hatzivassiloglou 2003 et d termination de la valence des documents avec une classification binaire positif n gatif parfois multi classes selon le degr de polarit Abbasi et al 2008 Pang et al
25. le ci Tout particuli rement la r gression multiple ne s lectionnera qu un seul de deux mots s mantiquement tr s li s m me si tous les deux sont d excellents pr dicteurs cf rage et col re dans le tableau 6 Or comme notre objectif prioritaire est d identifier des mots germes sp cifiques qui pourraient tre ensuite employ s dans d autres m thodes comme celle de Kamps et Marx 2002 il semble pr f rable de s int resser ces derniers et donc ceux dont le vecteur de cosinus avec les mots pr sents dans la norme est le plus corr l avec la valence de ces mots Le tableau 6 pr sente titre d exemple une petite fraction des germes les plus importants pour pr dire la valence class s par ordre d efficacit lorsqu on prend en compte l ensemble des mots pr sents dans l espace s mantique La partie gauche reprend les 30 germes les plus corr l s n gativement avec la valence et la partie droite les 30 germes les plus corr l s positivement La quasi totalit des germes n gatifs mentionn s dans ce tableau correspond ce qu on entend habituellement par mots germes pour la valence La grande majorit des germes positifs sont aussi pertinents et plus de la moiti d entre eux ne se trouve pas dans la norme ayant servi l apprentissage signal par un la place du score de valence Cette observation souligne la valeur heuristique de la m thode propos e On y trouve n anmoins quelques mots sp cifiques la col
26. lection de textes employ e pour l ASL mythologique nymphe pampre Il est noter que les germes qui suivent par ordre d importance ceux pr sent s dans le Il n est pas possible ce stade de l analyse de d terminer le nombre de cas dans lesquels d battre correspond se d battre Il s agit l d une limite vidente des pr traitements effectu s avant l extraction de l espace s mantique NADJA VINCZE YVES BESTGEN tableau semblent tout aussi pertinents titre d exemple on trouve de 10 en 10 pour l orientation n gative 31 brute 41 monstrueux 51 ex cration 61 exasp ration 71 d sesp rer 81 sourd 91 gorgement 101 r le N gatif Nev N gatif Nev Positif Nev Positif Nev 1 rage 2 1 16 infamie 1 charmant 5 7 16 charme 6 1 2 col re 2 2 17 impr cation 2 charmer 5 8 17 description 3 pouvantable 1 8 18 tourmenteur 3 ravissant 64 18 modeste 4 fureur 2 8 19 l che 1 1 4 d licieux 6 2 19 ravir 5 6 5 atroce 1 5 20 mena ant 5 gracieux 5 9 20 admirable 6 1 6 horrible 1 8 21 menace 6 merveille 6 1 21 romance 44 7 abominable 1 9 22 pouvanter 2 0 7 magnifique 6 5 22 nymphe 8 craser 1 9 23 saigner 8 brillant 23 exquis 9 horreur 2 1 24 cracher 9 aimable 5 9 24 distingu 10 crachat 1 3 25 d battre 10 harmoniser 25 pampre
27. nt pas partie du mat riel d apprentissage Pour cette raison les m mes analyses que celles rapport es ci dessus ont t effectu es apr s suppression dans les normes cat gorielles de tous les mots pr sents dans Nev Les r sultats sont pr sent s dans le tableau 4 Pour GI on observe une diminution assez faible et relativement gale des performances pour toutes les m thodes y compris celles qui n ont pas recours l apprentissage supervis Pour V50 et surtout V80 les diff rences sont plus nettes et s observent m me pour SO ASL alors que cette m thode ne s appuie pas sur la norme Nev L explication la plus probable est que les mots qui ont t supprim s sont particuli rement faciles classer par toutes les m thodes Test SO ASL DIC ASL ASGO 5 ASG1 0 ASGnorme ASG tout V80 N 25 60 80 68 72 72 76 V50 N 82 60 82 72 73 78 74 GI N 1130 62 68 68 71 71 70 Tableau 4 Pourcentage de classification correcte pour les mots non inclus dans Nev D une mani re g n rale ces tests confirment le caract re non optimal des mots germes employ s dans l approche SO ASL cette m thode atteignant un niveau de performance nettement inf rieur celui atteint par toutes celles bas es sur l apprentissage supervis de germes CONSTRUCTION AUTOMATIQUE D UN LEXIQUE DE VALENCE 53 Comparaison globale Une derni re s rie d analyses visent comparer le plus ri
28. nymes R f rences ABBSASI A CHEN H SALEM A 2008 Sentiment analysis in multiple languages Feature selection for opinion classification in Web forums ACM Transactions on Information Systems 26 BESTGEN Y 2002 D termination de la valence affective de termes dans de grands corpus de textes Actes de CIFT 02 81 94 BESTGEN Y 2006 D terminer automatiquement la valence affective de phrases Am lioration de l approche lexicale Actes des JADT 2006 179 188 BESTGEN Y 2008 Building affective lexicons from specific corpora for automatic sentiment analysis Proceedings of LREC 2008 496 500 CHARDON B 2010 Cat gorisation automatique d adjectifs d opinion partir d une ressource linguistique g n rique Actes de RECITAL 2010 CHESLEY P VINCENT B XU L SRIHARI R K 2006 Using verbs and adjectives to automatically classify blog sentiment Proceedings of AAAI CAAW 06 27 29 DEERWESTER S DUMAIS S T FURNAS G W LANDAUER T K HARSHMAN R 1990 Indexing by Latent Semantic Analysis Journal of the American Society for Information Science 41 391 407 DRAGUT E C YU C SISTLA P MENG W 2010 Construction of a sentimental word dictionary Proceedings of ACM ICIKM 1761 1764 ESULI A SEBASTIANI F 2006 SENTIWORDNET A publicly available lexical resource for opinion mining Proceedings of LREC 06 417 422 HARB A PLANTIE M ROCHE M DRAY G TROUSSET F PONCELET
29. on ACM Transactions on Information Systems 21 pp 315 346 VELIKOVICH L BLAIR GOLDENSOHN S HANNAN K MCDONALD R 2010 The Viability of Web derived Polarity Lexicons Proceedings of NAACL 2010 777 785 VERNIER M MONCEAUX L 2010 Enrichissement d un lexique de termes subjectifs partir de tests s mantiques Traitement automatique des langues 51 125 149 VERNIER M MONCEAUX L DAILLE B DUBREIL E 2009 Cat gorisation s mantico discursives des valuations exprim es dans la blogosph re Actes de TALN 2009 WIEBE J WILSON T BRUCE R BELL M MARTIN M 2004 Learning subjective language Computational Linguistics 30 277 308 WIEBE J WILSON T CARDIE C 2005 Annotating expressions of opinions and emotions in language Language Resources and Evaluation 39 165 210 WILSON T WIEBE J HOFFMANN P 2005 Recognizing contextual polarity in phrase level sentiment analysis Proceedings of HLT EMNLP 2005 347 354 Yu H HATZIVASSILOGLOU V 2003 Toward answering opinion questions Separating facts from opinions and identifying the polarity of opinion sentences Proceedings of EMNLP 2003 129 136
30. originale mais galement dus la traduction nous avons obtenu 1246 mots positifs et 1527 mots n gatifs 5 R sultats Cinq normes ont t employ es pour comparer l efficacit des m thodes de construction automatique de lexiques dans l estimation de la valence de mots la norme Nev les trois normes issues du projet Valemo Vscore V50 et V80 et notre traduction des listes positive et n gative du General Inquirer GT Pour les deux normes qui d finissent la valence comme une variable continue Nev et Vscore nous avons valu la qualit de la pr diction en calculant le coefficient de corr lation de Pearson entre les valences pr dites par les m thodes automatiques et les valeurs moyennes attribu es par les juges Lorsque la variable pr dire est dichotomique positif versus n gatif V50 V80 et GT nous avons employ comme mesure d efficacit le pourcentage de mots class s par les proc dures automatiques dans la cat gorie d termin e par la norme Pour chacune des m thodes valu es un mot est consid r comme n gatif lorsque sa valence pr dite est inf rieure la moyenne et comme positif dans le cas contraire La principale difficult que nous avons rencontr e lors de ces analyses trouve son origine dans le fait que les diff rentes m thodes test es ne donnent pas des valeurs de valence aux m mes mots celles d riv es de Kamps et Marx 2002 en proposent un nombre nettement plus restreint que cell
31. rents Dans ce dernier cas il devrait tre possible d attribuer aux mots germes un indice qui traduit leur degr de g n ralit Ensuite les germes identifi s par la m thode ASG consistent en des formes lemmes isol es ce qui r duit fortement la qualit linguistique de l analyse voir d battre La prise en compte de mots compos s ou d expressions fig es serait galement un d veloppement int ressant Vernier Monceaux 2010 D autres m thodes pour mesurer les proximit s s mantiques devraient galement tre test es Il est en effet loin d tre vident que le passage par l ASL am liore l efficacit Bestgen 2006 Enfin notre traduction des listes du General Inquirer pourrait sans aucun doute tre am lior e afin de r cup rer un certain nombre de mots perdus Cependant on peut s interroger sur l utilit d un tel travail tant donn le peu d information disponible sur la proc dure de construction de ces listes Il CONSTRUCTION AUTOMATIQUE D UN LEXIQUE DE VALENCE nous semble plus int ressant pour la communaut scientifique d tendre les normes V50 et V80 dont la rigueur et les proc d s de construction sont bien tablis Remerciements Yves Bestgen est chercheur qualifi du F R S FNRS Les auteurs remercient vivement A Syssau pour les explications compl mentaires propos de la norme Valemo et l quipe du CRISCO pour l autorisation d extraction des informations incluses dans le dictionnaire de syno
32. se des mots apportant la plus grande contribution individuelle la pr diction de la valence souligne l int r t de cette m thode pour l identification de mots germes Un des principaux d veloppements envisag s est d utiliser ces mots germes dans des m thodes comme celles de Kamps et Marx 2002 ou d Esuli et Sebastiani 2006 Des adaptations seront n cessaires puisque dans la version actuelle les mots germes identifi s ne forment pas des couples comme requis par la m thode de Kamps et Marx Il sera tout particuli rement int ressant de d terminer si la m thode propos e qui ne requiert pas WordNet est plus efficace que celle d velopp e par Esuli et Sebastiani et surtout si l emploi dans leur m thode des mots germes identifi s par ASG am liore encore les performances Enfin il sera n cessaire d valuer les b n fices apport s par l apprentissage supervis de germes pour l objectif principal de ce genre d tudes d terminer l orientation de textes Harb et al 2008 Cette tude comporte plusieurs limitations qui sont autant de pistes pour des recherches futures Tout d abord un seul espace s mantique extrait de textes litt raires a t exploit Les implications de cette limitation sont particuli rement mises en vidence par la s lection de mots germes sp cifiques ce genre de textes Il serait int ressant d effectuer ces analyses sur un corpus plus diversifi ou s par ment sur des corpus de genres diff

Download Pdf Manuals

image

Related Search

article article 4 nato article furniture articles articles of incorporation article 4 nato meaning articles of organization articles of confederation article 15 article 92 ucmj article summarizer article 92 article 134 article 134 ucmj article 2 of the constitution articles of organization llc article 1 of the constitution articles of association article 19 articles in english article 117 articles of organization nc articles of organization florida articles of incorporation ny

Related Contents

Electret Condenser Microphone  CD61 MicroBeads - Miltenyi Biotec  Kambrook KHP1 User's Manual  Polarity Maximizer Installation & User Manual  Mémoire de magistère de mathématiques LES POSTULATS DE LA  2 - Migros  Epson EX21 Warranty Statement    Chief Dual Ceiling Mount  Explorer 700 Getting Started  

Copyright © All rights reserved.
Failed to retrieve file