Home

article

image

Contents

1. London UCL Press SNOWDON D KEMPER S MORTIMER J GREINER L WEKSTEIN D MAYKESBERY W 1996 Linguistic ability in early life and cognitive function and Alzheimer s disease in late life findings from the Nun Study JAMA 275 528 532 TAKAO A PROTHERO W KELLY G 2002 Applying argumentation analysis to assess the quality of university oceanography students scientific writing Journal of Geoscience Education 50 40 48 THORSON E SNYDER R 1984 Viewer recall of television commercials structure of commercial scripts Psychological Review 85 363 394 TURNER A GREENE E 1977 The construction and use of a propositional text base Technical report 63 Boulder Institute for the study of intellectual behavior University of Colorado
2. e g verbes se marier tre dans notre corpus les modificateurs sp cifient la qualit ou la quantit de l argument e g adjectif 52 adverbe bient t les connecteurs relient les diff rentes id es e g pr position de conjonction donc causalit parce que concession bien que Les arguments renvoient aux objets et ou personnes e g je on mariage et rel vent d une cat gorie lexicale qui a pour fonction principale la d signation d objets en l occurrence les substantifs A nsi une proposition peut tre l argument d une autre proposition Si les pr dicats et les arguments peuvent tre relev s facilement il est difficile d tablir leurs relations l utilisation des anaphores l ambigu t s mantique cr e par l emploi du pronom on on de a7 dans P19 a comme r f rent vis nous locutrice son mari alors que on de a8 dans P20 a comme r f rent les gens incluant a7 requi rent une attention soutenue au sens v hicul Plusieurs probl matiques de traitement automatique des langues naturelles e g traduction automatique extraction d informations etc ont fait appel l analyse pr dicative avec l objectif de repr senter un texte en langue naturelle par une formule logique en langage des pr dicats du premier ordre Divers formalismes sont par exemple pr sent s par Fran ois 1991 Toutefois cette approche
3. 1973 Kintsch 1978 la m moire Thorson et al 1984 la maladie d Alzheimer Snowdon et al 1996 Lee et al 2009 la qualit de prise de note des tudiants Takao et al 2002 le vieillissement Kemper et al 2001 la schizophr nie Covington et al 2007 le genre du discours Covington 2009 Cependant son analyse longue fastidieuse et parfois subjective fait souvent obstacle a son utilisation pratique Par cons quent il serait int ressant et innovant de d velopper un outil automatique permettant de donner un r sultat rapide et fiable de la DI Nous proposerons une m thode de calcul automatique de la DI bas e sur un tiquetage morphosyntaxique et des r gles d ajustement inspir e du logiciel CPIDR Brown et al 2008 Enfin nous testerons la validit de cette m thode sur un corpus de quarante entretiens oraux transcrits 1 1 Analyse pr dicative et densit des id es Pour tudier les m canismes qui sous tendent la pens e humaine la psychologie cognitive n ayant acc s qu aux productions du sujet consid re qu elles poss dent en leur sein les marques des m canismes qui les ont engendr es En ce sens les productions discursives sont privil gi es car le langage est la fois le support et le produit de la pens e Autrement dit les structures langagi res peuvent refl ter les structures cognitives Ainsi une certaine forme d analyse du discours revient mod liser des ph nom nes cognitifs La fonctio
4. RECITAL 2010 Montr al 19 23 juillet 2010 Densid es calcul automatique de la densit des id es dans un corpus oral Hyeran Lee Philippe Gambette Elsa Maill Constance Thuillier 1 Praxiling Universit Montpellier 3 CNRS 17 rue Abb de l p e 34090 Montpellier France 2 LIRMM Universit Montpellier 2 CNRS 34095 Montpellier Cedex 5 3 ISTR Universit Claude Bernard Lyon 1 69622 Villeurbanne Cedex hleel univ montp3 fr R sum La densit des id es qui correspond au ratio entre le nombre de propositions s mantiques et le nombre de mots dans un texte refl te la qualit informative des propositions langagi res d un texte L apparition de la maladie d Alzheimer a t reli e une d gradation de la densit des id es ce qui explique l int r t pour un calcul automatique de cette mesure Nous proposons une m thode bas e sur un tiquetage morphosyntaxique et des r gles d ajustement inspir e du logiciel CPIDR Cette m thode a t valid e sur un corpus de quarante entretiens oraux transcrits et obtient de meilleurs r sultats pour le fran ais que CPIDR pour l anglais Elle est impl ment e dans le logiciel libre Densid es disponible sur http code google com p densidees Abstract Idea density which is the ratio of semantic propositions divided by the number of words in a text reflects the informative quality of the sentences of a text A decreasing idea density has been identified
5. aluation manuelle de la densit des id es Il permet surtout de normaliser l tiquetage en vitant les sp cificit s d tiquetage des experts humains sur certains mots difficiles tiqueter Pr cisons que le temps de parenth sage est principalement d la relecture attentive du texte n cessaire la d tection des passages vides de sens ou correspondant des id es r p t es Rappelons que notre corpus n tait pas cr pour l tude du calcul automatique de la densit des id es Si l objectif est bien d termin au d part e g application m dicale et que les entretiens sont r alis s dans l optique exclusive de calculer la densit des id es la transcription ob it des contraintes cibl es et peut se faire plus rapidement en conjonction avec l tiquetage e g les passages incompr hensibles plac s entre crochets ne sont alors simplement pas transcrits Il faut aussi noter propos des bonnes performances obtenues par Densid es que les r gles d tiquetage de mots en pr dicats ou non pr dicats pr sentent une certaine robustesse par rapport d ventuelles erreurs au cours de l tiquetage morphosyntaxique En effet une erreur d tiquetage d un verbe pris pour un adjectif n aura souvent aucune cons quence sur l tiquetage r alis par Densid es puisque verbes et adjectifs sont g n ralement tous deux consid r s comme des pr dicats par la r gle 200 Si la densit des id es es
6. as one of the symptoms of Alzheimer s disease which explains the interest in an automatic calculation of idea density We propose a method based on part of speech tagging followed by adjustment rules inspired from the CPIDR software This method was validated on a corpus of 40 transcribed conversations in French and obtains better results in French than CPIDR in English It is implemented in the free software Densid es available at http code google com p densidees Mots cl s densit des id es analyse pr dicative tiquetage s mantique psycholinguistique Keywords idea density propositional analysis semantic tagging psycholinguistics HYERAN LEE PHILIPPE GAMBETTE ELSA MAILLE CONSTANCE THUILLIER 1 Introduction La d gradation de la capacit linguistique est un l ment caract ristique de la maladie d Alzheimer Moreaud et al 2001 Le d ficit linguistique dans cette pathologie est d l alt ration de la m moire s mantique Ainsi pour valuer la performance langagi re des patients atteints de la maladie d Alzheimer une mesure fine au niveau s mantique du langage est n cessaire La densit des id es DD ratio pour dix mots du nombre de propositions s mantiques dans un texte est aujourd hui reconnue comme un indicateur pertinent des fonctions intellectuelles de sujets Cette m thode a t valid e par de nombreuses tudes psycholinguistiques appliqu es la compr hension du texte Kintsch et al
7. d e ou proposition s mantique Si l analyse pr dicative refl te l activit cognitive la densit des id es quant elle permet de la quantifier En ramenant le nombre de propositions s mantiques au nombre de mots produits dans le discours multipli par 10 pour obtenir une DI pour 10 mots on peut mesurer la densit des id es d un discours La DI permet donc de mesurer la quantit informative dans le discours Une DI lev e peut refl ter l aptitude d un locuteur exprimer efficacement ses id es ainsi que leur interrelation complexe Par contre une faible DI dans le discours peut r v ler un discours peu efficient du fait de l utilisation d un plus grand nombre de mots pour exprimer les id es essentielles Le score de DI de la phrase Le chien poursuivait un chat dans le jardin pr c demment voqu e est donc de 2 5 2 8 10 2 5 2 propositions s mantiques divis es par 8 mots multipli par 10 nombre de propositions SE l nombre total de mots 1 2 Calcul automatique de la densit des id es Densid es Les tudes portant sur l analyse pr dicative en langue fran aise ont t d velopp es principalement par Le Ny 1979 Ghiglione 1982 Denhi re 1983 Cependant il n y a pas de m thode clairement tablie pour l analyse pr dicative du fran ais et de texte oral Aussi selon les auteurs quelques divergences peuvent tre observ es selon l volution de la th orie linguistique par exemp
8. densit des id es tr s lev e ou au contraire tr s basse La densit des id es pourrait aussi s ajouter aux param tres pertinents pour choisir des textes en fonction de leur niveau de technicit en enseignement du fran ais langue trang re Thomas 2009 R f rences ANDERSON J 1976 Language memory and thought Hillsdale NJ Erlbaum Associates BLANCHE BENVENISTE C 1998 Approches de la langue parl e en francais Paris Ophrys BROWN C SNODGRASS T KEMPER S HERMAN R COVINGTON M 2008 Automatic measurement of propositional idea density from part of speech tagging Behavior Research Methods 40 2 540 545 CHAND V BAYNES K BONNICI L TOMASZEWSKI FARIAS S 2010 Analysis of idea density AID A manual University of California at Davis COIRIER P GAONAC H D PASSERAULT J M 1996 Psycholinguistique textuelle approche cognitive de la compr hension et de la production des textes Paris Armand Colin COVINGTON M 2009 Idea Density A potentially informative characteristic of retrieved documents Proceedings IEEE SoutheastCon COVINGTON M RIEDEL W BROWN C HE C MORRIS E WEINSTEIN S et al 2007 Does ketamine mimic aspects of schizophrenic speech Journal of Psychopharmacology 21 338 346 DENHIERE G 1984 Il tait une fois Compr hension et souvenir de r cits Lille Presses Universitaires de Lille DUONG A SKA B POISSANT A JOANETTE Y 2000 Effet du vieill
9. e NOM vie 000 PUN 200 ADJ W bon bon ADJ bon 000 PUN ww 000 INT bah bah INT bah 000 PUN PUN 200 VER pres W r fl chissons r fl chissons VER pres r fl chir 000 PUN PUN 002 PRO DEM W oc a PRO DEM ce 200 VER pres WP est est VER pres tre 201 DET ART W le JR 200 PRP WP de i NOM j e ma a 200 DET POS WP mon Es DET POS mon 002 NOM W mariage 000 PUN mariage NOM mariage 200 ADV W soia i SE 000 PUN 3 002 PRO PER W il Adresse de Python 002 PRO PER W y C Python26 python exe 200 VER pres WPa E Figure 2 L interface graphique de Densid es sous Windows 2 M thode 2 1 Corpus Pour examiner la validit de notre m thode nous avons analys 40 textes oraux Ce corpus est issu d une tude sur la description fine de la d gradation linguistique dans la maladie d Alzheimer Pour le recueillir nous avons men un entretien individuel semi dirig aupr s de 40 sujets volontaires Ces sujets sont ag s de 65 85 ans ne pr sentant pas d une pathologie cognitive et sont locuteurs fran ais natifs Cet entretien dure environ 35 minutes dont 5 15 minutes pour l enregistrement du discours oral Une narration libre de l vocation d un souvenir personnel a t demand e pour la production du discours spontan et une description d image voleur du biscuit tir e de Boston Diagnostic Aphasia Examination Goodglass et al 1983 pour un discours descriptif Tous les entretiens ont t enregist
10. es et verbes comme pr dicats on obtient 29 faux n gatifs et 1003 faux positifs ce qui correspond une F mesure de 0 747 sur la base de test Si l on prend en compte l ensemble des 35 r gles de la version 1 2 on arrive une F mesure de 0 975 0 80 0970 0 0 0 0 0 0 910 0 0 830 a 102 201 203 206 208 211 213 301 402 500 510 600 602 702 101 54 202 204 207 210 212 214 302 405 509 512 601 701 70 o o o amp o B o amp Figure 4 F mesure obtenue apr s suppression de chaque r gle de la version 1 2 de Densid es La figure 4 illustre la d gradation de la F mesure induite par la suppression de chaque r gle Ainsi on constate par exemple qu en retirant la r gle 201 d di e l tiquetage des d terminants un une le la etc qui ne sont pas des pr dicats la F mesure d croit 0 900 Inversement la suppression de certaines r gles 24 203 208 214 601 602 703 n a aucun effet voire am liore l g rement la F mesure en supprimant un faux positif pour la r gle 500 M me si la suppression de ces r gles semble n avoir aucun effet sur le corpus de test elle pourrait en avoir sur d autres textes ce qui explique que nous les laissons dans Densid es En effet certaines de ces r gles sont plus adapt es pour des discours crits comme la 214 qui consid re si alors comme un seul pr dicat D autres l inverse sont pr vues pour le discours oral mais cibl e
11. guistique est une activit cognitive essentielle de l homme et que sous jacent la r alisation de surface c est dire au mot se trouve un concept on peut estimer que l analyse pr dicative outil de description s mantique des textes est pour le psychologue la transcription d une activit cognitive Ghiglione et al 1995 49 L analyse pr dicative permet d extraire les propositions s mantiques dans le discours par la concat nation des unit s l mentaires du sens pr dicat et argument s Par exemple dans la phrase Le chien poursuivait un chat dans le jardin exemple emprunt Le Ny 1989 les concepts g n riques qui font r f rence des objets chien chat jardin des v nements poursuivre et des relations DENSIDEES CALCUL AUTOMATIQUE DE LA DENSITE DES IDEES DANS UN CORPUS ORAL dans l espace dans peuvent tre extraits On parle des arguments qui sont des entit s r f rentielles pouvant correspondre a des tres ou des objets et des pr dicats qui sont des unit s requ rant des arguments Ainsi les pr dicats assignent des propri t s aux arguments ou d finissent la relation entre les arguments Coirier et al 1996 L analyse pr dicative de cette phrase peut tre not e selon la forme classique ci dessous P1 POURSUIVRE al a2 al chien a2 chat P2 DANS P1 a3 a3 jardin L ensemble constitu d un pr dicat et de son ou ses arguments forme une i
12. issement de la scolarit et du stimulus sur la production de narrations In Le vieillissement cognitif normal Vers un mod le explicatif du vieillissement 137 154 Bruxelles Edition de De Boeck Universit FILLMORE C 1968 The case for case In Universals in linguistic theory 1 88 New York Holt Rinehart and Winston FRANCOIS J 1991 Pertinence linguistique des repr sentations propositionnelles de la s mantique cognitive S miotiques 1 1 69 80 FRANCOIS T 2009 Mod les statistiques pour l estimation automatique de la difficult de textes de FLE Actes de RECITAL 2009 FREGE G 1967 The basic laws of arithmetic Berkeley University of California HYERAN LEE PHILIPPE GAMBETTE ELSA MAILLE CONSTANCE THUILLIER FREGE G 1971 Ecrits logiques et philosophiques Paris Presses Universitaires de France GHIGLIONE R 1982 Analyse propositionnelle et mod les argumentatifs Connexions 38 89 106 GHIGLIONE R KEKENBOSCH C LANDRE A 1995 L analyse cognitivo discursive Grenoble Presses Universitaires de Grenoble GOODGLASS H KAPLAN E 1983 The assessment of aphasia and related disorders Philadelphia Lea and Febiger JAKOBSON R 1963 Essais de linguistique g n rale Paris Editions de Minuit KEMPER S GREINER L MARQUIS J PRENEVOST K MITZNER T 2001 Language decline across life span findings from the Nun study Psychology and Aging 16 2 227 239 KINTSCH W 1974 The repre
13. it es comme des adjectifs donc des pr dicats mais qui sont consid r es comme des mots contrairement aux pauses remplies non lexicales e g bah hein etc et les noms propres pour viter les probl mes d tiquetage morphosyntaxique Par exemple voici le pr traitement de la phrase analys e plus haut le plus beau jour de ma vie bon bah r fl chissons c est le jour de mon mariage voil il y a 52 ans bient t donc voil bien que a a t un mariage tout fait simple parce que je ne je n avais plus mes parents donc quand on s est mari s on tait 12 personnes donc vous voyez Ce corpus pr trait manuellement a t soumis au calcul automatique de la DI avec la version 1 2 de Densid es Deux experts ont travaill individuellement chaque texte en notant pr dicat et argument de chaque mot sur Excel un troisi me examinateur a v rifi leur analyse Le r sultat obtenu par Densid es est donc v rifi par ces trois experts pour mesurer le coefficient de corr lation de l analyse manuelle et automatique 3 R sultats La figure 3 montre les r sultats obtenus On peut noter entre la densit des id es calcul e manuellement et automatiquement pour les 40 textes un coefficient de corr lation de 0 972 l ot CPIDR obtenait 0 942 densit des id es 5 selon Densid es a 48 46 ng 44 amp 42 of 38 36 a 34 a 32 densit des id es selon 32 34 36 38 4 42 44 46 48 5 l tiquetage man
14. le la proposition de Le Ny 1987 d int grer les acquis de la grammaire des cas de Fillmore 1968 dans l analyse pr dicative Nous avons ainsi tabli des r gles d analyse pr dicative bas es sur les tudes pr c dentes Kintsch 1974 Turner et al 1977 Le Ny 1979 Ghiglione et al 1995 Kemper et al 2001 Chand et al 2010 L exemple ci dessous montre notre m thode d analyse pr dicative le plus beau jour de ma vie bon bah r fl chissons c est le jour de mon mariage voil il y a 52 ans bient t donc voil bien que a a t un mariage tout fait simple parce que je ne je n avais plus mes parents donc quand on s est mari s on tait 12 personnes donc vous voyez P1 BEAU al al jour P10 BIENT T P8 P18 PARCE QUE P12 P17 P2 LE PLUS P1 P11 COPULE P7 a3 P19 SE MARIER a7 a7 on P3 DE P1 a2 a2 vie P12 SIMPLE a3 P20 COPULE a8 a9 a8 on a9 P4 MON a2 P13 TOUT A FAIT P12 personnes P5 COPULE P3 a 1 P14 BIEN QUE P6 P11 P21 12 a9 P6 DE P5 a3 a3 mariage P15 POSSEDER a5 a6 a5 je P22 QUAND P19 P20 P7 MON a3 a6 parents P23 DONC P17 P22 P8 IL Y A a4 a4 ans P16 MON a6 P9 52 a4 P17 NE PLUS P15 23 57 10 4 04 HYERAN LEE PHILIPPE GAMBETTE ELSA MAILLE CONSTANCE THUILLIER Les pr dicats peuvent tre class s en trois grandes cat gories pr dicateur modificateur et connecteur Les pr dicateurs expriment l action ou l tat
15. n primitive du langage est la fonction r f rentielle Jakobson 1963 c est dire qu il sert transmettre autrui des informations du monde r el par la symbolisation Cette fonction est accomplie en v hiculant du sens L activit s mantique consiste donc produire du sens dans l intellect du r cepteur c est dire la formation de repr sentation mentale chez l interlocuteur par l interm diaire du langage Depuis la logique aristot licienne ainsi que dans la logique classique de Frege 1967 1971 en passant par la th orie psychologique des r seaux s mantiques propositionnels d Anderson 1976 les chercheurs se sont int ress s au traitement s mantique de l information et ont tent de d finir la structure cognitive Ils ont fait l hypoth se que l information dans la m moire est organis e sous forme propositionnelle En effet un mot isol seul ne suffit pas cr er une id e c est l ensemble de propri t s et de relations s y rapportant qui permet d appr hender et de produire la signification psychologique partir de ces th ories logiques et psychologiques Kintsch 1974 a d velopp une m thode d analyse linguistique qui permet de mod liser la mani re dont l humain encode les informations appel e analyse pr dicative Il part du postulat que la forme dominante de la repr sentation cognitive du langage est de nature propositionnelle Ainsi si l on consid re que la pr dication qui s exprime dans un message lin
16. oximation tout a fait satisfaisante de la densit des id es d un discours oral transcrit selon la m thodologie que nous proposons ici Cette m thodologie fait intervenir une d tection humaine des id es r p t es et il pourrait tre envisag d aborder ce probl me de DENSIDEES CALCUL AUTOMATIQUE DE LA DENSITE DES IDEES DANS UN CORPUS ORAL fa on automatique Toutefois nous pensons que l effort d tiquetage humain des id es r p t es pendant la transcription constitue un effort minime et envisageons plut t pour de prochaines versions du logiciel d am liorer l tiquetage morphosyntaxique sur lequel se basent les r gles de Densid es en faisant appel au logiciel Cordial au lieu de TreeTagger On peut galement noter que l tiquetage automatique des pr dicats d pend fortement des habitudes langagi res r currentes des locuteurs ajout de quoi en fin de phrase par exemple Ainsi compl ter cette approche par r gles avec une partie statistique par exemple pour d tecter des mots fr quents inattendus pourrait aider rep rer ces habitudes langagi res et proposer automatiquement de nouvelles r gles adapt es Enfin la densit des id es a d autres applications cit es plus haut dont la mesure du niveau de technicit d articles scientifiques en langue anglaise Il serait int ressant de calculer la densit des id es de corpus crits en fran ais pour tenter d identifier certains genres de textes associ s une
17. r s num riquement Ces discours oraux ont t transcrits individuellement avec une transcription orthographique standard de type GARS Blanche Benveniste 1998 c est dire sans renormalisation de la parole e g sans introduire de l l ment absent ne dans il y a pas aligner la parole et le texte HYERAN LEE PHILIPPE GAMBETTE ELSA MAILLE CONSTANCE THUILLIER Ce corpus a t tronqu de mani re a garder environ 300 mots par transcription pour que les corpus soient comparables statistiquement Kemper et al 2001 recommande que l chantillon du discours ne soit pas trop bref pour avoir un r sultat fiable et que l analyse porte sur un minimum de 10 nonc s ce qui bien est le cas ici 2 2 Proc dure Nous avons choisi de proposer un pr traitement manuel du corpus pour marquer certaines caract ristiques sp cifiques l oral qui ne semblent difficilement traitables de fa on automatique Nous avons utilis les crochets pour marquer les mots fragment s les r p titions successives qui ne doivent pas tre compt es ni comme pr dicats ni comme mots Les parenth ses servent entourer les mots qui doivent tre int gr s dans le compte du nombre total de mots mais ne doivent pas tre marqu s comme pr dicats Entrent dans ce cas les nonc s inachev s les nonc s et ou mots inaudibles les marqueurs discursifs e g vous voyez les interjections e g bon qui ne doivent pas tre tra
18. roposent le logiciel CPIDR qui tiquette chaque mot du texte comme pr dicat ou bien comme non pr dicat L id e principale de l tiquetage est qu un pr dicat correspond typiquement un verbe pr dicateur un adjectif un adverbe modificateurs une pr position ou une conjonction connecteurs Ainsi l tiquetage morphosyntaxique est la base du calcul approximatif de la densit des id es Cette tape d tiquetage morphosyntaxique trait e dans le cas de CPIDR par le logiciel MontyLingua Liu 2004 est suivie d un post traitement base de r gles destin es corriger les erreurs d tiquetage morphosyntaxique qui ont une influence sur le nombre de pr dicats traiter le cas sp cifique des corpus oraux avec une gestion basique de certaines r p titions ou auto corrections et enfin ajuster le calcul du nombre de pr dicats Cette m thode est efficace en anglais puisque CPIDR obtient g n ralement un meilleur accord avec un ensemble d tiqueteurs humains que les tiqueteurs humains entre eux Nous avons donc choisi de suivre les m mes principes en apportant une attention particuli re au caract re oral de notre corpus important la fois pour nos objectifs d utilisation de la densit des id es m me si l outil que nous proposons est aussi destin l crit L impl mentation de ces principes pour le fran ais nous a fait recourir TreeTagger Schmid 1994 pour l tiquetage morphosyntaxique du tex
19. s est heurt e aux limites du formalisme de repr sentation et de telles analyses pr dicatives d tiquetage s mantique sont actuellement utilis es en pratique uniquement sur des t ches tr s sp cifiques et des corpus cibl s comme dans le syst me pr sent par Meurs et al 1998 Sur des corpus plus g n raux la couverture des bases de donn es s mantiques comme FrameNet est trop faible et l analyse s mantique conduit des taux d erreurs importants Ces erreurs sont amplifi es sur les corpus oraux du type de ceux qui nous int ressent dans le contexte du calcul de la DI du fait des contraintes qu ils induisent En effet de nombreuses utilisations de l anaphore les ph nom nes oraux particuliers tels que les mots fragment s les nonc s inachev s les ratages les reformulations les r p titions les interjections les habitudes du langage gimmicks les pauses remplies etc rendent l analyse de l oral complexe Cependant le calcul de la DI ne n cessite en fait pas de calculer l ensemble des pr dicats et de leurs arguments mais seulement de compter les pr dicats Nous avons donc choisi d viter d utiliser une approche s mantique et d utiliser plut t les travaux de Brown et al 2008 sur la langue anglaise Ceci dans le but de concevoir une approche du comptage des pr dicats par un ensemble de r gles appliqu es apr s un tiquetage morphosyntaxique du texte Pour calculer la densit des id es Brown et al p
20. s sur des marqueurs discursifs particuliers que les locuteurs n utilisent pas n cessairement la r gle 602 consid re par exemple que donc n est pas un pr dicat apr s le verbe dire HYERAN LEE PHILIPPE GAMBETTE ELSA MAILLE CONSTANCE THUILLIER Munis de ce score de qualit qu est la F mesure nous proposons la m thodologie suivante pour l ajout de nouvelles r gles ou la modification de r gles existantes dans Densid es Nous utilisons la base de test titre d exploration pour valuer l volution de la F mesure suite des modifications du programme la base de validation sert quant a elle a valider la pertinence des modifications en v rifiant que les modifications propos es a partir du corpus de test ne sont pas biais es par les sp cificit s linguistiques de ce corpus Par exemple par rapport a la version 1 2 parmi toutes les modifications de r gles test es une seule modification de la r gle 301 raisonnable du point de vue linguistique a permis d am liorer la F mesure en atteignant 0 978 sur le corpus de test Sur la base de validation cette modification a permis de passer d une F mesure de 0 969 0 972 Ainsi elle sera int gr e dans la version 1 3 de Densid es 4 Discussion Un entretien oral de 300 mots n cessite environ 25 minutes de transcription 10 minutes de parenth sage et 35 minutes d tiquetage manuel des id es Ainsi Densid es permet de diviser par deux le temps total n cessaire l v
21. sentation of meaning in memory Hillsdale NJ Erlbeaum KINTSCH W KEENAN J 1973 Reading rate and retention as a function of the number of propositions in the base structure of sentences Cognitive Psychology 5 3 257 274 KINTSCH W KEENAN J 1978 Toward a model of text comprehension and production Psychological Review 85 363 394 LENY J F 1979 La s mantique psychologique Paris Presses Universitaires de France LE NY J F 1987 S mantique psychologique In Probl mes de psycholinguistique 13 42 Bruxelles Pierre Mardaga LE NY J F 1989 Science cognitive et compr hension du langage Paris Presses Universitaires de France LEE H BARKAT DEFRADAS M 2009 La densit des id es un mod le d analyse du discours pertinent pour le diagnostic pr coce de la maladie d Alzheimer Actes des 8 me Rencontres Jeunes Chercheurs en Parole LIU H 2004 MontyLingua An end to end natural language processor with common sense Available at web media mit edu hugo montylingua MEURS M DUVERT F B CHET F LEFEVRE F DE MORI R 2008 Annotation en Frames S mantiques du corpus de dialogue MEDIA Actes de TALN 2008 MOREAUD O DAVID D CHARNALLET A PELLAT J 2001 Are semantic errors actually semantic Evidence from Alzheimer s disease Brain and language 77 176 186 SCHMID H 1994 Probabilistic Part of Speech tagging using decision trees In New Methods in Language Processing 154 164
22. t une m thode efficace pour mesurer la quantit d informations dans un discours de nombreuses applications de l analyse qualitative fine qu offre l analyse pr dicative sont d laiss es du fait que les arguments ne sont pas pris en compte dans cette m thode Par exemple le calcul du d calage i e produit par le partage du m me argument par diff rentes propositions marquant la coh sion du discours et sa complexit s mantique Duong et al 2000 Aussi le calcul du pr dicat de premier rang i e qui n implique que des arguments objets et du pr dicat de rang sup rieur i e implique galement ou exclusivement des arguments propositionnels tant donn que le pr dicat de rang sup rieur a un co t cognitif plus important ce type de calcul serait utile pour l tude psycholinguistique Pour contourner ces limites une m thode probabilistique peut tre envisag e en mesurant par exemple le nombre et le type d arguments que peut avoir un pr dicat e g verbe transitif vendre comporte 3 places d argument agent objet r cepteur Densid es version 1 2 fait ses premiers pas vers une interpr tation qualitative du r sultat de la DI en offrant les r sultats d taill s des r gles utilis es pour le calcul e g le taux important de l utilisation de la r gle 211 refl terait un discours construit principalement autour de la n gation etc 5 Conclusion Le logiciel Densid es fournit actuellement une appr
23. te C est ensuite un ensemble de 35 r gles d ajustement que nous proposons pour d terminer si un mot est un pr dicat ou non Des exemples de r gles sont fournis en figure 1 elles sont int gralement d crites dans le manuel d utilisation de Densid es Dans la mesure du possible les num ros de r gles utilis s dans CPIDR ont t conserv s dans Densid es En outre le logiciel Densid es est crit en Python de fa on comment e et tr s lisible Il fonctionne en DENSIDEES CALCUL AUTOMATIQUE DE LA DENSITE DES IDEES DANS UN CORPUS ORAL ligne de commande mais peut galement tre appel depuis Windows par l interm diaire d une interface graphique montr e en figure 2 i nm R gle 208 Comparatif que n est pas proposition apr s autant moins pire plus A R gle 301 Verbes de liaison apparaitre tre sembler devenir para tre rester demeurer non propositions si suivis d un adjectif ou d un adverbe Figure 1 Exemples de r gles de Densid es Ce programme calcule la densit des id es d un texte en fran ais tiquet AT TreeTagger NL Version 1 2 07 03 2010 par gger Philippe Gambette HyeRanLee TT Logiciel inspir de CASPR CPIDR Ouvrir le texte M mode oral Calculer le DET ART le a 201 DET ART W le a plus ADV plus 200 ADV WP plus beau ADJ beau 200 ADJ W P beau jour NOM jour L 2o RoN gt a P Ed 200 DET POS WP ma E r i 002 NOM W vie vi
24. uel Figure 3 Repr sentation de la densit des id es calcul e automatiquement en fonction de la densit des id es calcul e manuellement pour chacun des 40 textes du corpus DENSIDEES CALCUL AUTOMATIQUE DE LA DENSITE DES IDEES DANS UN CORPUS ORAL Pour une valuation plus fine du logiciel nous avons choisi de d terminer le taux de faux n gatifs pr dicats non tiquet s comme tels et de faux positifs non pr dicats tiquet s comme pr dicats respectivement 2 7 et 3 1 Comme la formule de densit des id es fait intervenir le nombre total de pr dicats ces deux types d erreurs se compensent pour arriver un taux d erreur moyen de 0 5 sur le nombre de pr dicats Le corpus a alors t s par en une base de test correspondant 10 sujets pour assurer une vari t dans les scores de DI de 3728 mots et 1548 pr dicats et une base de validation de 10211 mots et 4199 pr dicats La base de test a t utilis e pour valuer la pertinence de chaque r gle en testant l effet de sa suppression Pour valuer la qualit d un tiquetage automatique on calcule la F mesure qui se base sur la pr cision i e proportion de pr dicats corrects parmi les pr dicats trouv s automatiquement et le rappel 1 e proportion des pr dicats corrects trouv s par Densid es sur l ensemble des pr dicats corrects En n utilisant que la r gle 200 qui tiquette les conjonctions num raux d terminants pr positions adjectifs adverb

Download Pdf Manuals

image

Related Search

article article furniture articles articles of incorporation article 15 articles of confederation articles of organization article 8 article summarizer article 3 article 92 article 1 section 8 article 2 of the constitution article 92 ucmj article 1 of the constitution article definition article 3 of the constitution articles of association article sofa articles about mental health articles of organization for llc article 293 b du cgi articles in english to read article 16 de la constitution

Related Contents

Samsung Galaxy Tab 3 Kids manual do usuário  オレンジプルーファ  montage en afstellingen  Rotel SteamPot1413  TAURUS - user manual - V1,3  MANUAL DE INSTRUÇÕES  User Manual  検電器 安全について 使用上の注意 各部の名称 使用方法 電池  Magi balle d`éveil des P`tits Copains  Synology DS214+  

Copyright © All rights reserved.
DMCA: DMCA_mwitty#outlook.com.