Home
La parole spontanée
Contents
1. La parole spontan e transcription et traitement ri 2429 2 Ek e Thierry Bazillon Vincent Jousse Fr d ric B chet Yannick amp r SEL Est ve Georges Linar s Daniel Luzzati LIUM Universit du Maine Le Mans LIA Universit d Avignon et des Pays de Vaucluse Avignon thierry bazillon lium univ lemans fr R SUM Cet article traite de la parole spontan e la d finissant d abord sous diff rents angles et sp cificit s puis en envisageant sa transcription de fa on diachronique et synchronique Enfin par le biais de diff rentes exp riences r alis es notamment dans le cadre du projet EPAC nous avons identifi les principaux probl mes que la parole spontan e posait aux syst mes de reconnaissance automatique et proposons des optimisations en vue de les r soudre ABSTRACT This paper deals with spontaneous speech considering first its specificities and then its transcription both diachronically and synchronically The paper continues by listing the main problems spontaneous speech causes to automatic speech recognition systems which were identified through several experiments It ends by suggesting some optimizations to help solve these problems MOTS CL S parole spontan e transcription manuelle transcription automatique sp cificit s de l oral syst me de reconnaissance automatique de la parole KEYWORDS spontaneous speech manual transcription automatic tr
2. tre exploit s avec pr cision 4 4 Transcription automatique de la parole spontan e Comme nous avons pu le voir la parole spontan e propose des sp cificit s qui la distinguent de la parole pr par e Ces sp cificit s malheureusement entra nent une baisse des performances des syst mes de reconnaissance automatique de la parole en terme de taux d erreur sur les mots Une grande partie de nos travaux actuels dans le cadre du projet EPAC qui a d but en 2007 vise justement am liorer ces performances Dans cette optique nous avons voulu mesurer l apport de donn es diff rentes de celles utilis es dans nos exp riences qui sont principalement des donn es issues du corpus ESTER Pour cela nous avons utilis le corpus PFC Durand et al 2002 Comme vu pr c demment ce corpus contient un grand nombre de transcriptions de parole conversationnelle nous avons utilis 26 000 phrases contenant 285 000 occurrences de mots pour construire un mod le de langage probabiliste de parole spontan e En particulier les th mes abord s dans ces transcriptions par les locuteurs sont tr s loign s des th mes rencontr s dans l application vis e R SULTATS D EXP RIENCE Nous avons d coup le corpus de 11 heures d audio utilis dans les exp riences pr c dentes en deux corpus un corpus de d veloppement sept fichiers pour un peu moins de 7 heures de parole et un corpus de test quatre fichiers pour
3. unigrammes et de bigrammes qui sont r p t s dans un segment de parole Ce nombre est le second crit re retenu EXPERIENCES Nous avons utilis le corpus annot manuellement en niveau de fluidit pr sent en section 3 2 pour mettre en place un apprentissage automatique des seuils pertinents pour chacun des crit res prosodiques et linguistiques retenus et pour les utiliser ensemble pour d tecter la parole spontan e Les segments de ce corpus ont t class s en deux cat gories parole spontan e note subjective comprise en 4 et 10 et parole pr par e note subjective comprise entre 1 et 3 Cette utilisation conjointe des crit res retenus pour distinguer parole spontan e vs parole pr par e a t effectu e en utilisant l outil BoosTexter fond sur l algorithme de classification AdaBoost Schapire et Singer 2000 Pour mener bien nos exp riences nous avons eu recours la technique du leave one out qui consiste extraire une partie du corpus disponible effectuer un apprentissage sur la partie restante et tester le syst me sur la partie extraite Afin de pallier la petite taille des donn es ce processus est r it r plusieurs fois en retirant d autres parties ind pendantes et en r injectant les donn es retir es pr c demment Les tableaux suivants montrent les r sultats obtenus en terme de pr cision rappel et f mesure qui combine pr cision et rappel ici sont pr sent s les r sult
4. Base 156 193 203 Base pfc 171 184 164 19 21 Tableau 4 Perplexit des mod les de langage obtenue sur les segments du corpus de test en fonction de leur classe de spontan it Comme on peut le voir le corpus PFC n apporte rien pour la parole pr par e et d grade m me les r sultats en terme de perplexit plus la valeur perplexit est basse plus le mod le est pertinent ceci s explique certainement par la non concordance des th mes abord s dans le corpus PFC et le corpus de test utilis ici En revanche il est int ressant de remarquer que le corpus PFC permet d obtenir un mod le de langage plus pertinent pour les segments de parole spontan e et plus particuli rement pour les segments de parole fortement spontan e pour lesquels la perplexit diminue de presque 20 ce qui est une r duction tr s significative Malheureusement lorsque l on m ne des exp riences de reconnaissance de la parole ces gains ne sont pas retrouv s malgr une baisse non significative du taux d erreur global Le tableau suivant montre les r sultats en terme de taux d erreur sur les mots obtenu par LIUM RT sur les enregistrements audio correspondant aux segments pr c dents 66 TAL Volume 49 n 3 2008 Mod le Parole L g rement Fortement Global de langage pr par e spontan e spontan e Base 21 4 31 3 41 2 32 6 Base pfc 21 7 31 8 40 1 32 4 Tableau 5 Taux d er
5. J et Tarrier J M 2006 PFC corpus et syst mes de transcription in Cahiers de Grammaire n 30 pp 139 158 Est ve Y D l glise P et Jacob B Syst mes de transcription automatique de la parole et logiciels libres in Traitement Automatique des Langues vol 45 n 2 Frei H La grammaire des fautes Slatkine Gen ve 1929 Galliano E et al The ESTER Phase II Evaluation Campaign for the Rich Transcription of French Broadcast New Interspeech 2005 Lisbonne Portugal Gougenheim G et al L laboration du fran ais fondamental tude sur l tablissement d un vocabulaire et d une grammaire de base Didier Paris 1964 76 TAL Volume 49 n 3 2008 Jousse V et al Caract risation et d tection de parole spontan e dans de larges collections de documents audio JEP 2008 9 13 juin 2008 Avignon Luzzati D Ben appui du discours in Le Fran ais Moderne vol 50 n 3 pp 193 207 1982 Luzzati D Le fen trage syntaxique une m thode d analyse et d valuation de l oral spontan MIDL 2004 29 30 novembre 2004 Paris Martin P Winpitch Corpus a software tool for alignement and analysis of large corpora Workshop E MELD 2003 Michigan State University Etats Unis 2003 Martin P Intonation du Fran ais Parole spontan e et parole lue in Estudios de Fon tica Experimental n 15 pp 133 162 2006 Ogden C Basic Eng
6. ai se pronon t ZE puisque compos e de la s quence ai Toutefois nombreux sont les cas dans lesquels le son produit est un e ferm ce qui donne la s quence Ze ai mis g mir Cette ambivalence est notamment tr s d licate g rer pour les formes de l imparfait parfois presque impossibles distinguer de celles du pass compos ou de l infinitif l enfant aimait sauter dans l eau l enfant aim sautait dans l eau De m me entre autres mots outils monosyllabiques d terminants et pronoms sont syst matiquement source de confusions je l ai geler les faits l effet des faits d faire Enfin cette ambivalence induit des erreurs de structure L ambigu t phonologique transforme la morphologie et fait d railler la syntaxe j ai t j tais le papa c est une le pas pass une c est cool s coule tra ner Tr net vous demandez vous demandait De m me il arrive parfois que LIUM RT assimile certaines s quences sonores des suites de lettres toujours phon tiquement identiques ou tr s proches et a SA et euh et E jaijai gg c tait CT Inversement il se peut que le syst me ne reconnaisse pas un sigle et le transcrive sous forme de mots MSA mais a 72 TAL Volume 49 n 3 2008 Notre corpus le montre ces erreurs ne sont pas toutes dues l emploi de la parole spontan e et bon nomb
7. deviendra tention et attendez tendez 2 3 Troncations La troncation est un autre ph nom ne sp cifique de la parole spontan e c est un mot que le locuteur commence prononcer puis pour diverses raisons principalement le b gaiement ou l h sitation ne finit pas Dans certains cas le mot tronqu est ensuite compl tement prononc Cela donne des s quences telles que celles ci la troncation est symbolis e ci dessous par l emploi de parenth ses des id es r r volutionnaires il tait aussi passionn d avia d aviation et la premi re m mission elle ne sera pas premier secr tai euh secr taire et a rebaisse r guli re r guli rement 2 Certains linguistes et notamment Berthille Pallaud pr f rent dans le cas pr sent utiliser le terme amorce Nous renvoyons par ailleurs le lecteur ses travaux Pallaud 2004 2006 tr s complets pour une analyse d taill e de ce ph nom ne La parole spontan e transcription et traitement 51 Cependant il arrive que le mot tronqu ne soit pas repris ensuite soit le locuteur poursuit alors son nonc comme s il n y avait pas eu troncation 1 soit il le reprend partiellement 2 et 3 ou en totalit cr ant ainsi une anacoluthe 4 et 5 1 alors auj le starsystem s est empar de la t l 2 c est t vraiment une lettre tr s mouvante 3 c
8. est dire que pou sur un repas que vous vendez sept huit euros 4 et il y a un truc s il y a quelque chose de suspect 5 oui et c est un k ah oui oui et c est un canadien 2 4 Faux d parts L anacoluthe nous am ne parler du faux d part ph nom ne assez proche des deux derniers exemples que nous venons de mentionner mais qui s en distingue en d signant une interruption l int rieur d un nonc et non l int rieur d un mot La cons quence est toutefois la m me l apparition d une rupture de syntaxe puisque le locuteur commence un nonc qu il ne finit pas pour y adjoindre un second a a t lu et c est on a la photo il y a dix mille mais c tait mal j ai on a essay de r cup rer tous les l ments Il arrive en outre que l on rencontre des semi faux d parts o le second nonc est en fait le compl ment d une partie du premier Le locuteur corrige son propos initial mais sans produire une phrase compl te ayant toujours l esprit le premier fragment prononc je voulais vous dire aussi passer un gros coup de gueule 2 5 R p titions La r p tition d un m me mot ou d une m me s quence de mots est aussi un signe patent d un discours spontan nouveau b gaiement et h sitations en sont les deux principaux moteurs La r p tition est parfois troitement li e la troncation 6 de
9. me LIUM RT ne percevant ni la consonne d puisqu elle est prononc e t ni la voyelle e puisqu elle est lid e est incapable de g n rer la structure pr positionnelle introduite par de En lieu et place de celle ci il propose donc une suite de mots rigoureusement exacte phon tiquement mais incoh rente contextuellement comme il le faisait pour les autres cas d homonymies que nous avons vus pr c demment 4 6 4 R p titions faux d parts troncations Par ailleurs outre l assimilation d autres sp cificit s de la parole spontan e posent r guli rement probl me aux syst mes de reconnaissance automatique les r p titions faux d parts troncations ou autres disfluences sont autant d anomalies langagi res qu ils n ont pas l habitude de rencontrer Pour les premi res cit es il est int ressant de constater que LIUM RT s est m me en de rares occasions refus proposer deux occurrences cons cutives du m me mot bien que la prononciation ne laissait planer aucune ambigu t faut faut faut faut faut fois font fois Au sujet des troncations ou des faux d parts ils g n rent in vitablement de nouvelles alternatives homonymiques Et nouveau le syst me de reconnaissance La parole spontan e transcription et traitement 73 automatique se retrouve traiter des suites de sons qu il va chercher associer des mots qui lui sont connus et jamais de
10. missions radiophoniques extraites du corpus ESTER qui avoisinera terme les 100 heures d tection de la parole spontan e au sein de masses de donn es audio mesure de l apport positif d un corpus de parole conversationnelle comme le corpus PFC pour l estimation de mod les de langage utilis s dans les syst mes de reconnaissance de la parole spontan e exp rimentation du concept de qualit d locution quantification et analyse du gain de temps apport par la transcription assist e relev classement et analyse des principales erreurs des syst mes de reconnaissance De ces travaux se d gagent des hypoth ses susceptibles d am liorer les syst mes de reconnaissance automatique hypoth ses que nous comptons tester au cours des mois venir La parole spontan e transcription et traitement 75 6 Bibliographie Adda Decker M et al Une tude des disfluences pour la transcription automatique de la parole spontan e et l am lioration des mod les de langage JEP 2004 19 22 avril 2004 F s Maroc Bally C Trait de stylistique fran aise Klincksieck Paris 1929 Barras C et al Transcriber a free tool for segmenting labeling and transcribing speech LREC 98 Grenade Espagne 28 30 mai 1998 p 1373 1376 Bartkova K et Segal N D tection automatique de fronti res prosodiques dans la parole spontan e JEP 2006 12 16 juin 2006 Din
11. ou que consonne sonore on s donne tu t demandes ou qu vous prononc s on z donne tu d demandes ou g vous Enfin le cas des formes le me et ne est un peu particulier les nasales m et n ne varient pas au contact d une consonne sourde ou sonore lorsque le e est lid je m f che je n crois pas Quant au 1 le fait que cette lettre soit une consonne liquide fait que par nature elle se combine facilement avec d autres consonnes ainsi que ce soit au contact d une sourde l probl me ou d une sonore je l vois bien sa prononciation n est pas modifi e 2 2 Autres lisions D autres monosyllabes comme tu il s elle et vous sont eux aussi souvent lid s t as 1 vient 1 savaient pas e va voire pouvez pas vous tra ner ou z t s r avec aspiration de vous par le verbe Tout fonctionne en somme comme si aux personnes 1 2 4 et 5 le sujet tait marqu par une enclise consonantique droite et comme si aux personnes 3 et 6 demeurait surtout une opposition masculin f minin i 50 TAL Volume 49 n 3 2008 Outre ces cas sp cifiques la principale lision rencontr e concerne la vibrante r dans les mots finale en bre cre dre tre ou vre Cela est particuli rement flagrant lorsqu
12. ac uk home sampa La parole spontan e transcription et traitement 49 2 Parole spontan e vs parole pr par e Huit crit res notamment morphosyntaxiques permettent de caract riser la parole dite spontan e c est dire une parole alt r e variable en d bit et en fluidit 2 1 lisions du schwa et assimilations Abordons tout d abord l lision du schwa et les assimilations qui souvent en r sultent La r alisation ou non du schwa est en elle m me un probl me complexe sur lequel nombre de linguistes se sont pench s Celle ci rev t une importance particuli re pour la parole spontan e car elle induit souvent des assimilations portant sur des morph mes ou structures parmi les plus fr quentes pronom verbe de nom notamment En premier lieu je consonne sourde qui devient S des formes telles que j pense ou j crois deviennent respectivement ch pense et ch crois Les m mes arguments s appliquent galement de et dans des proportions presque identiques des donn es extraites du corpus ESTER nous ont permis de constater que des expressions comme pas d probl me ou pas d chance reviennent de nombreuses reprises dans la langue parl e et toujours par effet d assimilation sont prononc es pas t probl me et pas t chance un degr moindre on retrouve galement l lision du schwa avec te se
13. d environ quatre heures avec des transcriptions de Arr t sur images C dans l air C est notre affaire Madame monsieur bonsoir et Ripostes Par rapport aux missions radiophoniques la principale diff rence et pour ainsi dire la principale difficult est d identifier les locuteurs qui prennent la parole En effet la radio ne b n ficiant pas du support de l image le nom des intervenants est syst matiquement pr cis pour que l auditeur ne perde pas le fil de l mission la t l vision l image rend les choses totalement diff rentes en g n ral le nom du locuteur s affiche l cran lors de sa premi re intervention et ensuite la cam ra aura toujours tendance se cadrer syst matiquement sur la personne en train de s exprimer Seulement TRANSCRIBER ne g rant que tr s sommairement l usage de la vid o il nous a fallu r guli rement faire des allers retours entre l interface du logiciel et le fichier multim dia pour attribuer correctement les locuteurs ce qui repr sente une perte de temps cons quente Par ailleurs des missions comme Ripostes o le nombre d intervenants simultan s peut parfois s lever quatre ou cinq sont tr s difficiles traiter sans m me poser la question de l efficacit du logiciel utilis dans de tels cas l annotateur humain ne peut percevoir distinctement chaque flux de parole et quand bien m me il y parviendrait ce serait au prix d un tr s lon
14. globale que celle que nous employons ici et qui outre well recouvre galement des formes comme and ou y know De m me on pourra lire avec int r t les travaux de Gis le Chevalier Chevalier 2000 qui propose une tude des emplois de well en acadien du sud est du Nouveau Brunswick une variante du fran ais 2 8 Ph nom nes prosodiques Enfin nous terminerons cette tude des sp cificit s de la parole spontan e en voquant quelques objets ayant trait la prosodie tout d abord le m lisme Caelen Haumont 2002a d signant dans notre champ d tudes un allongement syllabique en fin de mot Tr s caract ristique de l oral o il se veut bien souvent tre la marque d une h sitation ce ph nom ne s est r v l particuli rement efficace lors d une exp rience interne pour d tecter des zones de parole spontan e dans de gros corpus audio Jousse 2008 Ensuite les pauses et plus pr cis ment leur dur e et leur fr quence sont un autre aspect remarquable de la parole spontan e En effet si l on observe un corpus de parole pr par e et notamment journalistique on s aper oit que les pauses dans le flux de parole y sont g n ralement peu nombreuses relativement br ves et bien souvent li es la respiration et ou la d glutition plus qu un ph nom ne d h sitation par exemple l inverse les pauses dans un cadre spontan interviews par exemple sont en g
15. l crit avec des fen tres de coh rence syntaxique parfois tr s longues l hypotaxe y est importante conjointes et sans interjection D un point de vue phonologique la parole spontan e se caract rise par deux ph nom nes importants la disparition des schwas ou e muet caduc central et les ph nom nes d assimilation qui en d coulent titre d exemple un mot comme cheval suite la disparition du schwa et une assimilation se prononce d sormais Sfall de fa on g n ralement inconsciente pour les locuteurs mais patente pour un syst me de reconnaissance automatique de la parole C est pourquoi nous nous proposons dans un premier temps de confronter linguistiquement la parole spontan e la parole pr par e afin d en faire ressortir les principales sp cificit s Puis apr s avoir propos un tat des lieux des corpus disponibles nous nous int resserons au traitement de la parole spontan e par le biais de diverses exp riences qui ont pour but d en optimiser la d tection et la transcription l aide d un syst me de reconnaissance automatique de la parole RAP Les r sultats ainsi obtenus nous permettront notamment d envisager une typologie des erreurs commises par les syst mes de RAP et de proposer quelques pistes en vue d am liorer leurs performances 1 Les transcriptions entre crochets qui figurent dans cet article sont crites en alphabet SAMPA http www phon ucl
16. la communaut parole ESTER par exemple ainsi que http clapi univ lyon2 fr sites univ provence fr veronis pdf 2004 presentation crfp pdf wwWw loria fr projets asila www uclouvain be valibel bach arts kuleuven be elicop DIU La parole spontan e transcription et traitement 57 divers autres apports tels que le corpus PFC phonologie du fran ais contemporain Durand et al 2002 ou les projets RHAPSODIE et VARILING Tous n ont pas t constitu s avec le m me objectif ESTER se place dans le domaine de la reconnaissance de la parole le CRFP s int resse la morphosyntaxe VARILING s inscrit dans une perspective sociologique RHAPSODIE traite de la prosodie tandis que PFC consid re les aspects phon tiques et phonologiques de la langue Le projet PFC s int resse la prononciation du fran ais sous trois angles diff rents g ographique social et stylistique Son objectif principal est de constituer gr ce aux enqu tes tr s pr cises de chercheurs et d tudiants un important corpus repr sentatif du fran ais parl dans le monde Une telle entreprise laisse entrevoir de nombreuses perspectives notamment dans le domaine de l enseignement du fran ais celui ci pourrait voluer pour tre plus proche d une langue de terrain si une dynamique de corpus grande chelle tels que PFC venait se cr er En plus de ces corpus un important travail de coordination a t mis en
17. m me elle peut parfois jouer sur deux mots tr s proches 7 6 la 10 la lettre de Guy M quet 7 l c tait le le la le la l accusation la plus grave 52 TAL Volume 49 n 3 2008 2 6 Fen trage syntaxique Toujours sur le plan morphosyntaxique la parole spontan e se caract rise galement par un ph nom ne remarquable les fen tres de coh rence syntaxique y sont courtes pas n cessairement conjointes et superposables En voici un exemple tir du corpus caf ainsi que la repr sentation qui lui succ de le d faut qu ils ont ils ont une chambre pour eux pour payer moins cher et ils prennent un copain ou deux et alors voil mais les bains qui c est qui les paye ils payent pour un bain ils payent pas pour trois ah a fen tre normale b fen tre interrompue lt c fen tre non initi e gt d fen tres de bafouillage e fen tres de recherche lexicale fen tres avec mise en commun ou apo Ko nou f1 mise en commun du segment central e rib a 1b f2 mise en commun du segment gauche UE ee 3 mise en commun du segment droit pla 1b eje le d faut qu ils ontl Pils ont une chambre pour eux24 pour payer moins cher2b et Bils prennent un copain ou deux3 et alors voil mais les bains qui c est qui les paye Pils payent pour un bain 6 ils payent pas pour trois6 ah Figure 1 Repr
18. n ral beaucoup plus longues et nombreuses d une part parce que les locuteurs ne b n ficient pas d un canevas prompteur notes pour tisser leurs propos et qu ils les con oivent donc au fur et mesure ce qui demande des p riodes de r flexion d autre part parce qu l inverse d un journaliste dont le m tier sous entend une r elle aisance pour s exprimer les intervenants lors d interviews ou de t moignages ne sont pas toujours familiaris s avec ces exercices il en r sulte souvent de longs blancs t moins de leurs h sitations Le d bit phon mique ob it galement cette dualit dans le cas d un journal d information il varie g n ralement peu Lors d un entretien et pour les raisons que nous venons d voquer il arrive que le locuteur peine encha ner ses propos s attarde puis soudain acc l re son flux de parole au gr de ses id es ou de son tat motionnel Enfin pour clore cette analyse prosodique nous aborderons l intonation Le projet EPAC qui est pr sent en 4 1 nous a permis d envisager ce ph nom ne de mani re concr te en effet l un des objectifs d EPAC est de fournir la transcription 54 TAL Volume 49 n 3 2008 annot e d environ cent heures de parole majoritairement spontan e Or toutes les transcriptions que nous r alisons dans cette optique sont ponctu es et naturellement cette ponctuation se base entre autres sur l int
19. place ces derni res ann es pour que ceux ci ne soient pas dispers s dans les diff rents laboratoires qui les ont collect s Le CRDO Centre de ressources pour la description de l oral en est un exemple patent puisque son archive ouverte regroupe actuellement de nombreux corpus dans diff rentes langues et dialectes dont certains sont consultables librement une moindre chelle le projet ASILA met galement disposition une dizaine de corpus aux th matiques vari es De m me Paul Cappeau et Magali Seijido ont r alis pour la DGLFLF un inventaire des corpus oraux qui passe en revue un grand nombre de corpus de langues fran aise et trang res fournissant pour la plupart d entre eux des informations sur le type de donn es enregistr es la transcription la disponibilit etc Cette disponibilit est d ailleurs un sujet qui fait d bat en effet tous les corpus existants sont loin de proposer la m me accessibilit quand certains restent m me ferm s toute personne n ayant pas particip leur laboration autant dire tout le monde Ainsi ASILA appara t aujourd hui bien seul dans la cat gorie du libre service si CLAPI tend s en rapprocher en proposant au t l chargement certaines transcriptions ainsi que leurs fichiers audio correspondants ELICOP et VALIBEL ne sont que consultables en ligne tandis que de gros corpus comme ESTER sont disponibles en change d
20. possibilit s de repr sentation soient tr s nombreuses Conventions Codage propos TRANSCRIBER des id es r r volutionnaires LDC des id es r r volutionnaires DELIC ICOR des id es r r volutionnaires PFC VALIBEL des id es r r volutionnaires TEI des id es lt del type truncation gt r lt del gt r volutionnaires Tableau 1 Codages propos s pour la troncation Comme on le voit ci dessus pour un seul ph nom ne parmi bien d autres il existe au moins cinq codages diff rents Il serait pourtant indispensable de s orienter vers un codage unifi ne serait ce que pour permettre un change une compatibilit et une lecture des donn es plus simples La TEI Text Encoding Initiative ensemble de recommandations pour coder des informations avec une nomenclature pr d finie afin de pouvoir les changer facilement ensuite est une base difficilement contestable Un chapitre y est consacr la transcription de la parole Tr s complet il passe en revue tous les principaux ph nom nes conversationnels et propose des solutions tr s int ressantes pour la parole interactive et superpos e notamment La prosodie y est galement consid r e sous de nombreux aspects vitesse d locution volume sonore intonation rythme qualit de la voix Cependant ce format reste assez difficile appr hender car s il permet de coder de tr s nombreux param tres il n e
21. transcription et la dur e totale des fichiers tant donn que les fichiers spontan s et pr par s repr sentent peu ou prou la m me dur e le rapport entre celle ci et le temps total n cessaire la transcription tableau 7 est un l ment qu il est pertinent de prendre en compte si l on consid re un segment de parole pr par e de 10 minutes le transcripteur aura besoin d environ 40 minutes pour transcrire le texte assigner les locuteurs et v rifier l orthographe s il s appuie sur un fichier de transcription g n r automatiquement Si l on r alise les m mes t ches sur le m me fichier mais cette fois de fa on enti rement manuelle environ 83 minutes seront n cessaires soit un temps de travail plus que doubl La m me exp rience mais cette fois avec un fichier de parole spontan e montre qu une transcription assist e demande 73 minutes de travail chiffre qui est presque le double de celui obtenu dans les m mes conditions avec la parole pr par e l inverse la transcription manuelle 90 minutes n est cette fois pas beaucoup plus co teuse en temps que la transcription assist e Ainsi s il est ind niable qu une transcription assist e est synonyme de gain de temps ce dernier est beaucoup plus important lorsqu il s agit de parole pr par e 68 TAL Volume 49 n 3 2008 Parole pr par e Parole spontan e Transcription manuelle 13 h 36 16h15 Transcriptio
22. une somme d environ 300 Enfin le CRFP corpus de r f rence du fran ais parl probablement le plus riche en parole spontan e n est ce jour pas accessible en dehors du laboratoire qui l h berge L un des probl mes qui se posent lorsque l on entreprend d effectuer une transcription est celui des conventions d annotation adopter outre le texte lui m me que veut on repr senter l cran et surtout comment souhaite t on le faire 10 www univ orleans fr eslo spip php rubrique13 11 http crdo risc cnrs fr exist crdo 12 http www loria fr projets asila 13 www culture gouv fr culture dglf recherche corpus_parole Inventaire pdf 58 TAL Volume 49 n 3 2008 TRANSCRIBER par exemple a son propre manuel du transcripteur ind pendant du manuel d utilisation et qui passe en revue de nombreux aspects de la langue orale en en proposant chaque fois un codage Heureuse initiative qui permet aux utilisateurs de r aliser rapidement des transcriptions compl tes et unifi es d autant que ni PRAAT ni WINPITCHPRO ne proposent ce genre de documentation Dans la pratique des conventions diverses sont n es au fil des projets ou des groupes de recherche qui ont vu le jour Des initiatives telles que le Linguistic Data Consortium ou la TEI proposent galement des conventions pour la transcription de la parole A nsi si parfois ces codages se recoupent il arrive souvent que les
23. 32 et ainsi favoriser l apprentissage du fran ais ils ont effectu une tude quantitative du nombre d occurrences des formes Il apparut alors que des mots comme on hein ou ben taient parmi les plus utilis s de la langue fran aise ce qu aucune grammaire de l poque n envisageait Aujourd hui certaines d entre elles se refusent encore consid rer seulement leur existence l poque o Damourette et Pichon entreprirent leurs recherches les micro ordinateurs n existaient videmment pas et les machines crire en taient leurs balbutiements Les transcriptions taient donc r alis es la vol e ce qui on l imagine aujourd hui devait s av rer fort peu confortable Les ordinateurs ont certes chang la donne offrant la possibilit d avoir recours au traitement de texte et ainsi de corriger modifier et surtout sauvegarder sans peine ses travaux Un grand pas a ensuite t franchi lorsqu il est devenu possible d une part de transf rer les donn es sonores vers un ordinateur et d assurer ainsi leur p rennit et d autre part d aligner le signal audio avec le texte de la transcription il tait alors possible en quelques secondes d couter n importe quelle partie de l enregistrement et de voir appara tre l cran la transcription qui en avait t faite Cette synchronisation offre entre autres la possibilit de r couter tr s facilement
24. anscription oral specificities automatic Speech recognition systems TAL Volume 49 n 3 2008 pages 47 76 48 TAL Volume 49 n 3 2008 1 Introduction D un point de vue nonciatif la parole spontan e peut se d finir comme un nonc con u et per u dans le fil de son nonciation Luzzati 2004 c est dire un nonc produit pour un interlocuteur r el par un nonciateur qui improvise cela implique que les corrections ne peuvent se traduire que par un prolongement du message La parole pr par e celle qu emploient les journalistes pr sentant les informations radiophoniques ou t l vis es est une parole produite pour un interlocuteur plus ou moins fictif par un nonciateur qui en poss de la ma trise qui est capable de produire des nonc s qui n ont plus tre repris ou corrig s ou qui est capable de le masquer De ce point de vue on comprend qu on puisse parler galement de parole conversationnelle non pr m dit e ou co construite D un point de vue morphosyntaxique la parole spontan e se caract rise par deux ph nom nes saillants on y trouve un grand nombre de disfluences Adda Decker et al 2004 et le fen trage syntaxique y est particulier Les fen tres de coh rence syntaxique Luzzati 2004 y sont courtes empan moyen inf rieur huit mots elles ne sont pas n cessairement conjointes et elles sont superposables l inverse la parole pr par e tend vers
25. ard Caelen Haumont G Prosodie et dialogue spontan Valeurs et fonctions perlocutoires du m lisme in TIPA n 21 pp 13 24 2002a Caelen Haumont G Perlocutory Values and Functions of Melisms in Spontaneous Dialogue Proceedings of the 1 International Conference on Speech Prosody Aix en Provence France pp 195 198 2002b Chevallier G Description lexicographique de l emprunt well dans une vari t de Fran ais parl du sud est du Nouveau Brunswick in Contacts de langue et identit s culturelles perspectives lexicographiques Presses de l Universit Laval PUL Qu bec 2000 Cohen J A coefficient of agreement for nominal scales in Educational and Psychological Measurement 20 pp 37 46 1960 Damourette J et Pichon E Des mots la pens e essai de grammaire de la langue fran aise D Artrey Paris 1911 1927 Del glise P et al The LIUM Speech Transcription System A CMU Sphinx III Based System for French Broadcast News Interspeech 2005 Lisbonne Portugal Durand J et al Un corpus num ris pour la phonologie du fran ais in G Williams ed La linguistique de corpus Rennes Presses Universitaires de Rennes pp 205 217 Actes du colloque La linguistique de corpus Lorient 12 14 septembre 2002 Durand J et al Synopsis du projet PFC La phonologie du fran ais contemporain Usages Vari t s et Structure in Bulletin PFC n 1 Durand
26. ats maximisant la f mesure sur les deux types de parole La premi re colonne montre les r sultats obtenus en utilisant les crit res linguistiques sur les phrases de r f rence transcrites manuellement la deuxi me les r sultats obtenus par ces crit res sur les phrases propos es par le syst me de reconnaissance de la parole SRAP la troisi me les r sultats obtenus l aide des crit res acoustiques fournis par le SRAP et la derni re les r sultats obtenus par le syst me combinant tous les crit res extraits automatiquement Parole spontan e Caract ristiques ling r f ling rap acou rap ling acou rap Pr cision 70 8 62 7 63 9 66 5 Rappel 62 1 56 7 56 3 61 5 F mesure 66 2 59 5 59 9 63 9 64 TAL Volume 49 n 3 2008 Parole pr par e Caract ristiques ling r f ling rap acou rap ling acou rap Pr cision 79 2 75 8 75 9 78 3 Rappel 84 9 80 1 81 2 81 7 F mesure 81 9 77 9 78 5 80 0 Tableau 2 et 3 Performances en d tection pr cision rappel Nous constatons que la combinaison des crit res extraits automatiquement l aide d un SRAP autorise des r sultats comparables aux r sultats obtenus en tudiant uniquement les transcriptions de r f rence l aide des crit res linguistiques malgr un taux d erreur sur les mots avoisinant globalement 32 Ces r sultats quoique encourageants n cessitent d tre encore am lior s pour
27. comp tences 12 sont l statiques i l s bougent pas sont lasse Tati qui bougent pas Comme en atteste ce relev la distinction parole pr par e parole spontan e n est pas forc ment la cause des erreurs du syst me dans l exemple 12 l lision du 1 appartient au domaine du spontan et il est peu pr s certain que la prononciation du phon me correspondant aurait vit les confusions qui r sultent de son lision N anmoins si l on consid re l exemple 9 qui est issu d un flash d information aucune alt ration phonologique n appara t ce qui n emp che pas le syst me de proposer une s quence acoustiquement exacte mais s mantiquement erron e Ce type d erreurs difficilement vitable l heure actuelle est donc susceptible d appara tre quel que soit le contexte langagier dans lequel on se trouve Il est cependant ind niable que la langue fran aise elle m me joue un r le important dans l apparition de ces confusions contrairement ses homologues anglaise allemande ou espagnole elle est d une tr s grande richesse homonymique allant des monosyllabes foi fois foie Foix lait les lais laie aux vers holorimes Gal amant de la reine alla tour magnanime galamment de l ar ne la tour Magne N mes Cette singularit qui passerait volontiers pour un charmant idiotisme devient dans le domaine de la reconnaissance automatique de la parole un insoluble casse t te Par
28. e le mot suivant commence par une consonne en effet l immense majorit des locuteurs dans un contexte spontan ne dira jamais quatre pattes mais plut t quat e pattes s quence beaucoup plus simple articuler dans un discours d bit relativement rapide Dans le corpus ESTER Galliano 2005 on trouve ainsi novemb e convainc e descend e peut t e surviv e et disparaissent parfois dans c tait c est dire d j ou coutez qui deviennent s tait c t dire d j ou coutez Parfois cela fait appara tre un schwa qui accentu passe du au 9 il en va ainsi du d monstratif cette parfois prononc c te 1 dans deux cas pr cis peut galement tre lid e plus ou je lui sont parfois r duits p us ou j ui notons que dans ce cas le schwa de je est lui aussi lid Pour terminer nous mentionnerons quelques cas d lisions isol s puis parce que et enfin deviennent tr s souvent p is pac e que et fin avec un sens sans doute diff rent d un emploi sans lision L expression tout l heure se transforme quelquefois en tt l heure Enfin certains mots commen ant par at ont tendance voir cette s quence initiale dispara tre attention
29. ent tout en en visualisant la transcription 17 http www agence nationale recherche fr 18 http epac univ lemans fr 60 TAL Volume 49 n 3 2008 la gestion des locuteurs est tr s compl te puisqu il est possible de sp cifier pour chacun d entre eux en plus de leur identit des l ments tels que le type de parole la qualit de l enregistrement le canal utilis ce programme est gratuit open source ergonomique simple d acc s et sait traiter de nombreux formats en entr e comme en sortie il peut g rer des fichiers audio de plusieurs heures bien qu il ne soit pas forc ment optimis pour la parole conversationnelle probl me sur lequel nous reviendrons ult rieurement des balises sont disponibles pour repr senter des l ments sonores bruits divers jingles inspirations lexicaux ou encore des prononciations particuli res le format des fichiers de transcription trs permet de faire de l apprentissage sur les syst mes de reconnaissance ce qui est une condition sine qua non dans le cadre du projet EPAC Pour les besoins du projet nous avons principalement transcrit des donn es radiophoniques France Culture RFI France Inter RMC mais galement quelques missions de la cha ne de t l vision France 5 susceptibles de contenir de la parole spontan e eu gard leur forme m me d bats interviews rencontres Nous avons ainsi constitu un corpus
30. erviews et douze comme de la parole pr par e informations Sur chacun de ces fichiers une transcription manuelle et une transcription assist e ont t effectu es par le m me transcripteur suffisamment longtemps apr s pour que la seconde transcription ne soit plus influenc e par la m moire de la premi re Cette transcription comportait trois niveaux la segmentation en tours de parole et la transcription l assignation des locuteurs la v rification orthographique La parole spontan e transcription et traitement 67 Pour chacune de ces tapes un chronom trage la minute a t effectu Voici les principaux r sultats que nous avons obtenus Parole pr par e Parole spontan e Transcription manuelle 17 h 36 19h 33 Transcription assist e 8h31 15 h 44 Tableau 6 Dur e totale de la transcription dur es respectives des corpus 2 h 08 et2h 10 Le tableau 6 montre que la transcription assist e induit un important gain de temps surtout pour la parole pr par e Pour ce type de donn es le temps n cessaire la transcription est approximativement deux fois moins important lorsque le transcripteur est assist Lorsqu il s agit de parole spontan e ce b n fice est bien moindre Parole pr par e Parole spontan e Transcription manuelle 8 26 9 05 Transcription assist e 4 00 7 29 Tableau 7 Rapport entre la dur e totale de la
31. es reporters interview s speakers mais beaucoup moins de tours de parole dans la mesure o ceux ci sont beaucoup plus longs De plus dans un segment spontan se trouve parfois de la parole superpos e et lorsque trois locuteurs ou plus sont susceptibles de prendre la parole cela peut tre long et difficile de d terminer qui parle r ellement Parole pr par e Parole spontan e Transcription manuelle 2h43 1h05 Transcription assist e 2h08 0h51 Tableau 10 Correction orthographique La parole spontan e transcription et traitement 69 Le minutage de la correction orthographique tableau 10 a permis d observer un ph nom ne remarquable si la diff rence sp cifique entre transcription manuelle et assist e n est certes pas tr s significative celle entre parole pr par e et spontan e l est beaucoup plus La raison en est fort simple les segments de parole pr par e contiennent essentiellement de l information radiophonique or ce genre de donn es s av re tr s riche en noms propres reporters interview s personnalit s villes dont les orthographes exactes ne peuvent tre syst matiquement connues de l annotateur Les rechercher peut donc tre une t che assez longue notamment dans le cas de noms trangers Inversement les fichiers de parole spontan e tant des interviews ou des d bats on y trouve tr s peu de noms propres car les th mes abord s ne
32. g rement mieux reconnus que ceux qui a t attribu e la note 1 les autres suivent une courbe ascendante d passant la barre des 60 d erreurs sur les segments not s 8 bien y regarder il est en fait possible de d gager trois grandes cat gories de 1 3 la parole est de bonne voire tr s bonne qualit avec peu ou pas de disfluences et le taux d erreur se situe aux alentours de 20 de 4 6 la parole est moins fluide comprend quelques h sitations et le taux d erreur va jusqu approcher les 40 les segments not s 7 et surtout 8 tendent vers une parole difficilement compr hensible riche en h sitations b gaiements d o les performances moindres de LIUM RT qui oscillent entre 45 et 60 4 3 D tection automatique de la parole spontan e Afin de pouvoir mettre en place des strat gies sp cifiques pour la transcription automatique de la parole spontan e mais aussi pour extraire des zones de parole spontan e partir de masses de donn es audio il est n cessaire de d velopper des outils ad quats Nous avons donc tudi plusieurs crit res linguistiques qui ont comme particularit importante de pouvoir tre fournis par un syst me de transcription automatique afin de caract riser la parole spontan e par rapport la parole pr par e Parmi ces crit res la prosodie occupe une place importante en effet des travaux ant rieurs ont mis en vidence des liens ent
33. g travail d coute 4 2 Le concept de qualit d locution Pour tenter de contourner l ambigu t que suppose la distinction parole pr par e parole spontan e lorsqu un locuteur habitu s exprimer parle spontan ment son propos s apparente de la parole pr par e nous avons r alis La parole spontan e transcription et traitement 61 une tude en consid rant cette fois ci la qualit d locution concept que nous allons expliciter dans les lignes qui suivent Un corpus radiophonique d environ onze heures a t choisi comprenant des extraits de France Inter France Info Radio Classique RFI et France Culture Les fichiers ont t segment s de fa on automatique et le texte a t quant lui supprim Deux annotateurs taient charg s de noter chaque segment de parole suivant une chelle num rique allant de 1 9 La note 1 tait celle attribu e un segment sans aucune disfluence avec une locution parfaitement claire 9 indiquait un segment inaudible tant les h sitations r p titions faux d parts etc taient nombreux ce cas extr me n a jamais t rencontr au cours de l exp rience Une note globale tait ensuite attribu e chaque tour de parole pour viter d accorder la m me importance un segment tr s bref donc potentiellement moins susceptible de comporter des disfluences et un segment long de plusieurs secondes Une partie de ces onze heure
34. l chir des hypoth ses qui permettraient d optimiser les syst mes de reconnaissance automatique de la parole En premier lieu les corpus eux m mes peuvent tre un l ment de r ponse bien que comme nous l avons vu il n en existe r ellement pas beaucoup de disponibles il serait peut tre bon d aller dans la mesure du possible vers une unification de ceux ci Cela en faciliterait grandement l change et la disponibilit d autant que ces donn es sont trop rares pour qu elles ne profitent pas au plus grand nombre Malheureusement c est souvent difficile non seulement en raison de transcriptions et de codages sp cifiques un projet un laboratoire de recherche ou un logiciel mais galement cause d une diffusion parfois tr s confidentielle Une autre solution serait naturellement de cr er de nouveaux corpus centr s sur la parole spontan e Or nous l avons vu de tels projets sont tr s co teux quand bien m me l on s affranchirait de la collecte de donn es en s appuyant sur des 74 TAL Volume 49 n 3 2008 enregistrements d j effectu s la t che de transcription elle seule est synonyme de centaines d heures de travail pour un corpus moyen Enfin nous essayons actuellement d int grer dans le dictionnaire de prononciation de LIUM RT les variantes de prononciations que l on rencontre l oral parce que pasque c est dire stadir afin qu e
35. le Queneau consid rait dans B tons chiffres et lettres que l usage du magn tophone a provoqu en linguistique une r volution assez comparable celle du microscope avec Swammerdam et bien que quelques travaux pr curseurs sur le sujet n aient pu b n ficier d un tel support il est incontestable que le fait de pouvoir capturer l oral en a radicalement modifi la perception Et pourtant avant m me que ne naisse cette invention Damourette et Pichon Damourette et Pichon 1911 1927 en s appuyant sur des conversations recueillies aupr s d un m decin d une institutrice etc avaient dessin les premiers contours morphosyntaxiques d une langue orale dont la communaut linguistique avait encore pourtant du mal admettre l existence Puis il y a eu Bally Bally 1929 et surtout Frei Frei 1929 qui s est attach analyser les lettres non parvenues aux soldats de la Grande Guerre Ces lettres taient r dig es par des familles souvent peu famili res de l criture et le style employ tait en cons quence tr s oralis Mais ce sont v ritablement Gougenheim et ses collaborateurs Gougenheim et al 1964 qui s appuyant sur deux cent soixante quinze enregistrements sonores ont r v l par effet de bord la v ritable teneur de l oral spontan souhaitant avant La parole spontan e transcription et traitement 55 tout proposer un quivalent du basic English Ogden 19
36. les erreurs des syst mes de reconnaissance automatique Si l on sait aujourd hui que les syst mes de reconnaissance automatique sont moins performants sur la parole que l on appelle spontan e il n en reste pas moins que la parole pr par e est elle aussi source d erreurs bien que celles ci soient en nombre nettement inf rieur et surtout appartiennent des cat gories bien pr cises Nous allons donc tenter de proposer exemples l appui un classement et une analyse des erreurs commises par le syst me de reconnaissance LIUM RT 70 TAL Volume 49 n 3 2008 4 6 1 Homonymes paronymes La principale difficult prouv e par le syst me de reconnaissance automatique est de traiter les ph nom nes d homonymie et de paronymie Ceux ci sont particuli rement importants en fran ais o les monosyllabes homophones sont beaucoup plus nombreux que dans d autres langues et o la combinaison de syncopes et d assimilations produit une morphologie li e particuli rement ambigu Concernant les homonymes nombreux sont en effet les cas o la suite de phon mes per ue par le syst me est la bonne mais sans la transcription orthographique idoine En voici quelques exemples 8 l je viens d ouvrir l ge vient d ouvrir 9 affirment elles avoir interpell affirmaient l avoir interpell 10 proches hein prochain 11 chevauchement de comp tence chevauchent Mende
37. lish A General Introduction with Rules and Grammar Kegan Paul Londres 1932 Pallaud B Amorces de mots et r p titions des h sitations plus que des erreurs en fran ais parl JADT 2004 10 12 mars 2004 Louvain la Neuve Belgique Pallaud B Troncations de mots reprises et interruption syntaxique en fran ais parl spontan JADT 2006 19 21 avril 2006 Besan on Schapire R E et Singer Y BoosTexter A boosting based system for text categorization Machine Learning vol 39 pp 135 168 2000 Schiffrin D Discourse markers Language Meaning and Context in The Handbook of Discourse Analysis Blackwell Publisher pp 54 2001 Shriberg E Phonetic consequences of speech disfluency Proceedings of the International Congress of Phonetics Sciences ICPhS 99 pp 619 622 1990 Siu M H et Ostendorf M Modeling disfluencies in conversational speech ICSLP 1996 vol 1 1996 Vaissi re J Utilisation de la prosodie dans les syst mes automatiques un probl me d int gration des diff rentes composantes in Faits de Langues n 13 pp 9 16 1990
38. lles figurent parmi les hypoth ses envisageables lors du processus de reconnaissance automatique De m me nous aimerions pouvoir donner un score de probabilit ces variantes il est av r que dans une situation de parole spontan e c est dire est souvent prononc stadir En cons quence il serait int ressant de pouvoir orienter le syst me lorsqu il rencontre cette s quence sonore vers la forme c est dire plut t que vers salir solution qu il propose actuellement face pareil cas En d autres termes donner un syst me de reconnaissance de la parole la capacit de d tecter la parole spontan e au m me titre qu on est capable d identifier la langue pourrait permettre de mettre en uvre des modalit s de reconnaissance sp cifiques int gr es dans l apprentissage et ou dans les bases de connaissances 5 Conclusion La parole spontan e avant d en envisager un quelconque traitement n cessite d tre d finie sous des angles divers qui ne rev tent pas le m me int r t selon les buts poursuivis Dans cet article nous en avons propos diff rentes d finitions en insistant sur la morphosyntaxe qui en fran ais diverge beaucoup par rapport la parole pr par e et l crit Les diverses t ches et exp rimentations que nous avons men es dans le cadre de cet article ont permis des avanc es significatives constitution d un corpus de transcriptions d
39. n cessitent en g n ral qu un faible emploi de ces entit s nomm es Parole pr par e Parole spontan e Transcription manuelle 16 95 35 21 Transcription assist e 15 83 34 33 Tableau 11 Taux d erreur mot Les derni res observations effectu es concernent le taux d erreur mot tableau 11 Celui ci a t mesur partir des sorties automatiques g n r es par le syst me LIUM RT lesquelles ont t compar es aux transcriptions manuelles puis assist es r alis es par l annotateur Les moyennes indiqu es ci dessus confirment ce que nous disions pr c demment le syst me de reconnaissance automatique du LIUM n est pas aussi performant sur la parole spontan e que sur la parole pr par e titre d exemple le taux d erreur mot le plus lev que nous ayons obtenu sur de la parole pr par e tait de 21 8 alors qu il s est lev 53 4 avec la parole spontan e Les diff rences observ es entre les t ches manuelles et assist es peuvent tre expliqu es par le fait que le transcripteur n a pas forc ment transcrit le m me texte chaque fois il est parfois difficile de percevoir clairement des ph nom nes tels que les r p titions les faux d parts ou encore la parole superpos e En cons quence les transcriptions ne seront pas toujours identiques m me lorsqu elles sont r alis es deux fois par la m me personne 4 6 Relev classement et analyse des principa
40. n assist e 5h06 12h41 Tableau 8 Transcription du texte et segmentation C est lors de la t che de transcription du texte tableau 8 que le gain le plus int ressant a t obtenu sur de la parole pr par e une transcription manuelle n cessite environ 2 67 fois plus de temps qu une transcription assist e 5 h 06 vs 13 h 36 Ce chiffre est tr s significatif notamment s il est compar celui obtenu avec la parole spontan e pour une dur e sensiblement quivalente il chute 1 28 Cet cart met en exergue le fait que les syst mes de reconnaissance automatique de la parole prouvent des difficult s traiter la parole spontan e obligeant le transcripteur effectuer par la suite beaucoup de corrections manuelles Parole pr par e 1h17 1h17 Parole spontan e 2h 13 2h 13 Transcription manuelle Transcription assist e Tableau 9 Assignation des locuteurs En ce qui concerne l assignation des locuteurs tableau 9 il est surtout important de retenir que cette t che demande presque deux fois plus de temps quand la parole est spontan e Cela peut s expliquer relativement facilement les nombreux tours de parole de la parole spontan e contraignent le transcripteur devoir leur assigner un locuteur chacun et ce m me s il n y en a que deux dans un fichier l inverse un segment de parole pr par e contient souvent de nombreux locuteurs journalist
41. onation Il est ainsi apparu clairement que l annotateur prouvait beaucoup plus de difficult s ponctuer des propos spontan s que des propos pr par s Certes la rigueur syntactico s mantique des propos journalistiques y est pour beaucoup mais les intonations marqu es apportent galement au transcripteur des indications non n gligeables Or celles ci sont beaucoup moins transparentes lorsqu il s agit de parole spontan e tout simplement parce que comme nous le disions plus haut la parole est alors labor e au fur et mesure qu elle est nonc e A nsi le locuteur ne sait parfois pas o le segment de parole qu il a commenc se terminera et ne peut donc y adjoindre une quelconque marque intonative Ou encore il arrive qu il le fasse par exemple en adoptant une intonation descendante pour indiquer la fin d un nonc puis se ravise ensuite et compl te celui ci Il est alors bien d licat de d terminer ce qui doit r gir la d cision de l annotateur l intonation ou la structure phrastique 3 Les corpus 3 1 Historique Se lancer dans l tablissement d un corpus de parole spontan e sous entend des possibilit s d enregistrement et de traitement postenregistrement importantes Comment en effet envisager d analyser un objet dont on ne saurait avoir une quelconque trace cet gard l historique des corpus qui nous int ressent est troitement li aux avanc es technologiques du xx si c
42. orme la parole tant monopolis e par des professionnels Ainsi les enregistrements de France Info qui repr sentent pr s de 40 du corpus ne contiennent par essence pas ou tr s peu de parole spontan e Autrement dit si l on ne tient pas compte de cette radio le chiffre passe de 30 50 ce qui est finalement beaucoup et suppose que la parole spontan e ne se r duit pas aux interviews hors grande coute de personnes de milieu modeste L un des sous projets d EPAC intitul annotation et valuation a pr cis ment pour objectif de d finir quels enregistrements doivent tre consid r s comme tant conversationnels pour ensuite en transcrire une centaine d heures et ainsi fournir les donn es n cessaires l entra nement au d veloppement et l am lioration de syst mes de reconnaissance automatique de la parole Ayant pr alablement d fini ce que nous entendions par parole conversationnelle avec toutes les sp cificit s que cela sous entend nous allons pr sent nous attacher pr senter et d tailler la t che de transcription elle m me En premier lieu il nous faut pr ciser que ces transcriptions sont r alis es l aide du logiciel TRANSCRIBER qui pr sente en la circonstance de multiples avantages il offre la possibilit d aligner le signal audio avec la transcription ce qui permet d couter ou de r couter tr s facilement n importe quelle partie de l enregistrem
43. r le traitement de gros corpus est g n ralement privil gi pour des t ches sp cifiques notamment l analyse de la prosodie domaine dans lequel il se r v le tr s complet gr ce la possibilit d int grer ce logiciel de nombreux modules compl mentaires WINPITCHPRO est pour sa part plus difficile d acc s moins par son interface plut t intuitive que par la richesse de ses fonctionnalit s Certes moins habile que TRANSCRIBER pour g rer les fichiers audio de grande taille il permet des analyses tr s fines quatre vingt seize niveaux d annotation sont disponibles soit autant de possibilit s de codage et plusieurs niveaux prosodie phonologie Par ailleurs il traite les fichiers audio et vid o ce qui le distingue des deux outils pr cit s et permet une synchronisation entre l image le signal et la transcription Il est malgr tout regrettable que cet outil ne fonctionne que sous Windows et qu il ne soit pas open source 3 3 Corpus disponibles et conventions existantes Aujourd hui de plus en plus de corpus de fran ais parl se cr ent au sein de divers laboratoires et groupes de recherche Les plus importants l heure actuelle plus de quatre cent mille mots sont la base de donn es CLAPI Lyon quipe ICAR le corpus CRFP Aix en Provence quipe DELIC le projet ASILA ainsi que deux initiatives belges VALIBEL et ELICOP ces derniers viennent se joindre ceux issus de
44. rapport aux autres langues latines notamment elle repose sur le fait que le fran ais a op r au cours de son histoire une r duction syllabique massive qui aboutit un nombre d autant plus consid rable de monosyllabes homophones qu on inclut les formes fl chies et la morphologie li e Le tableau 12 met par exemple en regard les diff rentes graphies de la s quence t et leurs traductions en italien en l occurrence toutes fond es sur les m mes tymons latins cela s ajoute notamment pour les verbes que le fran ais marque la personne non plus droite du verbe par une d sinence comme le latin ou l italien mais gauche du verbe par un pronom susceptible d tre modifi et disjoint eux qui parlent sont repr sent moi qui ai a ou m me r duit je suis tu es vous tes deviennent Sshi ou Shi te ou tE zEt La parole spontan e transcription et traitement 71 Fran ais Italien tant tanto temps tempo taon tafano tends tendre pers1 tendo tends tendre pers2 tendi tend tendre pers3 tende ten je ten parle te ne te ne parlo Tableau 12 graphies ta et traductions en Italien 4 6 2 e ouvert e ferm Ensuite et c est l sans doute le n ud du probl me il existe en fran ais une confusion parfois totale entre le e ouvert et le e ferm Th oriquement la phon tique voudrait par exemple que la forme verbale j
45. re d entre elles proviennent d extraits contenant de la parole pr par e ou s y appliqueraient volontiers 4 6 3 Assimilations Cela dit il est effectivement des sp cificit s de la parole spontan e qui sont source d erreurs d interpr tation du logiciel de reconnaissance automatique et notamment l assimilation Cette variation phon tique entra nant la modification de la prononciation d une consonne sourde au contact d une consonne voisine sonore ou l inverse est d autant plus fr quente dans la parole spontan e qu elle est tr s souvent provoqu e par la disparition d un schwa caract ristique r currente de ce type de discours Et le syst me souvent peu entra n ce genre de ph nom ne ne sait pas toujours d duire le mot ou la s quences de mots exacts partir de sa prononciation assimil e d o un nombre important d erreurs potentielles tant les possibilit s d interf rence entre consonnes sont nombreuses La plus fr quente est certainement celle confrontant le d qui est une consonne sonore une consonne sourde dans la s quence de nom ou verbe o le e est lid contraignant ainsi le son d devenir t Nous avons eu l occasion de relever plusieurs occurrences lors de nos exp riences envie d e passer vite pass pas d e sanitaires patte sanitaire coup d e fil co te fils Dans chacun de ces trois exemples le syst
46. re prosodie et parole spontan e Comme propos dans Shriberg 1999 nous avons ainsi utilis la dur e des voyelles et des m lismes cf 1 9 Nous avons pris en compte pour un segment de parole donn la dur e moyenne la variance et l cart type de ces unit s pour mesurer la dispersion des dur es autour de leur moyenne De plus nous avons int gr comme propos dans Caelen Haumont 2002b qui montre la corr lation entre d bit de parole et tat d motivit d un locuteur des informations concernant le d bit phon tique sous deux formes la variance du d bit phon tique pour chaque mot et la moyenne des d bits phon tiques pour l ensemble du segment de parole vis Par ailleurs un grand nombre de travaux ont permis de d crire les disfluences pauses pleines h sitations r p titions faux d parts etc au niveau acoustique Shriberg 1999 ou lexical Siu et Ostendorf 1999 Nous avons retenu deux crit res pour les repr senter qui peuvent tre fournis par un syst me de transcription automatique de la parole La parole spontan e transcription et traitement 63 les pauses pleines le dictionnaire du syst me de transcription automatique contient plusieurs symboles qui repr sentent les euh ben hum Le nombre d occurrences de ces symboles dans un segment de parole est un premier crit re retenu r p titions et faux d parts nous avons r duit ce crit re au nombre d
47. ression Par ailleurs un nombre important de balises est int gr pour repr senter les v nements sonores 4 www fon hum uva nl praat 56 TAL Volume 49 n 3 2008 bruit respiration toux reniflement les prononciations particuli res ou encore des particularit s lexicales Le gros inconv nient de TRANSCRIBER concerne la parole superpos e qui nous le verrons est trait e de fa on trop simplifi e pour pouvoir rendre compte de ce ph nom ne majeur dans la langue parl e Pour ce genre de donn es PRAAT s av re nettement plus efficace puisqu il offre un grand nombre de tires ind pendantes les unes des autres Il est possible d en assigner une chaque locuteur et ainsi de transcrire ind pendamment leurs propos tout en les alignant avec le signal Le fichier de sortie correspondant textgrid offre la possibilit d organiser la transcription suivant l chelle temporelle ou bien par locuteur ce qui se r v le fort pratique pour des recherches lexicales par exemple On peut toutefois regretter qu il ne soit pas au format XML standard aujourd hui incontestable pour assurer l change et la compatibilit des donn es Autres aspects dommageables ce logiciel pr sente une interface assez aust re et n offre qu une gestion minimale des locuteurs hormis leur nom rien ne peut tre indiqu dans l espace qui leur est attribu vrai dire PRAAT bien moins efficace que TRANSCRIBER pou
48. reur sur les mots en fonction des mod les de langage obtenu sur les segments du corpus de test en fonction de leur classe de spontan it Nous pensons que les apports visibles du corpus PFC sur la mod lisation du langage ne se r percutent pas dans les performances du SRAP en raison de ph nom nes ext rieurs cette mod lisation qui seraient mal appr hend s par le syst me En particulier les dictionnaires de mots phon tis s que nous utilisons sont trop rigides et ne prennent pas en compte les sp cificit s de la parole spontan e Dans le cadre du projet EPAC nous travaillons actuellement mieux mod liser ces prononciations En revanche ces r sultats confirment que la parole spontan e doit tre trait e de fa on sp cifique et qu il est donc utile de d velopper des outils de d tection automatique de la parole spontan e afin de choisir les meilleures strat gies pour la reconnaissance de la parole 4 5 Transcription manuelle vs transcription assist e quel s gain s Dans le but de quantifier le gain de temps qui pouvait tre obtenu gr ce l utilisation d un syst me de reconnaissance automatique par rapport une transcription r alis e enti rement la main nous avons men l exp rience suivante vingt quatre segments d environ 10 minutes ont t s lectionn s parmi les donn es non transcrites du corpus ESTER douze ont t consid r s comme tant de la parole spontan e d bats ou int
49. s a t valu e conjointement par les deux annotateurs pour qu ils soient s rs de bien utiliser les m mes crit res de notation Ensuite le coefficient Kappa Cohen 1960 a t calcul pour valider le processus Un score de 0 852 a t obtenu sachant que les scores d passant 0 81 sont consid r s comme tant excellents Cela prouve que malgr la relative subjectivit du concept de qualit d locution les deux annotateurs taient d accord pour d terminer ce qui tait de la parole de bonne qualit et ce qui n en tait pas Puis afin de v rifier si cette qualit d locution allait de pair avec le taux d erreur mot nous avons ensuite mis en parall le les sorties automatiques g n r es par LIUM RT le syst me de reconnaissance automatique du LIUM Est ve ef al 2004 Del glise et al 2005 avec les transcriptions manuelles de r f rence Le taux d erreur mot a t mesur sur chaque ensemble de segments ayant obtenu la m me note Voici les r sultats que nous avons obtenus 10 m 7 40 pF Taux d erreur 0 4 L 1 4 L L 4 rate Degr de spontan it Figure 2 Taux d erreur de LIUM RT en fonction de la qualit d locution 62 TAL Volume 49 n 3 2008 Comme l indique ce graphique une corr lation entre qualit d locution et taux d erreur mot existe Si l on excepte les segments auxquels ont t adjointes les notes 2 et 3 l
50. s amorces ou fins de mots particularit s qu on ne retrouve presque que dans la parole spontan e Ce qui ne manque pas nouveau de cr er de nouvelles confusions bah s0 basses on a des r on adh re en fin fin 4 6 5 Autres Enfin nous mentionnerons pour terminer quelques probl mes g n raux que nous avons rencontr s dans une majorit de fichiers Tout d abord et cela concerne surtout la parole spontan e la parole superpos e n est pas correctement trait e Naturellement les enregistrements utilis s tant monophoniques cette t che est d autant plus difficile voire impossible r aliser Il n en reste pas moins que la superposition de locuteurs fait partie int grante de la parole spontan e et que r ussir la traiter serait une avanc e consid rable dans le domaine de la reconnaissance automatique de la parole Des mots relativement brefs comme et ou ou chappent assez r guli rement la vigilance de LIUM RT ce qui s explique pr cis ment par leur bri vet et par le fait qu ils soient souvent aspir s par les mots qui les pr c dent ou les suivent Enfin il arrive fr quemment qu une inspiration soit interpr t e par le syst me de reconnaissance automatique comme une occurrence de la conjonction de subordination que 4 7 Quelques pistes pour optimiser les syst mes de reconnaissance automatique Pour conclure nous nous proposons de r f
51. sentation de l exemple ci dessus partir de la th orie du fen trage syntaxique 2 7 Morph mes sp cifiques D un point de vue lexical la parole spontan e se caract rise par l emploi de morph mes typiquement oraux tels que euh ou ben et ses d riv s Luzzati 1982 Extr mement nombreux dans les corpus que nous avons constitu s leur r le est pourtant parfois opaque Si euh indique majoritairement l h sitation et est ce titre souvent employ de fa on r p t e les emplois de ben sont quant eux beaucoup plus difficiles cerner forme oralis e de bien conjonction de coordination adverbe banalisons le pain comme n importe quel euh objet et videmment l tat euh euh gauche ou droite ben c est gentil mais eh ben ton installation est est impeccable qui euh ben qui va s av rer tre un un apprenti euh formidable 3 http www loria fr projets asila corpus_en_ligne html La parole spontan e transcription et traitement 53 Notons que ces morph mes et les analyses s y rattachant ne sont pas sp cifiques la langue fran aise l anglais par exemple poss de avec la forme well une expression s mantiquement proche de nos euh et ben fran ais dans certaines de ses acceptions Deborah Schiffrin s y est int ress e dans une tude sur les discourse markers Schiffrin 2001 terminologie plus
52. un extrait pour voir si les propos transcrits y correspondent et ainsi de corriger rapidement une erreur ou une interpr tation Les logiciels d aide la transcription qui proposent cette fonctionnalit sont aujourd hui tr s r pandus et nous allons nous arr ter sur quelques uns des plus utilis s l heure actuelle 3 2 Les logiciels d aide la transcription Il existe principalement trois logiciels utilis s pour la transcription orthographique d un fichier son TRANSCRIBER Barras et al 1998 PRAAT et WINPITCHPRO Martin 2003 Moins r pandus pour des raisons diverses outils payants ergonomie discutable CLAN EXMARALDA ou encore TRANSANA n en m ritent pas moins d tre cit s ici chacun offrant des possibilit s int ressantes Sur le fond bien qu aucun ne soit r ellement optimis pour transcrire de la parole spontan e grande chelle leur interface globale offre cependant la possibilit d en g rer quelques aspects TRANSCRIBER logiciel avec une interface et des fonctionnalit s simplifi es est optimis pour la transcription et l annotation de gros corpus mais ne propose que quatre niveaux d annotation texte locuteurs th me bruits de fond ventuels et aucune possibilit analytique Malgr cela la gestion des locuteurs est tr s satisfaisante puisque l on peut indiquer pour chacun d entre eux des informations telles que leur sexe le degr de spontan it le canal d exp
53. une dur e totale de 4h 15 Nous avons class les segments en trois cat gories parole pr par e niveau 1 d annotation subjective de La parole spontan e transcription et traitement 65 fluidit de l nonciation contenant 13 493 occurrences de mots parole l g rement spontan e niveaux 2 3 4 contenant 12218 occurrences de mots et parole fortement spontan e niveaux sup rieurs ou gaux 5 contenant 19 292 occurrences de mots Deux mod les de langage trigrammes ont t compar s le mod le de langage de r f rence base qui correspond au mod le de langage utilis lors de la campagne ESTER Del glise 2005 estim partir de transcriptions manuelles de 90 heures d enregistrements radiophoniques et de dix sept ann es d articles du journal Le Monde un mod le de langage base pfc qui combine lin airement le mod le de r f rence avec le mod le de langage estim sur les 26 000 phrases du corpus PFC cit es plus haut le coefficient d interpolation ayant t optimis sur le corpus de d veloppement En utilisant la mesure de perplexit g n ralement employ e pour estimer la pertinence d un mod le de langage probabiliste vis vis d un corpus textuel le tableau suivant pr sente les r sultats obtenus par ces deux mod les sur les diff rentes classes de spontan it du corpus de test Mod le Parole pr par e L g rement Fortement de langage spontan e spontan e
54. xiste malheureusement pas d interface qui les repr sente de fa on intuitive l cran 14 http trans sourceforge net en transguidFR php 15 www ldc upenn edu Projects MDE Guidelines SimpleMDE _V6 2 pdf 16 www tei c org La parole spontan e transcription et traitement 59 4 Traitement de la parole spontan e 4 1 Le projet EPAC S lectionn par l ANR dans le cadre de l appel projets 2006 du programme Masse de Donn es Connaissances Ambiantes MDCA le projet EPAC Exploration de masse de documents audio pour l extraction et le traitement de la parole conversationnelle concerne quatre laboratoires PIRIT Toulouse le LI Tours le LIA Avignon et le LIUM Le Mans Il a pour but de proposer des m thodes d extraction d information et de structuration de documents audio en mettant l accent sur le traitement de la parole conversationnelle Le corpus mis disposition pour ce projet est constitu d environ deux mille heures d enregistrements radiophoniques dont mille huit cents proviennent de la campagne ESTER La parole conversationnelle spontan e y occupe une place premi re vue modeste que nous avons estim e d apr s une valuation interne environ 30 Cependant cette proportion doit tre rapport e la nature des donn es ESTER comporte une bonne part de broadcast news c est dire un mode d expression fortement contraint tant du point de vue du contenu que de la f
Download Pdf Manuals
Related Search
Related Contents
Manual de Instalação fiche de données de sécurité gs-edrv(100) - AutomationDirect 特定(呆守製品 長期期製品安全点検制度の 3000 Classic Fiche 24 : Améliorer la biodiversité Oracle Application Software 10.1.3.4 User's Manual avertissement - AO Smith Water Heaters Copyright © All rights reserved.
Failed to retrieve file