Home

L`évaluation des systèmes de traduction automatique

image

Contents

1. les trier selon cinq centres d int r t et le triage les classer par ordre de pertinence l int rieur de trois domaines d int r t Un m me jeu de 15 traductions a servi ces trois exercices Pour l exercice d extraction d informations les sujets devaient coder les diff rents types d entit s nomm es personnes lieux dates etc alors que pour le r sum il s agissait d indiquer quel degr les informations pr sentes dans la traduction humaine de l article source taient pr serv es par la traduction automatique Sept traductions ont servi ces deux derniers exercices Syst mes de traduction automatique 321 Quant aux m triques on a fait appel celle qui est normalement adopt e pour l exercice en question rappel pour le filtrage et la d tection rappel et pr cision pour l extraction fid lit sur une chelle de 5 1 pour le r sum et classement ordinal relativement un classement talon pour le triage On peut interpr ter les scores pour chaque t che comme une mesure de la tol rance de celle ci envers une traduction imparfaite et arriver par l un classement des t ches elles m mes en termes de tol rance relative Le classement issu des jugements spontan s et celui issu des exercices se sont av r s identiques la premi re m thode tant donc beaucoup plus rentable en termes d effort et de temps Si l approche pr c dente vise estimer directem
2. selon l attribut respectif et r ciproquement les traductions les plus mauvaises doivent recevoir des scores minimaux Ce crit re tant difficile tudier tel quel on peut en tudier quelques cas particuliers gr ce des contre exemples en v rifiant si des traductions particuli res de faible qualit re oivent bien un score faible par exemple des traductions produites par des syst mes simplistes et inversement si des traductions qui re oivent un score faible sont bien de faible qualit on peut imaginer ici des traductions construites manuellement de fa on obtenir un score faible sans qu elles soient r ellement d ficientes une m trique doit tre monotone savoir elle doit classer les traductions selon un attribut donn de la m me fa on que le feraient des juges humains Ce crit re est test n cessairement de fa on exp rimentale La comparaison th orique et empirique des m triques tout particuli rement en termes de fiabilit de corr lation et de co t est plus que jamais n cessaire On peut parler d un v ritable effort de m ta valuation qui vise d terminer les m triques les moins co teuses appliquer ef qui sont le mieux corr l es avec les aspects de la qualit qui int ressent les valuateurs Cet effort r cent peut tre mis en relation avec le d veloppement de syst mes de TA de plus en plus performants qui doivent tre valu s souvent pour d terminer si l
3. celui qui est susceptible de r pondre le mieux leurs besoins futurs Les questions et la quantification des r ponses sont associ es 14 param tres dont le type de document facile difficile la qualit de la traduction importante peu importante le domaine d application limit non sp cifi le temps urgent pas urgent Pour chaque param tre on calcule un score dans l intervalle 0 100 et les scores sont visualis s sur une charte radar radar chart Ces 14 param tres correspondent galement 7 types de syst mes de TA traduction avec post dition traduction de haute qualit outils interactifs d aide la traduction etc de sorte que leurs propri t s sont susceptibles elles aussi de visualisation sous forme de charte radar Une simple comparaison visuelle fait ressortir le type de syst me le plus appropri Un questionnaire suppl mentaire de port e technique permet ceux qui ont d j d cid d installer un syst me d valuer leur degr de satisfaction avec sa performance Les valeurs des param tres le syst me son exploitation les dictionnaires la qualit de la traduction avant et apr s enrichissement lexical etc sont visualis es sous la m me forme graphique et la correspondance avec le profil souhait est facilement rep rable L valuation technique par les d veloppeurs s appuie sur les m mes principes visant des param tres tels que
4. nonc e aussi par AKI 03 qui propose la m trique RED AKI 01 bas e sur la distance d dition des mots word edit distance c est dire les op rations d dition n cessaires pour transformer une chaine de mots en une autre RED serait moins tol rante envers les remplacements et les d placements de mots mais moins sensible que BLEU au choix des traductions de r f rence et plus robuste envers les co occurrences distance M me si COU 03 a utilis BLEU pour valuer des langues cibles autres que l anglais apparemment avec succ s AKI 03 attire l attention sur la tendance de BLEU sous estimer la qualit de la traduction l o des particules sont omises ou mal traduites Cette observation qui vaut pour le japonais pourrait s appliquer aussi aux langues morphologiquement plus riches que l anglais comme le frangais Dans le m me sens OCH 01 fait remarquer que le taux d erreur au niveau des mots ne 3 http nlp cs nyu edu GTM Syst mes de traduction automatique 325 distingue pas les mots importants des mots peu importants Cette remarque vise non seulement les particules mais aussi la variation l gitime au niveau lexical ce qui requiert plusieurs traduction de r f rence pour BLEU Inspir e des techniques d extraction d information BAB 04 g n re automatiquement des pond rations pour les n gram compte tenu des diff rences entre les fr quences de ceux ci dans le texte pr sent et leurs fr quences
5. toutes les propri t s math matiques d une m trique souvent les m triques utilis es ne satisfont pas l in galit triangulaire Selon l ISO on peut distinguer la qualit interne la qualit externe et la qualit l usage La premi re peut tre mesur e gr ce des attributs internes du syst me sans ex cution lors des valuations dites en boite de verre puisque les caract ristiques intrins ques du syst me sont alors transparentes aux valuateurs 314 Traitement de l information Pour la TA des exemples d attributs de qualit internes sont la taille du dictionnaire utilis par un syst me le nombre de r gles de transfert ou la taille du mod le de langage En principe la qualit interne influence la qualit externe qui est mesur e gr ce des attributs externes en faisant fonctionner le syst me lors d valuations dites en bo te noire car on s int resse seulement aux r sultats produits par le syst me Pour la TA les diff rents aspects de la qualit du texte produit voir la section 13 3 constituent des attributs de qualit externes comme par exemple la dur e n cessaire pour traduire un texte Enfin la qualit l usage doit tre mesur e en pla ant le syst me dans son contexte d utilisation et en quantifiant son efficacit au sein du processus de production Pour la TA cela pr suppose l analyse des performances des utilisateurs du syst me et
6. Unis p 1 8 2003 ATA 02 AMERICAN TRANSLATORS ASSOCIATION Framework for Standard Error Marking ATA Accreditation Program http www atanet org bin view fpl 12438 html 2002 334 Traitement de l information BAB 03 BABYCH B HARTLEY A ATWELL E Statistical Modelling of MT output corpora for Information Extraction CL2003 International Conference on Corpus Linguistics Lancaster p 62 70 2003 BAB 04 BABvCH B Weighted N gram model for evaluating Machine Translation output CLUK 2004 Birmingham 2004 BRE 94 BREW C THOMPSON H Automatic Evaluation of Computer Generated Text ARPA ISTO Workshop on Human Language Technology p 104 109 1994 CHU 93 CHURCH K W Hovy E H Good Applications for Crummy MT Machine Translation vol 8 n 1 2 p 239 258 1993 COR 03 CoRREA N A Fine grained Evaluation Framework for Machine Translation System Development MT Summit IX Louisiane Etats Unis p 47 54 2003 COU 03 COUGHLIN D Correlating Automated and Human Assessments of Machine Translation Quality MT Summit IX Louisiane Etats Unis 2003 DOD 02 DoDDINGTON G Automatic Evaluation of Machine Translation Quality Using N gram Co Occurrence Statistics HLT 2002 Human Language Technology Conference San Diego Californie 2002 EAG 96 EAGLES MT EVALUATION WORKING GROUP EAGLES Evaluation of Natural Language Processing Systems Final Report Center for Sprog
7. a acc s aux repr sentations interm diaires des modules de traitement du syst me de TA De ce fait certaines cat gories d erreurs peuvent d pendre de l architecture du syst me COR 03 contrairement aux cat gories g n riques qui rel vent des valuations en bo te noire Une autre approche de la bonne formation linguistique applicable aussi au taux de couverture du syst me consiste construire des batteries de phrases tests test suites qui mettent en jeu de fa on syst matique et exhaustive les structures syntaxiques de la langue source et qui visent souvent les points de contraste par rapport celles de la langue cible Les phrases tests permettent au d veloppeur d valuer de mani re contr l e la performance du syst me et permettent m me d automatiser la d tection des erreurs Il est difficile d atteindre le m me degr d objectivit lorsqu il s agit de faire valuer par des juges humains les attributs d ad quation et de pr cision voir le tableau 13 1 et le site FEMTI De fa on g n rale il faut employer un nombre suffisant de juges pour pouvoir pallier leur subjectivit et la variabilit des jugements qui en d coule Par ad quation suitability nous entendons des caract ristiques du texte cible consid r ind pendamment du texte source notamment ici la lisibilit et l intelligibilit La lisibilit dite aussi fluidit fluency caract rise une phrase qui se laisse lire
8. cela s effectue au cas par cas selon leurs t ches et leurs profils Dans le cas particulier o le syst me de TA est encapsul dans un autre syst me qui joue le r le d utilisateur exclusif de ses r sultats par exemple un syst me de recherche d information l valuation l usage doit se faire en mesurant les performances du syst me encapsulant avec des mesures adapt es sa propre t che 13 2 2 Evaluation contextuelle de la TA le cadre FEMTI L valuation d un syst me par rapport une t che donn e revient fixer les attributs de qualit pertinents pour la t che ainsi que les m triques qui permettent de les quantifier Si les six cat gories d finies par l ISO ont en principe chacune leur importance les chercheurs s int ressent souvent la fonctionnalit de leurs syst mes Par exemple pour des syst mes de dict e vocale on pourra mesurer la proximit de la transcription produite par le syst me par rapport la transcription correcte tablie par les juges humains Pour la TA la fonctionnalit se subdivise en plusieurs sous cat gories et attributs qui refl tent des aspects de la qualit du texte produit D autres attributs sont galement importants tels ceux li s au comportement temporel vitesse du syst me l utilisation des ressources et la facilit de mise jour Dans l tat actuel des syst mes de TA la fonctionnalit peut m me parfois tre moins important
9. dans le reste du corpus traduire L approche propos e par RAJ 01 RAJ 02 est motiv e par le d sir de classer des syst mes de TA selon leur performance sans faire appel des traductions de r f rence Elle s appuie sur la d finition de deux scores l un syntaxique et l autre s mantique Le premier est calcul sur la base du profil quantitatif des d pendances syntaxiques identifi es par un analyseur syntaxique Le second part de l hypoth se que si le contenu s mantique d un document est bien pr serv en traduction la position du document source dans l espace de vecteurs s mantiques extrait d un corpus de r f rence en langue source sera comparable la position du document cible dans l espace de vecteurs s mantiques extrait du corpus de r f rence en langue cible Bien que prometteuses par rapport BLEU ces deux m triques exigent la mise en uvre de ressources et d outils linguistiques importants en l occurrence le parseur XELDA et comme corpus de r f rence le corpus JOC compos de 6229 documents du Journal Officiel de la Communaut europ enne Nous pouvons donc conclure que beaucoup de travaux restent faire dans le domaine des m triques automatis es et qu il est sans doute vain d esp rer trouver une seule m trique qui r ponde aux n cessit s de tous les int ress s 13 4 Analyse des campagnes d valuation en TA Le passage en revue des grandes campagnes d v
10. et on pr voit un ventail de genres textuels plut t que de se limiter aux seuls bulletins d information 7 http www technolangue net 330 Traitement de l information 13 5 M ta valuation des m triques La question de la validit des m triques employ es semble tre au vu des critiques exprim es dans les deux sections pr c dentes minemment exp rimentale Comment en effet savoir si certaines m triques mesurent bien la qualit de l attribut concern autrement qu en les comparant des jugements humains Qui plus est pour certaines m triques automatiques il n est pas clair quel est l attribut mesur si bien que l on doit les comparer avec divers jugements humains Les crit res th oriques de m ta valuation des mesures que nous allons d abord exposer exigent eux aussi une application exp rimentale en vue de comparer des r sultats r els Nous allons r sumer quelques exemples de crit res section 13 5 1 puis illustrer ce type d tude par une exp rience collective r cente section 13 5 2 13 5 1 Crit res d valuation des m triques Parmi les crit res d finis pour valuer la coh rence des m triques POP 99 on peut retenir les suivants une m trique doit atteindre sa valeur maximale pour des traductions parfaites selon l attribut respectif et seulement pour ces traductions une m trique doit atteindre sa valeur minimale pour les traductions les plus mauvaises
11. facilement et naturellement Le juge lit le texte traduit phrase par phrase sans savoir quelles informations sont cens es y tre pr sentes et accorde chaque phrase une note sur une chelle allant par exemple de 1 5 Tous les points sur l chelle peuvent tre ancr s dans une d finition ou bien on peut se borner d finir seulement les deux extr mit s de l chelle et supposer que les points interm diaires d limitent des intervalles de qualit constants Pour l intelligibilit on peut proc der de mani re identique sauf que l chelle ira cette fois ci du compl tement inintelligible au parfaitement intelligible On peut calculer le score pour le texte dans son ensemble en faisant la moyenne des scores pour les phrases individuelles et traiter la variabilit entre juges en ayant recours aux techniques statistiques habituelles L valuation de la pr cision accuracy d une traduction s int resse la pr servation du contenu du texte source dans le texte cible On peut proc der en demandant aux juges de r pondre apr s lecture du texte des questions choix multiples plus les r ponses sont justes plus la pr cision ou l informativit informativeness de la traduction est consid r e grande La compilation de tels 2 TSNLP http tsnlp dfki uni sb de tsnlp DIET http diet dfki de c as html Syst mes de traduction automatique 323 questionnaires exige cependant des comp tences par
12. la d finition des qualit s requises des syst mes ici on d finit un contexte d utilisation gr ce FEMTI puis on s lectionne les caract ristiques de qualit pertinentes la sp cification de l valuation par le choix des m triques et du mode d emploi proc d d application donn es etc l ex cution de l valuation la conclusion et le rapport final Pour ce qui est de l application des m triques on peut distinguer trois tapes EAG 96 POP 99 la mesure proprement dite de chaque attribut avec la m trique choisie l appr ciation de chaque valeur obtenue chiffre ou classe sur une chelle de scores tablie en fonction des n cessit s de l valuation et l int gration des scores en un r sultat final si cela est souhait par exemple pour comparer des syst mes Dans cette optique l valuation d pendante du contexte qui est pr conis e par FEMTI se ram ne la s lection des m triques et la pond ration des scores lors de l int gration dict es par l application de TA envisag e Pour clore cette section il faut voquer d autres synth ses portant sur l valuation de la traduction cette fois ci humaine En effet on peut penser que l appr ciation des tudiants dans les coles de traduction et plus g n ralement dans les tablissements qui pratiquent les exercices de traduction version ou th me pr suppose une m thode d val
13. les repr sentations interm diaires utilis es l analyse et la synth se pour mettre en vidence tout cart entre l tat actuel et l tat cible de d veloppement La m trique de qualit SAE J2450 a t labor e par la Soci t des ing nieurs automobiles aux Etats Unis pour permettre l valuation objective des traductions de la documentation de maintenance quelles que soient les langues source et cible et que la traduction soit automatique ou humaine SAE 01 WOY 02 Cette volont de g n ralisation rend le sch ma peu int ressant pour l valuation de la TA en ce sens que les cat gories d erreur sont trop g n rales pour clairer utilement le d veloppeur En effet on distingue sept cat gories terme erron erreur syntaxique Syst mes de traduction automatique 329 omission erreur morphologique ou d accord faute d orthographe ponctuation erreurs diverses Les erreurs sont pond r es et peuvent en plus tre class es comme graves ou mineures Pour arriver la note finale pour le texte cible on calcule la somme des valeurs num riques de la totalit des erreurs pour la diviser par le nombre de mots dans le texte source Bien que ce ne soit pas pr cis on peut imaginer de calibrer la pond ration pour privil gier soit la bonne formation grammaticale soit la correction terminologique Une autre pr occupation serait le temps de r vision requis ava
14. organisation internationale de normalisation et permet comme nous allons le voir de cerner les difficult s du domaine 13 2 1 Exploitation des normes ISO IEC pour l valuation des logiciels Deux s ries de normes de l ISO concernent l valuation des logiciels en g n ral et s appliquent donc aussi au TAL et aux logiciels de TA La s rie ISO IEC 9126 1 4 s int resse aux qualit s g n rales des logiciels alors que la s rie ISO IEC 14598 1 6 d crit le processus d valuation Selon ces normes valuer un syst me c est mesurer sa qualit o la qualit est l ensemble des caract ristiques du syst me qui permettent de r pondre aux besoins de ses utilisateurs ISO 01 Les caract ristiques de qualit sont regroup es en six cat gories g n rales fonctionnalit fiabilit utilisabilit efficacit possibilit de maintenance et portabilit Cat gories qui elles m mes se subdivisent en sous cat gories Dans cette hi rarchie les l ments dont on peut mesurer concr tement la qualit sont les subdivisions terminales appel es attributs Par cons quent l valuation d un logiciel donc la mesure de sa qualit se ram nent la mesure d un ou de plusieurs attributs Pour chaque attribut on utilise une m trique qui lui assigne un niveau de qualit sur une chelle associ e la m trique Notons que le terme m trique ne pr suppose pas dans ce cadre
15. requis par les mesures fond es sur des juges humains voir 13 3 1 Un effort a t consacr aussi la d finition de m triques plus simples ou la simplification de m triques existantes notamment par l tude des corr lations entre m triques Certains des r sultats ont t publi s peu apr s l atelier RAJ 01 WHI 01 Une exp rience plus r cente visait plus explicitement la comparaison de diff rentes m triques sur un probl me r el savoir l valuation comparative d un ensemble de traductions d un m me texte POP 031 Deux s ries de dix traductions taient propos es aux participants qui avaient pour objectif de mesurer leur qualit selon une ou plusieurs m triques r sum es dans le manuel accompagnant l atelier Chacun des deux textes source d une longueur de 400 mots environ avait t traduit du fran ais vers l anglais par divers syst mes de TA disponibles sur Internet non pr cis s aux participants mais aussi par des tudiants en traduction Les participants l atelier tant surtout anglophones une traduction de r f rence en anglais tait galement fournie ce qui leur permettait de ne pas faire appel au texte source En revanche les participants ignoraient l origine des traductions et en particulier le fait que certaines taient r dig es par des humains Une analyse attentive aurait certes pu permettre de rep rer 8 Ces documents sont disponibles a http ww
16. syst me valuer de caract ristiques des utilisateurs pr vus et des textes traduire Organis es de fa on hi rarchique et compl t es par des consid rations sur les buts et l objet de l valuation ces instructions constituent la premi re partie de FEMTI La seconde partie de FEMTI d veloppe la hi rarchie des caract ristiques de qualit jusqu aux attributs et leurs m triques Cette hi rarchie est ancr e la racine dans les six classes d finies par PISO puis particularis e pour les syst mes de TA comme il ressort du tableau ci apr s La synth se de FEMTI a t rendue possible par la participation de plusieurs experts du domaine dans le cadre d une s rie d ateliers qui ont propos des exercices pratiques d valuation de la TA des communications orales et des discussions d experts Ces ateliers sont d crits sur le site Internet de FEMTI et dans HOV 03 un exemple sera d velopp dans la section 13 5 Dans son tat actuel FEMTI regroupe la plupart des attributs et m triques utilis s par la communaut avec de nombreuses r f rences aux travaux qui les d finissent et ou les emploient Plusieurs am liorations sont apporter l avenir notamment l automatisation des liens entre la premi re et la seconde partie qui devra permettre terme la sp cification automatique d une valuation de TA en fonction du contexte d utilisation souhait pour les syst mes et aussi l analyse de chaque m tri
17. Chapitre 13 L valuation des syst mes de traduction automatique 13 1 Sp cificit s de la traduction automatique et de son valuation La traduction automatique est l un des objectifs historiques de l intelligence artificielle et du traitement automatique des langues TAL Le probl me a l avantage de s noncer tr s simplement produire un texte dans une langue cible qui soit la traduction au sens courant humain d un texte source donn La port e applicative de la t che est galement facile comprendre Malheureusement en l absence d une d finition op rationnelle ou algorithmique de la traduction la conception des syst mes de traduction automatique TA reste une t che ardue Devant les imperfections des traductions produites actuellement par ces syst mes l importance d une valuation quantitative de leur qualit appara t clairement Comme pour d autres probl mes du TAL l existence de mesures de qualit commun ment admises par les experts est un facteur essentiel de progr s Or comme nous allons le voir dans ce chapitre l valuation d un syst me de TA et notamment l valuation de la qualit d une traduction reste un probl me difficile sujet de nombreux d bats Pr cisons tout d abord l objet du chapitre ce sont les syst mes visant une traduction fotalement automatique du texte source c est dire n impliquant pas de r vision humaine Outre ces syst mes il
18. L MELAMED I D Evaluation of Machine Translation and its Evaluation MT Summit LX Louisiane Etats Unis p 386 393 2003 VAN 79 VAN SLYPE G Critical Study of Methods for Evaluating the Quality of Machine Translation European Commission Directorate for General Scientific and Technical Information Management DG XIII BR 19142 1979 VOG 00 VOGEL S NIESSEN S NEY H Automatic Extrapolation of Human Assessment of Translation Quality LREC 2000 2 4 International Conference on Language Resources and Evaluation Gr ce p 35 39 2000 WHI 92 94 WHITE JS et al ARPA Workshops on Machine Translation Series of four workshops on comparative evaluation McLean 1992 1994 WHI 00 WHITE J S DOYON J TALBOTT S Determining the Tolerance of Text Handling Tasks for MT Output Second International Conference on Language Resources and Evaluation LREC 2000 Gr ce vol 1 p 29 32 2000 WHI 01 WHITE J S Predicting Intelligibility from Fidelity in MT Evaluation Workshop on MT Evaluation Who did what to whom at Mt Summit VIII Espagne 2001 WHI 03 WHITE J S How to Evaluate Machine Translation Computers and Translation a translator s guide Amsterdam John Benjamins p 211 244 2003 WOY 02 WOYDE R Translation Needs in Auto Manufacturing Multilingual Computing and Technology vol 13 n 2 p 39 42 2002
19. acteurs techniques cherchant tester l utilisabilit d un manuel d utilisateur au stade d avant projet et connait d ailleurs les m mes limitations Pour estimer l efficacit de la traduction il faut aussi quantifier l utilit pas forc ment optimale du texte source et l aptitude du sujet accomplir la t che sans consignes Ceci n cessite l emploi d un nombre relativement important de sujets de pr f rence des professionnels du domaine couvert par le document La proc dure devient alors lente et co teuse Enfin cette approche ne peut s appliquer qu une classe restreinte de documents savoir les textes de type mode d emploi Dans une exp rience plus r cente WHI 00 on a tudi l acceptabilit de documents traduits pour l accomplissement de cinq t ches qui faisaient partie du travail habituel des sujets filtrage d tection triage extraction d informations et r sum Les textes qui constituaient un sous ensemble du corpus DARPA 94 WHI 92 94 taient des articles de journaux traduits du Japonais vers l anglais Chaque sujet avait deux missions d abord porter un jugement binaire intuitif et instantan sur l utilisabilit pour une t che donn e d un ensemble de 15 traductions ensuite ex cuter une des cinq t ches cit es titre d exercice Le filtrage consistait trier des traductions selon leur pertinence par rapport un th me donn oui non ind cis la d tection
20. aluation en TA t moigne d une volution int ressante des motivations mesurer la rentabilit de la TA par rapport la traduction humaine ALPAC 1966 valuer le rendement des subventions la recherche DARPA 1992 1994 stimuler les recherches l aide d un protocole simple permettant de comparer les progr s r alis s NIST 2000 et d velopper une m trique automatis e fiable adapt e au fran ais CESTA 2002 4 http www comp leeds ac uk bogdan ltv mt eval html 326 Traitement de l information 13 4 1 Campagne ALPAC 1966 Nous commen ons cet historique par le fameux rapport ALPAC PIE 66 gt qui a donn un coup d arr t aux recherches en TA en d tournant les subventions du gouvernement am ricain vers l intelligence artificielle et le TALN Cette recommandation a r sult d une exp rience d valuation de syst mes de TA anglais russe qui avait conclu que la TA tait plus lente moins pr cise et plus ch re que la traduction humaine Quatre textes scientifiques ont t traduits par trois traducteurs humains et trois syst mes de TA Ensuite 36 phrases ont t extraites au hasard de chacun des textes et pr sent es aux valuateurs chacun ne jugeant qu une seule traduction d une phrase source donn e au total 144 phrases chacun Pour l attribut de l intelligibilit 18 tudiants ne connaissant pas le russe ont eu recours une chelle 9 points dont nous avons d fini les extr m
21. e il s agit d un test particulier qui vise valuer un attribut particulier du syst me de TA l aide d une technique particuli re Les attributs sont des propri t s souhaitables du syst me ou des r sultats qu il produit par exemple dans le cas pr sent lisibilit ou fid lit Une technique va associer une m thode de collecte de r ponses par exemple un questionnaire choix multiples avec une chelle dont l interpr tation fournit une mesure de qualit 13 3 1 M triques n cessitant des juges humains On recense trois types d approches qui requi rent la participation de juges humains on peut inviter ceux ci accomplir une t che l aide d un document traduit 320 Traitement de l information ou bien analyser les erreurs dans la traduction ou encore prononcer un jugement intuitif sur la qualit de celle ci Mesurer la capacit d un sujet accomplir une t che l aide d un document traduit la qualit l usage est une approche qui remonte aux exp riences r alis es en 1971 par H Wallace Sinaiko rapport es par VAN 79 et par FAL 91 qui consistaient faire ex cuter des pilotes des t ches extraites d un manuel d utilisateur et traduites du vietnamien vers l anglais Le juge observe le sujet et classe sa performance consigne par consigne sur une l chelle suivante aucune erreur erreurs mineures erreurs majeures La m thode rappelle les pratiques des r d
22. e pour l valuation que d autres caract ristiques de qualit selon la t che pr vue pour le syst me CHU 93 On voit donc appara tre la n cessit de structurer les diff rents attributs de qualit selon les besoins de l valuation c est dire le contexte d utilisation pr vu pour le syst me de TA les caract ristiques des utilisateurs etc Dans les normes de Syst mes de traduction automatique 315 PISO l influence du contexte sur l valuation n apparait qu travers quelques exemples voir HOV 03 3 1 pour une analyse Le projet EAGLES visait lui appliquer le cadre ISO au TAL EAG 96 Or pour l valuation de la TA l influence du contexte est centrale comme le montrent Hovy ef al HOV 99 HOV 03 ainsi que le sch ma d valuation pr conis par JEIDA NOM 92a NOM 92b Des synth ses portant sur les attributs de qualit et les m triques ont t galement propos es respectivement par Van Slype pour la TA VAN 79 et par Sparck Jones et Galliers pour le TAL SPA 96 Une synth se r cemment r alis e pour la TA met en avant de fa on syst matique le r le du contexte d utilisation dans la s lection des attributs de qualit HOV 03 En effet le cadre FEMTI pour l valuation de la TA framework for the evaluation of mt in isle offre d abord aux valuateurs la possibilit de d finir les exigences de l valuation en termes de caract ristiques de la t che de traduction assign e au
23. e b L exp rience montre donc une bonne coh rence des m triques sur les textes issus de la TA et cela malgr le faible volume de donn es utilis es et l application vari e des m triques bas es sur BLEU Syst mes de traduction automatique 333 13 6 Perspectives L valuation de la traduction automatique demeure un domaine de recherche tr s actif on note m me un regain r cent d int r t la mesure des enjeux applicatifs croissants que le domaine suscite L objectif principal semble tre la r duction des co ts de l valuation par le d veloppement de mesures automatiques ou des techniques de classement rapide qui reproduisent avec un niveau d approximation raisonnable les r sultats de mesures plus fines plus fiables mais plus co teuses Cette volution participe donc d un changement plus global de la nature de l valuation une valuation de qualit n est plus l apanage de campagnes officielles financ es par les d cideurs mais se met la port e des d veloppeurs de syst mes et les guide dans leurs travaux On peut galement mettre en relation ce changement avec l apparition de syst mes statistiques de TA dont les erreurs de traduction diff rent des erreurs des syst mes symboliques L valuation des premiers syst mes est de par leur nature plus proche de la bo te noire que celle des seconds Naturellement la r alisation des objectifs d ensemble de l valuation de la TA pas
24. ent la qualit d un texte traduit en vue d une utilisation particuli re en aval de la traduction l analyse des erreurs linguistiques dans les textes traduits par un syst me de TA pr tend une application plus g n rale en ce sens qu elle vise la bonne formation linguistique aux niveaux morphologique lexical et syntaxique LEH 88 Le premier probl me est de s entendre sur une typologie des erreurs qui ne soit ni floue ni subjective FLA 941 La solution de Loffler Laurian consiste tablir les cat gories d erreurs sur la base des corrections apport es des traductions brutes par plusieurs post diteurs diff rents LOF 96 ce qui conduit au tableau suivant vocabulaire et terminologie sigles et noms propres pr positions d terminants temps verbaux voix verbales modalit s n gations ordre des mots probl mes g n raux d agencement Il faut ensuite statuer sur la gravit des erreurs et prendre la d cision ventuelle de les pond rer MIN 93 Cette d cision d pendra de la finalit de l valuation et va ventuellement attribuer une pond ration diff rente une m me erreur selon son impact sur la compr hension ou bien s r le temps d dition ou encore sur la 322 Traitement de l information difficult de correction des algorithmes Ce dernier cas suppose une valuation dite en bo te de verre o le d veloppeur
25. es changements logiciels qui sont constamment effectu s permettent d augmenter les qualit s attendues Ainsi pour les syst mes Syst mes de traduction automatique 331 fond s sur un apprentissage statistique les modifications peuvent tre quotidiennes en fonction des algorithmes d apprentissage ou des corpus pr par s 13 5 2 Comparaison des m triques sur des traductions humaines et automatiques Dans le contexte des travaux ayant abouti au cadre FEMTI la consultation des experts et des utilisateurs de la TA tait une priorit afin d obtenir une image aussi pr cise que possible des qualit s requises et des m triques les plus couramment utilis es Ces consultations comportaient souvent des applications pratiques qui permettaient aux organisateurs de tester l applicabilit du cadre mais aussi le comportement des m triques qui y figurent en seconde partie Par exemple un atelier organis 4 Gen ve en 2001 proposait aux participants de sp cifier des valuations simples li es aux probl mes de TA auxquels ils taient confront s et de les ex cuter dans la mesure du possible Ce type d exp rience a mis en lumi re la fa on dont les experts et les utilisateurs sp cifient une valuation le mod le de l utilisateur et de la t che tant parfois insuffisamment pr cis ainsi que leurs pr f rences pour certaines m triques d valuation et les difficult s d application notamment le temps lev
26. existe de nombreux outils d aide la Chapitre r dig par Anthony HARTLEY et Andrei POPESCU BELIS 312 Traitement de l information traduction dont l valuation implique la participation de sujets humains A ce titre leur valuation s appuie sur des mesures de l utilisabilit et sur des techniques d valuation des interfaces humain machine qui ne rel vent pas de ce chapitre Les dictionnaires lectroniques int gr s ou non des diteurs de textes multilingues constituent d j un exemple d outil d aide la traduction mais ce sont surtout les m moires de traduction qui ont connu r cemment un succ s notable Ces logiciels permettent de d river des paires de phrases dont l une est la traduction de l autre partir de textes d j traduits gr ce l alignement par l humain de la source et de la cible Afin d valuer un tel outil sans faire appel un utilisateur humain on peut par exemple s int resser sa capacit apparier des phrases d un texte traduire avec des phrases d j stock es dans la m moire de traduction Toutefois l valuation v ritablement informative d un tel outil s int ressera plut t l accroissement de la productivit d un sujet traducteur humain qui l utilise Dans ce chapitre nous nous int resserons aux diff rentes facons de mesurer la qualit d un syst me produisant une traduction qui se veut achev e et qui doit tre utili
27. exte produit en lui m me en tant que texte dans la langue cible bonne formation grammaticale lisibilit etc et les attributs ayant trait la proximit s mantique stylistique etc du texte produit et du texte source Outre ces attributs pour lesquels des m triques et des campagnes d valuation seront d crites dans les sections 13 3 et 13 4 d autres attributs sont galement pertinents CHU 93 Citons ainsi la vitesse de traduction qui peut tre primordiale dans des applications de recherche d information multilingue o l on doit traduire rapidement de grandes quantit s de textes avec une certaine tol rance sur la qualit Les possibilit s de mise jour notamment pour les ressources lexicales sont une autre caract ristique importante par exemple pour des syst mes qui doivent traduire une terminologie sp cifique un domaine SEN 03 On constate donc que contrairement d autres probl mes du TAL la traduction automatique pr sente de multiples facettes valuer chacune ayant son importance 13 2 3 Formalisation de l valuation par tapes Pour conclure cette section il est important de r sumer les principales tapes de l valuation d un syst me de TA Cette division s inspire des normes ISO IEC ISO 00 interpr t es par EAGLES en vue du TAL EAG 96 et r sum s dans POP 99 Les tapes principales d une valuation sont 318 Traitement de l information
28. it s plus haut La mesure de la fid lit a t faite avec les m thodes bilingue et unilingue et l chelle 10 points d j d crite On a observ une forte corr lation non seulement entre les jugements d intelligibilit port s par les valuateurs unilingues et les bilingues mais aussi entre l intelligibilit et la fid lit ce qui am nerait conclure que pour comparer des syst mes de traduction humains ou automatiques il suffirait de mener les exp riences moins on reuses d valuation de l intelligibilit pour en d duire la fid lit 13 4 2 Campagnes initi es par la DARPA ann es 1990 Les campagnes de la DARPA dans les ann es 1990 avaient pour but de mesurer et de comparer les performances de prototypes issus de trois projets de recherche qui instanciaient des principes de traitement diff rents statistiques linguistiques hybrides et qui traduisaient partir de trois langues sources diff rentes espagnol fran ais japonais d o une n cessit absolue de m triques bo te noire WHI 92 94 La pr cision a t caract ris e par deux tests diff rents le questionnaire choix multiples informativit et la mesure sur une chelle de 1 5 de la fid lit des segments traduits par les syst mes par rapport aux segments correspondants dans une traduction de r f rence humaine lue en premier L ad quation a t caract ris e par un test de fluidit bas sur l chel
29. jout une langue surprise en l occurrence le hindi Et elles ont pris la forme d un concours ouvert tous les ressources linguistiques textes sources et corpus d entrainement tant mis disposition sur le site Internet du NIST Les donn es sources consistaient en une centaine de bulletins d information d p ches d agences diffus s par les m dias ou par l Internet L objectif principal tait de stimuler les travaux en TA en comparant les progr s r alis s sur un laps de temps court comme dans les concours organis s dans d autres domaines du TALN II est int ressant de noter en 2002 comme en 2003 l id e d un ventuel recours la seule valuation automatis e dans les campagnes venir si cela s av re suffisant L dition 2004 nous dira si les organisateurs estiment leur m trique automatis e d sormais assez fiable pour pouvoir se passer de m triques n cessitant des juges humains 13 4 4 Autres sp cifications d valuations JEIDA ATA SAE CESTA Les crit res labor s en 1992 au Japon par la JEIDA NOM 92a NOM 92b ISA 95 TOM 92 sont diff renci s en fonction de deux publics les utilisateurs et les d veloppeurs 6 http www nist gov speech tests mt 328 Traitement de l information Un premier questionnaire de port e conomique permet aux utilisateurs d identifier le type de syst me qui est le mieux adapt leur situation actuelle et
30. larative dont la port e int resse plusieurs publics l utilisateur final traducteur ou lecteur le manager le d veloppeur l investisseur et le revendeur et qui m rite de ce fait une attention particuli re Notre objectif quoique limit n en est pas simplifi pour autant ceci pour plusieurs raisons Pour valuer un attribut il faut normalement pouvoir le comparer un id al qui soit correct ou le meilleur Or dans le domaine de la traduction il est admis que cet id al n existe pas Etant donn un grand nombre de traductions humaines d un m me texte source il est probable qu il n y aura pas d accord g n ral sur le choix de la meilleure traduction et qu aucune traduction ne sera jug e parfaite Bref l talon or gold standard que l on peut imaginer plus ou moins facilement pour la correction orthographique ou syntaxique nous fuit il ny a pas une seule bonne r ponse En concevant des m triques il nous faut donc nous accommoder de la variabilit l gitime des traductions comme de la subjectivit des juges appel s les valuer L appel aux juges humains entrainant non seulement la subjectivit mais aussi des d penses consid rables en argent et en temps il n est pas surprenant que des travaux r cents cherchent se passer d intervention humaine Nous allons donc consid rer tour tour l approche humaine et l approche automatis e Rappelons d abord ce que nous entendons par m triqu
31. le cinq points d crite plus haut L envergure des campagnes est impressionnante en tout 14 syst mes ont particip et pour chaque couple de langues 100 textes sources de quelque 400 mots 5 Disponible galement l adresse http www nap edu books ARC000005 html Syst mes de traduction automatique 327 chacun ont t traduits par les syst mes et par deux traducteurs humains Pour chaque m trique chaque traduction a re u entre 6 et 25 jugements le score attribu au texte int gral est la moyenne des jugements individuels comme le score attribu au syst me est la moyenne des scores de ses traductions Les conclusions sont venues conforter celles de l ALPAC la qualit des traductions humaines tait sup rieure les deux mesures de pr cision taient fortement corr l es celles ci tant aussi bien corr l es avec la fluidit Si la validit des m triques semble ind pendante du genre du texte traduit scientifique journalistique la performance relative de deux syst mes sur un genre textuel ne sera pas forc ment maintenue sur un autre 13 4 3 Campagnes initi es par le NIST 2002 2003 Les deux campagnes organis es par le NIST en 2002 et 2003 ont repris sous une forme l g rement modifi e les m triques humaines DARPA pour la fluidit et la fid lit et la m trique automatis e de PAP 01 Elles ont toutes les deux vis le chinois et l arabe comme langues sources auxquelles la campagne 2003 a a
32. luidit On peut jouer sur diff rentes pond rations de ces valeurs et de la p nalit dite de bri vet qui sanctionne les traductions plus courtes que la phrase de r f rence voir par exemple DOD 02 NIE 00 VOG 00 Lors de la premi re mise l essai de cette m thode deux groupes de juges unilingues et bilingues ont valu la qualit de cinq traductions vers l anglais partir du chinois sur 250 paires de phrases L chelle allait de 1 tr s mauvais 5 tr s bon La corr lation des jugements de ces valuateurs unilingues avec les scores BLEU a t tr s forte Des critiques ont t adress es BLEU plusieurs titres D abord la m trique exigerait plusieurs traductions de r f rence au mieux quatre dont la production co te cher Cependant COU 03 a trouv que l on obtient de fortes corr lations avec les juges humains m me en utilisant une seule traduction de r f rence condition traiter 500 phrases au lieu de 250 Ensuite BLEU semblerait privil gier les syst mes statistiques en leur attribuant des scores plus lev s que ne le font les juges humains COU 03 BAB 03 BAB 04 Plus encore TUR 03 montre que BLEU produit des corr lations moins bonnes sur des documents longs et pr tend qu une m trique qui ne consid re que les 1 grams serait plus fiable tout en reconnaissant que les m triques automatis es sont loin de pouvoir remplacer les jugements humains Cette mise en garde est
33. n en g nie linguistique un mod le pour v rifier la coh rence des mesures Langues Cahiers d tudes et de recherches francophones vol 2 n 2 p 151 162 1999 POP 03 PopEscU BELIS A An experiment in comparative evaluation humans versus computers MT Summit IX Louisiane Etats Unis p 307 314 2003 RAJ 01 RAJMAN M HARTLEY A Automatically predicting MT systems rankings compatible with Fluency Adequacy or Informativeness scores Workshop on MT Evaluation Who did what to whom at MT Summit VIII Espagne p 29 34 2001 RAJ 02 RAIMAN M HARTLEY A Automatic Ranking of MT Systems Third International Conference on Language Resources and Evaluation LREC Las Palmas vol 4 p 1247 1253 2002 SAE 01 SAE INTERNATIONAL SAE J2450 Translation Quality Metric Warrendale Etats Unis Society of Automotive Engineers 2001 SEN 03 SENELLART J YANG J REBOLLO A SYSTRAN Intuitive Coding Technology MT Summit IX Louisiane Etats Unis p 346 353 2003 SPA 96 SPARCK JONES K GALLIERS J R Evaluating Natural Language Processing Systems An Analysis and Review Berlin New York Springer Verlag 1996 TOM 92 Tomita M Application of the TOEFL Test to the Evaluation of Japanese English MT Proceedings of AMTA Workshop MT Evaluation Basis for Future Directions San Diego Californie Etats Unis 1992 336 Traitement de l information TUR 03 TURIAN J P SHEN
34. nt livraison de la traduction au client Le cadre pour l annotation d erreurs propos par l Association des traducteurs am ricains ATA 02 est beaucoup plus large identifiant en plus les erreurs de registre et de style les ajouts la traduction trop litt rale cas de figure fr quent pour la TA la traduction trop libre l incoh rence terminologique cas moins fr quent l ambiguit l ind cision et le manque de compr hension Ce sch ma a t con u pour l encadrement et la formation de traducteurs humains et semble peu adapt aux besoins de la TA CESTA campagne d valuation des syst mes de TA fait partie des initiatives EVALDA en France qui ont pour objectif la constitution d une infrastructure d valuation des syst mes d ing nierie linguistique du fran ais Ce projet cherche adapter le protocole de RAJ 01 RAJ 02 et celui de BAB 03 BAB 04 entre autres pour cr er une boite outils destin s aux utilisateurs comme aux d veloppeurs Parmi les participants la campagne on compte un syst me statistique et deux syst mes linguistiques et en fonction des couples de langues certains syst mes repr sentent un stade pr coce de d veloppement alors que d autres sont d j avanc s cela permettant aussi de bien mettre les m triques l preuve Dans la m me optique les ressources g n r es doivent inclure des traductions produites par des tudiants en plus de celles faites par des professionnels
35. que en termes de coh rence statistique de corr lation avec d autres m triques et de co t 1 Un des r sultats du projet ISLE consultable l adresse http www issco unige ch projects isle femti ou bien http www isi edu natural language mteval 316 Traitement de l information Exigences de l valuation 1 Caract ristiques et attributs de qualit 2 1 But de l valuation 2 Objet de l valuation 3 Caract ristiques de la tache 3 1 Assimilation 3 2 Diss mination 3 3 Communication 4 Caract ristiques de l utilisateur 4 1 Utilisateur de la TA brute 4 2 Utilisateur de la TA achev e 4 3 Organisation utilisatrice 5 Caract ristiques du texte traduire 5 1 Type de document 5 2 Auteur 5 3 Sources d erreur 1 Caract ristiques internes des syst mes de TA 1 1 Type de l algorithme de traduction 1 2 Ressources linguistiques langues dictionnaires glossaires corpus align s grammaires 1 3 Caract ristiques du processus pr paration du texte post dition interaction avec le syst me 2 Caract ristiques externes du syst me 2 1 Fonctionnalit 2 1 1 Ad quation lisibilit du texte produit intelligibilit coh rence coh sion style 2 1 2 Pr cision fid lit au texte source consistance correction terminologique 2 1 3 Bonne formation ponctuation items lexicaux morphologie syntaxe 2 1 4 Interop rabilit 2 1 5 Conformi
36. s e telle quelle par diff rents utilisateurs humains ou par d autres syst mes de TAL par exemple en recherche documentaire multilingue Dans la section 13 2 nous dresserons un tableau d ensemble des diff rentes m thodes d valuation propos es en choisissant une approche fond e sur des principes normalis s et qui tient compte du contexte d utilisation d un syst me de TA La section 13 3 se concentrera sur la qualit intrins que des textes produits par un syst me en brossant un tableau critique des mesures les plus r pandues tant celles faisant appel des juges humains que celles plus r centes fond es sur des algorithmes automatisables Dans la section 13 4 nous passerons en revue quelques campagnes marquantes d valuation de la TA durant la derni re d cennie avec leurs points forts et leurs faiblesses Enfin la section 13 5 exposera quelques crit res formels d analyse des mesures d valuation avec des exemples d application dans la communaut de la TA avant une esquisse des perspectives du domaine dans la section 13 6 Syst mes de traduction automatique 313 13 2 Le cadre th orique de l valuation de la TA A d faut d une mesure qui r solve elle seule toutes les difficult s de l valuation de la TA on rencontre un ensemble de mesures possibles structur es selon leur contexte d emploi Un cadre th orique a t r cemment synth tis qui s inspire des normes de l ISO
37. se par une s rie de travaux focalis s pouvant tre int gr s dans un cadre du type FEMTI d crit plus haut Il est ainsi peu probable qu une seule mesure de qualit puisse r pondre tous les besoins de l valuation Au contraire il est probable que plus la qualit des syst mes augmentera et plus des distinctions fines seront n cessaires De m me plus les utilisations de la TA se diversifieront et plus le besoin de mesures de qualit sp cifiques chaque utilisation se fera sentir Ainsi pour ceux qui visent une utilisation autonome des textes issus de la TA la fluidit sera un param tre d terminant alors que si la TA est utilis e en compl ment des traducteurs humains on pr f rera une mesure de l utilit des traductions automatiques pour une t che donn e On peut estimer que la recherche en TA adopte plut t la premi re perspective alors que les d veloppeurs de syst mes commerciaux tout en puisant leur inspiration dans les travaux des chercheurs adopteront plut t la derni re pour des valuations d pendantes d un contexte d utilisation 13 7 Bibliographie AKI O1 AKIBA Y IMAMURA K SUMITA E Using Multiple Edit Distances to Automatically Rank Machine Translation Output MT Summit VIII Santiago de Compostela p 15 20 2001 AKI 03 AKIBA Y SUMITA E NAKAIWA H YAMAMOTO S OKUNO H G Experimental Comparison of MT Evaluation Methods RED versus BLEU MT Summit IX Louisiane Etats
38. sible de simplifier sans perte d informations 13 3 2 M triques automatis es La motivation pour l laboration de m triques automatis es en termes de co ts et de temps appara tra avec encore plus force quand nous aurons appr ci plus loin les ressources mobilis es lors des grandes campagnes d valuation Pour l instant nous nous bornons une appr ciation des principes et des limites de quelques exp riences portant sur l automatisation La d marche commune consiste dans un premier temps calculer un score qui soit en corr lation troite avec les jugements humains en g n ral des jugements d intelligibilit de fluidit ou de pr cision Dans un deuxi me temps quand la fiabilit de la m trique aura t suffisamment d montr e elle pourra tre employ e de fa on autonome Si les tentatives d automatisation remontent au moins BRE 94 c est la m trique BLEU PAP 01 qui a eu le plus d impact Le param tre fondamental est la proximit de la traduction automatique par rapport une ou plusieurs traductions professionnelles La mesure de la proximit est bas e sur le taux d erreurs au niveau des mots word error rate m trique adopt e avec succ s pour la reconnaissance de 324 Traitement de l information la parole On calcule les n grams pour des valeurs de n allant de 1 4 les 1 grams correspondraient la fid lit et les valeurs plus lev es de n rendraient compte de la f
39. t 2 1 6 S curit 2 2 Fiabilit 2 3 Utilisabilit ergonomie 2 4 Efficacit 2 4 1 Efficacit temporelle temps de pr traitement vitesse de traduction brute temps de post traitement 2 4 2 Utilisation des ressources m moire lexique nettoyage taille du logiciel 2 5 Possibilit s de maintenance 2 5 1 Analysabilit 2 5 2 Stabilit 2 5 3 Testabilit 2 5 4 Possibilit s de changement dictionnaires grammaires ajout d une langue 2 6 Portabilit 2 7 Co t Tableau 13 1 Vue simplifi e du cadre FEMTI pour l valuation de la TA Syst mes de traduction automatique 317 Le tableau 13 1 fournit un aper u des principales caract ristiques de qualit des syst mes de TA et des param tres d finissant les contextes d utilisation Les attributs internes sont naturellement sp cifiques la TA alors que les attributs externes sont des raffinements des six caract ristiques ISO de base Les attributs de qualit les plus typiques en TA sont ceux ayant trait la qualit du texte produit regroup s sous la fonctionnalit 2 1 Ce sont en effet ceux qui permettent de r pondre la question Est ce que la traduction produite est convenable ou non Dans la mesure o convenable doit s entendre par rapport une certaine utilisation plusieurs attributs caract risent cette qualit divis s en deux sous cat gories les attributs ayant trait la qualit du t
40. teknologi EAG EWG PR 2 1996 FAL 91 FALKEDAL K DIR Proceedings of the Evaluators Forum Les Rasses Gen ve ISSCO 1991 FLA 94 FLANAGAN M Error Classification for MT Evaluation AMTA Conference Columbia Etats Unis 1994 HOV 99 Hovy E H Toward Finely Differentiated Evaluation Metrics for Machine Translation EAGLES Workshop on Standards and Evaluation Pise Italie 1999 HOV 03 Hovy E H KING M PoPESCU BELIS A Principles of Context Based Machine Translation Evaluation Machine Translation vol 17 n 1 p 43 75 2003 ISA 95 ISAHARA H JEIDA s Test sets for Quality Evaluation of MT Systems Technical Evaluation from the Developer s Point of View MT Summit V Luxembourg 1995 ISO 00 Iso Iec ISO IEC 14598 1 Information Technology Software Product Evaluation Part 1 General Overview International Organization for Standardization International Electrotechnical Commission 2000 ISO 01 Iso lec ISO IEC 9126 1 Software Engineering Product Quality Part 1 Quality Modellnternational Organization for Standardization International Electrotechnical Commission 2001 LEH 88 LEHRBERGER J BOURBEAU L Machine Translation Linguistic Characteristics of MT Systems and General Methodology of Evaluation Amsterdam John Benjamins 1988 LOF 96 LOFFLER LAURIAN A M La traduction automatique Lille Presses Universitaires du Septentrion 1996 Syst mes de traduction a
41. ticuli res et du temps ce qui rend cette approche relativement co teuse m me si elle est assez objective Il est donc plus courant de faire appel au principe de l chelle et au texte source pour valuer la fid lit de la traduction Plusieurs proc dures sont possibles Si l on dispose de juges bilingues encore relativement co teux on peut aligner les textes source et cible et inviter les juges indiquer segment par segment dans quelle mesure les informations contenues dans le texte source sont pr serv es dans la traduction John B Carroll a introduit une variante int ressante sur ce th me PIE 66 les juges ont d abord lu le segment traduit pour ensuite noter l informativit du texte source sur une chelle allant de contient moins d informations que la traduction fait toute la diff rence du monde Avec des juges monolingues moins co teux c est une traduction humaine qui remplace le texte source comme texte de r f rence mais l op ration de traduction risque elle m me d introduire des distorsions comme nous avons d j constat On peut proc der la mani re de Carroll mais le plus souvent les sujets lisent la traduction humaine de r f rence avant la traduction automatique Cette traduction de r f rence peut tre r dig e en reproduisant le contenu propositionnel mais non les effets stylistiques de l original afin de ne pas distraire les juges Cela suppose qu il est pos
42. uation syst matique On constate que l expertise des correcteurs regroupe de facon intuitive plusieurs des attributs de qualit contenus dans FEMTI notamment ceux qui constituent les sous cat gories ad quation pr cision et bonne formation Lors de la notation d une traduction ces attributs sont int gr s souvent inconsciemment par les correcteurs produisant une note finale Des tentatives existent pour introduire plus de pr cision dans ces corrections tels les crit res de certification de l Association am ricaine des traducteurs ATA 02 ou les normes de qualit pour les documents traduits dans l industrie automobile SAE 01 WOY 02 sur lesquels nous reviendrons plus bas Il est heureux de constater que les attributs de qualit d finis dans ces documents se retrouvent le plus souvent dans FEMTI notamment en liaison avec la qualit du texte produit vers laquelle nous nous tournons maintenant Syst mes de traduction automatique 319 13 3 M triques visant la qualit du texte produit Dans la section pr c dente nous avons dress un tableau de l ensemble des principales caract ristiques de qualit des syst mes de TA Ici nous nous concentrons sur les caract ristiques contribuant la fonctionnalit partie 2 1 qui ont trait la qualit du texte produit c est dire l ad quation la pr cision et la bonne formation Selon la terminologie propos e par John White WHI 03 il s agit de l valuation d c
43. uite partir de la meilleure traduction humaine attribuent naturellement un score lev au mod le lui m me et des scores tr s bas aux autres traductions des scores inf rieurs m me certaines traductions automatiques Les m triques appliqu es par des juges humains ne parviennent pas non plus restituer le classement acad mique Ces r sultats montrent que les m thodes sp cifiques employ es pour l valuation de la TA ne s appliquent pas convenablement l valuation des traductions humaines Cela soul ve la question de l valuation future des traductions automatiques lorsque leur niveau et le type d erreurs commises seront comparables ceux des humains si cette situation se produit un jour L valuation des traductions produites par les syst mes apparait plus coh rente dans cette exp rience La plupart des m triques permettent de d terminer qu en r alit les sept traductions automatiques sont issues de seulement quatre syst mes avec des configurations diff rentes Les scores obtenus distinguent de facon coh rente deux paires l une toujours meilleure que l autre Sur ce point les scores obtenus automatiquement sont en accord avec ceux des juges humains Les scores ne distinguent pas de fa on coh rente l int rieur des groupes l ordre est a gt b gt c gt d pour la premi re s rie et b gt a gt d gt c pour la seconde a gt b signifie que le syst me a est meilleur que le syst m
44. utomatique 335 MIN 93 MiNNIS S Constructive Machine Translation Evaluation Machine Translation Special Issue on Evaluation of MT Systems vol 8 n 1 2 p 67 76 1993 NIE 00 NIESSEN S OCH F J LEUSCH G NEY H An Evaluation Tool for Machine Translation Fast Evaluation for MT Research LREC 2000 2 4 International Conference on Language Resources and Evaluation Gr ce p 39 45 2000 NOM 92a Nomura H ISAHARA H The JEIDA Report on Machine Translation Workshop on MT Evaluation Basis for Future Directions San Diego Californie 1992 NOM 92b NOMURA H ISAHARA H JEIDA s Criteria on Machine Translation Evaluation IPSJ SIGNotes Natural Language Tokyo Japon Information Processing Society of Japan p 107 114 1992 OCH 01 OcH F J Ney H What Can Machine Translation Learn from Speech Recognition Workshop on MT 2010 Towards a Road Map for MT at MT Summit VIII Espagne 2001 PAP 01 PAPINENI K RouKos S WARD T ZHU W J BLEU a Method for Automatic Evaluation of Machine Translation Research Report Computer Science IBM Research Division T J Watson Research Center RC22176 W0109 022 2001 PIE 66 PIERCE J R CARROLL J B HAMP E P HAvs D G HOCKETT C F OETTINGER A G PERLIS A Computers in Translation and Linguistics ALPAC Report report National Academy of Sciences National Research Council 1416 1966 POP 99 PopesCu BELIS A L valuatio
45. w issco unige ch projects isle mteval may02 L atelier tait organis en marge de la conf rence LREC 2002 332 Traitement de l information ces traductions mais l objectif tait de tester si diff rentes m triques appliqu es ces traductions g n raient des scores coh rents notamment en ce qui concerne les traductions automatiques Les participants ont appliqu plusieurs m triques automatiques notamment fond es sur l algorithme BLEU PAP 01 ou sa variante labor e par le NIST DOD 02 mais avec diff rentes traductions de r f rence Certains participants ont choisi d utiliser l unique traduction de r f rence fournie d autres ont produit des traductions de r f rence suppl mentaires un proc d relativement co teux et d autres ont valu chacune des traductions candidates par rapport toutes les autres traductions consid r es comme r f rences une fa on peu canonique mais int ressante d appliquer BLEU Les m triques humaines choisies taient la fid lit l intelligibilit le temps de lecture li la lisibilit et le temps de correction appliqu es certes avec un faible nombre de juges dans un tel exercice Pour r sumer les r sultats obtenus le classement des traductions humaines obtenu gr ce aux m triques n est pas le m me que le classement pr alable tabli par leur correcteur acad mique Les m triques automatiques utilisant une traduction de r f rence constr

Download Pdf Manuals

image

Related Search

Related Contents

DIATERMO 106 - Huisarts Vandaag  竿掛けの可動方法    6013311/6013313/6013319  

Copyright © All rights reserved.
Failed to retrieve file