Home

Traduction automatique : ça marche ou non ?

image

Contents

1. des textes tr s divers dans des langues inconnues Il ne s agit pas de fournir des traductions parfaites ni m me de remplacer des traducteurs en produisant des premiers jets utilisables par des r viseurs plus experts pour produire des traductions finales de qualit professionnelle Mais il existe aussi des syst mes sp cialis s inconnus du grand public qui traduisent extr mement bien et en fait mieux et pas seulement beaucoup plus vite que des traducteurs humains Vraiment Alors il s agit de progr s r cents je n en ai pas entendu parler En fait a date d j de 30 ans Le syst me TAUM m t o qui devint METEO en 1985 fut lanc de fa on op rationnelle le 24 mai 1977 Environnement Canada Il a toujours t d di au sous langage des bulletins m t o Au d but il ne traduisait que de l anglais en fran ais Une version fran ais anglais fut ensuite d velopp e Vers 1990 METEO traduisait 30 millions de mots par an l quivalent de 120 000 pages standard 20 d anglais en fran ais et 10 de fran ais par abr viation de coat of arms 1 11 Christian BOITET en anglais Un bulletin envoy de Winnipeg en anglais y retournait en version fran aise 4 minutes plus tard le r sultat de la TA ayant t r vis en 1 minute ou moins Le niveau de qualit de la TA peut ici tre valu e il faut environ 7 fois moins de temps pour r viser un bulletin traduit automatiquem
2. dit anglo s mantique soit s mantico pragmatique et bas sur un domaine restreint et un petit nombre de t ches ex IF pour les dialogues de r servation en tourisme dans le projet europ en Nespole gt Universal Networking Language voir le site http www undl org 4 Interface Format 6 11 Alors la TA a marche Interstices 12 9 08 La ou les techniques et ressources utilis es pour programmer les tapes r alisant le passe d une repr sentation une autre constitue l architecture computationnelle d un syst me de TA Une tape peut tre r alis e avec une approche experte par programmation directe par automates par r gles de r criture par r gles statiques de bonne formation ou par programmation par contraintes ou bien une approche empirique statistique ou par l exemple Enfin on peut d finir l architecture op rationnelle d un syst me de TA comme l ensemble des conditions de sa construction de son utilisation de sa maintenance et de son volution Autant les deux architectures pr c dentes sont ind pendantes l une de l autre autant celle ci peut influencer les deux autres Les techniques et m thodes employer peuvent donc largement d pendre de la situation traductionnelle Par exemple on peut avoir traduire d une seule langue dans beaucoup d autres cas de la traduction de documents techniques ou bien depuis beaucoup de langues vers une seule c
3. gles dans ceux de syst mes experts Les syst mes de TA statistique ont un co t faible Faux cause du co t de construction des tr s grands corpus parall les n cessaires et aussi cause de l normit des calculs On dit que Google a mis 3000 machines en ligne pour la TA La TA statistique est l approche pr pond rante en pratique Faux part GoogleTranslate et peut tre LanguageWeaver pour certains syst mes sp cialis s tous les syst mes op rationnels r pandus ne contiennent aucune phase r ellement statistiques BLEU mesure la qualit des traductions Faux La corr lation avec les jugements humains excellente pour de tr s mauvaises qualit s diminue norm ment quand la qualit per ue augmente On a souvent observ que des syst mes commerciaux r gles et m me aussi des traducteurs humains tr s comp tents taient tr s mal class s par BLEU et tr s bien par des juges humains Il y a aussi plusieurs arguments scientifiques qui prouvent que BLEU ne peut pas tre un indicateur de qualit Par contre si on met au point un syst me de TA en cherchant obtenir des traductions tr s proches de traductions de r f rence d j effectu es et garanties excellentes L ad quation doit tre mesur e par un nombre gt 0 On peut se poser la question car un gros contresens est souvent de l anti information et une traduction devrait donc pouvoir tre dite antiad quat
4. le moins lourd possible on parle de TA de l auteur Il n y a pas d exemples de TA de qualit pour des textes non techniques Si Mais la vraie question serait plut t peut on construire des syst mes de TA de qualit ayant une couverture assez large par exemple capables de traduire des journaux Un exemple assez r cent est celui du syst me d velopp par Comprendium en Espagne dans l environnement METAL initialement construit 1981 84 pour faire de la TA technique par l universit du Texas pour le compte de Siemens Le syst me pr sent la conf rence EACL 2005 traduit tous les jours plusieurs journaux d espagnol castillan en catalan et en galicien Le fait que ces langues soient lexicalement et syntaxiquement tr s proches a permis d arriver a une qualit telle qu il ne faut que 5 minutes de post dition par page standard De fa on traditionnelle il faudrait au moins 1h de travail sans r vision et en utilisant une m moire de traduction il faudrait au moins 30 minutes On dit souvent que les traducteurs ont peur de la TA qui pourrait les remplacer C est vrai que beaucoup sont tr s r ticents Mais ils n ont pas de quoi avoir peur de la TA D abord ils ne sont pas en concurrence pour la TA du veilleur aucun traducteur humain ne serait en mesure de produire en une seconde la traduction d une page Web et m me pas une traduction mot a mot Et il ne le sero
5. t s dites d attachement si je vois des cahiers et des classeurs noirs les cahiers sont ils noirs ou non et faut il traduire par I see notebooks and black folders ou par I see black notebooks and folders introduisant l ambigu t similaire en anglais ou par I see black notebooks and black folders Si on observe que dans le texte l adjectif noir est souvent reli cahier on pr f rera la seconde possibilit Je vois mais pouvez vous revenir aux approches et au progr s Vous voulez donc savoir comment a marche Allons y D abord il faut voir que pour traduire par un programme une unit de traduction de quelque taille qu elle soit phrase paragraphe section chapitre document on le fait en g n ral en plusieurs tapes successives chacune transformant une repr sentation interm diaire en une autre Par exemple en approche transfert multiniveau on peut avoir les tapes et repr sentations suivantes tape Repr sentation r sultante Lecture et normalisation des cha nes ex amp eacute Segment normalis Segmentation Liste ou graphe de mots orthographiques Structure morphosyntaxique contenant les lemmes et les Analyse momo cat gories grammaticales par ex avions donnerait avoir verbe indicatif imparfait pl pluriel et aussi avion nom pluriel 5 11 Christian BOIT
6. Alors la TA a marche Interstices 12 9 08 Traduction automatique a marche ou non Christian BOITET Laboratoire LIG GETALP Universit Joseph Fourier 385 rue de la biblioth que BP 53 38041 Grenoble Cedex 9 France Christian Boitet imag fr Interstices 2008 v3 Dialogue imaginaire synth se de dialogues r els Traduction automatique alors a marche ou pas Pas de doute a marche Des millions d internautes demandent chaque jour la traduction de millions de pages a des serveurs de TA gratuits comme ceux de Systran Reverso Google ou au Japon Fujitsu Toshiba Nec Oki Oui bien sur mais ce n est pas ce que je veux dire En fait a traduit n importe comment c est souvent du charabia ou encore c est grammatical mais les mots sont mal traduits Eh bien oui mais que peut on esp rer Si on doit traduire they saw many arms comme savoir si c est ils scient de nombreux bras ou ils ont vu de nombreuses armes ou elles ont vu de nombreux bras elles scient ont vu de nombreuses armoiries etc Bien des traducteurs humains professionnels font ainsi des contresens graves En g n ral les textes qu ils produisent sont grammaticaux mais au fond cela contribue cacher les contresens et faux sens ou omissions D autre part vous parlez ici de serveurs Web gratuits dont le but est d aider 4 comprendre le mieux possible
7. Boitet C 2002 A rationale for using UNL as an interlingua and more in various domains Proc LREC 02 First International Workshop on UNL other Interlinguas and their Applications Las Palmas ELRA ELDA pp 23 26 Boitet C 2003 Automated Translation Traduction Automatique Revue francaise de linguistique appliqu e VIII 2 pp 99 121 Boitet C 2005 New architectures for democratic tunable quality MT systems Proc Pacific Association for Computational Linguistics Proc PACLING 2005 Meisei daigaku Hino campus PACLING Association pp 33 57 invited communication Boitet C Bey Y Tomokiyo M Cao W et Blanchon H 2006 IWSLT 06 Experiments with Commercial MT Systems and Lessons from Subjective Evaluations Proc IWSLT 06 International Workshop on Spoken Language Translation Kyoto ATR pp 23 30 Boitet C et Blanchon H 1994 Promesses et probl mes de la TAO pour tous apr s LIDIA 1 une premi re maquette Langages 116 pp 20 47 Boitet C Boguslavskij I et Carde osa I 2007 An Evaluation of UNL Usability for High Quality Multilingualization and Projections for a Future UNL Language In Computational Linguistics and Intelligent Text Processing Proc CICLING 2007 A Gelbukh ed Springer LNCS 4394 pp 361 373 ISBN 10 3 540 70938 X Springer ISSN 0302 9743 10 11 Alors la TA a marche Interstices 12 9 08 Boitet C ed 1988 BERNARD VAUQUOIS et la TAO vingt cinq ans de Tr
8. ET Arbre source multiniveau concret Il peut contenir des fonctions syntaxiques des relations logiques et s mantiques des traits s mantiques les unit s lexicales peuvent tre des couples lt lemme acception voir des familles d rivationnelles r parer r paration r parateur r parable irr parable irr parablement avec la possibilit d accepter aussi r parabilit et r parablement Sa correspondance avec la phrase est simple en particulier l ordre est respect Analyse grammaticale Arbre ou graphe abstrait source Il ne contient plus de n uds correspondant aux auxiliaires aux articles aux balises de relief italique gras qui sont transform s en Abstraction attributs ni certaines ponctuations parenth ses repr sent es de fa on structurale L ordre lat ral ne correspond plus celui de la phrase par exemple la particule s parable d une verbe allemand le rejoint Arbre ou graphe abstrait cible Si l arbre source est multiniveau il peut tre consid r comme plus g n ral que lui et dit g n rateur si les niveaux de surface fonction syntaxique classe syntagmatique et syntaxique sont propos s et non impos s au g n rateur Transfert lexical et structural Cette phase n est pr sente que si on part d une arbre g n rateur Elle produit alors un arbre abstrait cible en effectuant les choix possibles selon
9. L apport de Bernard Vauquois a la traduction automatique et au traitement automatique des langues naturelles Proc Colloque sur l Histoire de l Informatique en France 3 5 mai 1988 P Ch telin ed vol 2 2 pp 63 82 Boitet C 1988 PROs and CONS of the pivot and transfer approaches in multilingual Machine Translation Proc Int Conf on New directions in Machine Translation 18 19 August 1988 BSO ed Foris Publications pp 93 108 Boitet C 1988 Representation and Computation of Units of Translation for Machine Interpretation of Spoken Texts Computers and Artificial Intelligence 8 6 pp 505 546 Boitet C 1988 Software and lingware engineering in modern M A T systems In Handbook for Machine Translation Batori ed Niemeyer Boitet C 1993 La TAO comme technologie scientifique le cas de la TA fond e sur le dialogue In La traductique A Clas et P Bouillon ed Presses de l Universit de Montr al Montr al pp 109 148 Boitet C 1993 TA et TAO Grenoble 32 ans d j T A L revue semestrielle de l ATALA 33 1 2 Sp cial Trentenaire pp 45 84 Boitet C 1995 Factors for success and failure in Machine Translation some lessons of the first 50 years of R amp D Proc MTS V Fifth Machine Translation Summit 11 13 July 1995 CEE 17 p Boitet C 2001 Machine Translation In Encyclopedia of Cognitive Science Nature Publishing Group London in manuscript form 24 p
10. a ne peut servir qu aux bilingues Eh bien oui et non Il y a plusieurs sortes de traduction automatique ou plus g n ralement de traduction automatis e TAO avec des buts bien diff rents par ordre de difficult croissante pour les d veloppeurs de syst mes e aider un vrai bilingue produire des traductions de haute qualit en lui fournissant des pr traductions les plus utiles possibles ainsi que des aides dictionnairiques On parle de TA du traducteur e aider quelqu un acc der une information dans une langue qu il ne conna t pas On parle de TA du veilleur e aider 2 personnes n ayant pas de langue commune communiquer par oral ou par crit en tchat On parle de TA de dialogue e aider une personne monolingue ne connaissant pas ou que tr s peu une langue trang re mais tr s bien le domaine en cause produire des traductions de qualit dans sa langue C est une tache envisag e assez r cemment et qui suppose de proposer une traduction mot a mot multiple et plusieurs pr traductions compl tes factoris es avec des dispositifs ergonomiques pour faire apparaitre une bonne traduction jug e plausible On pourrait parler de TA du transcripteur e aider quelqu un produire des traductions de haute qualit dans une langue qu il ne connait pas en le consultant dans sa langue en cas de doute gr ce un dialogue de d sambiguisation
11. aduction Automatique ANALECTES BERNARD VAUQUOIS and MT twenty five years of MT Ass Champollion amp GETA Grenoble Boitet C et Gerber R 1986 Expert Systems and other new techniques in MT In Neue Ans tze in maschineller Sprachiibersetzung Niemeyer Tiibingen pp 103 119 Boitet C et Tsai W J 2002 La co dition langue lt gt UNL pour partager la r vision entre les langues d un document multilingue un concept unificateur Proc TALN 02 Nancy ATALA 12 p Eisele A 2005 Exploiting Multilingual Corpora for Machine Translation JRC Enlargement and Integration Workshop on Exploiting parallel corpora in up to 20 languages Arona Saarland University amp DFKI slides Hutchins W J 1986 Machine Translation Past Present Future Ellis Horwood John Wiley amp Sons Chichester England 382 p Hutchins W J et Somers H L 1992 An Introduction to Machine Translation H B Jovanovich ed Academic Press 362 p JEIDA 1989 A Japanese view of Machine Translation in light of the considerations and recommendations reported by ALPAC USA Japanese Electronic Industry Development Association Tokyo Kraif O 2006 Corpus multilingues multilingual corpora 22 11 06 http w3 u grenoble3 fr kraif index php option com_content amp task view amp id 20 amp Itemid 36 Lafourcade M et Boitet C 2002 UNL Lexical selection with conceptual vectors Proc LREC 02 International Conference on Language Resour
12. as des militaires am ricains Disons quelques mots des approches les plus r centes dites empiriques L approche statistique consiste supposer l existence d un espace probabilisable par exemple celui des v nements comme les n grammes de mots pour n lt 4 par exemple et calculer la sortie la plus probable correspondant l entr e transformer Les premiers syst mes de TA statistique fonctionnaient avec une architecture directe au niveau des mots typographiques ou semi directe en utilisant les mots et leurs cat gories comme V N Adj Adv Actuellement on passe par des repr sentations hi rarchiques en fragments chunks souvent appel s groupes phrases sans en avoir vraiment le statut linguistique Il est cependant tout fait possible comme l a fait Microsoft Research entre 1997 et 2002 de construire un transfert complet un niveau de syntaxe profonde en alignant 150 000 paires d arbres produits par analyse experte de segments source et cible provenant de documents techniques d j traduits Un calcul statistique m ne la construction d un MindNet dans lequel sont repr sent s les couples d arbrisseaux treelets source et cible en relation mutuelle significative Un arbre d analyse tant donn on lui associe une couverture optimale par des arbrisseaux source et on tricote un arbre cible en parcourant l arbre source de h
13. aut en bas et en rempla ant les arbrisseaux sources par des arbrisseaux cible correspondants Il reste faire une g n ration classique pour produire une traduction en g n ral assez bonne ou tr s bonne L approche par l exemple utilise directement les bi segments d un grand corpus bilingue La aussi l architecture linguistique peut tre vari e un extr me la TA par analogie travaille directement sur les caract res des segments sans aucun pr traitement l autre on utilise des bi segments pr par s comme par exemple dans le syst me EBMT de l USM Penang Malaisie o on utilise des alignements de correspondances cha ne arbre structur es La taille des corpus n cessaires diminue avec la pr paration associ e Pour la TA statistique destin e aux pages Web comme GoogleTranslate il faut au moins 50 M mots dans chaque langue soit environ 200 000 pages qui ont n cessit autant d heures de travail Quelques fausses id es Terminons en tordant le cou a quelques id es largement r pandues m me ou surtout chez les chercheurs en TA mais tout bonnement fausses La TA a pivot est n cessairement de la TA r gles Faux comme le montre par exemple le syst me MASTOR I pr sent par IBM en 2003 C est un systeme de TA de parole entre anglais mandarin et japonais sur PDA utilisant une repr sentation abstraite de type liste de propri t s liste
14. ces and Evaluation Las Palmas vol VI VI pp 1958 1964 S nellart J Boitet C et Romary L 2003 XML Machine Translation Proc MTS IX Machine Translation Summit New Orleans 9 p Thurmair G 2006 Using corpus information to improve MT quality Proc LR4Trans III 3rd International Workshop on Language Resources for Translation Work Research amp Training LREC 2006 Genoa ELRA ELDA 4 p Uchida H 2004 The Universal Networking Language UNL Specifications Version 3 Edition 3 UNL Center UNDL Foundation December 2004 http www undl org unlsys unl UNLSpecs33 pdf Vauquois B et Boitet C 1985 Automated translation at Grenoble University Computational Linguistics 11 1 January March 85 pp 28 36 11 11
15. de couples lt attribut valeur gt Aussi 7 11 Christian BOITET bien l enconversion que la d conversion avaient t apprises partir d exemples et aient calcul es par des automates munis de transitions et d tats pond r s par des poids assimil s a des probabilit s En TA transfert visant N langues il faut construire N N 1 tapes de transfert Faux car on peut videmment choisir une langue comme pivot textuel et alors il n y a que 2 N 1 transferts construire c est lin aire et pas quadratique On peut aussi composer des syst mes au niveau de leurs structures interm diaires en source ou en cible Par exemple pour aller du japonais en fran ais on pourrait utiliser un syst me japonais anglais mais ne pas g n rer et au contraire soumettre l arbre anglais cible un transfert anglais fran ais puis une g n ration du fran ais C tait d ailleurs l approche du projet DLT utilisant de l esp ranto parenth s comme pivot Les syst mes de TA r gles ont un co t lev Faux Quand on dit a on parle toujours du co t de construction car ces syst mes sont sur des machines comparables beaucoup plus rapides que les syst mes empiriques Quant la pr paration il faut inclure le co t de la fabrication des corpus dans celui de la TA statistique de m me qu on inclut le co t de la construction des dictionnaires et des programmes ou des r
16. e Le mod le d valuation serait alors le calcul du coefficient kappa d accord entre la structure repr sentant le sens de la phrase et des juges qui diraient si oui ou non ou quel degr les l ments de sens pr sents sont les m mes que ceux de la phrase source ou de la phrase cible de r f rence Dans ce cas on obtiendrait un score entre 1 et 1 5 On utilise ces termes de pr f rence analyse et g n ration car il s agit en fait de traductions comportant un transfert lexical relatif l espace lexical autonome du pivot interlingue choisi Distributed Language Translation BSO Research Dordrecht 1982 1989 8 11 Alors la TA a marche Interstices 12 9 08 La TA a pivot interlingue IL a ne marche pas Faux Le premier syst me du CETA a Grenoble utilisait un pyvot hybride et a produit pr s de 6000 pages de traudcitons de tr s bone qualit Au Japon les syst mes ATLAS II de Fujitsu et PIVOT de Nec sont des syst mes anc tres d UNL La TA a pivot interlingue IL a ne peut pas passer l chelle Faux ATLAS II Fujitsu est le meilleur pour le couple J lt gt E depuis 20 an Il couvre une grande varit de constructinos syntaxiques et surtout il a un norme dictionnaires avec au total environ 7 millions d entr es dictionnairiques ATLAS II v 13 2006 dont 5 440 000 entr es li es des domaines techniques Ce qui va marcher A mon avis le f
17. e de 2 3h en moyenne Bref ce syst me a conomis 17 traducteurs plein temps depuis au moins 25 ans C est votre seul exemple d un syst me de TA de haute qualit Non bien s r Un exemple beaucoup plus r cent est le syst me ALTFlash construit par NTT pour la bourse de Tokyo Nikkei Il traduit les br ves flash reports du Nikkei de japonais en anglais de mani re galement quasi parfaite Ses r sultats sont fournis aux lecteurs sans aucune r vision humaine car la qualit pro n est pas aussi cruciale que pour des bulletins m t o C est un syst me 2 tages La br ve a traduire est d abord soumise un syst me sch mas bilingues par exemple en transposant au fran ais anglais e stock a fortement mont value juste avant la cl ture e stock rose sharply to value just before closing Si une phrase instancie un sch ma japonais l instanciation correspondante ventuellement via le dictionnaire en anglais donne une traduction parfaite C est une approche de type livre de phrases avec variables Si aucun sch ma ne correspond la phrase est traduite par une version sp cialis e du tr s gros syst me g n raliste ALT JE 400 000 entr es de dictionnaire construit par NTT entre 1980 et 2000 en tant que syst me de recherche D autres exemples sont des syst mes de TA destin s aux documentations techniques et utilis s en interne Le gain en tem
18. ent que s il est traduit par une traducteur junior e pour r viser 100 mots traduits et obtenir la qualit professionnelle il faut en moyenne 3 op rations du traitement de texte le remplacement d un mot comptant pour 2 suppression puis insertion C est pourquoi le mainteneur de ce syst me John Chandioux parle de 97 de qualit Avant la TA la traduction des bulletins m t o tait d ailleurs le purgatoire des traducteurs juniors du Bureau de Traductions du Minist re du Travail Canadien et c est l un d eux qui avait t supplier le groupe TAUM TA l Universit de Montr al de les d livrer de cette t che ingrate Ces traducteurs la fuyaient d ailleurs apr s les 3 mois obligatoires Cet exemple illustre aussi le fait que la traduction professionnelle est non seulement difficile mais souvent p nible psychologiquement Contrairement ce qu on croit il est en fait tr s difficile de bien traduire des bulletins m t o Pour un traducteur form il n y a bien s r aucun probleme de compr hension mais il faut produire des traductions dans le moule du sous langage des bulletins m t o dans l autre langue Et a prend bien 3 mois temps plein pour devenir expert de cela Difficile donc Mais aussi d moralisant car un bulletin n a qu une dur e de vie de 4 heures Avant l automatisation le temps de validit d un bulletin traduit n tait en fait qu
19. ilingues pour des traducteurs professionnels et pour des bilingues agr s par les site lu et pouvant certifier des traductions Les contributeurs ont un niveau fonction de leur profil et un score par d faut Mais ils peuvent modifier le score qu ils se donnent eux m mes pour la traduction d un segment c est ce qui est fait en pratique quand on post dite un corpus l aide de l outil SECTra_w que nous avons construit Dans un premier temps on peut utiliser des syst mes existants pour proposer des pr traductions ensuite r vis e dans le contexte de lecture sur le Web par les lecteurs transform s en contributeurs b n voles On peut aussi quand rien n existe pour un couple de langues demander des humains de traduire Dans un second temps on pourra utiliser les donn es collect es l occasion des post ditions pour construire des syst mes de TA en choisissant leur architecture linguistique et leur architecture computationnelle en fonction de la situation et des ressources humaines lexicales et corporales disponibles 9 11 Christian BOITET R f rences Boitet C 1986 Current Machine Translation systems developed with GETA s methodology and software tools Proc ASLIB Conf Nov 1986 12 p Boitet C 1986 The French National MT Project technical organization and translation results of CALLIOPE AERO Computers and Translation 1 pp 281 309 Boitet C 1988
20. les crit res souvent stylistiques du sous langage cible vis Par exemple on produira l arbre correspondant v rifier le fonctionnement correct du dispositif ou bien l arbre correspondant v rifiez que le dispositif fonctionne correctement Choix de paraphrase cible Arbre cible concret Il est de m me nature qu un arbre source concret et peut ou non contenir les informations des G n ration syntaxique niveaux interlingues relations logiques et s mantiques attributs s mantiques mais elles ne sont pas utiles pour la suite Suite de mots s parateurs et ponctuations formant le segment cible G n ration Il est aussi possible de produire des traductions contenant des morphologique propositions multiples ce qui revient crire un graphe avec des alternants par exemple ils elles ont vu scient de nombreux bras nombreuses armes La suite des repr sentations interm diaires par lesquelles on passe et leur d tail constitue l architecture linguistique d un syst me de TA On distingue ainsi les syst mes directs semi directs transfert syntaxique de surface profond multiniveau s mantique et pivot hybride ou interlingue Un pivot interlingue a son propre espace lexical et implique donc la pr sence de deux transferts lexicaux Il peut tre soit linguistique et bas sur une langue naturelle comme UNL
21. n c est qu on peut maintenant g n rer un syst me de TA partir d un tr s grand corpus parall le bilingue form s de segments source et de leurs traductions segments cible Les syst mes de Google sont de ce genre et ce sont pour l instant les seuls utilisables en TA du veilleur La firme LanguageWeaver fond e en 2001 fait sa publicit en disant qu elle peut construire un syst me de TA d un jour l autre mais elle n en avait construit que 4 en 4 ans et pr s de 8 plus tard elle n a toujours pas de portail Web permettant d essayer un de leurs couples Tout le monde peut constater que GoogleTranslate fournit des traductions apparemment fluides mais au moins 30 incompr hensibles ou fausses et surtout o des parties d information ont disparu Au contraire les valuations d utilisabilit des 4 ou 5 derni res promotions d ing nieurs RICM3 de Polytech montrent que les r sultats de Google et de Reverso appel s un peu rapidement syst mes r gles sont nettement plus ad quats en moyenne D apr s le chercheur Dong Zheng Dong auteur du syst me Longue Marche et du r seau lexico s mantique HowNet 100 000 entr es en chinois anglais et concepts ils sont plus fiables si on voit une phrase cible qui a l air parfaite c est le plus souvent une excellente traduction avec Systran ou Reverso mais c est assez souvent une phrase qui dit aut
22. nt pas plus pour la TA du transcripteur 3 11 Christian BOITET Ensuite les traducteurs professionnels ind pendants et modernes utilisent en fait les syst mes de TA du commerce configurables par choix des priorit s de dictionnaires insertion d un dictionnaire utilisateur et nombreux autres param trages pour produire des pr traductions et les post diter Le site http www geocities com MTpostediting de Jeff Allen donne des r f rences et des tudes de cas prouvant qu on arrive ainsi traduire 6000 mots par jour au lieu de 2500 en moyenne L exemple de TAUM m t o montre d ailleurs que parfois ce sont des traducteurs qui poussent la construction d un syst me de TA Bien s r il faut ensuite les laisser utiliser ou non le syst me selon qu ils d cident qu ils vont ou non gagner du temps avec lui C est ce qui se passe la PAHO Pan American Health Organization Washington et l OMS Gen ve avec le syst me PAHOMTS qui traduit entre anglais espagnole et portugais centr sur la politique et la sant mais assez g n raliste du point de vue de la syntaxe et des genres de textes Et qu en est il de l aspect technique Est il vrai que la TA a fait beaucoup de progr s depuis 20 ans gr ce des approches statistiques Il faut y regarder de plus pr s et pr ciser ce qu on entend par approche de la TA et par progr s Ce qui est derri re cette affirmatio
23. ps humain est tr s important sachant qu en traduction traditionnelle il faut en moyenne 1 heure pour traduire 1 page de 250 mots et 20 minutes pour la r viser on arrive 10 15 minutes de post dition pour une syst me de TA sp cialis Attendez pourquoi dites vous post dition et plus r vision On parle de r vision quand la qualit du premier jet dit aussi pr traduction est suffisante pour qu on puisse le corriger en ne regardant que tr s rarement le texte source voire jamais si on ne conna t pas la langue source Ainsi un ing nieur fran ais peut r viser une bonne pr traduction d un manuel d entretien gr ce sa connaissance d taill e du domaine 2 11 Alors la TA a marche Interstices 12 9 08 Par contre on parle de post dition quand il vaut mieux et il faut tr s souvent commencer par lire et comprendre chaque phrase traduire avant de regarder la pr traduction propos e et de trouver comment la modifier a minima pour obtenir le sens d sir Exemple r el comment r viser voulez vous un joint torique avec votre caf M me en sachant qu on vient de l anglais on risque de ne pas trouver et de s nerver Mais si on post dite on lit d abord do you want a donut with your coffee crire donut pour doughnut est possible aux USA on rit un peu on corrige et on avance Mais alors s il faut conna tre la langue source
24. re chose avec Google en particulier une phrase qui omet de l information ou une n gation ou qui en introduit qui vient de nulle part Comment a un syst me de TA peut vraiment introduire une information qui n est pas dans le segment source Oui mais cela peut tre un bien comme un mal Ainsi si un portier d h tel voit arriver un bon client disons M Fischer il lui dira en fran ais Bonjour Monsieur et pas Bonjour Monsieur Fischer et encore moins Bonjour Monsieur P cheur Mais en allemand il devrait dire Guten Tag Herr Fischer car Guten Tag mein Herr serait plut t impoli de sa part Un syst me de TA comme un traducteur humain doit donc parfois utiliser de l information absente du texte ou de l nonc mais pr sente dans le contexte ou plus g n ralement dans la situation Encore un petit exemple si le portier demande en japonais a Mme Tanaka si elle a bien dormi il lui dira Tanaka san wa yoku nemashita ka Tanaka M Mme th me bien avoir dormi poli est source et cible sont invariables en usage adjectival comme marron p che ou standard 4 11 Alors la TA a marche Interstices 12 9 08 ce que et il faudra traduire par Madame a t elle bien dormi et pas par Monsieur a t il bien dormi Dans le sens inverse on aurait non seulement le m me probl me que vers l allemand ins rer le nom de famille correct mai
25. s il faudrait utiliser le bon niveau de politesse contexte situationnel pour ne pas traduire de fa on famili re et inad quate par Tanaka san wa yoku neta ka Mais je sais que les syst mes de TA traduisent phrase par phrase Alors comment peuvent ils utiliser de l information absente de la phrase source C est vrai que la quasi totalit des syst mes de TA op rationnels segmentent le texte source ou la transcription obtenue par reconnaissance vocale en segments correspondant id alement une phrase ou un titre puis les traduisent s par ment Parfois ces segments sont trop petits ce sont en fait des infrasegments comme les items d une liste puces dans une phrase qui en contient plusieurs Certains syst mes de TA font cependant un traitement global d un document traduire par exemple pour essayer de d terminer le sens de certains mots ambigus en fonction de tous leurs contextes d apparition Par exemple si notre premier exemple they saw many arms parle aussi beaucoup de tanks et d observateurs diverses techniques de d sambiguisaiton lexicale permettront de conclure qu il y a beaucoup plus de chances qu il s agisse de voir des armes que de scier des bras Mais si le contexte est de la m decine m dicol gale la d cision sera inverse Au niveau syntaxique un syst me comme AS Transac de Toshiba traite un document en deux passes pour essayer de r soudre des ambigu
26. utur est li l architecture op rationnelle Le voie suivre d s qu on d sire de la traduction de qualit et qu on ne peut l vidence pas payer des professionnels pour la faire dans l ensemble des couples de langues vis s est la TAO contributive externe On entend par l qu on remplacera le probl me insoluble de la diffusion de traductions de qualit tr s rapidement et pour de nombreuses langues par le probl me soluble de la TAO pour l acc s multilingue Pour r soudre ce probl me nous avons propos et prototyp le concept d iMAG interactive Multilingual Access Gateway Il s agit d une passerelle de traduction fonctionnant presque comme celle de Google ou de Systran mais e d di e un site lu en fait au sous langage associ un site ou aux url utilis s par une communaut donn e e munie d une m moire de traduction et d un lexique terminologique et phras ologique tous deux multilingues et sp cialis s au sous langage en question e offrant depuis l environnement de lecture on lit une page Web travers un navigateur tout simple et on n a rien installer l acc s sans couture un environnement de post dition munis d aides traductionnelles et dictionnairiques proactives e associant diff rents niveaux de qualit et des scores par d faut aux producteurs de traductions pour le mot mot pour la TA pour des b

Download Pdf Manuals

image

Related Search

Related Contents

Sony RDH-SK8iP User's Manual  vwr.com  ESET V6.0 スタートアップガイド  

Copyright © All rights reserved.
Failed to retrieve file