Home
        Télécharger le pdf
         Contents
1.                       I           am    Ba _    z            om i  Bum aa i   al  eh Ss es  Bo ca s          und p ei   DT relais  pm      ae  we  en  mart ii m  P i sudes  mart ii ee  GF i EI im   iZ i  che Ma s        s  nun   M    PE Pus      3  a a  E 9     F     aam      La a TEA a X ieee RE Ml qm   t   73       eur H E   q a    a         r I          5   u    i  ER E  r zY zz  rf     an   rz nr ui   9 LE sp  ad Lim  sr   Mero EE Saa   m i      m  E  1 1 a Bam B NW   w T B     m      y ns mi 1  usd aan p d aL  I muy T oe HN MY aa  mu users   m 1 Q m 1  js e  x diia a a NUE D   1 EE x J         lt     T   Cul Ks    m uh mu E gas  E   EB H LI      i    Ns LI J   a m    mu   LE I    A   a      sa         yr E PR   e i       LL       m   ph sun _ m Sam ss    F    a mami     F a    a   uu rl is m     ss aiio   u uk E i a    gt           i Ca 4   a    i   Ww mul mon   a m DL TN     wm  u m wm s omm     LANLIPRL   im s  XAR  rf dele Ru MN  at ut Vo z     o z  AE 1  a     A mu m amy a        capa Su Palat   ml         oa    m wm   ya mu z sus       m   n a  mpn          as          m            ma       Se CULA E  NE RUNE  e Pihani DI ph fa iei zi    uai     p m a ri L  S vs P   m  S Hu RUE  a    ot s M t US   me g     Puras ci al In Aq viaje  ae L  waa TH E   ng  if DUM  nE ES a nsc de       i   un 1       ru ToU v 4      a    a    AS    E         E  vus    IP o5 1514 es fr IP 05 1514 da de    TABLEAU 36     10 bi documents asynchrones avec suppression parmi les 12  correctemen
2.            2 3 2 M  thodes d alignement sous phrastique         2 4 Alternatives pour appr  hender la circularit             2 4 1 L alignement de phrases   une interrogation docu   DOTE x xs ce  2 4 2 M  thodes d alignement sous phrastique affranchies  d un alignement de phrases                 2 4 3 Utilisation des structures hi  rarchiques des docu   MENTS esas se us ea sa a a    44    2 5 Constats   M  thodes d alignement existantes et applications 44    POUR UNE M  THODE SANS PR  SUPPOS   DE PARALL  LISME 47    3 1 Caract  ristiques g  n  rales de notre approche           3 2 Corpus de langues morphologiquement diff  rentes          48  48    153    154 TABLE DES MATIERES    3 2 1 Langues indo europ  ennes                48  3 2 2 Langues ouraliennes                    49  3 3 Corpus de documents en relation de traduction        50    II M  THODE D ALIGNEMENT SANS PRESUPPOSE DE PA     RALL  LISME 51  4 NOS CONCEPTS 53  4 1 Le multidocument                         54  4 2 La collection de multidocuments                 54  4 3 Le document et sa mise en forme                 55  4 4 Les cha  nes de caract  res r  p  t  es de longueur maximale   55  4 5 Les multizones                            57  5 UNE M  THODE TEXTUELLE GUID  E PAR LE MOD  LE 61  5 1 Caract  ristiques de la m  thode                  63  5 1 1 Une m  thode descendante                 63  5 1 2 Diff  rents types d alignement de zones         64  5 2 Alignement de zones                        65  5 2 1 Rech
3.       Finlande     deux projets E     Ird and     2 projects  France    anze projets          Grece     quatre projets          Italy     15 projects      u xem bourg     1 project  Irlande     deux projets            Italie     quinze projets            Luxembourg     un projet        Pays Bas   sept projets         Portugal     deux projets           Roumanie       G jer x       ultrahaute pression pour der desT  pneumatiques uUsag  s                 vative technologies for the  x zz waste eens that are currently unsuitable    is most glass   manufacturing processes and thus end up ig  251 sites           EI i utilisables X   Ja plupart des processus de fabrication du ju s i           FIGURE 17   D  tection de multizones    avec la population F  tandis que la population B est co pr  sente avec  la population F dans les multidocuments 1 et 2  Les r  partitions sur la    collection des populations A  B  E et F servent pour l alignement des    populations C et D  respectivement avec  C    et C     et  D    et D         La m  thode que nous proposons est descendante et repose sur les    hypotheses suivantes  figure 19       dans une collection de multidocuments  un volet dans une langue    quivaut au moins partiellement aux autres volets dans les autres  langues du multidocument     dans une collection de multidocuments  un n gramme de carac   teres d une langue partage avec ses   quivalents dans les autres  langues  tout ou partie de sa liste de multidocuments  Autrement    67
4.       a a 5 5   IB he nn ID Ms ttt ements af d  E EEE E CES AE IT HA i i HE ER oe Den  Volets en fr Volets de fr Volets da de    IP o5 181       s     E  ost  H pw     H HES EH B  Volets en fr Volets de fr Volets el fr    TABLEAU 22   Nouveau mod  le   cas de multilinguisme intra bi document     Dans le tableau 22  le multidocument 1P 05 181   par exemple  se  compose d un volet anglais monolingue  en   d un volet fran  ais bi   lingue pr  sentant deux zones en frangais  l introduction et les annexes   s  par  es par un tableau en anglais  fr en fr  et tous les autres volets sont    1  http   europa eu rapid pressReleasesAction do reference IP 05   181 amp format HTML amp aged 1 amp lLanguage ES amp guiLanguage en    96    R  SULTATS ET   VALUATION SUR LA TACHE D ALIGNEMENT DE ZONES    bilingues  autres langues  en  en   Le multidocument IP os 182 2  quant     lui  comprend entres autres   un volet anglais terminant par une zone en  francais  un volet francais alternant frangais anglais frangais  des volets  danois et allemand trilingues  respectivement danois anglais frangais et  allemand anglais frangais    Les carr  s visibles au centre de ces images refletent des zones avec  une forte densit   de liens  Des zones non traduites entre deux documents  pr  sentent naturellement beaucoup plus d alignements qu entre des  zones traduites    Ce ph  nom  ne de non tradution n est pas marginal  nous l avons  constat   sur plusieurs dizaines de multidocuments de nos collections   Un
5.     36    EXISTANT M  THODOLOGIQUE    documents parall  les et les documents comparables     Nous faisons dans la section suivante le tour d horizon des princi   pales m  thodes d alignement existantes  Nous y exposons pour chaque  grain align    principalement phrases et mots  les indices et les ressources  auxquelles celles ci font appel  ainsi que l utilisation qu elles en font     23 M  THODES D ALIGNEMENT   LA CIRCULARIT      Historiquement  les recherches ont d abord port   sur des m  thodes  d alignement de phrases  Mais la quasi r  solution de ce probl  me  et  surtout le constat que l alignement de phrases est intimement li      celui  des mots  Debili et Sammouda  1992   et plus g  n  ralement aux unit  s  sous phrastiques  quelles qu elles soient  ont fait   merger rapidement  des m  thodes proposant d aligner aux grains inf  rieurs    celui de la  phrase   mots  Gale et Church  1991   chunks  Zhou et al   2004   propo   sitions  Nakamura Delloye  2007          Debili et Sammouda  1992  d  crivent en effet un ph  nom  ne de cir   cularit    Les m  thodes d alignement de phrases peuvent utiliser comme  point d ancrage un alignement m  me partiel de mots     l inverse  l aligne   ment de phrases peut   tre un point de d  part    l alignement de mots   Dans ce dernier cas  on ne peut se satisfaire d alignements grossiers   Deux   coles s affrontent donc   l une prenant le probl  me par le haut   par l alignement de phrases  l autre choisissant de partir du bas  par  l
6.     68 UNE M  THODE TEXTUELLE GUID  E PAR LE MODELE    Volet 3    Volet 2    MD2       MD3       FIGURE 18   D  tection de multizones via la collection de multidocuments    Volet 1 Volet 2    MD 1       FIGURE 19   Multizones   entre alignement et appariement  bleu   appariement  de populations  vert   alignement de zones  rouge   alignement    d individus     dit si deux n grammes ne sont pas partag  s par au moins un mul     5 2 ALIGNEMENT DE ZONES    tidocument  s ils ne partagent aucun contexte  ils ne peuvent pas    tre s  mantiquement   quivalents       ilexiste un partitionnement optimal de la collection qui met en    vidence des zones s  mantiquement   quivalentes de tailles va   riables  pour lesquelles le nombre d alignements est maximis       Partant du fait que le multidocument est une multizone de taille  maximale  un volet   quivaut globalement aux autres volets  nous cher   chons    faire   merger des multizones  Au lieu de supposer l ordre ou  le d  sordre entre les volets d un multidocument  celui ci sera calcul    en contexte  Ainsi    la facon du syst  me K vec  Fung et Church  1994   vu pr  c  demment  nous nous attachons    la comparaison de vecteurs  d effectifs d unit  s textuelles  Cependant     la diff  rence de celui ci  ces  unit  s sont d  nombr  es par document de la collection  et non par por   tion de document  La seule position d une unit   que nous consid  rons  est la position  lt  document  gt    telle unit   en fran  ais est pr  sente n foi
7.     intra   figure 9  voir inter textuel     Le parall  lisme textuel    Selon Heather et Rossiter  1990   on peut distinguer quatre types de  parall  lisme textuel en fonction de l organisation s  mantique et structu   relle de l ensemble des donn  es    l int  rieur des documents   explicite   fonctionnel  latent et implicite      Parall  lisme explicite   les deux textes partagent les m  mes iden   tificateurs d unit  s textuelles sous forme de cl  s facilement acces   sibles par l ordinateur    Exemple   les diff  rentes   ditions de la Bible         Parall  lisme fonctionnel   les deux textes ont  essentiellement    la m  me structure mais poss  dent des identificateurs diff  rents   Une correspondance fonctionnelle peut   tre   tablie   Exemple   deux versions successives d un document juridique  comportant des diff  rences dans le syst  me de num  rotation de  sections  paragraphes  phrases  etc   partial mapping   ainsi que  des diff  rences dans le contenu        Parall  lisme latent   il s agit de textes qui sont proches dans leurs  contenus  Cependant  cette proximit   n est pas manifeste au ni   veau structurel  Pour mettre en   vidence les liens s  mantiques  qui r  unissent l ensemble de ces textes  il faut entreprendre une  r  organisation s  mantique ou ins  rer des identificateurs suppl       1  Chacun des six facteurs de la communication assure une des six fonctions de  base dela communication verbale  respectivement     motive  po  tique  conative     parce
8.    69    70    UNE M  THODE TEXTUELLE GUID  E PAR LE MODELE    occurrences dans la collection  ces occurrences peuvent n  anmoins   tre  dans le m  me document    Notre strat  gie globale d alignement est multi  chelle  c est    dire  qu elle serala m  me    tous les grains  Ainsi  la notion de zone mise en   vi   dence pr  c  demment pourra recouvrir plusieurs r  alisations concr  tes    du document lui m  me au n gramme en passant par le paragraphe  la  phrase ou la proposition  Plus les zones seront petites  plus l inertie  intramultizone devra   tre minimis  e  au profit de l inertie intermulti   zone  plus  notamment  les ajouts et les suppressions de zones seront  d  terminants dans l alignement     53 APPARIEMENT ENDOGENE DE CHA  NES DE CARACT  RES  R  P  T  ES    Si l alignement monolingue peut s appuyer sur une similitude de  graphie  Bourdaillet et Ganascia  2007   l alignement multilingue ne  peut s en contenter  Il doit donc   tablir des similitudes entre les chaines  r  p  t  es dans chacune des langues sur un autre crit  re  Selon nos obser   vations  un d  coupage en N grammes de caract  res r  p  t  s permet de  faire   merger les facteurs communs n  cessaires     5 3 1 Capacit   des N grammes de caract  res    r  v  ler des correspondances  monolingues    Pour un document donn   dans une langue  une segmentation en  N grammes de caract  res met en   vidence des facteurs communs qu un  d  coupage en N grammes de mots ne revele pas     Prenons l exemple d un   
9.    C  dric BECQUEY   Description  discussion  extension  de la notion de parall  lisme  http    www mae u   paris  o fr siteaci aci Niveaulll parallelisme notion html  2003a   URL  http   www mae u paris10 fr siteaci aci NiveauIII   parallelisme notion html   Cit      la page 28      C  dric BECQUEY   Le parall  lisme  http    www mae u   paris  o fr siteaci aci Niveaull parallelisme html  2003b  URL  http   www mae u parislO fr siteaci aci NiveauII   parallelisme html   Cit   aux pages 28 et 30      Ismail BISKRI et Sylvain DELISLE   Les n grams de caract  res pour  l extraction de connaissances dans des bases de donn  es textuelles  multilingues  In Actes de la 8  me conf  rence annuelle sur le Traitement  Automatique des Langues Naturelles  2 5 juillet  Tours  France  2001   URL http    www uqtr ca  biskri    Cit      la page 56      Julien BOURDAILLET et Jean Gabriel GANASCIA   Alignements mono   lingues avec d  placements  In Actes des 14e Conf  rence sur le Traite   ment Automatique des Langues Naturelles  pages 303 312  Toulouse   France  2007   Cit   aux pages 43 et 70      Romain BRIXTEL   Alignement endog  ne de documents  une approche mul   tilingue et multi   chelle  Th  se de doctorat  Universit   de Caen Basse   Normandie  2011   Cit   aux pages 44  45  48 et 55      Romain BRIXTEL  Mathieu FONTAINE  Boris LESNER  Cyril BAZIN et  Romain ROBBES   Language Independent clone detection applied to  plagiarism detection  In 2010 10th IEEE Working Conference on Source 
10.    LB      5  dis ome h  Tow   4 in    m i a  SK Ga ie Dih         _          MIA melius ripa ueri  Rs nm rantes  Lr bkg api yag patiente amiens  bing else a zima pan  mul    Scares ie cas Stier    A PE ob M  iE TE RET TRIKE ai The felt te HT RIRE FIL IT Ta i   Sh R d    tig mier Ta dc E 1 ES pour pe pa ae dj Peri ica nie ERR HR  ir RII    dy SSS p  wt E  at ran wit n  E is fie A  it TEN  wm PEG ut ded DER 5 1  A m L1 n   Hu     Beer PETERSE fis Ht  nc tha         bh otha Dad  s  ty   A   au MER i W  We L  i Ser  ae  UN DE   gt  W  o ien         TES    4    mF  ete bi wines hata hex     oi ciii  rie  L TEE HE    y       5e  L   E    FEE     ES da        Ez    ITE   ETH   F    tx  tien    7 mama en LT  le Dui www IE  a  we   x  AUR   k   12 253 d  A         BAT cin  m bi Pat Soiree fest       IP os 1157 de  d IP 05 1157 el fr    Me RE Rn zia brew   MI tidie tcd dde      PE N iiri               UA rcp dE  EI nb  HA  dE I Td   T  ima Mu       er er nr es i j  aguts ber Ti TE Blips d L  q   Ped  2m     SE 7 FR    p RP s 23ER  Fi umi du Merten ed   iv ab tt   um bns Sd duas dw i ondas ee NE  AES ducc MALAE ACE ski ud pES Ny E x55 PLE dud T a di ES   mn ice sic  Ammo epa en AET paa tr mmo se ee ee  im  EN WEN  AD te  gt  nee a an  ub DUCERE HE se PR I Li ue NEC AC E r did d   ru je ES  eno R aku ICE Ey E asker Scat nee d See XG UH   d aN   e 2d    E He pos KNIE CEU PANE 1 Tu di SEHE          2 g Spek 1        i  E   uu     I         F IEEE tr r     al ne H 1  cr RIP PSSI   CE HSE P
11.    b  waste management       ng of cold rolled plates  A new chemical free process will be used  based on high pressure    vacuum technology     p     p     b   Greece   4 projects    ee   Hungary   1 project   lt  b gt   lt  p gt    p   The project  covering   b  water management lt  b gt   assesses the scale of arse   nic contamination in groundwater in the southern part of Hungary  It will develop a pilot  management plan  incorporating a new arsenic removal technology   lt  p gt    p    lt b gt Ireland      2 projects          Italy   15 projects          Netherlands   7 projects             Portugal   2 projects  eee Romania   1 project   e e   Spain   16 projects    The third aims at defining    g a mountain viticulture sustainable management system in order to reduce the environ   mental impacts of this activity on landscape  soil and water resources     p     p   Four    projects deal with   b  clean technologies lt  b gt      e    The last project will demons   trate the technical and economic feasibility of a new high capacity process to separate  high purity metalalloys   amp gt oo    Used for the separation ofiron aluminium and heavy  metals from    re use   lt  p gt    p      fourth project aims to reduce the disposal of non sterile clinical waste  in landfill sites and promote its use as a raw material for recycled products     p     p   Two  projects seek to mitigate the  lt b gt environmental impact of economic activities lt  b gt   One  will demonstrate the e
12.    nonciation    l origine du docu   ment source  Ce n est pas un processus lin  aire  Il s agit au contraire  d un processus circulaire qui commence par une interpr  tation globale  d un texte en langue source  r  vis  e ensuite par une analyse du texte  source et l   laboration de strat  gies pour produire le texte cible  Cette  suite de proc  d  s contient elle m  me un grand nombre de mouvements  circulaires plus petits ou    boucles    qui ne cessent de revenir sur le texte  source et sa situation  le texte cible et sa situation  les niveaux d analyse  individuels et sur l analyse du texte source et la production du texte cible   Le traducteur doit ainsi constamment reconsid  rer des   l  ments d  j    analys  s  chaque information obtenue au fil du processus d analyse et de  compr  hension n  cessite d   tre confirm  e et corrig  e    travers le prisme  des nouveaux   l  ments   Nord  2010    Concr  tement le passage d un document d une langue    une autre  d  pend entre autres    de la langue source   de la langue cible  Chamsine  2005    du destinataire   connaissances  cultures     Abudayeh  2010    du traducteur   comp  tences  connaissances du domaine  concepts  et terminologie   mais   galement connaissances des cultures et  des langues sources et cibles        Culture source Culture cible       Texte cible    Texte source       FIGURE 1   L intertextualit   dans le processus de traduction  Nord  2010   Les  rectangles    gauche de la figure de m  me que les ovale
13.    p   Le troisi  me  projet vise    d  finir un systeme de gestion durable de la viticulture de montagne  en vue  de r  duire les incidences de cette activit   sur le paysage  les sols et les ressources en eau      lt  p gt    p   Quatre projets traitent des  lt b gt technologies propres  lt  b gt     e     Le sixi  me  projet d  montrera qu il est techniquement et   conomiquement possible d appliquer un  nouveau proc  d      haute capacit   pour s  parer les alliages m  talliques    puret     lev  e   plus de 9096   Utilis   pour extraire le fer  l aluminium et les m  taux lourds contenus  dans les v  hicules hors d    nouvelle technologie recourant    la fermentation du lisier     la transformation du bio   gaz en   nergie et en chaleur      cologiques    et    la s  paration int  grale des composants    recyclables et non recyclables   lt  p gt    p    lt b gt Finlande   deux projets   e e e France    onze projets          Le quatri  me projet vise    d  montrer qu il est techniquement  possible de recourir    la technologie des ultrasons pour r  duire la production de boues  r  siduaires dans les stations d   puration des eaux us      ernier projet fran  ais concerne la  lt b gt gestion de la qualit   de l air lt  b gt   Il vise    mettre au  point un   chantillonneur d air bas   sur une nouvelle m  thode de surveillance des pollens  dans l air  Au lieu de quantifier les grains de pollens selon leur morphologie  cette m     thode reposera sur la mesure en ligne del antig
14.    par cette approche  Malgr   l imperfection de la m  thode d   valuation   les r  sultats sont positifs partant de 5096 de cognats et 696 de traductions  et se stabilisant autour de 696 pour les deux     123    124      VALUATION QUANTITATIVE DES APPARIEMENTS    60        Traductions      Cognats                       SS       w     wa s  sk dp      w a   I     wa  iF  wa     E         Waqalu a          200000 400000     600000     800000     1000000 1200000    FIGURE 22     volution des pourcentages de cognats  trait continu  et de tra   ductions  pointill  s  sur 40 md en fran  ais anglais      VALUATION MANUELLE DU PARALL  LISME ENTRE  LES VOLETS DES COLLECTIONS    Nous pr  sentons ci apres les diagnostics de parall  lisme entre les  volets des collections de notre corpus   tablis    l oeil nu par nos soins   Chaque tableau pr  sente l ensemble des bi documents d une collection   Chaque bi document a fait l objet d un diagnostic   synchrone  asyn   chrone avec inversion ou asynchrone avec suppression et le cas   ch  ant  nous avons relev   des sp  cificit  s telles que       le type d inversion       le type de suppression    la longueur des volets    la pr  sence de multilinguisme     Les principes qui ont pr  sid  s l attribution d un diagnostic sont les  suivants        seules les inversions et suppressions sur phrastiques ont   t   prises  en consid  ration      les suppressions de balises n engageant pas de changement de  rendu sont consid  r  es comme des suppressi
15.   LA    7    127    EVALUATION MANUELLE DU PARALLELISME      rueumoq e 19 oTIeS Ng ep e  923110dde apte   jue  re19p    SUBST  S9OJQIUIIP sop uorsso1ddns     ep    TJ    sa To    ap   pm aun p uorssaiddns   ap   Sj9 OA T SI  suep stej3ue uo oxouue sonsuTTIq  Sj9 OA T SI  suep sre Gue uo oxouue sonsuTTIq  Sj9 OA c SI  suep stejdue uo oxouue nuq   3j  Sj9 OA T SI  suep stej3ue uo oxouue sonsuTTIq  Sj9 OA T SI  suep stej3ue uo oxouue s  n  urliq  Sj9 OA T SI  suep sre Gue uo oxouue sonsuTTIq     lt     2U4UDUU  gt  sas  feq op uorsso1ddns   1      lt        2Wbub  gt  sasi eq op uorsso1ddns   op    map   ap   map   topi   aj 39 ua    nbn  qeudre aipio red sa911  sjo  oad ap s  1srT    USPI   Sj9 OA T SI  suep stejsue uo neajge    songur Iq  Sj9 OA c SI  suep stejsue uo Neo  qe    onSui Iq 13  map    map    Sj9 OA T SI  suep stejsue uo neajge    songur Iq     X Z1   YOST  1uoumoop 11194   ZT   XZ 1  yuournoop 11194   ALT   35  T  JUSUINIOP pyd   AT   19 7  JUSUINIOP Hyd    MZ 1  yuournoop 31194   ZT   x1  q1usumoop pyd    spes q    JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  uorssa1ddns  uorssa1ddns  JUOIYIU  S  uorssa1ddns  uorssa1ddns  uorssa1ddns  ouoi1qou  s  ouoi1qou  s  ouoi1qou  s  ouoi1qou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  uorssa1ddns  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  uorssa1ddns  ouoi1qou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  UOISIOAUT  U
16.   LEN      u a  Heg E A D E     E a   eg E  Wo  NT    A E   a   5   ooo  m  E E     E mut  m   2 A  wp         L A    Sa   E w  a a a LE xoa      a E      E Wy     w     X _ Ml  x  L _  gt   IP 05 1558 es fr IP 05 1558 de fr      E   a ES 1    E  P z F     T p fie  MR ANA Ry  ee ee      x    RA et NE  ECC ta  d c qM      T       ui SX       7 F    tlg M             C             gt  t a E   E   oo i       o       on   4                pEr  p in  2                    gt  im  um 1 i A n i      _ 1     n  P  P                 Tox       P  M E D E      a   ATE           i  7 ANS i E3    N      lt      ie         HE NEP          z W  x Lolo   D         P M   gt  E EMT  T  eu p  a   I DEP E          En    ie wa it Nr  Pu du       A wr s ee XS A MAR  CUN al yeti   ee    bpa LT f fiU mm Es  RE  pis ire   nt OP T Peck o w ee en 0  PAM                 X nm La     Lia Ww c          E    IP o6 202 de fr  tec don onm   ent   Ba  d ipua dd PS    kus z  1  rd    E eu   E   ur ah i gee EE  er 1  cre E NI s    E P    watt   cre E s    a            Pert   tia Et nns eris lunt Wie  E a 7 i  T E  Tia     h T ilin      IN iF  litre pegs Petey ct  eu TERG AM Nr   _       zi     sak      p a dd i   as s          ws     eae             eo een o ve E Vi lt   I Hn wee te matty  Arr a mnt i en EIT way Sae TEST  ety Sr   T I  lt  S oth L   wz yor  TI   7 RER E        a FS a re f    k    I  T    ran    z LN        n Li Lu z Yi A    Bun z ti x    EHE  Bi a  Gut  ates id  h   DU T   mW 2 MET kt a    ese M 
17.   Nous avons vu pr  c  demment que si l alignement de  phrase pouvait se contenter d une correspondance mot mot relative   ment grossi  re  il n en est pas de m  me pour l alignement en unit  s  sous phrastiques  L alignement d unit  s inf  rieures    la phrase peut    2 3 M  THODES D ALIGNEMENT   LA CIRCULARIT        tre vu comme un raffinement de la technique d alignement phrase    phrase dont le but est d arriver    une granularit   plus petite  La tache  est tr  s complexe car il n est pas possible d envisager un alignement fin  au niveau lexical sans se pencher sur les nombreuses difficult  s que cela  engendre       les textes sont fortement constitu  s d occurrences en rapport  complexe   mots compos  s  locutions  phras  ologies  et aucun ali   gnement ou extraction ne peut s  rieusement   tre fait sans prendre  en consid  ration ces ph  nom  nes     la fois recherch  s en termi   nologie et n  cessaires pour le travail sur certaines langues comme  le su  dois ou l allemand pour n en citer que deux      les textes sont fortement constitu  s de mots grammaticaux  5096  des occurrences d un texte  dont la traduction est encore moins  biunivoque que celle des mots lexicaux    Deux types d approches ont   merg   certaines purement linguis   tiques et d autres hybrides bas  es sur la combinaison des m  thodes sta   tistiques avec les premi  res et g  n  ralement bas  es sur la reconnaissance  de patrons et modeles    l aide d expressions r  guli  res ou de grammaires  loca
18.   compl  mentarit     Le parall  lisme fait appel     diff  rents    proc  d  s permettant de contraster dans la structure d une  image deux ou plusieurs termes qui peuvent   tre contraires  ou homo   nymes  ou synonymes  ou presque homonymes ou presque synonymes      Becquey  2003b   L observation montre une grande vari  t   de types  d associations pour lesquels il faut examiner le nombre de termes en  parall  le  couplets  triplets  quadruplets     inventaires   leur taille  paral   l  lisme de 1    x termes   leur distance  de la connexit      l   loignement    leur composition  chiasmes    chos  canon      Becquey  20032   Cette  d  finition du parall  lisme sert ici    d  finir un ph  nom  ne monolingue  du domaine de l oralit    agissant notamment    travers la syntaxe des    nonc  s  les lex  mes  les sons de la langue       kubin int an utalam ki ichkelem injajaly  um ma parole va    mon vrai beau  et myst  rieux seigneur  kumani tyosa kpixan qui se d  place pour nos   mes    kumani tyosa klu uma qui se d  place pour nos corps    Tableau 8   Illustration du parall  lisme en versification sur un couplet en yuca   t  que d une pri  re d offrande agricole  Becquey  20032     Le tableau 8 illustre un cas de    microparall  lisme     rendu par la  r  p  tition partielle de vers    vers qui   tablit des cadres syntagmatiques  au sein desquels on trouve   galement un contraste paradigmatique  sym   bolis   en gras dans le tableau     Cette d  finition renvoie aux deux modes
19.   gories  recens  es par Euratex  l association europ  enne des  fabricants de produits textiles  dans la lettre qu elle a  adress  e    la Commission le 9 mars 2005          La clause sp  cifique de sauvegarde relative aux produits  textiles du protocole d adh  sion de la Chine    l OMC  2001     l       25    FIGURE 8   Illustration d un cas de suppression entre le volet anglais du com   muniqu   de presse IP 05 473 et sa traduction en fran  ais  Les        ont   t   introduits par nos soins  ils symbolisent la fin du paragraphe  qui les pr  c  de     EXISTANT M  THODOLOGIQUE    E chapitre est consacr      un tour d horizon des principales approches    7 del   tat de l art en mati  re d alignement de corpus parall  les  Nous  y pr  sentons les multiples d  finitions du parall  lisme  avant de montrer  qu il existe de nombreuses techniques d alignement  diff  rentes notam   ment du point de vue des unit  s de base mises en jeu   phrases parall  les   paragraphes parall  les ou documents parall  les  Nous pr  sentons les  corpus  les concepts et les indices qu elles exploitent  Nous verrons en   suite sur plusieurs d entre elles l usage qui en est fait et quel grain elles  analysent pour aligner tel ou tel autre grain    Les constats que nous tirons de ces principales techniques  notam   ment du point de vue du parall  lisme  nous am  nent    pr  senter au  chapitre 3    la fois les grandes lignes de notre approche et notre corpus  tant du point de vue des langues que du type
20.   la page 5      Marc DAMASHEK   Gauging similarity with n Grams   Language   Independent categorization of text  Science  267 843 848  1995   Cit       la page 56      Fathi DEBILI et Ely  s SAMMOUDA   Aligning sentences in bilingual  texts   French English and French Arabic  In Proceedings of the  14th conference on Computational linguistics   Volume 2  pages 517   524  Nantes  France  1992  Association for Computational Linguis   tics  URL http   portal acm org citation cfm id 992151 amp dl   GUIDEScoll GUIDES CFID 783361778CFTOKEN 78125505   Cit   aux    pages 34  36 et 39      Ted DUNNING   Statistical identification of language  Technical re   port MCCS 94 273  New Mexico State University  New Mexico  1994   URL http   citeseerx ist psu edu viewdoc summary doi 10   1 1 48 1958   Cit      la page 56      Christine DURIEUX   Le foisonnement en traduction technique d anglais  en francais  Meta  35 1  55 60  1990  ISSN 0026 0452  URL http     id erudit org iderudit 002689ar   Cit   aux pages 8  10 et 150      Herv   D  JEAN et Eric GAUSSIER   Une nouvelle approche    l extraction  de lexiques bilingues    partir de corpus comparables  Lexicometrica   Alignement lexical dans les corpus multilingues Num  ro sp  cial    2002   Cit      la page 149      Jessica ENRIGHT et Grzegorz KONDRAK   A fast method for parallel  document identification  In Human Language Technologies 2007    The Conference of the North American Chapter of the Association for  Computational Linguistics   C
21.   les langues et le corpus tel que la pr  sence de cognats ou les limites de  phrases  Cependant  les syst  mes reposant sur la similitude de r  parti   tion de mots se heurtent    la nature flexionnelle de certaines langues   un m  me mot pouvant alors recouvrir plusieurs formes selon sa fonc   tion dans la phrase  En outre  K vec suppose la lin  arit   de la traduction  entre les volets  ce qui n est pas toujours le cas  notamment sur des paires  de textes asiatiques indo europ  ens comme il se propose d aligner  En  outre  des ph  nom  nes d ajouts et ou de suppressions peuvent   gale   ment interf  rer  Pour de meilleurs r  sultats  Fung et Mckeown  1994   ont impl  ment   une version ynamique de K vec  DK vec  qui produit  un petit dictionnaire dont les entr  es peuvent   tre utilis  es comme des  ancres pour l alignement    Plusieurs auteurs ont utilis   des matrices de points  dotplots  tech   niques emprunt  es    l analyse ADN  et d abord reprise pour explorer du  code source  Church et Helfman  1993   les appariements ainsi r  v  l  s  transformant le probl  me de l alignement en un probl  me de traitement  d image Church  1993   Chang et Chen  1997   Langlais  1997   Mela   med  1999  ou exploitant des hypotheses similaires pour la d  tection de  plagiat  Brixtel et al   2010      43    44    EXISTANT M  THODOLOGIQUE    2 4 3 Utilisation des structures hierarchiques des documents    Brixtel  2011  met  quant    lui  en   vidence le fait que les marques  de structur
22.   mi mum    5 nr   1  m d Lm    a fw 3 a Z sors  see d E              DOWD    DSTI IE ATE   cl    105       IP 08 405 fi fr    IP 08 1829 da de    TABLEAU 31   10 bi documents asynchrones avec suppression parmi les 26  correctement attribu  s sur les collections 1 2 3 avec la m  thode    Grand Angle  voir tableau 24       lt    n En E    wiih Fo GU num    p n  P ER oe  4 T i aA L Fe B  HH    qur  1 ai FE         ETI        d    F    amm   g m   3 CE En   m  LI E     nu          s    mA    LE ax    J             1 TU EU Ea MM ENEE mi i  RU L IL E i THERE REI     LEE     HDHH    uc R   MIEI              AIT   F ERR BE p in  iur       106 R  SULTATS ET   VALUATION SUR LA TACHE D ALIGNEMENT DE ZONES    1 1 Nr  ony        m      nu   a ua   m  u          ptt LL T   tem oz   a ne a    a                L    1 L  a E L      a ja   mg  nu LA    s  a L     A     _ m        1                          a      7     n x 1 1      LI a  m  a  m         LE   f 1    4   T    Vu T      z   Y   H a            E    n     nl         I          Tat   k    a E  a  x         a         P  a P   x L x x      3   LI  r  x  a am r     LE 1 CL    m r  i     E      LI   La      ud Uo eue uvY oc   LA       Kk  E j   a     s j    EA Uwe B QUA o id i    D I xc    ae    m     1  i Me  m  TE EES eer no  Lc E r h       mo xx x Pu      am  f  c pEIEUS  y  AD Iason Ble E  ri ir V  q e um EA ETR 2   gt     5 7   z   III Rt Sa   mm Ed a        5 mn Ve er   do   m    8 a  7   7 m mom i    x   S   m        R l LER I m
23.   n  it   l allerg  n  it     lt  p gt    p     b  Gr  ce   quatre projets          Hongrie   un projet    E   Irlande   deux projets            Italie   quinze projets   e e e Luxembourg   un projet   eee Pays Bas   sept  projets l        Portugal   deux projets   e e e Roumanie   un projet             Royaume Uni   dix projets Le quatri  me projet vise    r  duire l   limination  des d  chets hospitaliers non st  riles dans les    s incidences environnementales des activit  s   conomiques lt  b gt   Le premier vise    d  mon   trer l efficacit   du recyclage del eau au moyen d un nouveau r  acteur de digestion a  ro   bie des eaux us  es     p     p   Le second projet concerne l exploitation des friches indus   trielles pour la culture de biomasse    des fins   nerg  tiques  la r  habilitation des terres  endommag  es et la production de chaleur et d   nergie    partir de sources d   nergie re     nouvelables     e    Su  de   deux projets          Directive 2002 95 CE du Parle   ment europ  en et du Conseil du 27 janvier 2003 relative    la limitation de l utilisation  de certaines substances dangereuses dans    en     a    b   Environment   Commission supports 89 innovation projects in 17 countries with     71 million  lt  b gt   lt  h1 gt    p    lt b gt  lt i gt  The European Commission has approved funding  for 89 environmental innovation projects in 17 countries under the LIFE Environment    programme 2005     9    More information lt  b gt  lt br   gt  See the annex 
24.   ordre analytique ayant pour objet  les traductions  Harris  1973   Ce n  ologisme est    l   poque venu rempla   cer les p  riphrases      the Sciences of Translation     Nida  1964  et    the  Linguistic Theory of Translation  gt   Catford  1965   L objet primordial de  la traductologie est la traduction naturelle trait  e d une fa  on descriptive  et explicative  Le travail du traductologue se situe donc en aval de la  traduction  au niveau du texte traduit et pas de la traduction  il n a ini   tialement pas de vocation prescriptive  Les traductologues s int  ressent  notamment    des ph  nom  nes tels que   la surtraduction  la perte de  sens  l erreur  le foisonnement  Durieux  1990  Juhel  1999  Cochrane   2007  Ballard  1999    dont ils identifient les causes  Harris dit conserver  le terme    traduction    pour l op  ration traduisante  et celui de    texte  traduit    pour son produit  Quelques ann  es apr  s dans  Harris  1988   il  propose le terme bi texte pour d  signer le couple texte source texte cible   par extension on trouve   galement le terme multi texte pour d  signer un  ensemble constitu   d un texte source et de ses traductions dans plusieurs  langues  Zimina  2006   quant    elle  propose de nommer volet chacune    13 DES T  MOINS PRIVIL  GI  S DE LA VARI  T   DES LANGUES    des versions d un tel ensemble  Dans le laboratoire du GREYC  nous  avons cr     le n  ologisme multidocument qui inclut  en tant que grain  sup  rieur au multitexte  les dimensi
25.   que vous le valez bien    gt    m  talinguistique   lt  cadeaux  gt  prend un   x   au pluriel    phatique  comme le    all      dit au t  l  phone   r  f  rentielle           si nous distinguons  ainsi six aspects fondamentaux dans le langage  il serait difficile de trouver des messages  qui ne rempliraient seulement une seule fonction  La diversit   des messages r  side non  dans le monopole de l une ou l autre fonction  mais dans les diff  rences de hi  rarchies  entre celles ci     Jakobson  1963     29    30 EXISTANT M  THODOLOGIQUE    v  2107  v  2108  v  2109  v  2110  v 2111  v  2112  v  2113    v  2133  v  2134  v  2135  v  2136  v  2137  v  2138  v  2139  v  2140    v  2217  v  2218  v 2219  v  2220  v  2221  v  2222  v  2223  v  2224  v  2225  v  2226  v  2227  v  2228  v  2229  v  2230    v  2232  v  2233  v  2234  v  2235  v  2236  v  2237  v  2238  v  2239  v  2240    xa u nima bal nu te  nu xoq ojaw  ch in tij ta na pe  xa ta nim a r eta L il u  wach nu kam ik  nu sach ik  waral ch   u xmut kaj  ch  u xmut ulew    ixoq mun ch a k   am a ul oq ri nu wa  bal  ri nu ok ibal  ch a ya a chi r e ri oyew achi  kaweq k iche  winaq   xa nim a r eta 1 11 u kam ik   u sach ik  waral ch 1  u xmut kaj   ch  u xmut ulew    ri lo lo j  ri ch uch u j ri laq an u q in  ri k oxaj u wa    ri ki kal a tz     ka    ban ik ri u ban  om nu te  nu xoq ojaw  mi x ch in jik ik e j ul oq  ch  u pam u nim al tz aq  chi  u pam u nim al k oxtun  chi kaj pa  chi kaj xukut al  xa ta nim a r
26.   ralis  e telle qu on en trouve dans un dictionnaire    Concr  tement  aligner des mots  ou des unit  s s  mantiquement    quivalentes  est donc l op  ration consistant    identifier des relations  bilingues ou multilingues entre des mots ou des unit  s  dans des corpus  parall  les  i e traductions   bilingues ou multilingues  autrement dit des  bi textes ou des multidocuments  Cette d  marche s inscrit dans le but  de les r  utiliser dans le traitement des langues naturelles  comme la  lexicographie bilingue  Klavans et Tzoukcrmann  1990  Langlois  1996      33    34    EXISTANT M  THODOLOGIQUE    la Traduction Automatique  TA   la Traduction Assist  e par Ordinateur   TAO   via notamment des M  moires de Traduction  Planas  2000  ou  des concordanciers bilingues  Huet et al   2009   ou encore la cr  ation  de bases de donn  es terminologiques multilingues  Wu  1994  Lin et al    2008  et la d  tection de plagiat  Brixtel et al   2009     Langlais  1997  d  finit un syst  me d alignement multilingue    id  al      comme      un processus qui prend en entr  e un corpus multilingue   c est    dire un ensemble de textes traitant d un m  me sujet dans des  langues diff  rentes  et qui  produit une sortie constitu  e d appariements  5 mettant en correspondance les r  gions  ou segments  qui sont en  relation de traduction dans l ensemble des textes du corpus  Une r  gion  est une unit   textuelle pouvant relever de diff  rents niveaux comme le  chapitre  la division  le paragra
27.   thode     59    60 NOS CONCEPTS          FIGURE 13   Multizones FR EN du m  me communiqu   IP 05 1157     UNE M  THODE TEXTUELLE GUID  E PAR LE MODELE    N  Totre m  thode d alignement est orient  e analyse textuelle  Elle pr      UN voit les probl  mes de comparativit   li  es tant    l activit   du tra   ducteur qu aux diff  rences entre les langues  La difficult   inh  rente aux  m  thodes d alignement endog  nes est de savoir par quels alignements  commencer  a fortiori lorsqu elles sont appliqu  es sur des corpus mul   tilingues et potentiellement bruit  s  Un alignement endog  ne ne peut    tre que progressif  C est    dire qu il ne peut que se situer dans un cadre  it  ratif  alignant soit de facon ascendante  soit de facon descendante   De facon ascendante  en appariant d abord les cognats  chaines de ca   ract  res identiques entre plusieurs langues et en d  finissant    partir  d eux  des zones dont la taille sera progressivement   tendue  De facon  descendante  en mettant progressivement en correspondance des zones  de texte s  mantiquement   quivalentes     l int  rieur desquelles  nous re   cherchons    nouveau des multizones plus petites  Nous faisons le choix  d une m  thode descendante qui n impose pas le parall  lisme mais re   cherche et calcule en contexte les zones de textes o   il existe  Il existe  un continuum entre des   quivalences linguistiques r  pertori  es dans  les ressources dictionnairiques  i e  les appariements  et les   quivalences  traduc
28.   thode adapt  e     toutes les langues   ind  pendante de l ordre des constituants de la  phrase et de la disparit   du grain mot  Pour cela  nous traitons toutes les  langues avec des chaines de caract  res comme le propose  Cromieres   2006  pour les langues asiatiques    Enfin  dans l esprit des travaux de l   quipe DLU du laboratoire  GREYC  nous souhaitons   laborer une m  thode endogene qui exploite  le corpus pour analyser le corpus autrement dit qui n utilise que les  connaissances intrins  quement contenues dans les traductions  Notre  objectif est de pallier ainsi le manque voire l absence de ressource dic   tionnairique disponible pour l analyse de certaines langues  ainsi que le  co  t de l ajout   ventuel d une langue dans le corpus     3 2 CORPUS DE LANGUES MORPHOLOGIQUEMENT DIFF  RENTES    Nous introduisons volontairement d  s le d  but des langues tr  s  diff  rentes du point de vue du foisonnement  de l alphabet  de la mor   phologie    Ces diff  rences nous aideront    valider et renforcer l int  r  t  de certains concepts    la base de notre m  thode appliqu  e    une collec   tion de documents  comme l alignement de N grammes de caract  res ou  le concept de multizones  ainsi que le caract  re ind  pendant des langues  que rev  t la m  thode dans son ensemble    Tous les sch  mas SVO et d  termin   d  terminant sont repr  sent  s   au travers de deux couples de langues proches et plusieurs couples de  langues diff  rentes selon plusieurs aspects   plus ou
29.   u    stiones citadas en nuestros informes se deben tomar muy en  serio y han de ser un incentivo para acelerar las reformas  si  Bulgaria y Ruman  a quieren estar preparadas para la adhesi  n  el 1 de enero de 2007    lt  i gt   lt  p gt    p   La Comisi  n confirma  que Bulgaria y Ruman  a cumplen los criterios pol  ticos de adhe   si  n  Sin embargo  deben hacer un esfuerzo adicional  en parti   cular reforzar el Estado de derecho  mejorando la administra   ci  n p  blica y el sistema judicial y luchando de manera efectiva  contra la corrupci  n     p     p   Bulgaria y Ruman  a cumplen  el requisito de ser una econom  a de mercado viable  Si Bulgaria  mantiene el ritmo actual de reformas y Ruman  a prosigue con  la misma determinaci  n la aplicaci  n de su programa de refor   mas estructurales  ambos pa  ses deber  an poder hacer frente a  la presi  n de la competencia y a las fuerzas del mercado dentro  dela UE     p     p   Los dos pa  ses han seguido progresando en  la adopci  n y la aplicaci  n de la legislaci  n de la UE  Han avan   zado mucho en la mayor  a de los diversos    espec  ficas de ahora al 1 de enero de 2007     p     p   El a  o  pr  ximo  en los meses de abril   mayo  la Comisi  n volver   a  analizar la situaci  n  Podr  a recomendar entonces  en caso ne   cesario  retrasar la adhesi  n de Bulgaria o Ruman  a hasta el 1  de enero de 2008 si existe un riesgo grave de que cualqui    tos importantes para enero de 2007    lt  p gt   lt p gt  Para informac
30.  Code Analysis and Manipulation  pages 77 86  Timisoara  Roma   nia  septembre 2010  URL http   ieeexplore ieee org Xplore   login  jsp url http ieee orgecision   203   Cit      la page 43      Romain BRIXTEL  Boris LESNER  Guillaume BAGAN et Cyril BAziN   De  la mesure de similarit   de codes sources vers la d  tection de plagiat    le  lt  Pomp O Metre  gt   In 7e Manifestation des Jeunes Chercheurs en  Sciences et Technologies de l Information et de la Communication  16 18  novembre  page 8  Avignon  France  2009   Cit      la page 34      137    138    BIBLIOGRAPHIE    Peter F  BROWN  John Cocke  Stephen A  Della PIETRA  Vincent  J  Della PIETRA  Fredrick JELINEK  John D  LAFFERTY  Robert L   MERCER et Paul S  ROOSSIN   A statistical approach to ma   chine translation  Comput  Linguist   16 2  79 85  1990  URL  http   portal acm org citation cfm id 292858 92860 amp coll   Portal amp dl GUIDE amp CFID 76577594 amp CFTOKEN 73477001   Cit      la  page 41      Peter F  BRowN  Jennifer C  LAI et Robert L  MERCER   Aligning sen   tences in parallel corpora  In Proceedings of the 29th annual meeting on  Association for Computational Linguistics  pages 169 176  Berkeley  Ca   lifornia  1991  Association for Computational Linguistics  URL http     portal acm org citation cfm id 981344 981366 amp coll   Portal amp dl GUIDE amp CFID 76577594 amp CFTOKEN 73477001   Cit   aux  pages 32  36  37  38 et 40      John C  CATFORD   A Linguistic Theory of Translation   an Essay on  Applied 
31.  De par le volume qu ils repr  sentent   ces hapax de document sont difficiles    aligner a fortiori si l on  d  cide de ne pas pr  supposer le parall  lisme  la synchronicit     entre deux volets d un multidocument  c est    dire de ne pas  consid  rer leur position    l int  rieur des volets      r  v  ler simplement    partir de leurs distributions intra  et inter   langue et sans traitement sp  cial des   l  ments de structures pr     sents dans les diff  rents volets des multidocuments  En multi   lingue  une chaine de caract  res largement ventil  e sur les dif   f  rents volets et les diff  rentes langues a de fortes chances de  correspondre    un   l  ment de structure    Ces informations seront autant d indices suppl  mentaires pour  mettre en   vidence des diff  rences et des similitudes entre les volets  des multidocuments et les unit  s qui les composent    Ces collections ont comme caract  ristiques principales de       regrouper plusieurs multidocuments         tre   quilibr  es du point de vue des langues  autant de documents   pour chaque langue afin de limiter les d  calages de fr  quences   d  j   forc  ment pr  sents d une langue    une autre     4 3 LE DOCUMENT ET SA MISE EN FORME 55        tre   ventuellement th  matiquement homog  nes afin de maximi   ser l apparition de r  p  titions intermultidocument     4 3 LE DOCUMENT ET SA MISE EN FORME    Dans la lign  e des travaux de Brixtel  2011   nous consid  rons que  la mise en forme est porteuse de sens et
32.  E   np LO Y ir dt TE al   hl   VER x       1P 05 1157 el fr    uu  proud hamo m  a k th LE  L rim H tz op Bas  Li En     di     wien    HE  N T  V TUE E  ii ht  fn Hl  if dr Zr ui I        un  ah  im    iFa      di aiii d   np       m     iw    2d       oom     a    as    H        AA AA A A  3      IP 05 1157 en fr IP 05 1157 de fr    TABLEAU 35   10 bi documents asynchrones avec inversion parmi les 12 correc   tement attribu  s sur les collections th  matiques avec la m  thode  Grand Angle  voir tableau 24      110 R  SULTATS ET   VALUATION SUR LA TACHE D ALIGNEMENT DE ZONES    E  i 5         T     f a  use     LN    a     1   Tan    E r w    I H it    I I I      ua   a   L E 7 E E           a nnl      shi    e    u wy oaa 1  i Li    u         F     rin    Y  ME Cint Bt       A OE    o um   a n L  E    x i       IP 05 1558 es fr IP 06 1515 de fr    N L  a  L    1 L  x L  L        RI   k       L  bd     l  wi i a 1 i E  1 x J  gt    ss a a g a afe m ma a  a 2 Lir a E   R  q o    F      m    n       i        i    n         k e      s       x niii                             cH ds u   u um  ln   m   nun u        nl En   m    m s  j 4  re 4 E    g  ap nu  mg om   m gc 4      g  p mro a    F    us      u um     Qu mee  n mmm   Fant us      u um     Qu mun p un mmm F ve u w i p            Ar ve i a p a         a Eo S    JL TE   JL  TREE   en ne wa A lu e s  ait   Im sad a LI ums D a   i LI um on my          An mn ums  m   gs    mg mg mg    um         B     ic T L  a           i  
33.  En 1    IP 07 1295 es fr IP O6 751 el fr  EP   HL  bade  2 i 4              L        L  mo     m        a p     ma            u  us          un      zi LI a mE       wm  ol   4 M mu  a Bar   4 M mus                                             m m   m  m     L  LE r   L  ii      CE   a      Ca           m m   n  m    LESI     u I L  m T    IP 05 1558 el fr IP 05 1558 fi fr    TABLEAU 32   10 bi documents asynchrones avec suppression non obtenus  parmi les 49 attendus sur les collections 1 2 3 avec la m  thode  Grand Angle  voir tableau 24      7 3   VALUATION ET DISCUSSION DES R  SULTATS 107    Collection transport    a bonum eat Sr     mem DI e    bise   a Hmm am Rin le    m ma 3 im  ios ne bs cem Bed  s    1          LE E i  E    rm  a ve  Ej   a 1     a     r        miae al   m  LE E    E         4   m    Hug    i    uu en  fr IP o5 1157 es fr    EPA h S ET uis  WE XE en dE TE   a tube Ha da           nn  CR E E DEN mum nn EL    ar Venen nee   PR a     Bul J    ME  IUIUS ee EL eee eee    ELI Mui                    ure    I    HE        1 Fuss  ddr      2    Lan     22d      O a eem SE ONE A NH    sn     E           gt       IP 05 1157 en fr IP o5 1157 de fr    TABLEAU 33   Les 5 bi documents asynchrones avec inversion correctement  attribu  s sur les collections th  matiques avec la m  thode Petit  Angle  voir tableau 25      108 R  SULTATS ET   VALUATION SUR LA TACHE D ALIGNEMENT DE ZONES           UD    AME miles        a  er  Lr      a  east      i   om    m      Pru s 
34.  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S      nsouSer q    yy  17 89  1J uo  i e  ip  9p  p  Y  17 89  1J uo  i e  ap  9p  p  1J   17 89  1J uo  ie  Tj9p  3p ep  Y  17 89  1J uo  i e  er  9p ep  1J 13  1J S3  1J U3  i e  1J 3P  9p  p  1J   1J S3  1J U3  i e  17 9p  Sp vp  Y  17 89  1J uo  i e  17 9P  Sp ep  y  17 89  1J uo  ie  17 9p  3p ep  Y  17 89  1J uo  i e  1    P  9p ep  1J 13  1J S3  1J uo  i e  Tj9p  op ep    Pa    anbrunururo      o  r S0o gI    SSrI So dI    TLTT SO AI    T6   T SO d     S lt I SO dI    6   71 So dI    OOSI SO dI    9TT1 50 d1    S lt  lt I SO dI    ZSVI SO dI    srre394    JUOIYIU  S  ouoi1gou  s  ouoigou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S    uoiuou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  ouo1gou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S    uoiuou  s    uoiuou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S    uoiuou  s  ouoigou  s  ouoigou  s  ouoi1gou  s    uoiuou  s    uoiuou  s    uoiuou  s    uoiuou  s    uoiuou  s    uoiuou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  ouoigou  s      nsouSer     IT  1J S    1J U3  ire  dup  Per  FT  1J S    1J ua  ire  TP  prep  IT  1J S    1J U3  i
35.  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S      nsouSer     IT  1J S    1J ua  ire  IP  SPP  FT  1J S    1J U3  ire  Ip3p  9p  p  HT  1J S    1J ua  ire  Ip3p  Sp ep  IT  1J S    1J ua  ire  ep  9p  p  FT  1J S    1J ua  ire  1 J   P  PP  13 13  1J S    1J U3  ire  Ip3p  SP EP  IT  1J S    1J U3  ire  Ip3p  9p  p  IT  1J S    1J ua  ire  1 J   P  9p ep  IT  1J S    1J U3  ire  Ip3p  9p ep  13 13  1J S    1J ua  ire  cep  9p ep    Pa    krS Zo dI    koc Zo dI    I9Z1 Z0O gI      991 Z0 dJ    ZEST ZO AI    tvy 90 d     9 9T 90 qI    gog So dI    69gVv So gI     lt 6 lt  SO dI      nbrunururo5   Pa    JUOIYIU  S  JUOIYIU  S  ouoi1gou  s  ouoi1gou  s  ouoigou  s  ouoigou  s  ouoigou  s  ouoigou  s    uoiuou  s    uoiuou  s    uoiuou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S    uoiuou  s    uoiuou  s  ouoigou  s  ouoigou  s  ouoigo
36.  Y  1J S    1J uo  i e  1    P  9p ep  Y  17 89  1J uo    JJ        a    Sp ep  Y  17 89  1J uo  i e  9p  Sp ep  J g  1J S3  1J U3  i e  NP  9p ep  Y  1J S    1J uo  i e  ap  pap  J g  1J S    1J uo  i e  9p  2p 4p  Y  17 89  1J uo  i e  ESP  FRE    Pd      08 90 qI    o0b 90 al    tvVy 90 d J    61Z1 90 gI    6S91 90 gI    vg  t 90 41    981 1 90 dI    6gF So dI    9ST SO GI    vzZZIL SO AI      nbrunuuuro5      JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S    JUOIYIU  S    JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S      nsouSerq    Y  1J S    1J uo  i e  up  9p ep  Y  17 89  1J uo  i e  Dp  9p ep  Y  17 89  1J uo  i e  1J 3P  pp  rg  17 89  1J uo  i e  IP  9p  p  Y  17 89  1J uo    1j  9     UTE    9p  p  Y  17 89  1J uo  i e  1    P  9p ep  Y  17 89  1J uo  i e  1J 3P  9p ep  y  1J S    1J U3  i e  17 9P  9p  p  Y  17 89  1J uo  i e  Lap  D BP  y  1J S    1J uo  i e  
37.  a apu   LE M   iot m   2A    F L     d  EI   HL            En      l ss IL    iu      e m pi ToO VA   ue Mig  gt  e ee Le   TE ji ex T  x  moti LUC mt cheRh j   qx L eon vy IRA gg  al ra A  al bias Ta  A wir u    L        pme kr      a  Dua c      mu Mu dip m  og   US n pl      mi a     guia But  cU   D B  EE a   lh dan   i Meee Ta rete Ent    is   P n t AP Ao ere ee tm  a E a ume Tb     E     a st      ied oe en Ll 4 En COLI    E A V ath Z           es 2 1 VEI ARI CS sp s ul     G Si   S TREE BEN EE G     SU TII LL bs el LS     u  8     n mn        Elan ums x     M Rina d    Kass  sm   sx   ad I   r   En  Ere en Se TT PM zent nn  A us SEE Li EC   FA AES E de ur PRET 2 Ca   K     n J  X   E   Er 2  DEED m    s      ag  n f   1 E EL Rates aa n ELS m    s   4    x 2 Eh   4   vive e          IP o7 1008 el fr IP 07 1008 da de    ki 1 i   j I           j E ST Lea i744     easy RT RRR Loa Fea v ENCRES  mg ht Qs  xaT T   s Ta toques  u o det  za se a TRE ET me  P ala  a E es E   s W  Prom ae  PLUIE TERMS E at DR LEE EL  naa      on  p    W        Me    tees uma v Pure ut  LEER eee Fe ud dca   a    E Lr sn tb eget ri  M ue  ate ks A I   wan rad aoe    w  m u Ju    Eu x gy on  Um see E iEQal E Mo gato  w    m  Bs  r  Ur  mon 3 Mel   BC      teus EDU Ru   W  T a  HIC o Ey Fa  L      em n uo p  CR re  fa ALD NAR  aF    P ing  5  V3 er AAA  e a a    s  s s A P  Q  pn  tease   i  BE  m se mal Rx ua    sP a TW de     u a a LE  s   eu E MNA UM e EL  B h  7 E E i et s    r    om       CL da
38.  a at a      RY    pev     P F kir 1 u VU   TENES  m i   a   A a E sam          tuis LT sa  K xU LAS d rn id  t  Vu x   Vf       f    i 2x LE v   i   ane DAS  s Et Lmt e  g Lm   g lme      4 a LL      a        RM ah ITA     vas    te cor  tee t    Eis hae eee d  u Ade   A AE MC h nr il r r  hz Sn AE CE  LES k L 2 T   nm r    E nae sm ELI i rA MP c IA a    Tl   lt   ad rsi    ow     afk a fee Ll   sn Let          Lr m  A        M    ee ERO  a    t  a      mm        Fe im ie       m  e N   Be a  i ir    aaa dica TE EPIS   Min e LEE mm  m  8      wu   Po  nn    mw s   Ra onum    gt   M  L nie Tax rt zum e A    gt       Te E eM AR   Me ed oh a great ye  mane  mt E a ta        te Bee EPT   En Ant  u T died E    IP 07 1008 el fr IP 07 1008 da de    TABLEAU 28   Les 6 bi documents asynchrones avec inversion correctement  attribu  s sur les collections 1 2 3 avec la m  thode Petit Angle  voir  tableau 24        emerges poppe quem ep i  Sak pa rumu tne    i Ha deu ies iin ums  idi Mii  liit il a ater da pl d k    TET ui ml m AID zm mme      jin  abi S T A Le        7 3   VALUATION ET DISCUSSION DES R  SULTATS 103    pe Mers see te st Beten z a HET  nd appie IR       mi 1l x pns Il  El tu Ulus ais  ME EH a iE    Ab    rr  I      Re en fr    Mo aaa al cia     iM Bh ci pi a jj ira jaj dd       OO Bio fi  fr       M  a _    k  aua    METAL     gt c   t p   td dt pam V q q b plz ja jasaga dad  iaj ipinia  i    IP 10 1002 es fr          H      E uua T LI      rre b mar    irm  CRUE ui     u
39.  alignement de mots  Les deux m  thodes partagent l objectif de s incrire  dans un    cercle vertueux     Mais chacune comporte deux   tapes succes   sives et les r  sultats de la deuxi  me   tape sont toujours d  pendants des  r  sultats obtenus par la premiere     Les m  thodes d alignement automatique propos  es vont du tout  statistique  Gale et Church  1993      des m  thodes hybrides  Langlais   1997  Moore  2002  alliant tant des indices de longueurs en mots  Brown  et al   1991  ou en caract  res  Gale et Church  1993  que des indices de  fr  quences  de distributions  Kay et R  scheisen  1993  Fung et Church   1994  ou des indices lexicaux  Church  1993  Chen  1993  Simard et al    1992  Kraif  1999      2 31 M  thodes d alignement de phrases    Les travaux d alignement ont d abord port   sur l alignement de  phrases  L alignement de phrases consiste    identifier des correspon   dances entre une phrase dans unelangue et d autres phrases dans d autres  langues  Cette op  ration pr  c  de l ambition plus grande d aligner des  mots  Elle fait   galement parfois suite    un alignement de paragraphes    2 3 M  THODES D ALIGNEMENT   LA CIRCULARIT       voire de divisions lorsque le marquage du corpus l   autorise  systeme LO   RIA   effectu     manuellement  Gale et Church  1993   semi automatique   ment  ou automatiquement  Gerdes  2008   Comme lui  l alignement  de phrases a pour objectif de r  duire la combinatoire en vue d un ali   gnement de mots  Gale et Church  199
40.  allemand  amenant    deux le  nombre de couples proches avec celui compos   par le fran  ais et  l espagnol     Langue hell  nique    Le grec est seul dans ce groupe  C est avec l espagnol  une des deux  langues les moins synth  tiques  C est   galement une des langues de  l Union Europ  enne qui s   crit avec un alphabet diff  rent     3 2 2 Langues ouraliennes    Langues finno ougriennes    Ce groupe linguistique est lui aussi subdivis   en 2 sous groupes   langues fenniques et langue ougrienne  compos  s pour l un du finnois  et de l   estonien  et pour le second du hongrois    Notre choix s est port   sur le finnois pour son caract  re tr  s synth     tique    Nous faisons le choix de ne pas nous int  resser plus en profondeur  aux langues slaves occidentales et m  ridionales  le polonais  le slovaque  et le tch  que et de l autre  le slov  ne et le bulgare   ni aux langues baltes   groupe linguistique compos   du letton et du lituanien    Un tel corpus de langues nous am  ne notamment    nous interroger  sur le statut du mot dans chacune de ces langues  Et    proposer une  d  limitation adapt  e des unit  s    aligner     49    50    POUR UNE M  THODE SANS PR  SUPPOS   DE PARALL  LISME    3 3 CORPUS DE DOCUMENTS EN RELATION DE TRADUCTION    Nos exp  rimentations ont   t   men  es sur un corpus est constitu    de communiqu  s de presse de l Union Europ  enne  Il s agit de commu   niqu  s de presse au format HTML et encod   en utf 8    manant de la  Commission Europ  enne
41.  aussi que de nombreuses chaines mises en   vidence  sont des chaines identiques d une langue sur l autre  ou cognats     notre  avis  cela constitue   galement un indice de bon fonctionnement de la  m  thode d appariement dans la mesure o    rappelons le  elle ne s appuie  que sur des informations de fr  quence et de positions et ne fait aucun  usage du contenu ou de la longueur des n grammes    Dans les deux cas  traductions ou cognats   nous envisageons avant  l   valuation une   tape de reconstruction des mots   nous retournons aux  textes pour trouver une liste de mots dans lequels interviennent les deux  N grammes appari  s  Cette   tape pr  sente peu de difficult  s th  oriques  et computationnelles dans la mesure o   nous connaissons exactement  les diff  rentes occurrences de chaque population    La figure 22 pr  sente les   volutions des pourcentages de cognats et  de traductions trouv  s par notre m  thode appliqu  e    un corpus bilingue  anglais fran  ais de 40 bidocuments  soit 80 textes   En abscisse est port    le nombre de mots vus par langue et en ordonn  e le pourcentage de ces  mots identiques  cognats  ou trouv  s dans les dictionnaires de traduc   tion  Il faut signaler qu on ne peut rien dire sur les autres couples de mots   sinon qu ils ne sont pas identiques et ne figurent pas dans le dictionnaire  de traduction  En particulier  le rep  rage d expressions multi mots   qui   valentes  qui est un de nos objectifs  ne peut que partiellement   tre   valu 
42.  de d  rivations de chaque langue    Au regard de ces caract  ristiques morphologiques  le mot graphique  n apparait pas suffisamment universel pour r  pondre au besoin de  comparativit   d un systeme multilingue d alignement et d extraction  d information et qui plus est sans ressource     cause des variations  flexionnelles  nous nous fions aux chaines de caract  res plus qu aux  mots  Ce qui  pour l humain correspond au m  me sens  se calcule davan     1  G  Gross  1996  cit   par Neveu  2004     4 5 LES MULTIZONES    tage en terme de m  me forme pour la machine  Ainsi  nous pr  voyons un  d  coupage en contexte de N grammes de caract  res   pour faire   merger  des correspondances que ne r  v  le pas un d  coupage en mots     4 5 LES MULTIZONES    Textes Corpus de multidocuments       Paragraphes Documents       Phrases Zones       Unit  s sous phrastiques Segments     a  La hi  rarchie de grains de    l   tat de l art N grammes de caract  res     b  Notre hi  rarchie de grains    FIGURE 11   Hi  rarchie de grains    En corr  lation avec le parall  lisme pr  sum   de la narration  l   tat  de l art de l alignement    gros grain s appuie sur une d  limitation forte  des paragraphes  via la mise en page  et faible des phrases  via la ponc   tuation   figure 11a     Or nous l avons vu  la phrase comme le mot  peut recouvrir une  r  alit   s  mantique diff  rente d une langue    l autre  L op  ration tradui   sante  r  alis  e par l humain et visant    interpr  ter le sens d 
43.  de documents     SOMMAIRE  2 1 Corpus parall  les et d  finitions du parall  lisme     28  2 1 1 D  finitions du parall  lisme             28  2 1 2 Corpus parall  les                   32  2 2 M  thodes d   alignement et hypoth  se de parall  lisme 33  2 21 D  finition del alignement             33  2 2 2 Hypothese de parall  lisme  de synchronicit    34  2 3 M  thodes d alignement   la circularit            36  2 3 1 M  thodes d   alignement de phrases        36  2 3 2 M  thodes d   alignement sous phrastique       40  2 4 Alternatives pour appr  hender la circularit         42    2 4 1 L alignement de phrases   une interrogation  documentaire                     42    2 4 2 M  thodes d alignement sous phrastique af   franchies d un alignement de phrases         43    2 4 3 Utilisation des structures hi  rarchiques des  documents                      44    2 5 Constats   M  thodes d alignement existantes et ap   enn  v  44    27    28    EXISTANT M  THODOLOGIQUE    2 1 CORPUS PARALLELES ET D  FINITIONS DU PARALL  LISME  2 1 1 D  finitions du parall  lisme    Le terme parall  le rev  t un sens diff  rent selon les communaut  s et  les dimensions des textes qu elles   tudient     Le parall  lisme stylistique en versification    Jakobson  1963  dans son article intitul      linguistique et po  tique     introduit le terme parall  lisme pour d  signer un ph  nom  ne stylistique  consistant    souligner la correspondance entre deux parties de l   nonc     similitude  opposition
44.  de plusieurs rencontres et collaborations  Tout d abord  avec Lois  Rigouste  au sein de notre lieu de stage  la soci  t   Pertimm  nous avons  sp  cifi   et d  velopp   les principes de calcul des populations sur une  collection de multidocuments  Puis     l Universit   de Caen  Romain  Brixtel a adapt      nos objets ses outils d analyse et de visualisation de  bi documents  placant ainsi notre probl  matique dans le domaine du  traitement d image  De l   nous avons   t   amen  e    solliciter les connais   sances et les comp  tences de R  gis Clouard  sp  cialiste du traitement  d image de l   quipe Image du laboratoire GREYC de l Universit   de  Caen  Cette derni  re collaboration nous a permis d obtenir des outils  capables d analyser automatiquement les images que nous avions d  sor   mais    analyser  Le traitement de ces images refl  tant l appariement entre  deux volets pose les bases d un diagnostic automatique du parall  lisme  entre des bi documents et par l   d un alignement de multidocuments  sans pr  suppos   de parall  lisme     SOMMAIRE    6 1 Appariement endog  ne de populations          78  6 1 1 Calcul des populations de N grammes de  CALACIOT  S ERRORI 2 E NORTE E ES T IT T S TT 78  6 1 2 Appariement de N grammes de caract  res  r  p  t  s    partir de ventilation similaire sur la    collection                       79  6 2 Appariementetalignement de zones           83  6 2 1 Travail pr  paratoire pour la d  tection de mul   tizones   cr  ation de matric
45.  des docu   ments asynchrones correctement attribu  s par notre syst  me     89    90 MISE EN CEUVRE    Ellipses et projections      m m    LII yy  LET     NC PR PET  s  a a 34 d 31 ti   DIE ITE    uL   is u    S        u mia rire i      wann  E adul om  EC a aai  TRR SEE TOS H uo E        RAS i ee l  mr uw  qu   m  m l um Pus    e ECC RS LY A e la       IP 05 489 da de IP  elie da  de    a   i Y oa i n    x b     gi ie an po jara a k b  ES  Do AN  cfr oz     3 15 iet EMERI    mi 22    m Fries         o        _ eds   ide 1          nM  t HE m  2   E   V us ar  n k kde     k         L  A     r       Pi       ca    I n  pa      u  r    z                 Pal    L  L   oun     m     L        kw    IP 05 743 en fr IP o5 1157 en fr    TABLEAU 20   Ellipses et projections des segments de droites sur les axes des  multidocuments    6 2 APPARIEMENT ET ALIGNEMENT DE ZONES 91    Ce chapitre nous a permis de d  crire les   tapes d appariement et  de construction de nos matrices  Dans le chapitre 7  nous en faisons  l   valuation sur la tache d alignement de zones de documents traduits  Le  chapitre 7 pr  sente les r  sultats que nous obtenons en mati  re de diagnos   tic de parall  lisme sur plusieurs collections de multidocuments  Nous y  pr  sentons   galement les domaines de validit   de notre m  thode     R  SULTATS ET   VALUATION SUR LA TACHE  D ALIGNEMENT DE ZONES    Dans ce chapitre  nous allons   prouver les mod  les de traductions  attendus d  finis dans le chapitre 5 dans plus
46.  document  fait partie des documents que nous pr  sentions au chapitre 1  p 22  et  que nous annoncions au chapitre 3 vouloir   tre capable de traiter     IP 05 473    113    fr    rtations de textiles chinois  lt  b gt   lt  h1 gt   lt p gt   lt b gt   lt i gt  M  Peter  Mandelson  commissaire responsable du commerce  a annonc    ce jour qu il avait d  cid   de demander    la Commi    en      document celex  IP 05 473  lang  en  gt   lt palign    right      b   IP o5 473  lt  b gt   lt  p gt    p align  right  gt  Brus   sels  24 April 2005  lt  p gt    hl     a name  Heading4  gt  lt  a gt   lt b gt   European Commission launch    O ee 7 7 7 7 S s    Multizone 2    Multizone 3    les de sauvegarde  Elle entamera parall  lement des consulta   tions imm  diates avec la Chine pour tenter de d  gager une solu   tion satisfaisante     i      b      p     p   Peter Mandelson a d     clar       Nous venons de recevoir les statistiques d importation  des   tats membres pour le premier trimestre 2005  Elles sont  tr  s pr  occupantes pour plusieurs cat  gories de produits tex   tiles et d habillement  Face    cette situation  l Europe ne peut  rester les bras crois  s et assister    la disparition de son indus   trie  Notre enqu  te me permettra de d  cider s il convient que  l UE adopte des mesures de sauvegarde  Il faudrait certes lais   ser les exportations chinoises croitre    un rythme normal    la  suite    ssi une action  Les donn  es d importation concernant un cer   tain no
47.  doit de ce fait   tre utilis  e pour  l alignement de multidocuments  Cependant     la diff  rence de celui ci  qui recherche et interpr  te les indices de forme  nous choisissons de  prendre en compte la structure et le contenu par la m  me m  thode  sans  leur accorder un traitement particulier  Prendre les documents avec le  source permet une fois encore de faire ressortir des   l  ments r  p  t  s   pour le coup pas forc  ment int  ressants dans l optique de constitution  de lexiques multilingues mais pr  cieux dans la masse d informations  susceptible d   tre align  e pour identifier les cas particuliers que nous  souhaitons prendre en charge        document celex  IP 08 2065  lang  fr  gt     hl     a name  Heading4  gt      p align  right  gt       document      TABLEAU 10   Indices de forme dans le source HTML    La mise en correspondance de ces chaines de caract  res ne va pas  de soi  elle est autant sujette    variation que l usage d un mot ou d un  de ses synonymes  N  anmoins l appariement de ces unit  s constitue  autant d indices suppl  mentaires pour d  terminer sans ressource ext     rieure si les documents contiennent des inversions et ou des supressions   autrement dit pour ancrer notre alignement de zones     4 4 LES CHA  NES DE CARACTERES R  P  T  ES DE LONGUEUR  MAXIMALE    Notre travail se situe dans la lign  e de ceux de Cromi  res  nous proc     dons    une recherche de n grammes de caract  res en contexte  ind  pen   damment de leur taille  Si l on 
48.  e  Ces matrices sont trop claires ou trop fonc  es pour permettre  un diagnostic  Nous voyons plusieurs raisons    cela       les volets sont petits ou plus grands que la moyenne des communi    qu  s  la taille que nous donnons    nos matrices n est pas adapt  e   Les segments de volets ne sont dans ce cas pas suffisamment  significatifs       les volets pr  sentent une diff  rence de taille significative lorsque  par exemple  un des deux volets est quasi non traduit  c est le cas  notamment du volet grec du communiqu   IP 06 751 et du volet  espagnol IP 05 1653       les langues sont   loign  es  Entre certains couples de langues   il existe moins de correspondances bi univoques ou quasi bi   univoques         l inverse des volets pr  sentant beaucoup de similarit   notam   ment du fait de passages dans la m  me langue dans les deux volets   cf  cas de multilinguisme   la matrice est fonc  e  la d  tection des  segments est d  licate    r  aliser     74 ALIGNEMENT DE ZONES    Nous pr  sentons dans cette derni  re section les r  sultats en contexte  de l alignement de zones sur 5 documents asynchrones  3 suppressions   2 inversions  correctement diagnostiqu  s    Le tableau 38 illustre un cas de suppression dans un des deux volets   le volet fr  correspondant    environ un tiers du volet  2120 caract  res   Si  la suppression a bien   t   diagnostiqu  e  l alignement de zones n est lui  que partiellement correct  Seule la multizone 2 correspond    l attendu   Ce document fai
49.  en entr  e des multidocuments      le premier objectif est de proposer des outils de diagnostic de  parall  lisme   synchrones ou asynchrones et le cas   ch  ant de  d  tection en contexte des zones qui maximisent le parall  lisme     l int  rieur de chaque multidocument  l objectif second est celui  d un alignement lexical de ces zones      elle comporte deux   tapes interm  diaires servant d amorces     e   tablir des correspondances multilingues de chaines de carac   t  res a partir d une collection de multidocuments     e les utiliser pour d  finir la similarit   de segments de textes de  niveau sup  rieur             Corpus de  multidocuments    Identification monolingue  de chaines de caract  res r  p  t  es    Appariement multilingue  de chaines de caract  res r  p  t  es    Identification de multizones    Alignement intra multizones    FIGURE 14   Chaine de traitement    Ainsi partant du principe que des diff  rences entre les volets existent   m  me l   o   on ne les attend pas  nous proposons un relachement des  contraintes de parall  lisme intra multidocument  visant    diagnostiquer    64    UNE M  THODE TEXTUELLE GUID  E PAR LE MODELE    en contexte les zones des documents    l int  rieur desquelles le parall     lisme existe  Pour cela  nous faisons l hypoth  se que la co pr  sence de  chaines de caract  res peut suffire    retrouver des zones s  mantiquement    quivalentes     De facon th  orique  nous pr  sentons dans la section suivante les  modeles d aligne
50.  est    dire lors du m  canisme  de traduction    Le plan structural et le plan s  mantique sont th  oriquement ind     pendants l un de l autre  La m  tataxe n est qu une application de ce  principe de l ind  pendance du structural et du s  mantique  Elle corres   pond    la diff  rence de stemma  changement structural  qui existe entre  la phrase    traduire et la phrase traduite  sans changement s  mantique    c est    dire qu elle intervient chaque fois que la structure actancielle  d un verbe diff  re d une langue    une autre     La m  tataxe peut avoir plusieurs degr  s  elle peut   tre simple ou   complete       simple appel    une cat  gorie grammaticale diff  rente  tableau 3     chaque langue   tablit ses propres correspondances entre cat  go   ries de la pens  e et cat  gories grammaticales  c est pourquoi la  traduction d une langue    une autre n  cessite parfois l appel     une cat  gorie grammaticale diff  rente        cela s ajoute un principe de solidarit   m  tataxique  Quand un  mot est solidaire d un autre  le passage m  tataxique du premier    13 DES T  MOINS PRIVIL  GI  S DE LA VARI  T   DES LANGUES    ALLEMAND 2 FRANGAIS    Id  e de d  placement    changement de lieu   Adverbes r  sultatifs  gt  Verbe    l imp  ratif    ou particules s  parables  Adverbe   Fort  Verbe   Va t en      TABLEAU 3   Simple appel    une cat  gorie grammaticale diff  rente        une autre cat  gorie grammaticale a automatiquement pour ef   fet d entrainer parall  lement une 
51.  et disponibles sur le site Europa  le portail de  l Union europ  enne     source importante de documents traduits jusque  dans 23 langues   Les documents que nous observons sont consid  r  s  a priori comme traductions pour la simple raison qu ils sont pr  sents  sur le m  me site et portent le m  me nom  Nous choisissons ce corpus  car nous avons d  j   pu observer qu il contient des inversions sur  et  sous phrastiques  ainsi que des suppressions plus ou moins massives  cf   figure 8  que nous cherchons    d  couvrir automatiquement par notre  m  thode  Nous ne r  alisons pas de pr  traitement sur ce corpus et le  traitons directement avec son source en HTML    De ce corpus de communiqu  s  nous avons extrait les documents  disponibles dans les sept langues que nous avons annonc   vouloir traiter  dans la section 3 2  Chaque document source et ses traductions ont   t    plac  s dans un dossier num  rot   constituant ainsi un multidocument   De cette facon  nous avons isol   385 multidocuments  Nous ferons une  synthese des r  sultats obtenus sur 194 de ces multidocuments ventil  s  sur 6 collections diff  rentes dans le chapitre 7  Les raisons sous jacentes     la constitution de collections sont d  taill  es dans le chapitre 4 et la  nature des collections utilis  es pour l   valuation est pr  sent   au chapitre    7     Dans ce chapitre  nous avons pr  sent   les grandes lignes de notre ap   proche sans pr  suppos   de parall  lisme entre les volets d un multidocument  a
52.  eta l il nu kam ik  nu sach ik  waral ch   1  u xmut kaj  ch  u xmut ulew    oyew achi  kaweg k iche  winaq  nagi ta na on ri x ch a rayi j  ri x ch a tz   ono j   ka nu ya o chG  aw e  xa nim a r  eta l 1l a kam ik   a sach ik  waral ch   1  u xmut kaj   ch u xmut ulew  pm      Seule la grande offre de    ma mere     de    ma reine     jelessayerai   comme pr  sage de ma mort  de ma perte  ici  au nombril du ciel    au nombril la terre    Ixoq Mun  Apporte mon plat  mon r  cipient  Donne les lui  l homme col  reux   Kaweq K   iche      comme grand signe de sa mort  de saperte  ici  au nombril du ciel    au nombril la terre    La tendresse  la d  licatesse de la double chaine  de la trame des tissages   qui sont l oeuvre de    ma mere      de    ma reine      Je les ferai frotter     l int  rieur de la grande forteresse     l int  rieur de la grande muraille   aux quatre directions  aux quatre coins  comme grand signe de ma mort   de ma perte   ici  au nombril du ciel    au nombril la terre       Homme colereux    Kaweq K iche       Est ce vraiment ce que tu desires  ce que tu demandes     Je te le donne    toi   comme grand signe de ta mort   de ta perte  ici  au nombril du ciel    au nombril la terre    FIGURE 9   Illustration du macroparall  lisme intratextuel   Becquey  2003b     mentaires     Exemple   plusieurs textes traitant des m  mes th  mes  On parle  aussi dans ce cas de corpus comparables     Parall  lisme implicite   les deux textes sont pr  sent  s sous un  fo
53.  fondamentaux d arrangement  utilis  s dans le comportement verbal  la s  lection et la combinaison       la s  lection    lt la s  lection entre des termes alternatifs implique la  possibilit   de substituer l un des termes    l autre    quivalent du  premier sous un aspect et diff  rent sous un autre  En fait  s  lec   tion et substitution sont les deux faces d une m  me op  ration      Jakobson  1963     2 4 CORPUS PARALLELES ET D  FINITIONS DU PARALL  LISME       a combinaison      tout signe est compos   de signes constituants  et ou apparait en combinaison avec d autres signes  Cela signifie  que toute unit   linguistique sert en m  me temps de contexte     des unit  s plus simples et ou trouve son propre contexte dans  une unit   linguistique plus complexe  D   ot il suit que tout as   semblage effectif d unit  s linguistiques les relie dans une unit    sup  rieure   combinaison et contexture sont les deux faces d une  m  me op  ration     Jakobson  1963    Ces deux modes d arrangement s actualisent d une fa  on propre     chaque langue et d  pendent de chacun des six facteurs de la communi   cation pr  sent  s par Jakobson   un   metteur transmet un message    un  r  cepteur par le biais d un canal  visuel  auditif     en utilisant un code   pictural  linguistique      le tout dans un contexte donn      Ainsi  le parall  lisme peut   tre moins litt  ral que ce que nous avons  illustr   au travers du tableau 8  il peut aboutir    des niveaux de    macro   parall  lisme
54.  http   dx doi org 10 3115 974557 974607  ACM ID   974607   Cit      la page 41      Philip REsNIK et Noah A  SMITH   The web as a parallel corpus  Comput   Linguist   29 3  349 380  septembre 2003  ISSN 0891 2017  URL http     dx doi org 10 1162 089120103322711578   Cit      la page 48      Calliopi SACHTOURI   Etude comparative des chaines anaphoriques  dans vingt langues europ  ennes  M  moire de master conjoint franco   hell  nique mention sciences du langage  sp  cialit   sciences de la tra   duction   traductologie et sciences cognitives  universit   de Caen  Basse Normandie et Universit   ionienne de Corfou  Gr  ce   Caen   France  2006   Cit      la page 19      Fatiha SADAT  George FOSTER et Roland KuHN   Systeme de traduction  automatique statistique combinant diff  rentes ressources  In Actes  de la 16  me conf  rence annuelle sur le Traitement Automatique des  Langues Naturelles  10 13 avril  Leuven  Belgique  2006  URL http      www iro umontreal ca  foster papers taln06 pdf   Cit      la  page 32      Michel SIMARD   Text Translation alignment   Three languages are  better than two  IN PROC  OF EMNLP VLC  pages 2   11  1999   URL http   citeseerx ist psu edu viewdoc summary doi 10   1 1 14 6716   Cit      la page 45      Michel SIMARD  George F  FOSTER et Pierre ISABELLE   Using  cognates to align sentences in bilingual corpora  In Proceedings  of the 4th conference of the Centre for Advanced Studies on Col   laborative research   distributed computing   Volume 
55.  i e  17 9P  Sep  J g  17 89  1J uo  i e  Ep  9p ep  Y  17 89  1J uo  i e  ap  3p ep  y  17 89  1J uo  i e  AFP  9p ep  JU  17 89  1J uo  i e  Ip  Re     Pa    6S11 90 gdI    grt   90 dI    SIVI 90 q     6S   1 90 gI      1  1 00 gI      x1 90 gI    9811 90 dI    SIOI 9O dI    anbrunwwoy    sped    JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  ouo1gou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S    uoiuou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S      nsouSer     1 g  1J S3  1J U3  i e  17 9P  ap ep  J g  17 89  1J ua  i e  Tj 9p    p ep  IT  1J S    1j ua  i e  1F9P  9p ep  1J   17 89  1J ua  i e  17 9P  op ep  1 g  1J S    1j ua  i e  17 9P  ep EP  J g  17 89  1j ua  i e  pep    9p ep  IT  1J S    1j ua  i e  1F9P  9p ep  1J   17 89  1j ua  i e  17 9P  a    Pd    VSII 90 d1    6S01 90 gI    bg  1 90 d1    9St1 90 dI    o  1 90 gI    LSTI 90 d1    LLII 90 d     9001 90 gI      nbrunwwoy    T    LA    EVALUATION MANUELLE DU PARALLELISME    130         uorpo oo P  INS sjonueul sonsougerq   9t NVATAVI     stej3ue uo JUOS oxouue p s  1s  1 SIT  oxouue p jnqop uo
56.  l enjeu de notre m  thode est de mettre en place une  m  thode affranchie des contraintes li  es tant    la disponibilit   de corpus  pr  par  s ou s  lectionn  s pour leur parall  lisme sur phrastique av  r     qu    celles de ressources dictionnairiques ou    la proximit   des langues    Nous pr  sentons dans ce chapitre les principales caract  ristiques de  notre m  thode ainsi que le corpus de langues et de documents que nous  avons d  lib  r  ment choisi pour sa vari  t   morphologique afin de pouvoir  directement   prouver notre m  thode sur des donn  es repr  sentatives     SOMMAIRE  3 1 Caract  ristiques g  n  rales de notre approche         48  3 2  Corpus de langues morphologiquement diff  rentes   48  3 2 1 Langues indo europ  ennes             48  3 2 2 Langues ouraliennes                 49  3 3 Corpus de documents en relation de traduction      50    47    48    POUR UNE METHODE SANS PRESUPPOSE DE PARALLELISME    3 1 CARACTERISTIQUES GENERALES DE NOTRE APPROCHE    Le principal objectif de notre m  thode est de prendre en charge les  cas de suppressions omissions d une partie d un des deux volets d un bi   document  cf  figure 8   aussi bien que les cas d inversions  cf  figure 6    Pour cela  nous choisissons de nous affranchir d un alignement pr  alable  au grain phrase  Church  1993  et d au contraire traiter les documents  dans leur int  gralit   et avec leur MFM  Brixtel  2011  Resnik et Smith   2003     Notre deuxi  me objectif est de mettre au point une m
57.  liss  s  La mise en correspondance de s  quences  de caract  res s  mantiquement   quivalentes en contexte entre plusieurs  langues sera facilit  e  le sch  ma d alignement ne pouvant plus   tre que  de l ordre du 1 pour 1 ou du o pour 1  en cas d absence de traduction   Prenons par exemple  les diff  rentes occurrences d un signifi   tel que     collectivit  s    en finnois      paikallisviranomaisille        paikallisvira   nomaisten        paikallisviranomaiset        paikallisviranomaisilla     se   ront rapport  es    la s  quence de caract  res    paikallisviranomai      plus  longue sous chaine commune  Ce travail en chaines de caract  res a pour  effet de lisser les diff  rences de fr  quences de ces   quivalents  engendr  es  dans ce cas par la nature flexionnelle du finnois     5 3 3 Incapacit  s des N grammes de caract  res    Nous pr  sentons dans cette section  trois limites    la segmentation   alignement de N grammes de caract  res  Celles ci trouvent une solu   tion via la mise en place d un traitement informatique sp  cifique et ou  adapt         les mots lexicaux ou polylexicaux dont une ou plusieurs lettres   changent  dans le cas de diphtongaison comme celle du verbe     contar    en espagnol  aux premi  res personnes du pr  sent       cuento        cuentas        cuenta     i e  skip grams pour Mcnamee  et Mayfield  2004  ou SFM S  quences Fr  quentes Maximales  avec possibilit   d avoir un gap entre les mots de la s  quence pour  Doucet  2004    Ici  sa
58.  log    Si l on consid  re  grossi  rement  que les caract  res sont    quiprobables 5  la quantit   d information associ  e    chaque caract  re  est donc log p   log n pour un alphabet de taille n    D  s lors  si l on suppose  l   encore en simplifiant beaucoup  qu il y  a 26 caract  res possibles en fran  ais et zooo en japonais  on obtient  que la quantit   d information est identique entre un texte de 1000  occurrences en fran  ais et un texte de 400 caract  res en japonais    1000 log 26   400 log 7000  En d autres termes  plus intuitifs  puisqu on  ale choix entre un plus grand nombre de caract  res  chaque caract  re est  beaucoup plus pr  cis et permet d exprimer plus de choses  Incidemment   cela explique aussi pourquoi l unit   s  mantique constitu  e par le mot est  souvent de deux caract  res uniquement en chinois et toujours beaucoup  plus en moyenne dans les langues europ  ennes     Avant de servir    l illustration des diff  rences entre les langues  les  coefficients de foisonnement ont tout d abord un int  r  t reconnu en  mati  re de tarification des traductions  Les organismes professionnels  conseillent en effet aux traducteurs d en tenir compte pour   tablir leur    7  ARI  Assistants Record International   traduction  r  daction  PAO  interpr  ta   tion  conseil   11  Rue des R  glises  75020 Paris    8  Ce qui est  bien s  r  tout    fait faux en pratique  mais permet ici de simplifier le  propos en conservant l essentiel de l argumentation     11    
59.  mit gesch  tzter Ursprungsbezeichnung  Die  Etikettierung wird den Bed  rfnissen der Verbraucher entsprechen  indem sie  vereinfacht wird und vor allem erstmals bei EU Weinen ohne geografische An   gabe die Angabe der Rebsorte und des Jahrgangs auf dem Etikett erm  glicht   um der Verbrauchernachfrage nach Rebsortenweinen Rechnung zu tragen      p     p     b   Nationale Finanzrahmen      b   Diese Finanzrahmen werden  den Mitgliedstaaten die M  glichkeit geben  die Ma  nahmen an ihre jeweilige  Situation anzupassen  Die Mittelausstattung betragt zwischen 634 Mio  EUR  im Jahr 2009 und 850 Mio  EUR ab 2015  Der f  r jedes Land verf    f  gbare Betrag wird anhand der Weinanbauflache  der Erzeugung und der  historischen Ausgaben berechnet  M  gliche Ma  nahmen sind u a    Absatzf  r   derung in Drittlandern  Umstrukturierung Umstellung von Rebflachen  Un   terst  tzung f  r die gr  ne Weinlese  neue Mafinahmen zum Krisenmanage   ment wie z B  Versicherung gegen Naturkatastrophen und Deckung der Ver   waltungskosten f  r die Errichtung eines sektorspezifischen Fonds auf Gegen   seitigkeit   lt  p gt    p     b   Ma  nahmen zur Entwicklung des l  ndlichen Raums    lt  b gt  Viele Ma  nahmen im Rahmen der Verordnung   ber die Entwicklung des  l  ndlichen Raums k  nnten f  r den Weinsektor von Interesse sein  u a  Nie   derlassung von Jungweinbauern  Verbesserung der Vermarktung  Berufsbil   dung  F  rderung von Erzeugerorganisationen  Unterst  tzung zur Deckung  der mit der Erhal
60.  moins agglutinant   plus ou moins flexionnel     3 2 1 Langues indo europ  ennes    Langues romanes    Dans ce groupe linguistique  compos   de l espagnol  du frangais  de  l italien  du portugais et du roumain  nous avons conserv   le fran  ais et  l espagnol       le fran  ais  car c est notre langue maternelle  mais   galement   du fait de son importance dans la traduction  Le frangais est    3 2 CORPUS DE LANGUES MORPHOLOGIQUEMENT DIFF  RENTES    souvent  pour autant que nous le sachions car cette information  n est jamais mentionn  e  la langue du document source de nos  multidocuments issus de la Commission Europ  enne  voir la  section 3 3       l espagnol  car c est l une des deux langues  avec le grec  les moins  synth  tiques des langues de l Union Europ  enne    l exception  du roumain  du bulgare et du ga  lique  En outre  nous avions des  connaissances de cette langue  pr  alables    cette   tude     Langues germaniques    Dans ce groupe subdivis   en 2 sous groupes appel  s   langues ger   maniques occidentales et langues scandinaves  se situent d une part  l allemand  l anglais  et le n  erlandais et d autre part  le danois et le  su  dois  Nous avons choisi l anglais  l allemand et le danois       anglais  car au m  me titre que le fran  ais  il correspond sou   vent    la langue du document source de nos multidocuments  et    galement pour nos connaissances de cette langue       allemand pour sa syntaxe particuli  re       le danois pour sa proximit   avec l
61.  mots d   tymologie commune pr  sentant une  similitude de surface que Brown et al   1991  consid  rent comme   des ancres faibles       les transfuges   chaines de caract  res invariantes entre 2 traduc   tions   nombre  noms propres ou emprunts  ponctuation  que  Brown et al   1991  consid  rent comme des ancres fortes    La recherche de ces invariants repose sur ce que Kraif  1999  appelle  l hypoth  se de cognacit   et qu il formule de la fa  on suivante     la densit    de cognats observ  e entre deux phrases est probablement plus   lev  e si  elles sont traductions l une de l autre que si elles sont prises au hasard      Les m  thodes bas  es sur les cognats s appuient sur la longueur de la  suite maximale de n caract  res contigus communs  Certains syst  mes   Simard et al   1992  Church  1993  en prenant n 4 ont obtenu des r  sul   tats significatifs qui  selon Kraif  1999   peuvent   tre am  lior  s par un  raffinement de cette approximation    Pour minimiser les ambiguit  s dues    la notion de ressemblance  il  propose donc une d  finition op  ratoire des cognats  Ainsi  deux mots   M  sont cognats si et seulement si         il existe deux phrases  P1  P2  dont l une est traduction de l autre    et dans lesquelles ils sont traductions l un de l autre      Ma et M2 pr  sentent un lien   tymologique  emprunt  origine  commune  perceptible dans leur signifiant  ce    quoi il ajoute les  transfuges    Cependant le premier crit  re de traductibilit   implique des diffic
62.  nS  uI  111 3   1q SJ9JOA   S    OA c So  suep sreSue1j sre Sue ongut tq OVA  songui Iq SI9JOA   SJI OA c SI  suep SreSue1j srepSue ongut Iq OVA  s  n  uI  111 39  1q SI9 OA   S    OA c So  suep sreSue1j sre Sue ongut tq OVA  s  nS  uI  111 39  1q SI9JOA   S    OA c So  sre5uvjj sre gue ongur Iq OVA  SONBUT II  Sj9 0A   SI9JOA c SI  suep sre5uevjj sre gue ongu OVA   Sj9 OA c SO  suep sTejsue uo neo qej   S 9 0A c SO  suep sTejsue uo neo qej   Sj9 OA c SOT suep sTejsue uo neo qej   S 9 0A c ST suep sTejsue uo neo qej   1  JOJOA suep sre5uev1j uo oxouue  sjo OA c SI  suep sre gue uo neajge   Sj9 OA c SO  suep sTejsue uo neo qej   srejsue uo neo qe1  U   sre gue uo neo qe3   so    sre gue uo neo qe3   19    srejsue uo neo qei   ep    anbrjaqeydye 21p10 sed sooun sjo  oad op s  1srT    srera    31odsuej   uono  l oO e  ANS sppnueur sonsouSet     Zr NVATAV      JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  uorssa1ddns  uorssa1ddns    uoiuou  s    uoiuou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S    uorssa1ddns    JUOIYIU  S    uoiuou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  uorssa1ddns  uorssa1ddns  uorssa1ddns  uorss
63.  op   Mz   M8 T  JUSUINIOP 1Q m  d   AT   M4 T  qjusumoop 1iq m  d   HT   M4 T  qjueumoop 1iq m  d   NT   M6 c  yusaumsop Iq nad   Mz   M8 T  jusumoop 1iq m  d   X8   1  M9 T  jueumoop 1iq m  d  sre gue uo soxouue   sre gue uo soxouue   sre gue uo soxouue   stejsue uo soxouue   stejsue uo soxouue   stejsue uo soxouue    spes qd    ouoi1qou  s  ouoi1qou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  ouoi1qou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  ouoi1qou  s  JUOIYIU  S  JUOIYIU  S  uorssa1ddns  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  uorssoa1ddns  uorssa1ddns  ouoi1qou  s  ouoi1qou  s  ouoi1qou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S      nsouSer     yy  17 89  1J uo  i e  1    P  RER  y  17 89  1J uo  ie  17 9p  9p  p  1J   17 89  1J uo  i e  1    P  SEP  Y  17 89  1J uo  i e  ep  9p ep  y  1J S    1J u    i e  17 9P  3p ep  13 13  1J S3  1J uo  i e  1    P  3p ep  Y  17 89  1J uo  i e  Pap  9p  p  y  17 89  1J uo  i e  Tp  9p ep  y  1J S    1J uo  i e  17 9p  FD EP    Pa    Zg   Zo al      T61  0 GI    FkSgr Zo dI      8Z1 Zo gI    vost Zo al    86v 1 Zo gI    ZcS 90 gI    LLE 90 d1    8St 90 dI    onbrunururo     Pa    JUOIYIU  S 
64.  pratiquement inobservable en discours  Car si deux lex  mes peuvent  manifester une r  f  rence similaire  l effet s  mantique produit par chacun  d eux ne r  velera pas la m  me situation   nonciative   gt   Neveu  2004    Cette d  finition de la synonymie et l illustration qui en est faite au  travers du tableau 6 t  moignent bien du frein    l alignement s  mantique  monolingue et multilingue que ce ph  nom  ne constitue     OBSERVATIONS LINGUISTIQUES ET TRADUCTOLOGIQUES    18    6  S    ouodns  1euonJodoud ap  op  3119Jo eun  eJej1ode  euon  odold  19294JO  IezrjueTes  999 170    p JeuorDudodouq    SH    6         13X3001  AQOX3dot DA  UXodou aur  130360001 DY  13X3dnu  aaod3boodu pa  1013X3001 DA    13X3d01  AQO00Q DN    Td    8  F    IPIAOIA    IPIAOIA o     1940  IM  SIPIAOIH  Suruuni  Sur  JjJjo  SIPIAOIH    SUTAIO     N     6         oos pp1our  ejseuuof 1e   ueeuo rej  ueeJee   eeolse   ejseuuo 1ej  ISNosrureo 1e   eeolse     ueeJolse     Id    6  F     971  aj1odde   ZT    ITUINOJ op   VIT  2170 oun   Fr  e2310dde   STT  NUINOJ   6T  1ruJnog   ZT  apo   9 T  ISUUOP   V  Huuoq    dd     sa   ouSedso ja  19  5918  US  srejsue     Y  srouuy     17  sTeSuRIy ua SZ6 So dI 1ueumoopngnui 3  suep   rur  uou  s op ouguiouaud np uonedisnj    9 AVATAVI      lt  Jouuop  gt  JUSIS np so  ua11n200 p SIIQUION    sjuo19prp SJULYIUSIS IP 2IQUION    H DNV II    15 CONTRAINTES   DITORIALES    1 4 3 L anaphore    Ce terme d  signe     une relation r  f  rentielle qui s exerce    l   
65.  presse     FIGURE 3   Diff  rence de l ordre des mots au niveau sous phrastique entre les    extraits anglais et les extraits fran  ais     1 4 LES TRADUCTIONS   DES   NONCIATIONS UNIQUES    en fr  The     La  European Commission  Commission  gt  europ  enne  adopted a  today   adopt    a   aujourd hui  proposal Nat une  to  gt   proposition  modify es de  the es modification  directive O de  on TT la  working w directive  time Sur  in e le  road temps  transport e de  travail  dans  e le  transport  routier    FIGURE 4   Similitude del ordre des mots entre une s  rie de phrases en anglais  et leur traduction en fran  ais     cais fait l   conomie de ce compl  ment puisqu en d  but de phrase  le  sujet des transports est clairement cit    Nous pouvons rapprocher cette  particularit   du finnois  de sa qualit   de langue tr  s redondante  peu  anaphorique et utilisant peu les synonymes  Plus g  n  ralement  on peut  dire que tout ce qui est contenu dans les phrases de d  part  implicite   ment ou explicitement  l est dans les phrases d arriv  e  implicitement  ou explicitement     1 4 2 La synonymie       La synonymie est une relation s  mantique fond  e sur une simi   larit   de signifi  s entre des signifiants distincts        Cette similarit    de signifi  s est souvent pr  sent  e comme pouvant   tre totale ou par   tielle  En fait  le lien   troit dans le signe linguistique entre le signifi   et  le signifiant rend la synonymie totale  qui est indiff  rente au contexte  
66.  remment  la circularit   et d  passer le probl  me de l alignement de phrases  mais  celles ci ne r  glent pas les questions fondamentales li  es    la pr  sence  d inversions  de suppressions ou de reformulations massives    En outre  il faut signaler qu    de rares exceptions pr  s  Simard  1999   Lardilleux  2009   ces m  thodes sont bilingues et que peu d entre elles  sont endog  nes  c est    dire ne requi  rentt aucune ressource dictionnai   rique  Giguet  2005  Giguet et Luquet  2006  Brixtel  2011     Ainsi  la question qui demeure est de savoir comment parvenir     aligner massivement de facon peu supervis  e et donc peu co  teuse  des  documents traduits  y compris de facon asynchrone  pr  sentant des cas  d inversions  mais aussi de suppressions omissions  Une des pistes que  nous privil  gions est celle d un travail sur les caract  res amorc   par Cro   mi  res  voie prometteuse pour un alignement ind  pendant des langues     Nous pr  sentons dans le chapitre 3 les principales caract  ristiques de  notre m  thode d alignement de documents multilingues sans pr  suppos    de parall  lisme  Cette pr  sentation g  n  rale ouvre la voie    la pr  sentation  plus d  taill  e qui se tient dans la deuxi  me partie de notre rapport     POUR UNE M  THODE SANS PR  SUPPOS   DE  PARALL  LISME SOUS  OU SUR PHRASTIQUE    Nous nous sommes int  ress  e aux limites rencontr  es par les m     thodes reposant sur l hypoth  se du parall  lisme sur phrastique  Au  regard de celles ci 
67.  s  2e d 1   s INpes  Juos  7  seuoudooueuj sAed sa  jueuroouos sayde  sered sa  spnas   13    oxouue p jnqop ue 99eJd 1   j31npeu  Isa IPUPTULA e  jueug22uoo oydergered a   nos   iy s amp ed red sjo oud sop juvjsi  soxouue   stej3ue uo JUOS oxouue p s  1s  1 SIT  oxouue p jnqop uo s  2e d 19 s INpes  Juos  T  souoydoouezz sAed sa  jueuroouos sayde  sered sa  spnas   1j     oxouue p 1nq  p ua ped 19 J  npe n Isa ouSedsq   yueu122uoo aydes3ered a   nos   sa    sked red syofoxd sop Jueysij soxouue   stej3ue uo JUOS   x  uue p s  1s  1 SIT  oxouue p jnqop uo sooejd ya   Syr pez quos  T  souoydo gt uex  shed sa  jueug22uoo soydes3ered sa  s nos    13  sAed sed syofoxd sop 1uejsi  soxouue   stej3ue Ud JUOS oxouue p s2jsa1 SIT    x  uue p jnqop uo s  2e d 139 SIMPpreA  Juos  7  seuoudooueagj sAed sa  jueuroouos saydeiSesed sa  s nos   IJ  oxouue p 1nqop uo s  2e d ya  sy  npe1  3uos  c  sauoydosai3 sAed sa  jueurssuos sayde  sered xnop snos   josAed 1ed syafoid sop 1uejsi  soxouue   sre 8ue Ud juos oxouue p  IIS91 SIT    x  uue p jnqop uo SIRIA 39 s INpes  Juos  z  souoyudosuei  sAed sa  jueuroouos soyderSered sa  s nos   1j   oxouue p 1nqop uo soov d ja  sjinpes  Juos souoydouewr198 sked sa  jueu122uoo saudeisSeied sto snos   op  s  ed ied sjaloid sop quest  soxouue   sre guv uo JUOS   x  uue p S9JS91 SIT    PNPL Sa x1eurouep o  jueugo2uoo oydessered 9   nos   ep  oxouue p 1nqop uo saoerd ya   sjinpes  Juos souoydouewr198 sAed sa  jueu122uoo sayde  dered stos snos   op    sXed 1ed
68.  seulement dans le multidocument 1            5 2 ALIGNEMENT DE ZONES    IP  157 FR IPi 5 1157 EN  ANNEXE AMME X   R  sum   des projets LIFE Environnement 2005  pays par pays Ovaniewof LIF tlg e amk nie   Allemagne     six projets   Deux projets traitent de la gestion des eaux  Le premier   appli quera une strat  gie int  gr  e pour r  duire la pollution   agricole diffuse  dans le sens de la directive cadre sur l eau                     Will be implemented to prevent surface and groundwater fra  pollution         metal precipitation    is a sustainable solution for clearing  groundwater contaminated with non ferro                   danh    auricultural activities in   he dense river Pon in line vith the EU Water Framework   Directive objectives    The second concems the integrated protection of surface and  groundwater in three agricultural regens in mid eastem    Jutland         2 projal   Estonia     1 project  Deux projets traitent de la gestion des eaux  Le premier vise          r  duire les IE dazte et de nn   manant des Finland     2 projects  activit  s anricalee           France     11 projects           Germany     B projects   Two projects concem water management  The first wil take an  integrated approach to reduce diffuse pollution from agriculture   in support of the Water Framework Directive             Espagne    seize projets  Trois projets portent surla gesti on des eaux  Le premier    Greece     4 projects    Hungary     1 project                           
69.  sjafoid sop 1ueisi  soxouue   map    Inapt   topi   map     s  eq 1ed sapte p suorrj1ed91 sop yuejuasoid neo qe un p sougi  sop 11     neo qe3 IWE 9  19 IWT 9  31JU9 sau      sonb onb ap uorsso1ddns   y    neo qe3 IWE 9  19 IWT 9  21juo sau      sonb onb ap uorsso1ddns   ua   ne   qe1 IWE 9  19 IWT 9      rnu   sau      sonbjonb ap uorsso1ddns    o   ne   qe1 IWE 9  19 IWT o  31JU9 sau      s  nb   nb Sa  ru    uty ej e neo qej 3  sed   op  neo qe3 IWE 9  19 IWT 9  31JU9 sau      s  nb   nb Sa  ru    UL ep e neo qej 3  sed   op  map     wap      JU919JJIp 21p10 UN suep sy  npen uonrsodoid ej ap  re12p np soydessesed    uge e  c c f24uv  gt  sosi eq op sed   13 uorssa1ddns ry uu e e unu sast eq ap otas aun p uorsso1ddns   1j    u ej e Juny sesr eq op 9119s aun p uorsso1ddns   1j uorsso1ddns 1J S   uj ep e  WY s  st eq op alias aun p uorss  iddns   1j  ouoi1gou  s 1J uo  ouoi1gou  s 1J 1    ouo1gou  s IJ op  ouo1gou  s op ep 6     80 qI  ouo1gou  s ry n  r ne 39 jnqop ne pwy sas  feq op ALIS oun  p uorsso1ddns   1j  ur e  e neo qe un p uorssouddns   1j uorsso1ddns 1J S   noarrur ne unu sas  feq op ar12s aun p uorssoiddns   1j  JUOJYIU  S 1J uo nap ne  unu sost eq op arias oun  p uorsso1ddns   1j  JUOJYIU  S ire nor rur ne  uru sost eq op arias aun p uorsso1ddns   1j  ur e    neo qe un p uorssouddns   1j uorsso1ddns 1J 9P  JUOJYIU  S ap ep 1 Z 80 d1 n  r ne  Juny sosti eq op ati9s aun p uorsso1ddns   ap  srera   nysougerq Pd   nbrunururo5 srera    UOISI  AUI  UOISIOAUT  UOISIOA
70.  tool for acquiring and enhancing translation competence  Les  Cahiers du GEPE  Outils de traduction   outils du traducteur   2   2010   URL http   www cahiersdugepe fr index php id 1318   Cit    aux pages 7 et 30      Franz Josef OcH et Hermann NEY   A systematic comparison  of various statistical alignment models  Comput  Linguist   29   1  19 51  2003  URL http   portal acm org citation cfm id   7 8822 778824 amp colL L GUIDE amp d L GUIDE amp CFID 765775948 amp CFTOKEN   73477001   Cit      la page 41      Francois OST   Traduire   D  fense et illustration du multilinguisme  Fayard   2009  ISBN 2213643660   Cit   aux pages 5 et 8      Alexandre PATRY et Philippe LANGLAIS   Automatic identifica   tion of parallel documents with light or without linguistic re   sources  In Canadian Conference on Artificial Intelligence  pages 354   365  2005  URL http    www etud iro umontreal ca  patryale   papers patry_langlais_2005_ai pdf   Cit      la page 33      145    146    BIBLIOGRAPHIE    Emmanuel PLANAS   Extending translation memories  Proceedings of the  5th European Association for Machine  2000  URL http   citeseerx   ist psu edu viewdoc summary doi 10 1 1 23 9756   Cit      la    page 34      Philip RESNIK et I  Dan MELAMED   Semi automatic acquisition of  domain specific translation lexicons  In Proceedings of the fifth confe   rence on Applied natural language processing  ANLC  97  page 340 347   Stroudsburg  PA  USA  1997  Association for Computational Linguis   tics  URL
71.  traductions     Population   Ensemble constitu   de l ensemble des occurrences d un  n gramme de caract  re     Pr  cision    Mesure de  calcul statistique qui refl  te la proportion de  bi document correctement diagnostiqu  s     GLOSSAIRE    Quasi bijection   Dans le bi texte T1  T2  pour un segment de texte TI   il existe dans la majorit   des cas un seul candidat  issu de Fs T2   comme    quivalent traductionnel  Fs   Fonction de segmentation      Quasi synchronisation     galement appel  e quasi monotonie  signi   fie que dans le bi texte T1  T2  l ordre des segments de T1 respecte      quelques variations locales pr  s  l ordre des segments de T2     Segment   Un segment de volet correspond    une portion de volet d     finie en pourcentage  Dans notre hi  rarchie de grains  voir figure 11   page 57   il se situe entre la zone et le N gramme de caract  res  Ainsi   une zone peut comprendre plusieurs segments et un segment plusieurs  N grammes de caracteres     Volet   Document pris comme version  le plus souvent monolingue  d un  multidocument     Zone   Grain interm  diaire entre le document et les unit  s sous phras   tiques  la zone est d  finie en contexte gr  ce aux segments  Elle est consti   tu  e de caract  res pouvant en contexte recouvrir plusieurs r  alit  s   du  document    la chaine de caract  res en passant par le paragraphe  la  phrase  la proposition  l expression ou le mot  Ainsi     la facon du bi   texte  une bi zone correspond    la mise en corresp
72.  zwei Projekte                   D  nemark   sechs Projekte                         5 Estland   ein Projekte             s     Finnland   swei Projekte                 Deutschland   sechs Projekte             s    Spanien   16 Projekte             Royaume unis   dix projets            n nv United Kingdom   10 projets           Vereinigtes K  nigreich   zehn Projekte             FIGURE 12   Maintien de l ordre et inversions entre les diff  rents volets d un  multidocument  communiqu   de presse IP 05 1157 de l Union  Europ  enne  en anglais  francais et allemand contenant des para   graphes tri  s par ordre alphab  tique  Nous utilisons les       pour    symboliser le contenu d un paragraphe  dont nous ne conservons  ici que le d  but soit le nom du pays dont il traite     Ainsi  dans le premier cas  selon notre hi  rarchie de grains pr  sent  e  dans la figure 11b  nous consid  rons qu il existe deux zones parall  les   une bi zone   c est    dire traduites de facon globalement litt  rale  cor   respondant dans chaque langue aux documents dans son ensemble   Tandis que dans le deuxi  me cas  nous consid  rons qu il existe plusieurs  zones entre lesquelles il existe un parall  lisme  plusieurs bi zones  On  dit de ces traductions qu elles sont asynchrones  L ordre macroscopique  n est pas syst  matiquement maintenu d un volet    un autre  ce type  d inversion apparait par exemple lorsqu un r  sum   pr  sent au d  but  d un volet est traduit    la fin d un ou de plusieurs autre
73. 113  Alignement de zones IP o5 1344               114  Alignement de zones IP 08 405              115  Alignement de zones IP 07 1008              116  Alignement de zones IP 05 1157              117    tude quantitative des diff  rents ph  nom  nes r  per    tori  s par collection                     126  Diagnostics manuels sur la collection 1           127  Diagnostics manuels sur la collection 2          128  Diagnostics manuels sur la collection 3          130  Diagnostics manuels sur la Collection Transport    131  Diagnostics manuels sur la Collection T  l  phone     133    Diagnostics manuels sur la Collection Sant         135    Cette th  se a   t   compos  e avec   IEX 2g en utilisant    le style cLassicthesis  disponible via CTAN  La  police principale est Minion  d    Adobe      R  SUM      Alignement de documents multilingues sans pr  suppos   de parall  lisme    Aujourd hui les travaux exploitant des documents multilingues se tournent vers  l   tude de textes comparables alors m  me que tous les aspects des documents paral   l  les n ont pas   t     tudi  s ni tous les verrous li  s aux m  thodes d alignement lev  s   notamment leur mise en forme et les cas d inversions et de suppressions au niveau  sur phrastique  Ainsi  nous ne disposons pas    ce jour d outils permettant de valoriser  cette mine d informations  d en extraire aussi massivement qu envisag   des ressources  pourtant utiles tant aux traducteurs qu aux lexicologues    Nous pr  sentons ici une m  t
74. 12    OBSERVATIONS LINGUISTIQUES ET TRADUCTOLOGIQUES    devis  Pour cela  ces organismes diffusent des coefficients de foisonne   ment de r  f  rence  c est    dire la diff  rence envisag  e de volume entre  le texte original et le texte traduit  Dans le tableau 2  nous pr  sentons  les seules donn  es officielles que nous avons pu nous procurer  Celles ci  t  moignent bien des variations de volume qui naissent de l op  ration  traduisante  c est    dire que le volume d un m  me texte varie selon la  langue  Ainsi  par exemple  lors d une traduction de l anglais vers le  francais  le nombre de mots fran  ais sera plus important que le nombre  de mots anglais  En outre  plus le texte est technique  plus le coefficient  risque d   tre   lev     Concr  tement  la tarification est le plus souvent   tablie au nombre  de mots  Il existe une normalisation des mots  lignes  pages et feuillets      une page ou un feuillet contient 250 mots ou 1500 signes carac   teres      une ligne contient 10 mots et un mot contient environ 6 signes  ou caract  res   Il reste toutefois un certain nombre de langues ou pays dans lesquels  l unit   est plut  t la page ou la ligne     1 3 2 Au niveau syntaxique    La m  tataxe    Dans son ouvrage intitul     l  ments de syntaxe structurale  Lucien  Tesni  re consacre le livre E    la pr  sentation de la  lt  m  tataxe  gt   Il s y int     resse notamment au changement structural qui peut intervenir entre une  phrase    traduire et une phrase traduite  c
75. 1gou  s  ouoi1gou  s  ouo1gou  s  ouo1gou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  ouo1gou  s  JUOIYIU  S  ouo1gou  s  JUOIYIU  S  JUOIYIU  S  uorssa1ddns  ouo1gou  s  JUOIYIU  S  JUOIYIU  S  ouo1gou  s  ouo1gou  s  ouo1gou  s  ouo1gou  s    ouoi1gou  s    ouo1gou  s  ouo1gou  s  ouoi1gou  s  ouo1gou  s  ouo1igou  s  ouo1gou  s  ouo1gou  s  ouo1gou  s  ouo1gou  s  ouoi1gou  s  ouo1gou  s  ouoigou  s  ouo1gou  s  ouoi1gou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  uorssa1ddns  uorssa1ddns  uorssa1ddns  uorssa1ddns  uorssa1ddns  ouoi1gou  s      nsouSerq    IT  1J S    1J U3  ire  1 J   P  3p ep  1 g  1J S    1J U3  ire  1F9P  9p ep  IT  1J S    1J U3  ire  LFP    pep  IT  1J S    1J U3  ire  1 J   P    9p ep  Y  1J S    1J U3  ire  pep  Ja   IT  1J S    1J U3    1J  3    T  9p    Pr  IT  1J S    1J U3  ire  1 J   P    pep  IT  1J S    1J U3  ire  ep  a  IT  1J S    1J U3  ire  PP  3p ep  IT  1J S    1J U3  ire  1F9P    9p ep    Pd    089 SO qdI    909 SO d     SS SO gI    69gv So gI      Zv S0o gI    c   SO gI     lt 6 lt  SO dI    6Zor So dI    cZ91 SO gI    gSSr SO dI    anbrunwwoy    LA    LA    129    EVALUATION MANUELLE DU PARALLELISME    o  r a8ed v  ns ay  ns        uorjoo   oo    uu e  e Juny sesr eq sonb onb op uorssouddns   1j    ur e  e Juny sesr eq sonb onb op uorssouddns   1j    N9  1U ne unu sesi eq op ALIS aun p uorsso1ddns   1j     TIN sinatsnyd op ja  untu s  st eq op a119s aun p u
76. 2  pages  1071 1082  Toronto  Ontario  Canada  1992  IBM Press  URL http     portal acm org citation cfm id 962367 962411 amp coll   GUIDE amp d1 GUIDE amp CFID 76577594 amp CFTOKEN 73477001   Cit   aux  pages 36 et 38      Frank SMADJA  Kathleen R McKEown et Vasileios HATZIVASSILO   GLOU   Translating collocations for bilingual lexicons   a statistical ap   proach  Computational Linguistics  22 1 38  mars 1996  ISSN 0891 2017   URL http   portal acm org citation  cfm id 234285  234287   ACM ID   234287   Cit   a la page 41      BIBLIOGRAPHIE    Bernd SPILLNER   Textsorten im sprachvergleich  ansatze zu einer kon   trastiven textologie  In Kontrastive Linguistik und Ubersetzungswis   senschaft  pages 239 250  KUHLWEIN Wolfgang  THOME Gisela   WILSS Wolfram  M  nchen  Fink  1981   Cit      la page 30      Dan Turis et Ana Maria BARBU   Lexical token alignment   Experi   ments  results and application  In Proceedings of LREC 2002  pages  458   465  2002  URL http   citeseer ist psu edu viewdoc   summary doi 10 1 1 145 469   Cit      la page 41      J VERGNE et E GIGUET   Regards th  oriques sur le tagging  In Proceedings  of the conference Le Traitement Automatique des Langues Naturelles   1998   Cit      la page 100      Jean VERONIS   Evaluation of parallel text alignment systems   the AR   CADE project  In Parallel text processing   Alignment and use of trans   lation corpora  pages 369   388  J  V  ronis  Dordrecht  kluwer academic  publishers   dition  2000   Cit      la p
77. 3  sugg  rent m  me qu il serait  peut   tre pr  f  rable d ajouter des   tapes d alignement aux niveaux pro   positions    De facon op  ratoire et non linguistique  la phrase est d  finie comme  un niveau de d  coupage  d  limit   par la ponctuation et les majuscules   Une phrase correspond    un segment de texte s   tendant le plus souvent  d un   Majuscule    un autre   Majuscule  Pour un certain nombre de  langues  ce traitement ne r  clame pas de ressource  N  anmoins  dans  certaines langues  la phrase ne r  pond pas    ce type de description ou  cette description ram  ne autre chose que des phrases  on fait alors appel     des ressources l  g  res     Les similitudes de longueur    La m  thode d alignement de phrases sur corpus bilingue de Gale et  Church  1993  est statistique et ne se base pas sur le contenu lexical  Ce  mod  le se base sur l observation que  lt  des r  gions de texte plus longues  ont tendance    avoir des traductions plus longues  et les r  gions les plus  courtes  des traductions plus courtes  gt   il sugg  re   galement que ce rap   port est constant  Autrement dit il existe une forte corr  lation entre la  longueur en caract  res d un paragraphe et la longueur en caract  res  de sa traduction  Ceci sugg  re que la longueur en caract  res peut   tre  un indice    la fois simple et fort pour l alignement de phrases  Cette  m  thode aligne tout    4  pr  t et si l on s  lectionne 80  des alignements  ayant le meilleur score  le taux d erreur passe 
78. 5 projects           Luxembourg     1 project          Methernands     7 projects          Portugal   2 projects           Romania     1 project               spain     15 projects   Three project focus on water management  One wil define an  integrated management model for dealing with liquid waste  from the plating industry           Sveden     2 projects            United Kingdom     10 projects   Four UK projects deal with waste management  The first aims  to demonstrate the use of an advanced utra high pressure  water technaagy to recover materna from used tyres    The second will demonstrate innovative technologies for the  recvding of glass waste streams that are currently unsuitable  for most glass manufacturing processes and thus end upin  landfill sites              FIGURE 6   Ordre diff  rent au niveau sur phrastique entre les annexes des    documents anglais et fran  ais du multidocument IP o5 1157  Les        ont  t   introduits par nos soins  ils symbolisent des paragraphes  entiers de plusieurs lignes  de 3    plusieurs dizaines      15 CONTRAINTES   DITORIALES 23    de certaines de ces contraintes  notamment les contraintes mat  rielles   auxquelles les traducteurs doivent faire face  figure 7      La direction g  n  rale ou le service envoie  une nouvelle demande de traduction    POETRY    Le planning central l accepte    Le document original est Si n  cessaire o   souhait     automatiquement trait   par Euramis l   quipe de pr  traitement pr  pare  afin de t
79. 7  17  19   19  19  21  27  34   en   European Parliament     22    1  2  2  5  6  7  7  7  Z 7 7  12  16  16  17  17   17  19  19  19  21  27    distance   0 083   fr   Parlement     25    1  2  2  2  2  5  6  7  7  7  7  7  7  12  16  16  17  17  17  19   19  19  21  27  34   en European Pa     23    1  2  2 5  6  7 7  7 7  7  7 12  16  16  17  17  17  19  19   19  21  27  37    distance   0 080   fr  s a  r     26    2  7  7  10  10  10  10  10  10  10  10  10  10  10  10  10  10  10   10  10  10  10  10  10  10  17   en    airp   24    7  10  10  10  10  10  10  10  10  10  10  10  10  10  10  10  10   10  10  10  10  10  10  10    TABLEAU 17     Appariements de populations de chaines de caract  res r  p  t  es  dans la collection  Chaque groupe de 3 lignes pr  sente   ligne 1  la  distance qui a   t   calcul  e entre deux chaines de caract  res sur la  collection  elle se situe entre o et 1  lignes 2 et 3  respectivement  pour la chaine 1 et la chaine 2   la langue  la    chaine     son  effectif     dans la collection et la liste de num  ros de multidocument dans  lesquels elle apparait     6 2 APPARIEMENT ET ALIGNEMENT DE ZONES    6 2 APPARIEMENT ET ALIGNEMENT DE ZONES    Dans cette section  nous pr  sentons les travaux r  alis  s en mati  re  de d  tection de multizones  Ils comportent un travail pr  paratoire de  cr  ation de matrices de points    partir des appariements pr  alablement  d  tect  s  une d  tection de multizones via un traitement de ces matrices  et un
80. 8 1016 es fr      a i E       a Seg    E ont B   hata          E                 ag me     LE m      m Ea  n  seo cte ib omi        d  c   q    F   TU K   on 1 _  aP ot  x A A  ua s      4  af  w cbe  E ams Tu  gne Te       Ma MN  as    ll       E    XE _ nm  ire ter  UA A QA  map    x  x    X    IP 08 1144 el fr    CC PP l        oed aa  7 l  Qu     rats   Ww     u             x L nu  IP 05 1558 en fr    IP 05 1558 fi fr    TABLEAU 37   10 bi documents asynchrones avec suppression parmi les 26  attendus sur les collections th  matiques avec la m  thode Grand    Angle  voir tableau 25      112    R  SULTATS ET   VALUATION SUR LA TACHE D ALIGNEMENT DE ZONES    L observation de ces tableaux nous am  ne    plusieurs commentaires   Tout d abord il convient de dire que la majorit   de ces images offre     l oeil nu une id  e claire des ph  nom  nes engag  s entre les deux volets  concern  s    Nous placons donc principalement les difficult  s dans les   tapes  ult  rieures    la cr  ation des matrices         tout d abord dans le traitement de ces images  certains segments   de droites que nous souhaiterions voir isol  s ne le sont pas      enfin et c est l   la majorit   des cas  dans le diagnostic que nous   avons mis en ceuvre  Des exp  riences de d  tection automatique  des caract  ristiques propres    chaque type sont en cours     73 2 Pourquoi des matrices restent ind  finies   ou mal d  finies      Entre 2 et 3596 des matrices restent ind  finies selon la dimension  observ 
81. 9 90 qI    TOT 90 d1    6rkF SO dI    TgI SO dI    TgI SO AI      S91 SO gI    osnbrunururo     Pa    ouoi1gou  s  ouoi1gou  s  JUOIYIU  S  JUOIYIU  S  ouo1gou  s  ouo1gou  s  JUOIYIU  S  JUOIYIU  S  ouoi1gou  s  ouoi1gou  s  ouoi1gou  s  ouoi1gou  s  ouoi1gou  s  ouoi1gou  s  ouoi1gou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  ouo1gou  s  ouoi1gou  s  ouoi1gou  s  ouoi1gou  s  ouoi1gou  s  ouoi1gou  s  ouoigou  s  ouo1gou  s  ouoi1gou  s  ouoi1gou  s  ouo1gou  s  ouoi1gou  s  ouo1gou  s  ouoi1gou  s  ouoi1gou  s  ouoi1gou  s    ouoi1gou  s    ouoi1gou  s  ouoi1gou  s  ouoi1gou  s  ouoi1gou  s  ouo1gou  s  ouoi1gou  s  JUOIYIU  S  ouoi1gou  s  ouoi1gou  s  ouoi1gou  s  ouoi1gou  s  ouoi1gou  s  ouoi1gou  s  ouoi1gou  s  ouoi1gou  s  ouoi1gou  s  ouoigou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  ouoi1gou  s  ouoi1gou  s  ouoi1gou  s  ouoigou  s      nsouSer q    IT  1J S    1J U3  ire  13 3P    9p ep  FT  1J S    1J U3  ire  1 J   P  ep ep  19  1J S    1J U3  ire  ep  SPEED  FT  1J S    1J U3  ire  zd  ap ep  FT  1J S    1J U3  ire  ap    9p ep  Y  1J S    1J U3    1J  3    EP    3p ep  1 9  1J S    1J ua  ire  ap  3p ep  Jg  1J S    1J ua  ire  1 J   P  2p ep  IT  1J S    1J U3  ire  x ads  3p Pp  IT  1J S    1J U3  ire  Ip3p    9p ep    Pd    IS   60 gI      99 S0 gI    66S So gI    FvS So gI    o9t So gI    SrY So gI    68   So GI    TET SO d1    FZor So dI    t  oor So gI    osnbrunururo     Pa    JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  
82. ART D  i   ip UH i     TE uA EI i x TAAG   MEB LIN Tn Tang i id io  da  Fi  Fiese En de asii     Emi Dans pee 1 ER TIE  domu pe isa decades   Ser MEME R T RAUSA   BE o    LE o Mic ee E AAT  EE  Ur 1 FE   B     WE TH  vem oko   E ONE  cu MIDI Ed rn OM  l  L t e on M  ed   A    du  J  um E       IP 05 1157 fi fr ann es  dr      os BRI  DENT Fs    ER I E     l P N DENS  LE   m 1     M  1 i 1   E y      h L ka     L  LE      gt           Coe CT PE           IP 10  1002 es fr       IP 10 1002 de fr  pee   RS   del  inal       IP 10 1002 el fr IP 10 1002 fi fr    TABLEAU 34   10 bi documents asynchrones avec inversion attendus mais non  obtenus avec la m  thode Petit Angle parmi les 16 des collections  th  matiques  voir tableau 25      73   VALUATION ET DISCUSSION DES R  SULTATS 109     CREME LE us ae    IL   ait re d a THC     A    mi x  ES a C ez    lm ce 4 RET  zd 4524    Hr K ESS    Tea ru  ae    huko E MI dis  y  Sess   ar ee  RE irm    GE JEE e    EEE SE CE TENE  5 ELLE we Lee          ee ea  vr sages ah BUR rem E AX Sc Le    Hias ahua        T  t      a  H  1  1  d    Seti  nbet nm bene de ised                  ro mih       i d                        m Bm m E        Lm n u   r    ce SPE       quil Bl  10986 TIN    ct  ARABE TIN        T ura p wem    ne    2E Da ENT    E Tg TUTO  FE  iria 4 R E rA rius    OR SLA V l a    ke Mus  DU    were  rmm LES J    d   gustus E ERE x Ji   war T cr EDU  deg RE  im    E                   2 ME wi  Wr s n   Ed DE ut SE Me m SRE    m zh ae  
83. AU 33    TABLEAU 34    TABLEAU 35    Liste des tableaux    Illustration du parall  lisme en versification         28  Correspondances phrastiques               38  Indices de forme                       55    Vecteurs d effectifs par document dans une collec   tion de multidocuments                   69  Mise en   vidence de la cha  ne de caract  re com   mune    quatre mots form  s par d  rivation  Liste des mots graphiques signifiant    transport     dans un   chantillon de textes en fr  es et el  et leur  CCE ed Bee eee es 72  Chaines de caract  res  d au minimum 3 caract  res   communes aux mots signifiant    transport    dans  le m  me   chantillon de textes en fr  es et el et leur    effectif respectif    uu v s sus w y  e RE SS 73  Exemple de populations                   79  Exemple de r  partitions de deux N grammes de  caract  res grec et fran  ais                   80  Appariements de populations de cha  nes de carac    t  res r  p  t  es dans la collection              82  Traitement effectu   sur chaque matrice           83  Illustration de max_liens s                85  Ellipses et projections des segments de droites sur   TES AXES idu comu wu P EROR ran 90  Matrices obtenues et attendues               94  Nouveaux mod  les                      95  Synth  se des r  sultats                    98  Mesures de pr  cision  rappel et F mesure          99  Mesures de pr  cision  rappel et F mesure        99  Mesures de pr  cision  rappel et F mesure          100  Mesur
84. CHEISEN   Text translation align   ment  Comput  Linguist   19 1  121 142  1993  URL http     portal acm org citation  cfm id 972450  972457 amp coll   GUIDE amp d L GUIDE amp CFID 76577594 amp CFTOKEN 73477001   Cit   aux    pages 36 et 39      Judith KLAVANS et Evelyne TZOUKCRMANN   The BICORD system    combining lexical information from bilingual corpora and machine  readable dictionaries  In Proceedings of the 13th Annual Meeting of the  Association of Computational Linguistics  page 174 179  1990   Cit   a  la page 33      Olivier KRAIF  Architecture d un systeme d alignement     tude pour une  int  gration optimale des indices d alignement  In Actes des Journ  es  internationales de linguistique appliqu  e  pages 161 164  facult   des  Lettres Arts et Sciences humaines  Universit   de Nice Sophia Antipolis   1999   Cit   aux pages 36  38 et 39      Olivier KRAIF   Constitution et exploitation de bi textes pour l aide    la  traduction  These de doctorat  Universit   de Nice Sophia  Antipolis   2001   Cit      la page 33      Juha KARKKAINEN et Peter SANDERS   Simple linear work suffix array  construction  In Jos C  M  BAETEN  Jan Karel LENSTRA  Joachim PAR   ROW et Gerhard J  WOEGINGER    diteurs   Automata  Languages and  Programming  volume 2719  pages 943 955  Springer Berlin Heidel   berg  Berlin  Heidelberg  2003  ISBN 978 3 540 40493 4  URL http     www springerlink com content Onyb22e5amj4rac4    Cit      la  page 78      Philippe LANGLAIS   Alignement de corpus 
85. E 7   r x         4            B i     LI i       d     E     m          1  LI m  n  z  LI ru L   E     E   I    2 5  I  LI z un   z    E E  u  H         d Q  m gea gr       a m oa  LE  LI  M    E t t   o      r   ELSE E    a E I    K    Pr Ca     ma aoe  u      E  E  CE LEE      LI E LU  a  s    LI  u  x m LI                       a 8 s  x  LES t F 2    TT      d    u al   wo     mu       Y       77 cm PC  rn  s PF              A  F        u   F  z Z          z    L          Ms DU        LL D    eas            BE   _     ER  IP 07 139 fi fr       n  So    i   um B TEEM A So  LM        T QUIAE A a 1        zm   H n E Jd A     M L Ra n ch T  id A k  is     of 4 m  owa    a  w     an  Ph f 1    m  T mu ma  am    d  n     NL    i    Go d YE  on   a 3 4    OU 003   aun       un ui m       aun ui m j    L  am m nee   Z      es  Aat   s     K ui ie a a i    qu  uo um  do  a  an ER A Tun  TE a  Tu Eu I5 nz a  Tu A eiit   En  one    rF Y   w pom   a   my t s ir    F   wa     ALarg ri 0 D  pom po      Or mm a P as sms         Ea  l 3      i       cS   ma d   X   n         RN  a        mali 1 Do uni d  pda c tao rue rt   r ann on   o me 73 w    E          DELLI     x Li        lio    Mos      Ma  t qe    a Er LE  m     k     LE t  UT a as       mme     ces  c  a     acts e  ts           Fin A   a  we r     Ki  cox    T  T  LL a x    Pu vu  ct  K  rav     h  lH 418 h  vi  H  Iis    f x    oo     A  Ce  E  H T        Nu           1 COLE  r  mn  pat e       Z               sam        IP 0
86. GUID  E PAR LE MODELE 61  II MISE EN   UVRE  ILLUSTRATIONS    VALUATION 25  6 MISE EN EUVRE 77  7 RESULTATS ET EVALUATION SUR LA T  CHE D ALIGNE    MENT DE ZONES 93  CONCLUSION 119  IV ANNEXES 121  A   VALUATION QUANTITATIVE DES APPARIEMENTS i23  B   VALUATION MANUELLE DU PARALL  LISME 125  BIBLIOGRAPHIE 1327  GLOSSAIRE 149    INTRODUCTION    La traduction   Un enjeu de soci  t      E web est   l origine d une explosion de l information  Chaque jour   le nombre de textes disponibles en diff  rentes langues augmente et  avec lui la n  cessit   de faire face    un flux d informations r  solument  multilingue  Celle ci est sp  cialement ressentie par les instances euro   p  ennes et mondiales qui doivent non seulement pr  server la diversit    linguistique en soutenant l apprentissage des langues   trang  res  mais    galement garantir l   galit   des e citoyens europ  ens en assurant l acc  s  aux documents dans leur propre langue  Cependant cet objectif s av  re  humainement difficile    atteindre puisque le processus de traduction fait  que l on traduit vers sa langue maternelle et qu il n existe pas suffisam   ment de traducteurs pour certains couples de langues    C est face    ce double constat de n  cessit   et d incapacit   qu a m  ri  l id  e de convertir et valoriser les traductions r  alis  es par des traduc   teurs humains  Au d  but du XIX  si  cle  Champollion face    la Pierre  de Rosette prenait d  j   conscience qu un document traduit en plusieurs  langues peut 
87. Linguistics  Oxford University Press  London  1965   Cit   a la    page 8      Chirine CHAMSINE   La traduction des   motions  M  moire de master  conjoint franco hell  nique mention sciences du langage  sp  cialit    sciences de la traduction   traductologie et sciences cognitives  Uni   versit   de Caen Basse Normandie  Caen  France  2005   Cit      la    page 7      Jason S  CHANG et Mathis H  CHEN  An alignment method for  noisy parallel corpora based on image processing techniques  In  Proceedings of the eighth conference on European chapter of the  Association for Computational Linguistics  pages 297 304  Madrid   Spain  1997  Association for Computational Linguistics  URL http     portal acm org citation cfm id 979617 979655 amp coll   GUIDE amp d1 GUIDE amp CFID 78470726 amp CFTOKEN 79586012   Cit      la    page 43      Stanley F  CHEN   Aligning sentences in bilingual corpora using  lexical information  In Proceedings of the 31st annual meeting on  Association for Computational Linguistics  pages 9 16  Columbus   Ohio  1993  Association for Computational Linguistics  URL http     portal acm org citation cfm id 981574 981576 amp coll   GUIDE amp d1 GUIDE amp CFID 76577594 amp CFTOKEN 73477001   Cit   aux  pages 36  38 et 40      Yun Chuang Curao  Olivier KRAIF  Dominique LAURENT  Thi  Minh Huyen NGUYEN  Nasredine SEMMAR  Francois STUCK  Jean  VERONIS et Wajdi ZAGHOUANI   Evaluation of multilingual text ali   gnment systems   the ARCADE II project  In sth internationa
88. OISIOAUT  UOISIOAUT  UOTSIOAUT  UOISIOAUT  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S      nsouSer      T UOT 29  O0  LJ INS s onueur soysougerq   FF nvaTavg    y  17 89  1J uo  i e  17 9p  SPSRE  J g  1J S    1J uo  i e  pap  RER  Y  1J so  1J uo  i e  17 9P    9p ep  Y  17 89  1J uo  i e  1    P  ap ep  Y  17 89  1J uo  ie  Tj9p  REP  1 g  17 89  1J uo  i e  1F3P  Sp ep  1J   17 89  1J uo  i e  1    P  PP EP  1 g  17 89  1J uo  i e  Tj9p    9p ep  J g  17 89  1J uo  i e  ap  sp ep  1 g  17 89  1J uo  i e  1J 3P  Sp ep    Pd    TSST SO d1    VVET SO d1    ScS1 SO q     c6  1 So g     vIST SO AI    OISI SO dI    ZS1T1 SO gI    o6PT So qI      ZVT So qI    IIOI SO gI      nbrunwwon    JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S 
89. P 5186   14032 CAEN CEDEX    
90. PP       F mesure 93 12  74 52  84 83  93 38  64 49  80 91     TABLEAU 27   Mesures de precision  rappel et F mesure sur les collections  1 2 3 collections th  matiques avec leur MFM en consid  rant par  d  faut les ind  finis comme synchrones     Notre m  thode se comporte aussi bien que si nous avions pris le  parti de consid  rer par d  faut les ind  cisions comme des bi documents  synchrones     Ainsi  le syst  me s av  re tr  s pr  cis et assez pertinent pour les docu   ments synchrones  Mais les classes sont tr  s d  s  quilibr  es et les r  sultats  sur les documents asynchrones sont moins satisfaisants  Les images li  es     ces bi documents sont pr  sent  es dans les tableaux des pages suivantes     102 R  SULTATS ET   VALUATION SUR LA TACHE D ALIGNEMENT DE ZONES          sr HIER          de a OG saras     ge  m qe cR Tae ee s Ra RI M  t mia oe AE IT wp p   um          x ARD FE     d T rom  Ss 24       amp   s  il          im   il   VES Tu suam twm Ps  F             MeL  I Ir   u    i  47    doo ed   1    B     at  5 own         uw F T E Ve  M  Ad  I   LE P4    7 1   te    As     7  mor  mERR gens ha   ar      l    ee Aa     m  T  t Pe rA  ILIA eg Dat Qd T mA  TEL s    na  RM EN a  qe TI AAA      MEL EN A  pa oco   Tag    dE z      LE  n  ag a        CA A EAD EEE ri TR  A E LE   uir M E et   ara E  Sli x 2    abl   s     cow T ELTE La  Es SP ILLE T EN        Fe    FL  I v rie P DIR LEUR JUPE  i nh a    pp e mtem TOW FEY  ET     NES  A a      wana nt vt na       x Tao
91. S    1J uo  i e  1    P  SPSEP    Pd    ETTI SO Ad1    ZTZT SO AI    goc1 So gI    69g11 So gI    SZTT SO dI    6911 50 41    OSTI SO GI    ScII SO d     8901 S0 gI       TOT SO d       nbrunurtuo5    T    LA    EVALUATION MANUELLE DU PARALLELISME    128    aed ap seq op ajou uorssarddns   J  oSed ap seq op ajou uorsso1ddns   sa  aed ap seq ap ajou uorssouddns   uo  aed ap seq ap ajou uorsso1ddns    o    a3ed ap seq ap ajou uorssarddns   ep    n  r ne  UY sas  peq op a119S aun p uorss  iddns   1j    S 9 0A SIN  SI  suep SJUEISIXJUT xneo qe3 xnop op aduasaid    9    ynpe uou Isenb 1   oA   o    ur e  e Juny sesr eq sanbjanb op uorsso1ddns   uo    Top    map    map    Sj9 OA    s    suep sTejsue uo oxouue ruru  N9  1U ne sosi eq op 9LI9S ep op uorsso1ddns   1j   S 9 OA T SI  suep sre gue uo oxouue UTU   T  9  suep NIT FU ne sos  feq op arses      SOA T SI  suep sre gue uo oxouue UTU  sre gue uo neo qe1   y   sre 3ue uo neo qej   so    sre Sue uo neo qej3   19    sre gue uo neo qej   ep   SONBUT  11  39  1q SI9JOA   S    OA c So  suep sre5uvaj sre guve andumg OVA  SONBUT  11  39  1q SI9JOA   SJaTOA c SOT suep sreSueaj srepSue andumg OVA  SINZUTTIG SI9JOA   SI9J0A c SI  suep sre5ueuj sre gue ongu OVA  SONBUT  11  39  1q SI9JOA   S    OA c So  suep sreSueaj srepSue andumg OVA  songui  14  39  1q S1   OA   S39 OA c SI  sre5uvaj sre Suve ongur Iq OVA  SONBUT II  SJO OA   s1   OA T SI  suep sre5uvaj sre guv ongu OVA   Sj9 OA T So  suep sre gue uo neo qej   Sj9 OA c So  suep sre gue u
92. S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S      nsouSerq    Y  1J S    1J u    i e  ISP  ie  J g  17 89  1J uo  ie  9p  Pr  rg  17 89  1J uo  i e  1    P  9p ep  Y  17 89  1J uo  i e  Jp    9p ep  Y  17 89  1J uo  i e  1J 3P  PP  Jr g  1J S    1J uo  i e  Le  9p ep  Y  1J S    1J U3  i e  p    9p ep  Jr g  17 89  1J uo  i e  a  Pe   1J   1J S3  1J uo  i e  T 9p  Pop  1J   1J S    1J uo  ie  1    P  APE    Pd    ort Zo gI    8961 Z0 gI    OocZ1 ZO gdI      v S1r Zo gI    88Z 90 dI    96   90 d     06ST 90 dI      TS So qI    68   So qI    9SI SO gI    anbrunwuoy    T    LA    135    EVALUATION MANUELLE DU PARALLELISME       JJUES uono    oO LJ ANS s onueui sotjsouselq     6r AVATAVI     sre guv uo JUOS   x  uue p s  1s  1 SIT  oxouue p jnqop uo s  2e d 1   sy  npe n Juos  T  seuoudooueag shed sa  jueu1o22uoo soyder3ered sa  s nos   17   t oxouue p Mqap uo 29eJd 19 JINpes  Isa apuejurg e  jueudo2uoo ayudeiseied a   nos   1 s4ed red sjofo1d sop juejsi  soxouue   sre guv uo JUOS   x  uue p s  1s  1 SIT  oxouue p jnqop uo soovid jo siinpez Juos  T  seuoudooueag shed sa  jueu122uoo soyder3ered sa  s nos   17    oxouue p jngap ue ovid 1   11npeu Isa ougedsq   yjueu122uoo oydes3ered a   nos   sa  sAed sed sjaloid sop juvjsi  soxo
93. S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  ouoi1qou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  ouoi1qou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S    JUOIYIU  S    JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S      nsouSer     y  1J S    1J uo  i e  1    P   p EP  y  17 89  1J uo  i e  1    P  Spp  IT  17 89  1J uo  i e  Ip3p  SPEED  IU  17 89  1J uo  i e  1    P    9p ep  IU  17 89  1J uo  i e  17 9P  ap ep  IT  1J S    1J U3    1J  3    1    P    pap  IT  17 89  1J uo  i e  Ip3p  aad  Y  17 89  1J uo  i e  1    P  PP  y  17 89  1J uo  i e  pep    9p ep  IT  1J S    1J u    i e  1    P  Pe     Pd    9ZZ SO gI    8c9 SO qI     lt ZS SO dI      TS So qI    6SY So gI    Vg   So aI    o7   SO aI    Scc SO gI      Z91 So gI      ZS1 SO gI     anbrunururo      sre gue uo nb    9 SIX9 U    saAroadsiod sa     jue  uouue    anbrunururoo np    onied e     S 9J0A  so1jne sa     suep sjuasaid  xneo qei xnop  op o  uesqe  1j    spes qd    ouoi1gou  s  ouoi1gou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  ouo
94. Tp  9p ep    Pd    882 90 dI    6Ss    90 gI       981 90 dI     60Z1 90 gI    0651 90 41    S  T 90 41    SZ6 So dI    TEZ SO AI    SST SO dI    IZIT SO dI    onbrunururo        Pd    JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S    JUOIYIU  S    JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S      nsouSer     IT  1J S    1J U3  ire  1  9p  3p ep  y  1J S    1J U3  ire  Feb  Js  IT  1J S    1J U3  ire  1 J   P    9p ep  IT  1J S    1J U3  ire  1  9p    9p ep  IT  1J S    1J U3    1J  3    1 J   P    SPEED  IT  1J S    1J U3  ire  IP    9p ep  IT  1J S    1J U3  ire  179P  Sp EP  1 g  1J S    1J U3  ire  179P    9p ep  IT  1J S    1J U3  ire  pep    9p ep  IT  1J S    1J U3  ire  1 J   P  ER    Pd    6   Z 90 41    ZST 90 AI    8I8I 9O dI    9 91 90 qI    Vt  v1 90 gI      T  T 90 GI     lt ZS SO dI       Z91 SO gdI    ZSVI SO dI    Z6or So dI    anbrunwwoy    T    LA    CET 
95. UNIVERSIT   DE CAEN BASSE NORMANDIE    U F R  DE SCIENCES         COLE DOCTORALE    Universit   de Caen    Basse Normandie STRUCTURE  INFORMATION  MATI  RE ET MAT  RIAUX    THESE  pr  sent  e par  CHARLOTTE LECLUZE  et soutenue    le 5 d  cembre 2011    en vue de l obtention du    DOCTORAT DE L UNIVERSIT   DE CAEN    Sp  cialit     informatique et applications    Arr  t   du 7 aotit 2006    ALIGNEMENT DE DOCUMENTS MULTILINGUES  SANS PR  SUPPOS   DE PARALL  LISME    MEMBRES DU JURY    M  Philippe LANGLAIs  professeur  universit   de Montr  al  rapporteur    M  Eric GAUSSIER  professeur  universit   de Grenoble  rapporteur    M  Patrick CONSTANT  pr  sident et fondateur de Pertimm   M   Christine DURIEUX  professeur  universit   de Caen   M  Emmanuel GIGUET  charg   de recherche HDR  universit   de Caen  co directeur     M  Jacques VERGNE  professeur  universit   de Caen  directeur     MERCIS    Merci    Jacques Vergne et Emmanuel Giguet d avoir ouvert les  portes du laboratoire    des   tudiants venant d un autre horizon  Merci  pour votre encadrement tout au long de cette th  se  pour votre investis   sement et votre grande disponibilit      tous les deux  ainsi que pour vos  remarques enrichissantes et surtout pour la confiance que vous m avez  accord  e  Je sais que sans vous cette th  se n aurait pu aboutir     Merci    Pertimm de m avoir accueillie pendant ces trois ann  es  me  permettant de m enrichir au contact de son   quipe  jeune  innovante     Je remercie   ric Gau
96. UOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S      nsouSer     IT  1J S    1J U3  ire  1 J   P    9p ep  IT  1J S    1J U3  ire  17  gt p  PER  Y  1J S    1J ua  ire  1  9P  Sp Ep  IT  1J S    1J U3  ire  179P  3p ep  1 g  1J S    1J ua  ire  179P  ap ep  IT  1J S    1J U3  ire  1 J   P  PER  IT  1J S    1J ua  ire  PP    9p ep  Y  1J S    1J U3  ire  IFR  bp  IT  1J S    1J U3  ire  179P  RER  IT  1J S    1J U3  ire  ep    9p ep    Pd    Sr v 1 Zo gI    969 Z0 qI    ZL11 ZO gdI    81Z 80 qdI    c6vY1 g0 gI    ISt 90 gI    L6   1 80 d     Str  Z0o gI      o9t So aI    LITI SO d1      nbrunururo5    T    T    133    EVALUATION MANUELLE DU PARALLELISME     9U0YA9 9   U01199  0  LJ Ins sppnueur sonsouserq   gr NVATAV       lt     2UDUv  gt  sasi eq op uorsso1ddns   J   lt        awWvUD  gt  sos  feq ap uorsso1ddns   so   lt     awupuon  gt  so
97. UT  UOISIOAUT  UOISIOAUT    UOISIOAUI  UOISIOAUI  UOISIOAUI  UOISIOAUI  UOISIOAUI  UOISIOAUI  ouoigou  s  uorssa1ddns  ouoigou  s  uotssaiddns  uorssa1ddns  uorssa1ddns  uorssa1ddns  UOISIOAUI  ouoigou  s  JUOIYIU  S  UOISIOAUI  ouoi1gou  s  UOISIOAUI  uorssa1ddns  uorssa1ddns  ouoigou  s  ouoigou  s  ouoigou  s  ouoigou  s  uorssa1ddns  uorssa1ddns  uorssa1ddns  uorssa1ddns  ouoigou  s  uorssa1ddns      nsouSerq    13 13    1J S      1J ua    JJ        1 J   P    PP  IT  1J S    1J U3  ire  179P  PP  HT  1J S    1J U3  ire  xx  app  IT  1J S    1J U3  ire  Ip  p    9p ep  IT  1J S    1J U3  ire  Jp  PP  IT  1J S    1J U3  ire  Hep  ep ep    Pd     lt OOI OL dI    OI   I 9O dI    6161  0 qI    goor Zo dI    Sot go gI      c61 g0 gI      nbrunurtuto5    LA    LA    131    EVALUATION MANUELLE DU PARALLELISME    ep     udeiSeied un p uorsso1ddns   op   Sj9 OA T S    suep sre gue uo oxouue   Sj9 OA T S    suep sre gue uo oxouue   Sj9 OA T S    suep sre gue uo oxouue   Sj9 OA T SO  suep sre gue uo oxouue   stejsue uo oxouue   1J   sre gue uo oxouue   ep   Sj9 OA T SI  suep sTejsue uo oxouue ruru   Sj9 OA T SI  suep sTejsue uo oxouue ruru   Sj9 OA T SI  suep sTejsue uo oxouue ruru   Sj9 OA T SI  suep sTejsue uo oxouue ruru   n  rrur ne sosi eq op 91195 ep op uorsso1ddns   17      9 OA T SI  suep sre gue uo oxouue PUTU   T Sd  SUP n  rlru ne sosi eq op IFS    S 9 OA T SI  suep sre gue uo oxouue PUTU   s  n  uI  111 3   1q SI9 OA   S    OA c So  suep stedue1J stejsue ongut tq OVA  s 
98. a    T L  a  e E E E n 1 ra       E ELIT a    oa m      u a i      om um        m m um a   mu       I     s u um a   a         dw  d E    n 7   EM a a MEE   a    007  H   a    E        a E   u E  gt     E       m uf ET     a     wit  n BE  M   l E Quo Cog a     Zu  Gi    Fr 25     i J E     mm n oof z   7      zm      g     gi       n   m E  uum m gam       E m gam TI  poet  ui Yars  ar p Und  H    hs E MASA SEC 07  co ag a   art zm w ta t lo  m a   Le         oc     E    ti         E    EE ti H x i kt   i T E   u CI E x i L E i T I u z          4    mu   a pP  EI sa  E s  OU E Ak s na  HX  dm       MA  ME mae i     Rumi        man  i tA      a    m  3 dh  31 1 L4 PPE  li 1 4  nu         m  d     ti L4 115  E 1 1 1   73a   1    L  L  n  m 1  x   sol  s                      a a LI LI  Ti a                   a a  s  p a m a ug Ta u  S     u x    a     Se   BE Er ie  w   7 534 x  J   4a J    Peg           a    oo    En 4 Ux  aa   L  rj     uc u  a     x s    A L Loa mm 1 nu    t  o       ho m         iA        h    y     A x T w hone A ma  mul xi a E     a mul ss    4  I s x    EE A i u x          p       x    af    I 7    1P 07 139 es fr          N          LE e   _ E  M    nn   bru LI i u B     LI ia LI       E         x    aye   z   an    x    SENT         sf  e       nee ume E litate  LT             w      Da  bi       Bus NAE        m LI m m           ia    zu  ca     LE   T            ih xe       i   5    IP 07 139 en fr IP 07 139 el fr  ML           se                    
99. a  i e  179P  9p ep  J g  17 89  17 u9  i e  dep    9p ep  Y  1J S9  1j ua  i e  dep  pP  J g  17 89  1j ua  i e  Ip  p    9p ep  9  17 89  1j ua  i e  ep  Per  J g  17 89  1j ua  i e  Ip  p  9p ep    Pd    6S01 90 gI    98t 90 dI    ccV1 g0 gI    VYII S0 GI    6c11 g0 gI    6vor 80 gI    oZg Zo dI    STST 90 d1    LSTI SO d1      nbrunurtuo5     lt    2UUUv  gt  sosi eq op uorsso1ddns   1j     lt    2UUUD  gt  sasi eq op uorsso1ddns   op     394    JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  uorssa1ddns  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  uorssa1ddns      nsouSerq    Y  1J S    1J U3  i e  x md    9p ep  J g  1J S    1J uo  i e  esp    9p ep  Y  17 89  1J uo  i e  PSP  PP EP  Y  17 89  1J uo  i e  Jp  ap ep  Y  17 89  1J uo  i e  ESP    9p ep  y  17 89  1J uo  i e  ap  rer  1J   1J S    1J uo  i e  TIS  pop  Jrg  1J S    1J uo  i e  1    P  PP  1J   1J S    1J uo  i e  
100. a1ddns  uorsso1ddns  JUOIYIU  S  UOISJ2AUI  UOISIOAUT  UOISIOAUT  UOISJ2AUI  UOISI  AUI  JUOIYIU  S      nsouSer     9  17 89  1J U3  i e  1    P     pep  IT  17 89  1j ua  i e  1    P  Pe   Y  17 89  1j ua  i e  Ip3p    9p ep  J g  17 89  1j ua  i e  1    P   PP  9  17 89  1J U3    JJ        1    P    PP  17 1  17 89  1j ua  i e  17 9P  Sp ep  Y  17 89  1j ua  i e  1    P  Pe  J g  17 89  1j ua  i e  Ip3p  Sp ep  9  17 89  1j ua  i e  17 9P  ap ep  J g  17 89  1j ua  i e  1    P  Per    Pd    918 90 dI      89 90 qI    LtTS 90 d1    8F 9O dI    TOT 90 d1    cg1 SO gI    TgI SO AI    61v  So gI    gSSI SO dI    ZSTT SO dI    onbrunwwon   Pa    JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  ouoi1qou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S    JUOIYIU  S    JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S      nsouSerq    Y  1J S3  1J uo  i e  1    P  Sp Ep  Y  17 89  1J uo  i e  1J 3P  ep ep  1J   1J S3  1J U3  i e  1   p  PP 
101. age 32      Jean V  RONIS et Philippe LANGLAIS   ARCADE   Evaluation de syst  mes  d alignement de textes multilingues  Lettre de l ELRA  4 1   1999   Cit    aux pages 32 et 40      Dekai Wu   Aligning a parallel English Chinese corpus statistically with  lexical criteria  In Proceedings of the 32nd annual meeting on Asso   ciation for Computational Linguistics  pages 80 87  Las Cruces  New  Mexico  1994  Association for Computational Linguistics  URL http     portal acm org citation cfm id 981732 981744 amp coll   GUIDE amp dl GUIDE amp CFID 276577594 amp CFTOKEN 73477001   Cit      la    page 34      Dekai Wu et Xuanyin XIA   Learning an English Chinese lexicon from  a parallel corpus  In Proceedings of the First Conference of the Associa   tion for Machine Translation in the Americas  pages 206   213  1994   URL http   citeseerx ist psu edu viewdoc summary doi 10   1 1 8 710   Cit      la page 41      Yu ZHOU  Chengging ZHONG et Bo Xu  Bilingual chunk alignment in  statistical machine translation  In Proceedings of the 2004 IEEE inter   national conference on systems  man and cybernetics  10 13 october  The  Hague  Netherlands  2004  URL http   cat inist fr  aModele   afficheN amp cpsidt 17523633   Cit      la page 36      Maria ZIMINA   Topographie bi textuelle et approches quantitatives de  l extraction de ressources traductionnelles    partir de corpus paral   l  les  In Actes des zemes Journ  es scientifiques du R  seau de chercheurs   Lexicologie  Terminologie  Traduc
102. aire  de  diff  rer l adh  sion de la Bulgarie ou de la Roumanie au  1 lt sup gt er lt  sup gt         lssup gt er lt  sup gt  janvier 2008 s il existe un risque grave   2008 s il existe un risque grave d i     gt  pour la Roumanie   1 155 millions d euros      p     p   Pour de plus amples informations  consulter      a href   http   europa eu int rapid pressReleases    Action do reference MEM0 05 395 amp amp   format HTML amp amp   aged 0 amp amp   Language FR amp amp   guiLanguage f r  gt    MEMO 05 395 lt  a gt  et  lt a href   http   europa eu int   rapid pressReleasesAction do reference MEM0 05 396    amp amp   format HTML amp amp   aged O amp amp   Language EN amp amp    guiLanguage fr  gt MEM0 05 396 lt  a gt   lt  p gt   lt p gt     lt a href  http   europa eu int comm      p entargenent index  him A A dl eu nto cel htm  gt http   europa eu int co    hoy el Informe Global de Seguimiento de 2005 sobre los  preparativos de Bulgaria y Rumania para su adhesi  n a la UE   El informe muestra que ambos paises han avanzado bien en  sus preparativos  Deberian poder cumplir los requisitos de  adhesi  n a la UE en la fecha prevista de    de enero de 2007   siempre que dediquen todos sus esfuerzos a las reformas  La  Comisi  n va a continuar siguiendo de cerca los preparativos  de estos pa  ses  Volver   a examinar la situaci  n en abril   mayo  de 2006  momento en el que podr  a recomendar  en caso  necesario  posponer la adhesi  n hasta 2008 en el caso de que   manifiestamente
103. align     6 1 APPARIEMENT ENDOGENE DE POPULATIONS 79    LANGUE POPULATION POSITIONS     effectif dans la collection  N Md   offset normalis    en  Commission   319  4 81  10 5  16 40  14 325          neighbouring countries     6  4 66  10 12  11 9  12 6  12 15  16 73       lt  p gt  lt p gt  Thefourthproject  s    10 90  10 47  10 44  11 78  11 815   ber 2004     2  3 80  36 99     fr  irles c     7  4 47  10 16  11 12  12 20          ce     s environnementaux  5  11 26  11 5  11 49 12 19 12 2      projet concerne la      4  10 919  10 62  10 93  11 80     elektroniikkalaitteissa     2  10 30  10 355   ng und Werbung     2  56 38  51 79     el      OL npot  os  g nov     2  64 28  60 10          departing from an    2  52 74  52 74     TABLEAU 15   Exemple de populations extraites d une collection de multido   cuments en fran  ais  anglais  finnois  allemand et grec  Chaque  ligne fournit pour une chaine de caract  re r  p  t  e   la langue  la     chaine     son  effectif  dans la collection et les positions de cha   cun de ses individus sous la forme   num  ro de multidocument    offset dans le volet  normalis   sur 100     d effectifs peuvent se compenser  Les effectifs monolingues des popula   tions sont notre premier crit  re de classement pour trouver des candidats     l appariement  Les populations similaires d une langue    l autre ont  la caract  ristique d apparaitre approximativement le m  me nombre de  fois dans une langue donn  e  Ce crit  re pris isol  ment est 
104. ancrage  d  s que l on trouve des couples  similaires  on aligne  chaque nouveau groupe de mots align  s est un  nouveau point d ancrage jusqu    la solution optimale     De la m  me mani  re  le systeme IRMC propose un alignement en  phrases s appuyant sur des liens entre les mots composant ces phrases  Il  fait intervenir un dictionnaire de transfert ainsi qu une mesure de proxi   mit   entre mots  Debili et Sammouda  1992   L alignement en phrase est    39    40    EXISTANT M  THODOLOGIQUE    alors r  alis   par un algorithme qui recherche la solution qui optimise  diff  rents crit  res comme la conservation de l ordre des mots dans le  processus de traduction ou encore la synchronisation des textes    aligner     Dans la lign  e de ces travaux  Chen  1993  s appuie sur un lexique  construit    la vol  e  avec lequel il obtient un taux d erreur de 0 496 sur  des donn  es du Hansard        ce niveau  on constate que des heuristiques simples bas  es sur la  longueur des phrases en mots  Brown ef al   1991  ou en caract  res  Gale  et Church  1993   utilisant   ventuellement des points d ancrage  Brown  et al   1991  ou un lexique construit    la vol  e  Chen  1993  ont permis  d atteindre des taux de r  ussite avoisinant les 10096     Langlais  1997   Langlais et El B  ze  1997   Melamed  2000  montrent  l importance dela combinaison de ces diff  rentes sources d informations     L alignement de phrases   tant consid  r   comme r  solu  les recherches  se sont rapidement tou
105. ap    pop  Jr g  1J S    1J uo  i e  Sp  ep EP    pq    I1   ZO qI     9 z1 80 dI    Zcc1 Z0O gI    LES 80 d1    IS   S0 qI    LES 80 d     Scr gO dI    g99 Zo dI    106 S0 q     VISI SO d1    anbrunururo       JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S      nsouSerq    y  1J S    1J uo  i e  1    P  9p ep  Y  1J S3  1J uo  i e  p  9p ep  Y  17 89  1J uo  i e  Twp  op YP  Y  1J S    1J U3  i e  Dep  PP EP  Y  1J S    1J u    i e  1J 3P  SEP  Y  17 89  1J uo  i e  lp  op ep  Y  1J S    1J uo  i e  1J 3P  3p ep  Y  1J S    1J uo  i e  ap  9p ep  Y  17 89  1J uo  i e  Jp  pop  Y  1J S    1J uo  i e  1    P  apep    Pa    IP T ZO dI    6911 g0 q      lt O lt I ZO dI    Z8  80 qI    ScY g0 gI    Zgv 80 d1     lt 6VI 9O dI    cSh ZOo dI    FVvS So gI    6  c1 SO gI     onbrunururo        Pd    JUOIYIU  S  JUOIYIU  S  J
106. bilingues   int  r  ts  algo   rithmes et   valuations  Bulletin de Linguistique Appliqu  e et G  n  rale   num  ro Hors Serie 245 254  1997  URL http    www iro umontreal   ca  felipe Papers fractal97 ps   Cit   aux pages 34  36  37  40  et 43      Philippe LANGLAIS et Marc EL B  ZE   Alignement de corpus bilingues    algorithmes et   valuation  In 1  res Journ  es Scientifiques et Techniques  du R  seau Francophone de l Ing  nierie de la langue de l AUPELF UREF   JST   Avignon  France  avril 1997   Cit      la page 40      143    144    BIBLIOGRAPHIE    Lucie LANGLOIS   Bitexte  bi concordance et collocation  Th  se de doctorat   Universit   d Ottawa  Canada  1996  URL http    www dico uottawa   ca theses langlois introduction htm   Cit      la page 33      J M LANGE et Eric GAUSSIER   Alignement de corpus multilingues au  niveau des phrases   multilingual corpora alignment at sentence  level  TAL  Traitement Automatique des Langues  36 1 2  67 80   1995  URL http   cat inist  fr  aModele afficheN amp cpsidt   3282436   Cit   a la page 34      Adrien LARDILLEUX   L alignement sous phrastique multilingue pour  les nuls  In 7  me Manifestation des Jeunes Chercheurs en Sciences et  Technologies de l Information et de la Communication  16 18 novembre   Avignon  France  2009   Cit      la page 45      Adrien LARDILLEUX   Contribution des basses fr  quences     l alignement sous phrastique multilingue   une approche dif   f  rentielle  Th  se de doctorat  Universit   de Caen Bass
107. chantillon de document francais et de sa tra   duction en finnois     Nous cherchons les N grammes de mots r  p  t  s d un   chantillon de  document en fran  ais      FR Donner aux collectivit  s les moyens de d  velopper les transports en  commun  La Commission europ  enne a adopt   aujourd hui une  proposition r  vis  e d un r  glement qui contribuera au d  veloppe   ment de services publics de transport en commun         3 N grammes de mots sont r  p  t  s     Nous cherchons les N grammes de caract  res r  p  t  s  ici  plus de 3  caract  res  espaces compris  du m  me   chantillon      FR Donner aux collectivit  s les moyens de d  velopper les transports  en commun  La Commission europ  enne a adopt   aujourd hui  une proposition r  vis  e d un r  glement qui contribuera au d  ve   loppement de services publics de transport en commun     5 3 APPARIEMENT ENDOGENE DE CHAINES DE CARACTERES R  P  T  ES 71        5 N grammes de caract  res sont r  p  t  s     Nous cherchons les N grammes de mots r  p  t  s d un   chantillon de  document en finnois      FI Paikallisviranomaisille tarjotaan keinot joukkoliikenteen kehittami   seen  Euroopan komissio hyv  ksyi t  n    n tarkistetun ehdotuksen  asetukseksi jolla edistet    n julkisten joukkoliikennepalvelujen  kehitt  mist           o N gramme de mots r  p  t       Nous cherchons les N grammes de caract  res r  p  t  s  ici  plus de 3  caract  res  espaces compris  du m  me   chantillon      FI Paikallisviranomaisille tarjotaan ke
108. counts  In Proceedings of the 21st International Conference  on computational Linguistics and 44th Annual Meeting of the Asso   ciation for Computational Linguistics   Student Research Workshop   pages 13 18  Sydney  Australia  2006  Association for Computatio   nal Linguistics  URL http   portal acm org citation cfm id   1557860   Cit   aux pages 42  48 et 56      Ido DAGAN et Ken CHURCH   Termight   identifying and translating  technical terminology  In Proceedings of the fourth conference on Ap   plied natural language processing  ANLC  94  page 34 40  Stroudsburg   PA  USA  1994  Association for Computational Linguistics  URL  http   dx doi org 10 3115 974358 974367  ACM ID   974367    Cit      la page 41      Ido DAGAN  Kenneth W CHURCH et William A GALE  Robust bi   lingual word alignment for machine aided translation  In Pro   ceedings of the Workshop on Very Large Corpora  11   8  1993   URL http   citeseerx ist psu edu viewdoc summary doi 10   1 1 14 4941   Cit      la page 41      139    140    BIBLIOGRAPHIE    B  atrice DAILLE  Eric GAUSSIER et Jean Marc LANGE   Towards automa   tic extraction of monolingual and bilingual terminology  PROCEE   DINGS OF COLING 94  pages 515   521  1994  URL http    citeseer   ist psu edu viewdoc summary doi 10 1 1 12 9536   Cit      la    page 41      Leyla DAKHLI   Le multilinguisme est un humanisme  La Vie des id  es   2009  ISSN ISSN   2105 3030  URL http   www  laviedesidees fr   Le multilinguisme est un humanisme html   Cit    
109. couvre des nuances tr  s  pr  cises  comme en t  moignent les quinze cas du finnois     Le statut du mot    Ainsi  d  finir le concept de mot  ne serait ce que pour les langues  europ  ennes  s av  re d  j   complexe  Cela d  pend en fait du point de  vue adopt     lexical ou graphique  Ces deux points de vue ne sont pas  toujours en correspondance     2  Dans une langue flexionnelle  les radicaux sont pourvus d affixes grammaticaux  variables et exprimant plus ou moins    la fois  par exemple  le genre  le nombre et le  cas  ou la personne  le temps  le mode  la voix    La plupart des langues europ  ennes  sont des langues consid  r  es comme flexionnelles    3  Dans une langue agglutinante  on juxtapose au radical une s  rie de morph  mes  distincts servant    exprimer les rapports grammaticaux  Dans ce type de langue  chacun  des affixes  pr  fixes  infixes ou suffixes  est clairement analysable et identifie pr  cis     ment une fonction grammaticale ou syntaxique     10    OBSERVATIONS LINGUISTIQUES ET TRADUCTOLOGIQUES    Consid  rons pour illustrer ce fait  les traductions du syntagme no   minal    les transports en commun  gt  dans 4 langues europ  ennes 4 pr     sentant une disparit   notable du grain mot   anglais  en   fran  ais  fr    hongrois  hu   finnois  fi  pr  sent  es dans le tableau 1      LANGUE MOT POLYLEXICAL NOMBRES DE MOTS GRAPHIQUES    fr transport en commun 3 mots graphiques  en public transport 2 mots graphiques  hu a t  megk  zlekedes 2 mots graphiq
110. d  de   tandis qu il est invers   entre ces deux derniers  volets et le volet francais  fr  comme nous l observons au travers de la  figure 6    La pr  sence d une s  rie de paragraphes d  butant par le nom du pays  concern   par les mesures   voqu  es et tri  s par ordre alphab  tique de ces  noms rend l ordre largement diff  rent d un volet    l autre  On observe  un croisement des liens s  mantiques  Dans cet exemple  l inversion  concerne des paragraphes  mais il pourrait tout aussi bien s agir de  documents entiers  de r  sum  s       15 CONTRAINTES   DITORIALES    La traduction en tant qu op  ration est soumise    de nombreuses  contraintes   ditoriales d ordre politique    conomique  juridique  mat     riel et linguistique  comme nous l avons vu pr  c  demment  Le cycle de  la traduction    la Commission europ  enne  tel qu il est pr  sent   dans le  sch  ma    la page 24 du guide intitul      Outils d aide    la traduction et  cycle de travail     datant de 2009 et diffus   par la DGT  t  moigne lui aussi    19    OBSERVATIONS LINGUISTIQUES ET TRADUCTOLOGIQUES    20    SOTolAOAD3 O  aorlomoroa Lop  od    uAanlidosgoan H  SOTO1AOAD3   m aXo1 O  OA3T  3A 0100  OAZNM3AVAD OJ   OA3T  3A 0100    oAg2rlido3g      OT     aorlomonoa liooiodx    uA3rlidm3gpAD    Td    Jo apusl y   9Z9A19  9 9pudI  WESSZIATN EJ V  JOT9PUIIQA9   u  qX  u  A4   Soul y  3IAOZS  YOYSOPQU e ZA  3IAOZS    eSsziA n g e ZA      9 J2Z  2AJ9  9 9DU  91    YONSOPoUI    NH    essosxnjosy  Vc II   essosxnjo
111. d  les envisag  s en vis    vis  dans le tableau 21     Mod  les Matrices  IP 05 1451 el fr   Volets synchrones    heise i RITE  Volet 1 2  E  om N  ar gs of HII   s   iar d 4  us d  m n TOLL  n       sm o  m m   u p  a she  wn peta CHO T   i   moe     Furt  uoo  arr naria CAN  K LM y tune L  um  ioc wor   s ei QE I 7  s         mmu    a      20     a      a    e 7        Lu        CN Mi ate LE ae air     fan m     one 2     ao ui M      o pU ll    tt  ca  a Pa     ua   U Tate DSE ine nn dir              nr      a     i ul Ru     gt  EEE z Sal E A il  a    um I r H a  LL  H H        i la  j     ma  x a  F   LE  nM  Jaat SR a A    Ete      LA        et   w Me Fan  a       IP 05 473 en fr   Volets asynchrones avec suppression    mE        k m    aS  55                7 om gar F  m    Eu Ge anon ee ee eu e  a   i     H MN  7        n So a  tn    Fa  F    m x  s 3 ums x      te ey Tas  My  s     i be loba 7 Ir E  h    j a aT Ta d      E quum E Gema    Ea  met  As can oat     7 PIE A  im k      r eta 1 Lg wh a      u   gt    Poet peat aaa w st      R     1 I   x  hy   he m    m           EU    w Dz      r LIP E  Fac Ut Um  77 T gm 3    Y 1    hls roof o    PL   TU   PROC m      m  QE xn M LA p ou any  I q    gus z H    in ae i   gas        do P T y  iM    In  m   mad rmm d    a  n s    E ku     a  oo HT en EI    a  i    r a   E 279 graria  x       Sw      or s  w E      REINE CEBIT pnt       ITI              dee ft  2451 Hi    x Et IE  L T  1 AL  i        I   s i             d   L
112. d  tect  es pour parvenir  cette fois    un alignement lexical     5 2 ALIGNEMENT DE ZONES  5 2 1 Recherche de multizones    La m  thode repose sur la recherche de multizones  des portions de  documents globalement s  mantiquement   quivalents entre les volets  d un multidocument  Elles peuvent correspondre    tout ou partie d un  multidocument  Le multidocument est une multizone donn  e a priori   C est    dire que nous savons d embl  e que ses diff  rents volets ont  globalement le m  me sens et que par cons  quent  il existe entre eux  ce que nous appelons des faisceaux de liens s  mantiques    diff  rents  niveaux  figure 16      66    UNE M  THODE TEXTUELLE GUID  E PAR LE MODELE    MD Volet 1 Volet 2    Multizone 1    Multizone 2       FIGURE 16   Multizones et interd  pendances entre les grains    Partant de cette connaissance qu un volet d un multidocument   qui   vaut globalement aux autres volets  nous cherchons    faire   merger des  multizones  c est    dire que loin de supposer l ordre ou le d  sordre  entre les volets  nous cherchons    le constater     le calculer  Calculer  les multizones en contexte permet de garantir le bon d  roulement de  l alignement  Nous n int  grons pas de bruit  Si les indices ne convergent  pas  les alignements ne sont pas consid  r  s comme bons    Dans la figure 17  nous observons cinq multizones  Observons les  deux zones entour  es de vert  il existe un faisceau de liens qui convergent   autrement dit il y a    un certain niveau u
113. d un multidocument                 58    Multizones FR EN du m  me communiqu   IP 05 1157  60  Cha  ne de traitement                    63  Mod  les des diff  rents types d alignement de zones  65  Multizones et interd  pendances entre les grains    66    LISTE DES TABLEAUX    TABLEAU 1    TABLEAU 2  TABLEAU 3  TABLEAU 4  TABLEAU 5  TABLEAU 6  TABLEAU 7    156    D  tection de multizones                  67  D  tection de multizones via la collection de multi   documents                           68  Multizones   entre alignement et appariement      68  Segment de texte et score d une pixel           85  Coloration d   une ligne de matrice             86    volution des pourcentages de cognats et de traduc    tions sur 40 md en fran  ais anglais            124  Illustration du d  calage interlangue entre le niveau  lexical et le niveau graphique du concept de mot    10  Coefficients de foisonnement               ii  M  tataxe   transformation simple             13  M  tataxe   transformation compl  te            13  Ordre d  terminant d  termin                 14  Illustration du ph  nom  ne de synonymie        18  Illustration du ph  nom  ne d anaphore          20    TABLEAU 8  TABLEAU 9  TABLEAU 10  TABLEAU 11    TABLEAU 12    TABLEAU 13    TABLEAU 14    TABLEAU 15  TABLEAU 16    TABLEAU 17  TABLEAU 18  TABLEAU 19  TABLEAU 20  TABLEAU 21  TABLEAU 22  TABLEAU 23  TABLEAU 24  TABLEAU 25  TABLEAU 26  TABLEAU 27  TABLEAU 28  TABLEAU 29  TABLEAU 30  TABLEAU 31  TABLEAU 32  TABLE
114. de 4     0 7   Ce modele  constitue un raffinement de la m  thode de Brown et al   1991  bas  e sur  le rapport de longueur en mots entre les phrases  Ces deux syst  mes ont  prouv   que la longueur en mots et surtout en caract  res peut   tre un  indice efficace pour l alignement de phrases  Ils sont encore largement  exploit  s     Gale et Church  1993  exploitent un second indice de surface pou   vant contribuer    l alignement de phrase   la fr  quence d apparition de  sa configuration  L analyse d un corpus d  j   align   en phrases permet  en effet de d  gager un nombre limit   de sch  mas de correspondances  phrastiques  tableau 9     tant entendu que la fr  quence des sch  mas  d appariement d  pend grandement du type de textes trait  s  comme le  soul  ve Langlais  1997      Les invariants graphiques    D autres m  thodes ont par la suite essay   de conjuguer ces principes  en ajoutant et en faisant primer des indices lexicaux  comme par exemple    37    38 EXISTANT M  THODOLOGIQUE    NOMBRE DE PHRASES TYPES DE PARALL  LISME   en L   en L2   1   1 Bi univocite   2     1 Fusion   1     2 Scission   2   2 Bi univocit   multiple   1   gt  O Suppression   O   gt  1 Insertion    TABLEAU 9     Correspondances phrastiques entre une langue 1 et une langue  2 d apr  s le modele de Gale et Church  1993      la pr  sence de mots comportant des similitudes de surface  Church  1993   Chen  1993  Simard et al   1992  Kraif  1999   On en distingue deux types      les cognats   deux
115. de d  tails concernant   chaque projet  consulter le site suivant   lt br   gt   lt a href  http   europa eu int    comm environment life project index htm  gt http   europa eu int comm environment   life project index htm lt  a gt   lt  p gt   lt p align  right  gt  lt b gt ANNEXE lt  b gt   lt  p gt   lt p gt   lt b gt    R  sum   des projets    r appliquera une strat  gie int  gr  e pour r  duire la pollution agricole dif   fuse  dans le sens de la directive cadre sur l eau   a href   i05 1157 frr html     _Ref111348773  gt 1 lt  a gt    lt  p gt    p   Le second    e    Le second projet concerne le  pr  traitement de la laine dans la production de fil  L objectif principal est de supprimer  les   missions de compos  s organohalog  n  s absorbables  AOX  et de r  duire sensi   blement l utilisation de produits chimiques dans le processus de nettoyage  gr  ce un  proc  d   durable de pr  traitement par plasma   lt  p gt    p   Un projet porte sur la  lt b gt gestion  des d  chets   b   e    er les t  les lamin  es    froid  Un nouveau proc  d   bas   sur la technologie sous vide     haute pression et n utilisant pas de produits chimiques sera employ     lt  p gt    p     b   Bel     gique   deux projets          Danemark   six projets          Espagne   seize projets     b      p     p   Trois projets portent sur la   b   gestion des eaux    b    Le premier permet   tra de d  finir un modele d    s vari  t  s d amandiers capables de r  sister    de telles conditions     p  
116. doc summary doi 10   1 1 53 4548   Cit      la page 43      William A  GALE et Kenneth W  CHURCH   Identifying word cor   respondence in parallel texts  In Proceedings of the workshop on  Speech and Natural Language  pages 152 157  Pacific Grove  California   1991  Association for Computational Linguistics  URL http     portal acm org citation cfm id 112405 112428 amp coll   Portal amp dl GUIDE amp CFID 76577594 amp CFTOKEN 73477001   Cit   aux  pages 36 et 41      William A  GALE et Kenneth W  CHURCH   A program for ali   gning sentences in bilingual corpora  Comput  Linguist   19   1  75 102  1993  URL http   portal acm org citation cfm id   972450  972455 amp col LZGUIDE amp d LZGUIDES amp CFID276577594 amp CFTOKEN   73477001   Cit   aux pages 32  36  37  38 et 40        ric GAUSSIER   Flow network models for word alignment and ter   minology extraction from bilingual corpora  In proceedings of the  joint 17th international conference on computational linguistics and  26th annual meeting of the Association for Computational Linguis   tics  pages 444   450  1998  URL http   citeseer ist psu edu   viewdoc summary doi 10 1 1 2 1725   Cit      la page 41      Kim GERDES   L alignement pour les pauvres   Adapter la bonne m     trique pour un algorithme dynamique de dilatation temporelle pour  l alignement sans ressources de corpus bilingues  In gemes Journ  es in   ternationales d Analyse statistique des Donn  es Textuelles  Lyon  France   2008   Cit      la page 37      Emmanu
117. documents parall  les pr  alablement align  s en  phrases ou un ensemble de phrases parall  les  Notre m  thode orient  e  analyse textuelle prend en entr  e des multidocuments  Comme nous  l avons mentionn   dans le chapitre 1  le n  ologisme multidocument a   t    cr  e au laboratoire du GREYC  Il inclut  en tant que grain sup  rieur au  multitexte  les dimensions de mise en forme mat  rielle et de structure de  documents  Si le document est l unit   la plus apte    rendre compte des r     sultats de l acte de langage  le multidocument est le plus int  ressant pour    tudier l op  ration de r    criture qu est la traduction et les ph  nom  nes  auxquels elle donne lieu   choix des mots mais   galement ce que nous  souhaitons   tudier dans nos travaux   l inversion  la suppression       la  diff  rence de la phrase  le document pr  sente une autonomie permettant  de travailler sur des r  partitions autres que des r  p  titions    l identique     4 2 LA COLLECTION DE MULTIDOCUMENTS    La collection nous sert de cadre pour   tudier les distributions des    l  ments contenus dans chacun des multidocuments   lexique et struc   ture  Elle nous permet d augmenter les informations sur le contenu de  chacun des multidocuments de la collection et notamment de         trouver d autres occurrences d unit  s hapax dans un document     analyser   dans un document pris isol  ment  l on d  nombre un  grand nombre de mot hapax  et ce d autant plus que la langue est  morphologiquement riche 
118. e   0 000  fr   l   enseignement     4    4  4  31  31    en    teaching     4    4  4  31  31    distance   0 000  fr  ette ann  e  la     4    4  7  21  34    en    year  th     4    4  7  21  34    distance   0 000  fr  es chiffres    4    3  15  24  26  en     figures    4    3  15  24  26    distance   0 000  fr   migratoires    4    27  30  30  30  en  e migrati  4    27  30  30  30    distance   0 000   fr embre 2005  lt  p gt    hl     a name  Heading  25   2  4  5  6  7  8  9   10  13  14  15  21  22  24  26  28  30  32  31  33  34  35  36  37  39   en ember 2005  lt  p gt    hl     a name  Heading4      25    2  4  5  6  7  8   9  10  13  14  15  21  22  24  26  28  30  32  31  33  34  35  36  37  39    distance   0 000  de   the obligation    2    53  53  es   Member States to    2    53  53    distance   0 000  de    gt   lt p gt   lt  p gt    p   C  2    53  53  es   de las compa    as    2    53  53    distance   0 053  el   this Regulation     9    52  52  52  52  52  52  52  52  52  fr   width  12      10    42  52  52  52  52  52  52  52  52  52    distance   0 053  el      gt  lt  a gt  lt b gt H E    9    48  45  50  68  71  72  73 77  79  fr      gt  lt  a gt  lt b gt L    10   48  45  50  68  71  72  73  77  78  79    distance   0 053  el   maxvoapkiac  9    56  56  56  56  56  56  56  56  56  fr  ob  sit      10   56  56  56  56  56  56  56  56  56  56    distance   0 064   fr   Parlement     25    1  2  2  2  2  5  6  7  7  7  7  7  7  12  16  16  17  1
119. e   Normandie  2010  URL http   hal archives ouvertes fr   index php halsid rsgsimesspm32r8ugl06nbpr03 amp view this   doc tel 00520787 amp version 1   Cit      la page 42      Dekang Lin  Shaojun ZHAO  Benjamin VAN DURME et Marius PASCA    Mining parenthetical translations from the web by word alignment   In Proceedings of ACL 08   HLT  page 994 1002  Columbus  Ohio  juin  2008  Association for Computational Linguistics  URL http   www   aclweb org anthology P P08 P08  1113   Cit      la page 34      P  MAJUMDER  M  MITRA et B  B CHAUDHURI   N gram   a language  independent approach to IR and NLP  In Proceedings of the inter   national Conference on Universal Knowledge and Language  25 29  novembre  2002  URL http   citeseerx ist psu edu viewdoc   summary doi 10 1 1 126 8275   Cit      la page 56      Paul MCNAMEE et James MAYFIELD   Character N Gram tokenization  for european language text retrieval  Information Retrieval  7 73 97   2004  ISSN 1386 4564  URL http   portal acm org citation   cfm id 961294 961313  ACM ID   961313   Cit   aux pages 56 et 73      I  Dan MELAMED   Automatic evaluation and uniform filter  cascades for inducing N Best translation lexicons  In procee   dings of the third workshop on very large corpora  pages 184   198   1995  URL http   citeseer ist psu edu viewdoc summary   doi 10 1 1 14 7877   Cit      la page 41      I  Dan MELAMED    Bitext maps and alignment via pattern re   cognition  Comput  Linguist   25 1  107 130  1999  URL http     porta
120. e   ep  Sj9 OA    SIT suep sTejsue uo oxouue  Sj9 OA    SI  suep sTejsue uo oxouue  Sj9 OA    SIT suep sTejsue uo oxouue  Sj9 OA    SIT suep sTejsue uo oxouue  Sj9 OA    SIT suep sTejsue uo oxouue  8 6 90 qI Sj9 OA    SI  suep sTejsue uo oxouue    jousedsa oxouue   suep saus         819 80 dI    onbrunururo        94     nsouSer q   Pa   osnbrunururo        a      JUOIYIU  S  uorssa1ddns  ouoi1qou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  uorssa1ddns  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S      nsouSer q    y   1J S     IJ uo   1J       Ij 9p   op ep 9IOI 80 dI  y   1J S     IJ uo   1J       Ip   op ep 6Z01 Zo gI  1J 1J   1J S     IJ uo   1J       Ij 9p   op ep    08 80 dI    Pa  nbrunururo      T    LA    EVALUATION MANUELLE DU PARALLELISME    134    SET o8ed e  ns ay  ns 9 ue  s uon3    o5    S 9 0A c SI  suep sre guv uo xne   qe   Sj9 OA c SI  suep sre guv uo xneo qej  Sj9 OA c SI  suep sre guv uo xneo qej  Sjo OA c SI  suep sre guv uo xneo qej  Sj9 OA c SI  suep sre guv uo xneo qej  S 9 0A c SI  suep srejdue uo xneo qej    sre gue uo neo qei   1  stejue uo neo qej   so    sre 3ue uo neo qe3   19  sre gue uo neo qej   ep    2131  op Sed   sa     JET   MT  JUSUINIOP 1Q m  d   ET   TT  Juswm9op Ig md  YET   M8T  jAu  um  op Iq ad   JET   M9      JUSVINIOP 1q ad    ET   MT  JUSUINIOP 1Q m  d    AT   M6 T  JUSUNIOP 1Q m  d    oydeiseied un p uorsso1ddns   op  oydeiseied un p uorsso1ddns  
121. e  E    LH    OL   LE HI wm      de  n 4 un  gen      LE L  x o  z x   ss F d EHESS Mn F CARRIER  P y mo  b Seb pha T E Angra eu eu                     m 7 a                       H ER k r x  Pn A am m    PL a    a E vu un wr   A am g  m LET F  Ta   E FE    i   A RN  Fra E Es Cm m a ad Ne tr t  wu uum  mom om      B  Hh dU w n      amar  u  r UB  U  o LE ral   LI HE dU bre dr amar TERN     a AES  ha   ra    i   i m D rs   gt      iy ate gp   3 aF Ni  gt      E P ge t epe      A          oF  amp            i   F        l          t    LEN  E m ED   r   r np ED  og   r  LT  07 s  7197 Q  m   oUm LENT    nt Pon RTT ug  Ca           A     a ur 4 I I f Ii I    Pi    L m z L  a  og   108 P rnd P  og   sum    ag 1    N T   E         a       a 4 LLE L         n LLE          3 ks j  nn 1 A P   a  o          a  a E   a       e    mor a a        E d       mon   Pi            IU     u   zz        DL   E             Ceca n uis   E           z       mman    n uia LLL   a a    En    z     E    he           s on x  E      Cha k       u   EE mu           8    IET       ey      ia   wu m om      Tum     suum 8      DE TI 1    C mg       Z    No x HH H H H E  H H H  m   WS cad x   ox    Do    a x   7  93 HI      11  1         93 Ii      11     SA      Tg  TAT  L         E         Tg  TA T  u           pea    a hh m    ve   pra an                          L L   E m       a     1     P 05 1344 i fr       Ld  L   E  ES       i              iilis RUN   ui  NEE           IP o7 1919 de fr           1
122. e et de mise en forme des documents peuvent servir    d  li   miter des zones de recherche pour les alignements phrastiques et sous  phrastiques  Ses exp  riences ont   t   r  alis  es sur des documents extraits  du site Europa  pr  sent  s sous la norme XHTML  De nombreuses traces  non textuelles comme des liens hypertextes  des tableaux  les s  para   tions horizontales ou l application de gras ou d italique  peuvent y   tre  rep  r  s via la Mise en Forme Mat  rielle  MFM   Brixtel soutient que la  MFM peut   tre consid  r  e comme un vecteur de sens pr  serv   dans le  processus de traduction  cela le conduit    exploiter ces marques en tant  qu invariant entre les documents de diff  rentes langues pour identifier  leur structure     L id  e est d exploiter une hi  rarchie des constituants la  plus fine possible pour s assurer de la construction d un espace de re   cherche    un niveau de r  solution le plus bas possible en passant par des  paliers fiables     Ainsi  cette segmentation alignement au grain alin  a   plus   lev   que la phrase  permet de restreindre les espaces de recherche  d   quivalences s  mantiques entre les documents d un multidocument  et d identifier des suppressions  Ces macro alignements posent les bases  de la d  tection d appariements sous phrastiques    laquelle il proc  de  par la suite     2 5 CONSTATS   METHODES D ALIGNEMENT EXISTANTES ET  APPLICATIONS    Le probl  me del alignement est par d  finition celui de la localisation  et de la d  l
123. e identification automatique de ce cas laisse envisager des op  rations  de contr  le a posteriori des traductions     7 2 R  PARTITIONS DES DIFF  RENTS DIAGNOSTICS SUR LES  COLLECTIONS    7 2 1 Corpus d   valuation    Dans cette section  nous pr  sentons les r  sultats obtenus sur 6 collec   tions de 40 multidocuments en 7 langues  cf chapitre 3   Ces collections  sont tir  es de l ensemble des communiqu  s de presse de l Union Euro   p  enne entre 2004 et 2009  213 multidocuments diff  rents observ  s au  total  certains multidocuments faisant partie de plusieurs collections        Collection 1  2 et 3  Apr  s une identification sur le corpus com   plet des documents disponibles dans les 7 langues que nous sou   haitions traiter  nous avons constitu   des multidocuments de 7  langues chacun  495 en tout  Les multidocuments sont donc   qui   libr  s du point de vue des langues  Pour constituer les collections  de 40 multidocuments nous avons regroup   dans des dossiers des  multidocuments par paquets de 40  au fil de leur num  rotation   collection 1   md 1    md 40  collection 2   md 41    80             Collections  lt  transport  gt    lt  sant    gt  et    t  l  phone  gt   Une des strat     gies utilis  e pour am  liorer la qualit   des matrices est de plonger  les multidocuments non diagnostiqu  s dans des collections de  documents th  matiquement proches  L id  e est de maximiser  les chances de rencontrer des correspondances bi  ou quasi  uni   voques  Les collection
124. e la collection  2 et dela m  thode    Grand Angle        Multizone 1    Multizone 2    Multizone 3    Multizone 4       114 R  SULTATS ET   VALUATION SUR LA TACHE D ALIGNEMENT DE ZONES  IP 05 1344  ed    7959 es  gn  right  gt  Bruxelles  le 25 octobre 2005   uselas  25 de octubre de 2005    lt  p gt    hl    lt a name  Heading4  id  Heading4  gt  lt  a gt  lt b gt La    lt  p gt    hl    lt a name  Heading4  id  Heading4  gt  lt  a gt  lt b gt   Bulgarie et la   Roumanie se rapprochent de   Bulgaria y Rumania se aproximan a la adhe   l   adhesion lt  b gt   lt  h1 gt    p    lt b gt  lt i gt La Commission a adopt     si  n lt  b gt   lt  h1 gt    p    lt b gt  lt i gt La Comisi  n ha adoptado    ce jour le rapport global de suivi relatif aux pr  paratifs de la  Bulgarie et de la Roumanie en vue de leur adh  sion    l UE   Ce rapport montre que les deux pays ont bien progress   en la  mati  re  Ils devraient   tre    m  me de satisfaire aux conditions  d adh  sion    l Union    la date pr  vue du 1 lt sup gt er lt  sup gt   janvier 2007  pour autant qu ils consacrent tous leurs efforts     la mise en ceuvre des r  formes  La Commission continuera de  suivre de pr  s leurs pr  paratifs  Elle r  examinera la situation  en avril mai 2006  ot elle pourrait recommander  au besoin  le  report de l adh  sion    2008 en cas d impr  paration manifeste  de l un des     del un des pays  voire des de                   manifestammnteu           voire des de    s rapports devraient   tre 
125. e nombre total de segments de droites d  couverts    la longueur totale des segments de droites d  couverts       les coordonn  es des segments de droites d  couverts       le nombre de segments de droites situ  s sur la diagonale    la longueur totale des segments de droites situ  s sur la diagonale   le nombre de segments de droites situ  s hors de la diagonale     6 2 APPARIEMENT ET ALIGNEMENT DE ZONES      la longueur totale des segments de droites situ  s hors de la diago   nale       la longueur des projections de ces segments de droites dans cha   cune des langues       la longueur de la diagonale      le ratio  longueur des segments de droites d  tect  s longueur de  la diagonale      Ces informations nous servent      tablir un diagnostic de parall     lisme entre les volets repr  sent  s  Ce diagnostic de synchronicit   permet  de reconnaitre trois types de bi documents synchrones  asynchrones  avec inversion ou asynchrones avec suppression ou ind  finis  Ainsi  en  fonction de la longueur et de la position des segments de droites d  cou   verts  nous   tablissons un diagnostic de synchronicit   entre les volets   Si la diff  rence de longueur en valeur absolue entre un des segments  de droites d  tect  s pour un des volets  dimension x  est sup  rieure     3 par rapport    son   quivalent dans l autre volet  dimension y   nous  reconnaissons ce bi document comme asynchrone avec suppression      partir des coordonn  es  x y  x  y   de chaque segment  nous   tablisso
126. e phase de diagnostic   tabli en fonction des multizones r  v  l  es   La chaine de traitement est illustr  e au travers du tableau 18              Matrice Image binaris  e Segments de droites Diagnostic  d  tect  s  Norah A i E A 3173  5 s 33 EN  UM Eri ee    Pra  sio Mages o dV re C  PAN een x  Mus ue  cp XR gem   lt   Ne Wo RE ME 3 Su E  HS o    EST s  KT TI t TY xw uina wer wis  s Li   o nr PR op ee      Inna SEASON MES a      b 1 aitai   O             2 j    323 2 32 113 p t  TA FALCO b     Ai lav fa n a  s s    a a  q ms  u   3   ETT a 3 Teak 1  1  E Patins    4  be fie 14244  2 Ep  A x A  Lira ect ES P  u TS  22 ridi E    potik Um poum P ETIO ON   bi document synchrone  hor   v  a T  omoi  lt     IA A EET LEH _     B ZEN cid   pet het  Bor a Bo 1 3    del da ad  gt  At A s  CR    rado Saldo ca lian ds aimul      a bi durae  atri   Bess im  231   SIR    y Fe qu sitha   M       M Bus Hu pup  WINE Le      PI   RE ud T  ak    de Fr MEFE agis    Bu RN RS  paiia i   TES bi document asynchrone       beet UE  Fan galletas fan ar   n    E 3 FL ai  ij l  s T De ii vum          do LD a  E LE Wa lic d   debio  gt  3  E uio ugs     Ai  AUS Sa    spe    Ca        TABLEAU 18   Traitement effectu   sur chaque matrice  La premi  re ligne pr     sente le traitement effectu   sur un bi document danois allemand   le communiqu   de presse IP 05 489 de l UE   La seconde pr     sente le traitement effectu   sur un bi document anglais frangais   le communiqu   de presse IP 05 1157 de l UE   L
127. e zones de textes  et les cas de zones rest  es dans la langue source  volets multilingues     Nous faisons le constat que l identification automatique des docu   ments asynchrones ne donne pas encore pleinement satisfaction  Cer   taines pistes susceptibles de mener    des am  liorations de notre m  thode  sont d  j   envisag  es      119    120 R  SULTATS ET   VALUATION SUR LA TACHE D ALIGNEMENT DE ZONES      affiner le diagnostic des matrices  permettant notamment de  mieux diagnostiquer les bi documents asynchrones et de cap   ter les mod  les   mergents  comme le mod  le multilingue  Sur ce  point  une collaboration avec des chercheurs en fouille de donn  es  pourrait nous permettre de proposer de meilleurs combinaisons  de crit  res de diagnostics          ter les seuils que nous avons fix  s afin de proc  der    un filtrage  plus fin des appariements par des combinaisons de filtres moins  ind  pendants des langues et des collections      dela m  me maniere  adapter automatiquement la taille des ma   trices en fonction des volets    traiter         d  tecter plus finement les fronti  res de zones  Une des strat  gies  envisageables serait de partir d unit  s pr  d  finies comme l alin  a  ou la section et de les aligner selon notre m  thode        terme  l apport de la d  tection des multizones pourra   tre   valu    en v  rifiant que par cette m  thode nous sommes d  sormais effective   ment capable de traiter ce que l on n   tait pas capable de traiter   les  multidoc
128. el GIGUET   Multi grained alignment of parallel texts with  endogenous resources  In In Proceedings of the Recent Advances in    141    142     BIBLIOGRAPHIE    Natural Language Processing  RANLP  International Workshop  New  Trends in Machine Translations   pages 12 17  Borovets  Bulgaria  2005    Cit   aux pages 9 et 45      Emmanuel GIGUET et Marianna APIDIANAKI   Alignement d unit  s  textuelles de taille variable  In 4  mes Journ  es de la Linguistique de Cor   pus  Lorient  France  2005  URL http   hal archives ouvertes   fr index php halsid 50le6pgjvcg7ral86p9i2qt0106view_  this doc halshs 00202140 amp version 1   Cit      la page 42      Emmanuel GIGUET et Pierre Sylvain LUQUET   Multilingual lexical  database generation from parallel texts in 20 european languages with  endogenous resources  In Proceedings of the COLING ACL on Main  conference poster sessions  pages 271 278  Sydney  Australia  2006   Association for Computational Linguistics  URL http   portal   acm org citation cfm id 1273108   Cit   aux pages 41 et 45      Brian Harris  La traductologie  la traduction naturelle  la traduction  automatique et la s  mantique  Cahier de linguistique  2 133 146  1973   ISSN 0315 4025  URL http   id erudit org iderudit 800013ar    Cit      la page 8      Brian HARRIS   Bi text  a new concept in translation theory  Lan   guage Monthly  UK   54  1988  URL http   en wikipedia org   wiki Parallel text   Cit   aux pages 8 et 149      Reinhard Rudolf Kard HARTMANN   Contrasti
129. entre les occurrences des N grammes appari  s sans se focaliser  sur un espace de recherche pr  cis     Segments s2   o   0 05   01   0 15   02         0 75   08   0 85   0 9   0 95   Nombre de liens 14 3 O O O       O O 2 O O    TABLEAU 19   Illustration de max liens sj   max liens vaut ici 14  le maxi   mum sur la ligne    4  Ainsi la cr  ation des matrices est directionnelle  Nous n obtenons pas le m  me  rendu en comparant   langue 1     langue 2 ou langue 2 langue 1     86    MISE EN   UVRE    Dans la figure 19  p 85   nous prenons pour illustrer max_liens s     la distribution entre un segment donn   du volet 1 s   tendant de o    10   du document  ici    o  o 1   avec chacun des segments du volet 2  Chaque  ligne repr  sente un segment sans chevauchement avec les autres  chacun  correspondant    596 du volet 2  20 fen  tres en tout       tant donn  e la m  thode de construction des matrices pr  c  dem   ment d  crite  nous pouvons dire que plus un point de la matrice est  noir  plus les segments qui le composent sont similaires  i e  plus il existe  de liens issus de l   tape d appariement d  crite dans la section 6 1 2  La  figure 21 pr  sente les lignes de matrice correspondant aux deux types  d appariement de segments pr  sent  s dans la figure 20     0  Volet 2 100   Volet 1 Wo   oT       TL     1096     a  Ligne de matrice correspondante    la figure 20a    0946 Volet 2 10096  Volet 1  1096     b  Ligne de matrice correspondante a la figure 20b    FIGURE 21   Colo
130. erche de multizones                 65   5 2 2 Calcul des multizones   entre alignement et appa   MEME   asis RR w Rum De PUR S Q x MR 66    5 3 Appariement endog  ne de chaines de caract  res r  p  t  es   7o  5 3 1 Capacit   des N grammes de caract  res    r  v  ler    des correspondances monolingues            70  5 3 2 Capacit   des N grammes de caract  res    mettre en     vidence des correspondances multilingues           72  5 3 3 Incapacit  s des N grammes de caract  res        23    5 4 Del alignement de zones    l alignement intra multizones 74    II MISE EN   UVRE  ILLUSTRATIONS    VALUATION 75  6 MISE EN EUVRE 77  6 1 Appariement endog  ne de populations             78    6 1 1 Calcul des populations de N grammes de caract  res 78  6 1 2 Appariement de N grammes de caract  res r  p  t  s       partir de ventilation similaire sur la collection     79  6 2 Appariement et alignement de zones               83  6 2 1 Travail pr  paratoire pour la d  tection de multi   zones   cr  ation de matrices de points          83  6 2 2 D  tection des multizones    partir des matrices    86  6 2 3 Diagnostic de parall  lisme                 88  7 R  SULTATS ET   VALUATION SUR LA T  CHE D ALIGNE   MENT DE ZONES 93  7 1 Mod  les et images obtenues                    94  7 1 1 Mod  les envisag  s et images obtenues          94    7 1 2 Images obtenues et   mergence d un nouveau mod  le 95  7 2 R  partitions des diff  rents diagnostics sur les collections   96  7 2 1 Corpus d   valua
131. ermet  d   valuer la capacit   de chacune des deux m  thodes    d  cider    tant en   tendu que la m  thode Grand Angle n est pas pr  vue pour diagnostiquer  les cas d inversion et de synchronicit      Ce tableau montre que le taux de d  cision est important  partant de  6496 pour les collections trait  es sans leur mise en forme mat  rielle et  allant jusqu    9796 sur les documents dans des langues proches exploit  s  avec leur mise en forme  Ces r  sultats nous permettent de valider nos  hypoth  ses de d  part       l appariement entre des langues proches donne de meilleurs r     sultats que celui entre des langues   loign  es  Les taux de d  cisions  entre ces deux contextes pr  sentent un   cart de 1396 sur le total  des collections 1  2 et 3  L usage du lexique est diff  rent d une  langue    l autre  Le finnois par exemple comportera beaucoup  plus d occurrences que son   quivalent en francais qui sera alter   nativement remplac    ici par un synonyme  ici par un pronom     En d autres termes  nous aurons plus de difficult  s    apparier des  langues diff  rentes de ce point de vue l    Les diff  rences morpho   logiques   tant  quant    elles  liss  es par l usage des N grammes de  caract  res qui permet de traiter par la m  me m  thode des langues  riches ou pauvres morphologiquement       analyser un multidocument par le prisme d une collection de  multidocuments th  matiquement proches am  liore   galement  les r  sultats jusqu     3  de d  cisions prises  Ceci s e
132. es de points      83  6 2 2 Detection des multizones    partir des ma   LEICES  es a dox Nee Oe MUR ann 86  6 2 3 Diagnostic de parall  lisme             88    77    79    MISE EN   UVRE    6 1 APPARIEMENT ENDOGENE DE POPULATIONS DE N GRAMMES  DE CARACTERES R  P  T  S DANS UN CORPUS MULTILINGUE  AU FORMAT HTML    Dans cette section  nous d  crivons les exp  rimentations que nous  avons faites en mati  re d amorce fr  quentielle en vue d un alignement  de multidocuments  Notre premier objectif consiste    obtenir de facon  endog  ne et ind  pendante des langues une s  rie de points de compa   raison entre deux volets   des appariements  Pour mettre en ceuvre les  principes pr  c  demment   voqu  s  nous avons impl  ment   les   tapes de  calcul de populations de N grammes de caract  res et d appariement de  ces populations  Les meilleurs appariements sont utilis  s dans la phase  suivante pour la cr  ation des matrices de points        6 1 1 Calcul des populations de N grammes de caracteres    Les populations sont d  duites d un tableau de suffixes  Crochemore  et al   2007  K  rkk  inen et Sanders  2003   Ce dernier permet de calculer  la liste des chaines de caract  res r  p  t  es de longueur maximale  c est      dire les chaines monolingues r  p  t  es qui ne sont pas incluses au sein  d autres r  p  titions de m  me effectif  De facon empirique  dans une  d  marche d amorce  nous ne consid  rons que les chaines de longueur    gale ou sup  rieure    5 caract  res    Le tab
133. es de pr  cision  rappel et F mesure          101  6 bi documents avec inversion correctement attri    bu  s  collections 1 2 3    methode Petit Angle        102  10 bi documents avec inversion attendus mais non  obtenus  collections 1 2 3 m  thode Petit Angle        103  10 bi documents avec inversion correctement attri    bu  s  collections 1 2 3    methode Grand Angle         104  10 bi documents avec suppression correctement at   tribu  s  collections 1 2 3 m  thode Grand Angle        105    10 bi documents avec suppression attendus mais   non obtenus  collections 1 2 3  m  thode Grand Angle  106  5 bi documents avec inversion correctement attri    bu  s  collections th  matiques  m  thode Petit Angle  107  10 bi documents avec inversion non obtenus  col   lections th  matiques  m  thode Petit Angle            10 bi documents avec inversion correctement attri   bu  s  collections th  matiques  m  thode Grand Angle 109    157    158    Liste des tableaux    TABLEAU 36    TABLEAU 37    TABLEAU 38  TABLEAU 39  TABLEAU 40  TABLEAU 41  TABLEAU 42  TABLEAU 43    TABLEAU 44  TABLEAU 45  TABLEAU 46  TABLEAU 47  TABLEAU 48  TABLEAU 49    10 bi documents avec suppression correctement at   tribu  s  collections th  matiques  m  thode Grand     O he ao ace EET EE TEPERT EE e de ERU 110  10 bi documents avec suppression attendus mais   non obtenus  collections th  matiques  m  thode Grand    LU O gt  o  lt      Sq 9 2 O Q m              111  Alignement de zones IP 05 473              
134. es images de  droites illustrent la d  tection de multizones  Les segments de  droites sont mis en   vidence par des ellipses rouges  leurs projec   tions sur les axes apparaissent en bleu     Chacune des   tapes est d  taill  e dans les sous sections qui suivent     6 24 Travail pr  paratoire pour la d  tection de multizones   cr  ation de  matrices de points    La phase d appariement constitue une amorce grace    laquelle nous  trouvons des segments de volets pr  sentant des similitudes  Gr  ce    ces  segments  nous r  v  lons des zones de volets  autrement dit des grains  sup  rieurs  pr  sentant des similitudes   des multizones  Un segment de  volet correspond    une portion de volet d  finie en pourcentage  Dans  notre hi  rarchie de grains  voir figure 11  page 57   il se situe entre la    93    84    MISE EN   UVRE    zone et le N gramme de caract  res  Ainsi  une zone peut comprendre  plusieurs segments et un segment plusieurs N grammes de caract  res    Une matrice repr  sente sous forme de points l appariement entre les  N grammes de caract  res de deux volets d un multidocument  Tous les  liens correspondant    un appariement de deux N grammes de caract  res  calcul      partir de la collection et actualis   dans ce multidocument y  sont pris en compte    Chaque axe de nos matrices  axe horizontal et axe vertical  corres   pond    un des deux volets du bi document    diagnostiquer  Il y a autant  de points sur une ligne d un axe que de segments de volet d  finis e
135. esado en los siguientes  t  rminos            Exemple   document IP 05 975  ligne 9  FR   Les collectivit  s pourront soit fournir leurs transports locaux en  r  gie  soit les confier en toute transparence    un op  rateur sp  cialis     FI   Paikallisviranomaiset voivat joko vastata itse paikallisliikenteen  palvelujen tarjonnasta tai uskoa niiden tarjonnan avoimelta pohjalta  jollekin erikoistuneelle liikenteenharjoittajalle     Le fait qu il s agisse d un op  rateur de transport est en finnois clai   rement explicit      liikenteenharjoittajalle        la diff  rence de ce qui est  propos   dans la version francaise    un op  rateur sp  cialis    gt   Le fran     15    en    Road  transport  new  working  time  directive  to   cover  false  self employed  drivers    OBSERVATIONS LINGUISTIQUES ET TRADUCTOLOGIQUES    fr    Transport  routiers   une  nouvelle  directive   sur   le   temps   de   travail   pour  couvrir   le   cas   des   faux  conducteurs  ind  pendants     a  Titre de communiqu   de presse     en  The    new  proposal  aims   to  ensure  that   the     existing   working     time    rules   apply   to   all   employed  professional  drivers  including  false  self employed  workers           ed  Bu  ES    fr    Cette  proposition  vise        garantir  l application  des   regles  actuelles   sur   le   temps   de   travail        tous   les  conducteurs  professionnels  y    compris   les   faux  travailleurs  ind  pendants     b  R  sum   de communiqu   de
136. extes ont   t   recus  repr  sentant 134 combinai   sons diff  rentes de langue source et de langue cible  Les traduc   teurs dela DG Traduction ont not   les copies  contribuant ainsi     d  terminer quelle   tait la meilleure traduction dans chaque    tat membre     p     p   Premier du genre  ce concours de tra   duction a   t   organis   par la Commission europ  enne    titre de    b   projet pilote    b     le but   tant de faire mieux connaitre la  place essentielle de la traduction dans la politique multilingue  appliqu  e par la Commission  Il a   galement permis aux   l  ves  de s essayer au m  tier de traducteur    fi    o  maaliskuuta 2008  lt  p gt    hl     a name  Heading4  gt   lt  a gt   EU palkinnot  lupaaville nuorille  k    nt  jille   lt  b gt   lt  h1 gt   lt h2 gt    a name  Heading7  gt   lt  a gt   lt b gt   lt i gt   Brysseliin saapuu t  n    n 27 nuorta k    nt  j       yksi jokaisesta  EU j  senvaltiosta     noutamaan ensimm  isess   Euroopan  laajuisessa koululaisten k    nn  skilpailussa heille my  nn     lt b gt     ett   t  n    n on n  kyv  sti esill   k    nt  jien ty    joka jaa usein huo   maamatta mutta joka on EU  lle ratkaisevan t  rke       lt  p gt   lt p gt   Nuorille k    nt  jille on j  rjestetty  lt b gt  komission p    toimipai   kassa pidett  v  n palkintojuhlan  lt  b gt  lis  ksi vierailu Euroopan  komission    elle kielelle  L  ht  tekstit k  sitteliv  t vastuullista ja vaihtoeh   toista matkailua   lt  p gt   lt p gt  Kilpailu
137. ffectiveness of water recycling using a new reactor for aerobic di   gestion of wastewater   lt  p gt    p      second aims to re use brownfield sites to grow biomass  energy crops  restore damaged land  and generate heat and power from renewable energy    sources   ee e Council Directive 1999 13 EC of 11 March 1999 on the limitation of    em    TABLEAU 42   Alignement de zones entre les volets fr et en du communiqu    IP o5 1157 pr  sentant une diff  rence d ordre des zones d  tec   t  e au travers de la collection 1 et dela m  thode    Petit Angle       CONCLUSION ET PERSPECTIVES    Nous annoncions en introduction qu une marge de progression dans  le domaine de l alignement de documents traduits semblait envisageable   Au regard du chemin parcouru  nous pouvons valider cette hypoth  se  de d  part  Une voie est ouverte vers le traitement de documents traduits  r  els  Un tel r  sultat est le fruit d une conjonction de connaissances  linguistiques et de comp  tences informatiques en algorithmique du  texte et en traitement d images    Le chapitre 1 nous a permis d illustrer la complexit   de la traduction  en tant que produit de l op  ration traduisante  op  ration empreinte     la fois de servitudes linguistiques et d un travail de r    criture de la  part des traducteurs  Deux ph  nom  nes amenant chacun son lot de  diff  rences entre des documents traduits   diff  rence de volume  ajout  ou suppression  inversion      Dans le chapitre 2  nous avons proc  d      un tour d 
138. for a summary  of the 88 projects funded under LIFE Environment  More detailed information on each  project is available at    lt  p gt   lt p gt   lt a href  http   europa e    ht  gt   lt b gt ANNEX lt  b gt   lt  p gt   lt p gt   lt b gt  Overview of LIFE Environment projects 2oos by coun   try  lt  b gt   lt  p gt   lt p gt   lt b gt  Belgium   2 projects         Denmark   6 projects   e e      Estonia   1 project         the fermentation of manure  processing of bio gas into    tronic equipment  in line with EU legislation  lt sup gt  lt b gt  lt a name  fnB2  href      fn2  id  fnB2  gt  2   lt  a gt  lt  b gt  lt  sup gt   with a particular emphasis on rural areas    lt  p gt   lt p gt  The second targets households  schools and day care centres in Helsinki  with  a view to increasing awareness and ensuring the amount of waste produced does not ex     ceed 2003 levels   lt  p gt   lt p gt   lt b gt France   11 projects          The sixth will substitute  lead with o    to reduce diffuse pollution from agriculture  in support of the Water Framework  Directive lt a href   i05_1157 enr html  _Ref111348773  gt 1 lt  a gt    lt  p gt   lt p gt  The second             The second concerns the pre treatment of wool in yarn production  The main  goalis the elimination of emissions of absorbable organic halides  AOX  and a significant  decrease in the use of chemicals in the cleaning process  through a sustainable plasma  pre treatment process     p     p   One project addresses
139. gt   lt p align  right  gt  Br  ssel  den 4  Juli 2007   lt  p gt    hl     a name  Heading4  gt   lt  a gt    b   GAP Reform   Weinreform wird    Europa helfen  verlorene Marktanteile zur  ckzugewinnen             schafft  Die Dringlichkeitsdestillation w  rde durch zwei aus den nationalen  Finanzrahmen finanzierte Ma  nahmen f  r das Krisenmanagement ersetzt    pss I      k  nnen  Die Entscheidung der Erzeuger  ihre Produktion zu steigern  wird  davon abh  ngen  wieweit sie  das  was sie erzeugen  auch verkaufen k  nnen    lt  p gt    p     b   Onologische Verfahren    lt  b gt  Die Zustandigkeit f  r die Ge   nehmigung neuer bzw    nderung bestehender   nologischer Verfahren wird  auf die Kommission   bertragen  die die von der OIV genehmigten   nologi   schen Verfahren bewertet und in die Liste von genehmigten EU  Verfahren  aufnimmt  Die EU genehmigt die Anwendung international bereits zugelasse   ner   nologischer Verfahren f  r die Herstellung von Wein  der zur Ausfuhr in  diese Bestimmungsl  nder vorgesehen ist  Die Einfuhr von Most zur Weinbe   reitung und der Verschnitt von Weinen aus der EU mit eingef  hrten Weinen  bleiben weiterhin verboten   lt  p gt   lt p gt    b   Bessere Etikettierungsvorschriften     lt  b gt  Das Konzept f  r Qualitatsweine aus der EU wird auf dem geografischen  Ursprung basieren  in einer bestimmten Region erzeugter Qualit  tswein    Weine mit geografischer Angabe werden unterteilt in Weine mit gesch  tzter  geografischer Angabe und Weine
140. hode sans pr  suppos   de parall  lisme entre les diff  rents  volets d un multidocument  L id  e essentielle de ces travaux est la suivante   entre deux  volets d un multidocument  il existe des grains qui maximisent le parall  lisme  nous les  appelons des multizones  Celles ci peuvent recouvrir plusieurs r  alit  s   documents  s  rie  de paragraphes  paragraphes  propositions    Ces multizones ne sont pas d  limitables de  facon ad hoc  il convient de le faire en contexte et de facon ind  pendante des langues      ces fins  nous combinons plusieurs proc  d  s originaux     tudier chaque multidocument  au travers d une collection de multidocuments  exploiter la mise en forme des documents  par traitement direct du source ou encore traiter des chaines de caract  res r  p  t  es plut  t  que des mots    Notre objectif est double   appariement et alignement  i e  cr  ation de ressources et  analyse de documents  Cette m  thode requiert peu de supervision  l ajout d une nouvelle  langue ou le changement de corpus d entr  e ne repr  sentent pas un co  t important     MOTS CL  S   traitement automatique des langues  alignement  multilinguisme  paral   l  lisme  collection de multidocuments  multizones  chaines de caract  res r  p  t  es     ABSTRACT    Multilingual document alignment method without assumption of parallelism     Today the works using multilingual documents are turning to the study of com   parable texts even though all aspects of parallel documents have not been 
141. horizon des m     thodes existantes avec un int  r  t particulier pour les facons de prendre  en charge ces diff  rences entre les documents traduits  Le constat qui en  est ressorti est que l hypoth  se de parall  lisme largement exploit  e par  l   tat de l art constitue un verrou au traitement de documents traduits  r  els    Notre parti pris a d  s lors   t   celui d une m  thode sans pr  suppos    de parall  lisme  Ainsi  dans le chapitre 3  nous avons formul   les grandes  lignes de notre approche et pr  sent   le corpus que nous souhaitions   tre  capable de traiter  un corpus r  el  Plus pr  cis  ment dans les chapitres 4 et  5  nous avons successivement pr  sent   les concepts originaux    la base de  notre m  thode   le multidocument  les collections de multidocuments   le document et sa mise en forme  les chaines de caract  res r  p  t  s et les  multizones  avant de d  tailler la m  thode    proprement parler    Enfin  la troisi  me partie a permis de montrer qu un travail inter   disciplinaire alliant hypotheses linguistiques  algorithmique du texte et  traitement d image donnait des r  sultats d ores et d  j   prometteurs    Les images que nous tirons des bi documents offrent    l   il nu  une vision claire des strat  gies de traductions  Ces images nous ont  d ailleurs permis de pointer d autres r  alit  s sur les traductions que celles  commun  ment envisag  es   les permutations de zones importantes entre  deux versions d un m  me document  les suppressions d
142. i  eb     TABLEAU 21     Panel des matrices obtenues en vis    vis avec les modeles d  finis  au chapitre 5     71 MODELES ET IMAGES OBTENUES    71 2 Images obtenues et   mergence d un nouveau mod  le    En observant nos matrices    l oeil nu  nous avons constat   l existence  d un motif r  current  une sorte de matrice dans la matrice  En retournant  aux documents  nous avons constat   que ce motif d  crivait des zones  de textes dans une autre langue que les deux attendues  dans au moins  un des deux volets  Pour des raisons fortuites ou structurelles  oubli ou  d  faut de traducteurs  des zones de textes de certains volets n ont pas  fait l objet d une traduction  Au travers de la collection  le volume de  traduction de chaque volet diff  re  Contrairement    nos attentes  les  volets ne sont pas tous monolingues  Nous illustrons ce nouveau cas de  figure dans le tableau 22 par deux exemples de communiqu  s de presse     Cas de volets multilingues       IP o5 182   o Were ee    lt  A BE  ER  en ere aaa RIEN Mae     i   r5 0 8g PCR DOCU E  07    er  1 CATIE Em E  f              El     m       Lu c i                 H   im    1      1     te s  DH  m a a  Fc am q nmm Lm H   i etre  k    E I      FP  E  ne    FOR Naa ri na att  L    117 7    J  eS um     pmi m kan    m ix  Y E      s  TEX mom o  m Shy mu A m             H li  mio   s   LEE    1 i j  mmn numm    j m     mI mai 1 N  L   m A sm mpm om a          FERE ra   LE   F E  JH im     mim wP Pan Pa     LE  in   T F  Hi I 
143. i  n adicional    v  ase    a href   http   europa eu int rapid pressReleases  Action do reference MEM0 05 395 amp amp   format HTML amp amp   aged 0 amp amp   Language FR amp amp   guiLanguage f r  gt   MEMO 05 395 lt  a gt  et  lt a href   http   europa eu int   rapid pressReleasesAction do reference MEMO 05 396   amp amp  format HTML amp amp   aged 06amp  language ENgamp   guilanguage fr  gt MEMO 05 396 lt  a gt   lt  p gt   lt p gt    lt a href  http   europa eu int comm   enlargement index htm  gt http   europa eu int co    TABLEAU 39   Alignement de zones entre les volets fr et es du communiqu    IP 05 1344 avec suppression d  tect  e au travers de la collection  1 et dela m  thode    Grand Angle        Multizone 1    Multizone 2    Multizone 3    74 ALIGNEMENT DE ZONES    115       IP 08 405    fr       hl    lt h2 gt    a name  Heading   gt   lt  a gt   lt b gt   lt i gt  Vingt   sept   jeunes traducteurs    un par   tat membre de l Union  europ  enne  sont venus aujourd hui    Bruxelles pour recevoir  leur prix    l issue du tout premier concours europ  en de  traduction organis      l intention des   coles  M  Leonard Orban   commissaire europ    ment fier que le travail de nos traducteurs  souvent invisible  mais indispensable    l Union  soit aujourd hui sous les projec   teurs     lt  p gt    p   Outre la   b   c  r  monie de remise des prix qui  aura lieu au si  ge de la    b    s n importe quelle autre langue officielle de l Union     p     p    Plus de 1 300 t
144. ieurs dimensions  Pour cela   nous faisons varier les dimensions suivantes       proximit   des langues      collection de multidocuments th  matiquement proches ou non      multidocuments avec ou sans leur mise en forme mat  rielle   Ainsi nous d  finissons les domaines de validit   de notre m  thode de  d  tection et d alignement de zones     SOMMAIRE  7 1 Mod  les et images obtenues                94  7 1 1 Mod  les envisag  s et images obtenues         94  7 1 2 Images obtenues et   mergence d un nouveau  model  hug de   ei d    Q Q Q 95  7 2 R  partitions des diff  rents diagnostics sur les collec   374  a    ranas lores S eo dea ee 96  7 2 1 Corpus d   valuation                 96  7 2 2 Synth  se des r  sultats sur notre corpus d   valuation 97  7 3   valuation et discussion des r  sultats           99  7 3 1 Comparaison avec d autres mod  les         100  7 3 2 Pourquoi des matrices restent ind  finies   ou  Mal denies C rs 2 6 8 h 2 16 as ae ds 112  7 4 Alignement de zones                     112    93    94 R  SULTATS ET   VALUATION SUR LA T  CHE D ALIGNEMENT DE ZONES    71 MOD  LES ET IMAGES OBTENUES  711 Mod  les envisag  s et images obtenues    Dans cette section  nous comparons l attendu que nous avions en  matiere de visualisation de ph  nom  nes textuels entre des volets de  multidocuments compar  s deux    deux  Les images que nous obtenons  sont en accord avec les modeles propos  s au chapitre 5  Pour illustration   nous mettons les images obtenues et les mo
145. ignement  en mettant l accent sur la  question du parall  lisme    travers diff  rentes illustrations en contexte et  une vue d ensemble des m  thodes d alignement  La deuxi  me partie met  ces observations    profit pour d  gager une m  thode sans pr  suppos   de  parall  lisme  Enfin la troisi  me partie expose la mise en ceuvre de cette  m  thode     Premiere partie    DE LETUDE DE CORPUS DE DOCUMENTS  PARALLELES    L   TUDE DE COLLECTIONS DE  MULTIDOCUMENTS    OBSERVATIONS LINGUISTIQUES ET  TRADUCTOLOGIQUES SUR LES DOCUMENTS  PARALLELES    Ty Eut on se contenter de soutenir que  traduire  c est dire la m  me   l chose en d autres mots   Pas si simple        la ligne de partage  entre simple reproduction  traduction et libre adaptation est pour le  moins fluctuante        la traduction  avant d op  rer ab extra     la fron   ti  re ext  rieure des langues  travaille de l int  rieur de la moindre de nos  paroles    Voil   donc que  cette  probl  matique acquiert une port  e in   soupconn  e au d  part   aussi vaste d  sormais que le langage lui m  me       Ost  2009  p 13   Dans ce premier chapitre  nous parcourons pas    pas la distance qui  s  pare une langue d une autre  Nous commengons par une description  de l op  ration traduisante  Puis  nous pr  sentons plusieurs ph  nom  nes  linguistiques dont l actualisation est propre    chaque langue  ce que  nous illustrons    travers des exemples de traductions multilingues pris  en contexte  Une telle observation traductolog
146. imitation pr  cise des segments    mettre en correspondance  entre les langues    Si les diff  rentes m  thodes d alignement au grain paragraphe ou  phrase ont fait leurs preuves sur certains types de documents  il est  n  anmoins    noter qu elles reposent sur des hypoth  ses simplificatrices     propos du parall  lisme de la structure des documents       l ordre des phrases dans les deux textes est identique ou tr  s   proche      les textes contiennent peu de suppressions ou d   adjonctions       les alignements  1 1   de longueur   quivalente  sont tr  s large    ment pr  pond  rants et les rares alignements m   n sont limit  s      de petites valeurs de m et n  typiquement 2    Elles ne sont par cons  quent que tr  s peu tol  rantes aux variations dis   positionnelles du contenu  Les r  sultats des analyseurs bas  s sur ces  hypoth  ses se d  gradent lorsqu elles ne sont pas v  rifi  es dans le corpus   La qualit   des alignements est globalement fonction du corpus  satisfai   sants sur des textes juridiques et techniques  textes  lt  simples  gt   o   les  sch  mas  1 1  mot et phrase sont les plus courants   m  diocres sur des  textes scientifiques  t  moignant davantage d un travail de traduction     2 5 CONSTATS   M  THODES D ALIGNEMENT EXISTANTES ET APPLICATIONS 45    r    criture que d un travail de traduction transcodage et elle se d  grade  encore    mesure que l on tend vers des textes litt  raires    Des alternatives ont   t   propos  es pour appr  hender diff 
147. inbedrifter  stotte til gron host  nye kriseforvaltningsforanstaltninger   nemlig forsikring mod naturkatastrofer og d  kning af de administrative om   kostninger i forbindelse med oprettelse af sektorspecifikke gensidige fonde    lt  p gt    p     b   Foranstaltninger til udvikling af landdistrikter  lt  b gt    Mange  af foranstaltningerne i forordningen om udvikling af landdistrikterne kan  have interesse for vinsektoren  ikke mindst etablering af unge landbrugere   bedre markedsforing  erhvervsuddannelse  stotte til producentorganisationer   stotte til daekning af ekstraomkostninger og indkomsttab ved opretholdelse  af kulturlandskaber samt fortidspensionering  For at tage hojde herfor er det  meningen  at der gradvist skal overfores penge til budgettet for udvikling af  landdistrikterne  I 2009 bliver der s  ledes tale om 100 mio  EUR og fra 2014  om 400 mio  EUR  Disse penge skal oremarkes til vinproducerende omr  der      p     p           b   Vnologiske fremgangsm  der  lt  b gt   Ansvaret for godkendelse af nye ono   logiske fremgangsmader eller endring af de eksisterende fremgangsmader  overdrages til Kommissionen  der vil foretage en vurdering af de onologiske  fremgangsmader  der er accepteret af OIV  og medtage dem pa listen over  accepterede fremgangsmader i EU  EU vil tillade internationalt anerkendte  fremgangsmader med henblik pa fremstilling af vin til eksport til de pagel   dende destinationer  Forbuddet mod fremstilling af vin af importeret most  og blandi
148. inot joukkoliikent een kehitt     miseen  Euroopan komissio hyv  ksyi t  n    n tarkistetun ehdo   tuksen asetukseksi  jolla edistet    n julkisten joukkoliikennepal  velujen kehitt  mist           6 N grammes de caract  res sont r  p  t  s     Ainsi  en nous attachant aux cha  nes de caract  res r  p  t  es  nous  souhaitons capturer par le m  me m  canisme des unit  s qui s   tendent  sur moins d un mot comme sur un ou plusieurs mots         des expressions r  p  t  es plus longues que des mots  d  tectant   ainsi le figement         des racines de mots se r  p  tant en g  n  ral avec plus de constance  que les formes fl  chies  notamment dans les langues morphologi   quement riches et ou agglutinantes       des indices de forme  en g  n  ral des parties de balises HTML   pas n  cessairement int  ressants dans l optique de constitution de  lexiques multilingues mais des   l  ments pr  cieux comme points  d ancrage pour l alignement    Outre l augmentation du nombre d unit  s r  p  t  es  nous pouvons    galement consid  rer la nature de ces derniers   il nous apparait qu un  d  coupage en N grammes de caract  res en favorisant la r  p  tition met  davantage de segments signifiants en   vidence     LANGUE MOTS CHA  NES DE CARACTERES  fr transport  transports  transport     transporter  transportation    Tableau 12   Mise en   vidence de la chaine de caract  re commune    quatre  mots form  s par d  rivation    Ici  m  me en mettant en ceuvre pour les N grammes de mots  un  t
149. insi que le corpus que nous souhaitons analyser  Ce corpus se veut r  el   empreint de diversit  s linguistiques et de la marque du travail de r    criture  que constitue la traduction     1  http    europa eu  2  Nous le mettons    la disposition de la communaut     http   code google   com p europa  corpus     Deuxi  me partie    M  THODE D ALIGNEMENT SANS PR  SUPPOS    DE PARALL  LISME    NOS CONCEPTS    N Tous pr  sentons ici les concepts utilis  s pour d  finir en contexte si   UN les documents que nous cherchons    aligner sont effectivement  traductions  si oui dans quelles mesures et pour r  v  ler les unit  s qui  sont effectivement en correspondance  Notre approche est r  solument  orient  e analyse textuelle en cela qu elle s applique    des multidocuments  dans leur int  gralit    Nous utilisons les N grammes de caract  res  les  collections de multidocuments et la Mise en Forme Mat  rielle  MFM   pour leur capacit      r  v  ler de la r  p  tition  Enfin  dans un but op  ratoire   nous introduisons le concept de multizone     SOMMAIRE  4 1 Lemultidocument                      54  4 2 La collection de multidocuments             54  4 3 Le document et sa mise en forme              55  4 4 Les cha  nes de caract  res r  p  t  es de longueur maxi   ni AM censor raros dara co 55  45 Les multizones                        57    53    54    NOS CONCEPTS    4 1 LE MULTIDOCUMENT    Les syst  mes d alignement sous phrastique prennent g  n  ralement  en entr  e un corpus de 
150. int  rieur  du discours entre deux expressions linguistiques  dont l une  dite ana   phorique  ou forme de rappel   re  oit son interpr  tation de l autre  dite  source de l anaphore  ou ant  c  dent  qui lui est ant  pos  e      Neveu   2004    Au travers du tableau 7  nous pouvons constater que l usage de  l anaphore n est pas uniforme  voir   galement Sachtouri  2006   Il d     pend d une part  du jeu des synonymes qui s op  re dans chaque langue   et d autre part  de l usage que chacune d entre elles fait des pronoms      la ligne 24 du document fran  ais  le pronom  lt  il    anaphorise son  ant  c  dent  le syntagme nominal    une proposition r  vis  e d un r  gle   ment  gt   1 5   En finnois l ant  c  dent de la ligne 5 est anaphoris   par le  nom commun    asetuksessa       quivalent s  mantique en contexte de     reglement  gt  en fran  ais  De m  me  en hongrois et en grec  la reprise  anaphorique ne se fait pas de mani  re pronominale  car ces langues  en font souvent l   conomie  Le pronom    il    n a pas graphiquement  d   quivalent s  mantique  puisqu il est contenu respectivement dans les  verbes  lt  Kad  epwve    gt  en grec et  lt  Establece  gt  en espagnol     14 4 Similitude et diff  rence d ordre au niveau sur phrastique    La conservation de l ordre au niveau sur phrastique d un volet d un  multidocument    l autre ne peut   tre pr  suppos  e  Dans la figure 5   l ordre est effectivement globalement pr  serv   entre les volets anglais   en  et alleman
151. ion et de quasi bijection des unit  s textuelles ne sont  pas toujours v  rifi  es comme nous l avons observ   et illustr   dans le  chapitre 1  La traduction n est pas un simple transcodage  la lin  arit   du  discours n est pas toujours conserv  e  Il existe des diff  rences d ordre  tant au niveau sur  que sous phrastique  et des suppressions massives  peuvent intervenir     Ainsi  bien que l alignement automatique de traductions soit consi   d  r   comme un domaine verrouill    un probl  me quasi r  solu  et que  les recherches s orientent maintenant vers les corpus comparables  il  convient de nuancer ce propos en distinguant notamment les diff  rents  types de corpus utilis  s  Si l on peut en effet dire que l alignement sur   et sous phrastique sur corpus de phrases parall  les ou de documents pa   rall  les et synchrones est r  solu  il n en est cependant pas de m  me pour  l alignement sur  et sous phrastique de textes parall  les asynchrones ou  comme on peut les trouver nomm  s   complexe  bruit  s  noisy   crois  s   avec d  placement  Mais comme le souligne  Church  1993      Real texts  are noisy     Cette affirmation met    part la traduction    traditionnelle     de roman par exemple  et vise davantage les traductions    tout venant     comme celles publi  es sur internet qui pour des raisons de mise en page  ou de gains subissent r  guli  rement des suppressions et ou des inver   sions  Il s agit l   de documents quasi parall  les    mi chemin entre les    35
152. ique t  moigne rapidement  de certaines n  cessit  s si l on souhaite mettre en ceuvre un syst  me de  Traitement Automatique des Langues et plus particuli  rement  comme  c est notre cas  un syst  me d alignement  Ce premier chapitre nous  amenera naturellement au chapitre 2 consacr      un rappel de l existant  m  thodologique en mati  re d alignement     SOMMAIRE    1 1 La traduction   une op  ration linguistique et humaine 7    1 2 Les traductions   des objets d     tude            8  1 3 Des t  moins privil  gi  s de la vari  t   des langues      9  1 3 1 Au niveau morphologique             9  1 3 2 Au niveau syntaxique                12   1 3 3 Similitude et difference d ordre au niveau  sous phrastique                    15  1 4 Les traductions   des   nonciations uniques        15  1 41 L implicite et l explicite                15  1 4 2 Lasynonymie                    17  1 43 L anaphore                      19    1  Chaque langue       peut se traduire elle m  me   Dakhli  2009     OBSERVATIONS LINGUISTIQUES ET TRADUCTOLOGIQUES    1 4 4 Similitude et diff  rence d ordre au niveau  sur phrastique                    19    1 5 Contraintes   ditoriales                    19    1 6 Constat   l alignement automatique  un enjeu de taille 24    1 1 LA TRADUCTION   UNE OP  RATION LINGUISTIQUE ET HUMAINE 7    11 LA TRADUCTION   UNE OP  RATION LINGUISTIQUE ET HU   MAINE    La traduction est une op  ration complexe   logique  psychologique  et linguistique   au m  me titre que l
153. ission determines  that serious market disruption has occurred it can          As set out by the conditions of the Textiles Specific  Safeguard Clause  these formal consultations shall last  ninety days           At no stage of the process is there any automatic advance to  the next stage     Any possible safeguard measures would take the form of a  quantitative import restriction and could be put in place until  December 31 of the current year  or for twelve months if the  request for formal consultations comes in the last three  months of the calendar year         P 05 473  Bruxelles  le 24 avril 2005    La Commission europ  enne ouvre  des enqu  tes sur la brusque hausse  des Importations de textiles chinois    M  Peter Mandelson  commissaire responsable du  commerce  a annonc   ce jour qu il avait d  cid   de  demander    la Commission europ  enne l autorisation  de lancer des enqu  tes concernant les exportations  chinoises de neuf cat  gories de produits textiles     destination de l Union europ  enne           Peter Mandelson a d  clar      Nous venons de recevoir les  statistiques d importation des Etats membres pour le premier  trimestre 2005           Les cat  gories de produits couvertes par l enqu  te sont  les  T shirts  les pull overs  les chemisiers  les bas et les  chaussettes  les pantalons pour hommes  les manteaux pour  femmes  les soutiens gorge  les fils de lin ou de ramie et les  tissus de lin          Les cat  gories en cause couvrent sept des douze cat
154. itions     Bi texte   Ensemble constitu   d un texte original en langue source et  d une de ses traductions  terme introduit par Harris  1988      Cognats   Chaine de caract  res qui reste invariante du point de vue  graphique d une langue    une autre   noms propres  chiffres  sigles       Corpus comparables   Ensemble de documents non traduits pr  sen   tant une homog  n  it   d un point de vue th  matique  chronologique et  de leur registre   D  jean et Gaussier  2002  en donnent la d  finition       Deux corpus de deux langues  1 et  2 sont dits comparables s il existe  une sous partie non n  gligeable du vocabulaire du corpus de langue l1   respectivement  2  dont la traduction se trouve dans le corpus de langue  l2  respectivement l1        Corpus parall  les   Ensemble de documents compos   d originaux et  de leurs traductions     Correspondances traductionnelles   Ensemble d unit  s textuelles en re   lation d   quivalence traductionnelle  On distingue des correspondances  traductionnelles bi  ou quasi univoques et des correspondances mul   tiples     149    150    GLOSSAIRE    Correspondances traductionnelles bi  ou quasi univoques   On parle  de correspondances bi univoques lorsqu au sein d un corpus bilingue   par exemple  un mot source est toujours traduit par le m  me mot cible  dans l autre langue et qu ils pr  sentent donc des similtudes de fr  quence  totale     Correspondances traductionnelles multiples   On parle de correspon   dances bi univoques lorsqu au 
155. l   1993  Dagan et Church  1994  Wu et Xia  1994  Resnik et Me   lamed  1997   Tr  s rapidement  les travaux se sont toutefois orient  s vers  l extraction d unit  s plus longues que le mot graphique   collocations   terminologie et phras  ologie  Daille et al   1994  Gaussier  1998  Zimina     41    42    EXISTANT M  THODOLOGIQUE    Poirot  2004  Giguet et Apidianaki  2005  Lardilleux  2010   Mais peu de  travaux s attachent    l alignement d unit  s plus courtes  il convient de  mentionner ici la tentative de Cromi  res  2006  de r  aliser un aligne   ment sous phrastique par calcul de coefficients de corr  lation entre des  N grammes de caract  res de taille non pr  d  finie  Il conseille particulie   rement l utilisation du grain caract  re sur les langues asiatiques  ot le  mot n est pas facile    isoler  Pour les langues occidentales  Cromi  res  a   galement appliqu   son algorithme au grain caract  re sur un petit  corpus de bi phrases tir  es du corpus Europarl     cause de limites de  m  moire    L alignement sous phrastique se heurte imm  diatement    la d  li   mitation des unit  s  notamment lorsque le mot n est pas physiquement  marqu    ou bien lorsque la langue est agglutinante  En outre  on ne  peut pr  sumer une quelconque pr  servation de l ordre des unit  s dans  la phrase  Pour pallier cette difficult    le recours    un dictionnaire bi   lingue est souvent l option choisie  mais cette technique exclut d embl  e  l analyse des langues faiblement dot  es e
156. l  les     La notion de corpus parall  les utilis  s dans les   tudes de  traduction sur corpus se r  f  re g  n  ralement   galement    un corpus  de textes traduits tandis qu un corpus de textes non traduits est appel     lt  corpus comparable  gt       Dans le domaine du TAL  comme en linguistique contrastive  l on  consid  re que des corpus parall  les sont constitu  s d ensembles de do   cuments compos  s d originaux et de leurs traductions  Mais l id  e de  parall  lisme en TAL va plus loin et op  re   galement dans les dimensions  horizontale et verticale des textes  On suppose globalement que la com   binaison et la s  lection des unit  s sont r  alis  es de la m  me fa  on d une  langue    l autre    l int  rieur des documents  Nous revenons sur cette d     finition du parall  lisme en TAL dans la partie consacr  e    l hypoth  se de  parall  lisme ou hypoth  se de synchronicit   pour limiter les ambiguit  s   Voir 2 2     Nous situant dans le domaine de la traduction sur corpus  nous utili   sons l expression corpus parall  les pour d  signer un ensemble constitu    de textes parall  les  i e  de documents sources et de plusieurs de leurs  traductions  N  anmoins  nous adh  rons    l id  e que les fonctions com   municatives des textes et de leurs traductions ne sont pas toujours les  m  mes et par cons  quent que la structure des documents en relation  de traduction n est pas toujours la m  me  les arrangements de s  lection  et de combinaison   tant propre    chaq
157. l Confe   rence on Language Resources and Evaluation  Genoa Italy  2006  URL    BIBLIOGRAPHIE    http   hal inria fr inria 00115670 v1    Cit   aux pages 32  et 40      Kenneth Ward CHURCH   Char align   a program for aligning parallel  texts at the character level  In Proceedings of the 31st annual mee   ting on Association for Computational Linguistics  ACL  93  page 1 8   Stroudsburg  PA  USA  1993  Association for Computational Linguis   tics  URL http   dx doi org 10 3115 981574 981575  ACM ID   981575   Cit   aux pages 35  36  38  43 et 48      Kenneth Ward CHURCH et Jonathan Isaac HELEMAN   Dotplot   A pro   gram for exploring Self Similarity in millions of lines of text and code   Journal of Computational and Graphical Statistics  2 2  153 174  1993   ISSN 10618600  URL http   www jstor org stable 1390697  Ar   ticleType   research article   Full publication date   Jun   1993   Co   pyright 9 1993 American Statistical Association  Institute of Mathe   matical Statistics and Interface Foundation of America   Cit      la  page 43      Guylaine COCHRANE   Le foisonnement  ph  nom  ne complexe  TTR    traduction  terminologie  r  daction  8 2   2007  URL http   id   erudit org iderudit 037222ar   Cit   aux pages 8 et 10      Maxime CROCHEMORE  Christophe HANCART et Thierry LECROQ   Algo   rithms on Strings  Cambridge University Press  1   dition  2007  ISBN  0521848997   Cit      la page 78      Fabien CROMIERES    Sub sentential alignment using substring co   occurrence 
158. l acm org citation cfm id 973215 973218 amp coll     BIBLIOGRAPHIE    Portal amp dl GUIDE amp CFID 78818668 amp CFTOKEN 17474915   Cit      la  page 43      I  Dan MELAMED   Models of translational equivalence among words   Computational linguistics  26 221   249  2000  URL http   citeseer   ist psu edu viewdoc summary doi 10 1 1 19 9615   Cit      la    page 40      Robert C  MOORE   Fast and accurate sentence alignment of bilingual  corpora  In Proceedings of the sth Conference of the Association for  Machine Translation in the Americas on Machine Translation   From  Research to Real Users  pages 135 144  Springer Verlag  2002  ISBN  3 540 44282 0  URL http   portal acm org citation cfm id   749407   Cit      la page 36      Yayoi NAKAMURA DELLOYE   M  thodes d alignement des propositions    un d  fi aux traductions crois  es  In Actes de la 14  me conference  annuelle sur le Iraitement Automatique des Langues Naturelles  12 15  juin  Toulouse  France  2007   Cit      la page 36      Franck NEVEU   Dictionnaire des sciences du langage  Armand Colin   2004  ISBN 2200263783   Cit   aux pages 10  17  19 et 56      E  A Niwa  Toward a science of translation  Brill  Leiden  1964   Cit       la page 8      Britta NORD   Hilfsmittel beim   bersetzen   Eine empirische Studie zum  Rechercheverhalten professioneller   bersetzer  Peter Lang  Frankfurt  am Main  2002  ISBN 3631393318   Cit      la page 8      Christiane NORD   TRACI   The trainee translator   s card index a self   made
159. l objet d une pr  sentation  d une partie des matrices les illustrant et qui ont servi au diagnostic     100    R  SULTATS ET   VALUATION SUR LA TACHE D ALIGNEMENT DE ZONES    Les exp  riences r  alis  es sur ces deux s  ries de collections montrent  que la m  thode Petit Angle offre un rappel entre 77 et 8096 pour une  pr  cision entre 84 et 86   La m  thode Grand Angle  quant    elle  obtient  un rappel entre 40 et 4996 pour une pr  cision entre 40 et 4496  Il faut  rappeler    sa d  charge que cette derni  re m  thode n est pas pr  vue pour  d  tecter les documents synchrones ou avec inversion  Si ses r  sultats sur  les bi documents avec inversion d  passent nos attentes en atteignant  jusqu    4496 de plus que la m  thode Petit Angle  les r  sultats pour les  documents synchrones correspondent bien eux    l attendu   35  de  rappel par rapport    la m  thode Grand Angle dans les deux s  ries de col   lections  Pour ce qui est des bi documents avec suppression  la m  thode  Grand Angle r  pond bien    nos attentes en obtenant un rappel de 46     5396  meilleur pour les collections 1 2 3  contre o  pour la m  thode Petit  Angle  cependant sa pr  cision s av  re d  cevante  plafonnant    1096 pour  les collections 1 2 3     7 3 1 Comparaison avec d autres mod  les    Comparaison avec le modele  lt  tout synchrone  gt     Le tableau 26 donne    titre comparatif les r  sultats par rapport    une  m  thode baseline prenant comme hypoth  se que tous les documents  parall  les s
160. lacements  Plus pr  cis  ment  son   tude porte sur les diff  rentes versions laiss  es par un   crivain d une  de ses ceuvres  c est    dire les brouillons successifs  Aligner en mono   lingue ces r    critures correspond    calculer une distance d   dition avec  d  placements  les trois op  rateurs classiques de la distance d   dition    insertions  suppressions et remplacements ne suffisant pas    d  crire les  ph  nom  nes potentiellement observables  Ces travaux constituent une  amorce de recherche sur la question d une m  thode d alignement pre   nant en charge les d  placements de portions de texte entre deux versions  d un document  Il est n  anmoins    noter que la tache se trouve gran   dement simplifi  e par son contexte monolingue  L hypoth  se qu une  m  me graphie recouvre le m  me sens dans les deux versions est directe   ment exploitable et la multiplication des hapax simplifie la t  che       travers le syst  me K vec  Fung et Church  1994  ont   galement  propos   une m  thode d alignement de documents bas  e sur une simi   litude de r  partition de mots  L id  e de K vec est de d  couper chacun  des deux volets en portions   gales  K segments  et d assigner    chaque  mot de chaque texte  un vecteur avec K dimensions  K vec   K vec fait  l hypoth  se que si deux mots sont traductions l un de l   autre  ils ont plus  de chance d apparaitre dans les m  mes segments que deux mots qui ne  le sont pas  K vec semble   tre le premier syst  me sans pr  suppos   sur
161. leau 15 pr  sente des exemples de populations extraites d une  collection de multidocuments  Celles ci ne font par n  cessairement  directement sens pour l humain  Les chaines de caract  res de ces po      5r   P  3  pulations s   tendent selon le cas sur moins d un mot  plus d un mot   voire sur plusieurs mots  Etant donn   que nous prenons en compte la  structure et le contenu par la m  me m  thode  ces chaines de caract  res  peuvent naturellement   tre ou contenir des morceaux de balises HTML   Certaines sont des hapax de documents mais sont r  p  t  es dans la col   lection  L appariement de ces derni  res constitue un ancrage robuste  pour la suite  En revanche  certaines ne correspondent pas    la langue  annonc  e  comme c est le cas du deuxi  me exemple en grec  ce qui  t  moigne d ores et d  j   de l intrusion d extraits de documents dans  d autres langues que celle dans laquelle les documents sont   tiquet  s     Nous trions ces populations par effectif d  croissant  puis    effectif    gal par longueur des cha  nes  Consid  rant nos hypoth  ses de travail   effectuer ce classement des populations est l   encore une mani  re de  rapprocher des unit  s potentiellement align  es  Le tri sur les effectifs  des chaines r  p  t  es sur l ensemble du corpus fait que la m  thode n est  plus sensible aux inversions locales et que statistiquement les d  calages    1  Les outils permettant la cr  ation de ces matrices sont disponibles ici   http       code google com p zone 
162. ler des correspondances fortement g  n  ralis  es dans une col   lection de multidocuments ou multizones  des correspondances  bi univoques ou quasi bi univoques          tre insensible aux diff  rences d ordres entre les volets et aux sup   pressions locales de zones de textes     Nous donnons quelques exemples d appariements ainsi calcul  s  dans le tableau 17  page 82    Les r  sultats de cette   tape corroborent notre intuition qu apparier  des populations de chaines de caract  res    l int  rieur d une collection de  documents est une piste prometteuse  Ils prouvent qu il existe bien des  populations bi univoques statistiquement identifiables  Dans l annexe A  page 123  nous pr  sentons une exp  rience d   valuation quantitative des  r  sultats de l op  ration d appariement par rapport    des dictionnaires   Dans le chapitre 7  nous   valuerons s ils sont en quantit   suffisante  pour permettre un diagnostic du parall  lisme entre les volets d un mul   tidocument  Cette   valuation extrins  que passe par la projection des  appariements r  v  l  s sur des matrices de points qui font par la suite  l objet d un traitement d image     3  Les offsets pr  sent  s dans le tableau 15 stock  s au moment du calcul des po   pulations ne nous servent pas au moment du calcul de distance  Ils ne sont stock  s  que pour permettre un retour au texte  Ils nous permettent de tracer les liens entre les  segments des volets  voir figure 20  page 85      81    82    MISE EN   UVRE    distanc
163. les  Mais l introduction de connaissances linguistiques sp  cifiques     chaque langue est co  teuse et rend les syst  mes d  pendants des langues    Deux approches ont   t   explor  es   l approche estimative et l approche  associative     l approche estimative ou par mod  les statistiques introduite par   Brown et al   1990  est inspir  e de la traduction automatique  statistique  ot le calcul d alignement de mots est la base du calcul  des mod  les de traduction  Elle commence par d  terminer les  meilleurs alignements en contexte avant d en d  river   ventuelle   ment des tables de traductions   Och et Ney  2003      l approche associative ou par mod  les heuristiques introduite par   Gale et Church  1991   Cette approche descendante utilise la me   sure de similarit   de chaine  des heuristiques d ordre des mots  ou  des mesures de co occurrences telles que le score d information  mutuelle  Fung et Church  1994  une paire de mots co occurre t   elle plus souvent que par hasard     le pourcentage de plus longue  sous s  quence commune  Melamed  1995   le coefficient de Dice   Smadja et al   1996   des mesures de log vraissemblance  Tufis et  Barbu  2002  ou encore le cosinus  Giguet et Luquet  2006   Les  m  thodes relevant de cette approche commencent par extraire  des traductions avant de cr  er des alignements     Ainsi  beaucoup d   tudes se sont attach  es    l extraction de diction   naires de mots simples  le plus souvent par des m  thodes statistiques   Dagan et a
164. llustrons en contexte dans la section  155    1 3 3 Similitude et diff  rence d ordre au niveau sous phrastique    L ordre des mots d une phrase n est g  n  ralement pas consid  r    comme pr  serv   dans le passage d une langue    une autre  figures 3a et  3b     Cependant  le niveau sous phrastique peut lui aussi   tre globalement  pr  serv   dans le passage d une langue    une autre  figure 4   et les unit  s  qui le composent dans le m  me ordre     14 LES TRADUCTIONS   DES   NONCIATIONS UNIQUES    Le travail du traducteur constitue un v  ritable travail d   criture  r       criture   Nous illustrons dans les sous sections qui suivent quelques  ph  nom  nes r  sultant cette fois de la libert   d adaptation dont b  n  ficie  le traducteur et entrainant un foisonnement davantage artificiel que  celui li   aux servitudes linguistiques     1431 L implicite et l explicite    Des   l  ments sous entendus  c est    dire   voqu  s de mani  re impli   cite  dans certaines langues apparaissent de facon explicite dans d autres  langues  Ceci constitue   videmment un frein    l alignement d unit  s  s  mantiquement   quivalentes  puisque certaines d entre elles n ont pas  d   quivalent clairement explicit       Exemple   document IP 05 975  ligne 8  FR   Jacques Barrot  Vice Pr  sident de la Commission europ  enne  res   ponsable des transports  a d  clar            ES   Jacques Barrot  Vicepresidente de la Comisi  n Europea y respon   sable de la pol  tica de transportes  se ha expr
165. lues  typiquement entre o et  0 1   Un N gramme de caract  res pr  sent dans le segment qui s   tend  de o    1096 du volet 1 se voit attribuer autant de liens que le N gramme  de caract  res qui lui est appari   est r  p  t   dans les segments du volet 2   Les appariements ainsi report  s mettent en   vidence que dans la figure  20a  le segment o 1o  du volet 1 partage plus d appariements avec le  segment o 1096 qu avec les autres segments du volet 2 tandis que dans  la figure 20b  ce m  me segment partage plus de liens avec le segment  6096 7096 du volet 2     Pour calculer cette similarit   entre deux segments  nous utilisons la  fonction de score suivante    nb_liens s   s2     score s1 52    max_liens s      6 2 APPARIEMENT ET ALIGNEMENT DE ZONES 85         Volet 1  0  10  10096  l   1  i I   Till               ot  ESE t TF Lr 4 4 E 1  d  095 1096 10096  Volet 2   a  Segments similaires synchrones     Volet 1  096 1096 10096         I          FT D 1 9 39  S 3 E   60  70  10096    Volet 2     b  Segments similaires asynchrones     FIGURE 20   Appariement directionnel entre les segments de deux volets     nb liens sys   repr  sente le nombre d appariements ayant une dis   tance inf  rieure    0 1 mettant en jeu des N grammes de caract  res inclus  dans les segments 1 et 2  max_liens s   repr  sente le nombre de liens  maximum entre le segment 1 et tous les segments de s     Pour   viter de  supposer le parall  lisme  nous consid  rons donc l ensemble des liens  possibles 
166. m mu  meer    E rF    IP 10 1002 da de    TABLEAU 29   10 bi documents asynchrones avec inversion attendus mais non  obtenus parmi les 19 sur les collections 1 2 3 avec la m  thode  Petit Angle  voir tableau 24      104 R  SULTATS ET   VALUATION SUR LA TACHE D ALIGNEMENT DE ZONES    Ee     Pucca Tear al Teo Rune deis  Jm eta al Nego t Rune   E  ES  Le PAD AS part TE an ute ARTY reel pier Qu  Las     o   M  dE HA ji 3 E  d lx    1 ren nl cese   tH LA i E       i       fred            sE 1 ae TM wn F    vae vba           IP 05 1157 el fr    CE ii HSE SEAT  st    ip pee BE 4 Her Lud               EX Lu        A k   T a A a   E    l  T QU ou   E  isles s Tu r D AECA Eds    wk i   Ux D  79    wes dM OA T   Pul jou  was  Y   ar A a Fat S  h  st FPE kun Far pu             ML   3 J      A    E L        w x E um     s pit  Fa Gm  cheri  eee otal Yz    A hip flew os AA CE a ue ERE  Sr      EI  d          m 8       m   P   A P ox E  LE k  L       1 NM E   T            z E E Y        on           ra  AES de c     t d e  ri BAT  P 1  d   gt   ER ri EE TA vL p  Uwe ae i bi LEFT    X t  oor c A FUttt n ot   on  zw p a CAEDE apa    a ER SN pe i  Eat     Sig L a  rip TU  ee nd  e      ctt       a T F m 3  mul   ma  s Des k s sa TE LQ  nrc ee Ea  E Hate LIL ee E ha TI  Nr uim edo     m  PEE a L lie   F m  m   s  u me E         un   a a 2    ELS    i s Fin  a      I Jes     F Me  H   o    RN qui ii     EE es de EYES a diit  oT    ES   1   Ar f    n aiu a a k e LE EL CRUE   Qu ne  Lus x Tao rum 
167. mbre d autres cat  gories semblent pr  occupantes  mais  exigent une analyse plus approfondie  actuellem    the EU should impose special safeguard measures  In parallel  it  will launch immediate consultations with China in an attempt  to find a satisfactory solution     i      b      p     p   Peter Man   delson said    Member States have finally made available the  import statistics for the first quarter of 2005  In several catego   ries of textile and clothing imports they do give cause for se   rious concern  Based on these facts  Europe cannot stand by and  watch its industry disappear  Our investigation will enable me  to decide whether the EU should introduce safeguard measures   Chinese exports should  of course  be allowed to grow at a nor   mal speed following the removal of quotas  But we must also  extend protection to European industry if it is faced with a rui    he global trade in textiles on 1 January 2005  This clause al   lows for short term protective measures until the end of 2008      p     p     b   Next Steps    b      p     p   These investigations  will last for a maximum of 60 days  of which the first 21 will    be used to take submissions from parties  The Commission will  make a thorough assessment of market impact in the affected    product categories  During this period  the Commission will  also hold informal consultat    TABLEAU 38   Alignement de zones entre les volets fr et en du communiqu    IP o5 473 avec suppression d  tect  e au travers d
168. ment de zones qui nous guident  Car si l on peut af   firmer que tout n est pas toujours pr  sent ou dans l ordre  partant du  principe que les documents sont effectivement traductions  tous les cas  de distorsion de la diagonale ne peuvent pas   tre envisag  s     5 1 2 Diff  rents types d   alignement de zones    Nous pr  sentons dans la figure 15 les diff  rents attendus en matiere  de visualisation de la structure des multidocuments     La figure 15a  page 65 pr  sente le cas id  al d une traduction glo   balement synchrone o   la structure est la m  me dans les deux volets   Chaque point sur la diagonale repr  sente des alignements d unit  s aux  m  mes positions dans les deux volets  Ainsi  la pr  sence de la diagonale  complete signifie que les volets ne pr  sentent ni inversion  ni suppres   sion  Nous avons une seule multizone   quivalente au multidocument   L alignement de zones est de type  1  1   Les figures 15b  page 65  et 15c   page 65   quant    elles  sont asynchrones  dans un cas tout n est pas  dans le m  me ordre et dans l autre tout n est pas pr  sent  La figure 15b   pr  sente deux cas d   inversions  La premiere est simple  elle correspond     l interversion de deux zones de textes du volet 1 dans le passage au volet  2  Ce type d interversion correspond    celle pr  sent  e dans la figure 16   page 66  La seconde est multiple  plusieurs zones du volet 1 subissent  un d  placement dans le passage au volet 2  c est le cas que nous avons  pu observer au t
169. n  parametre  Les segments de texte peuvent se chevaucher  il ne s agit pas  d une partition  Nous autorisons un chevauchement de nos segments  pour   viter une segmentation trop abrupte de nos volets  Un segment est  une sous partie d un volet que nous exprimons relativement    la taille  du volet  Pour la m  me segmentation  S   s        s         appliqu  e    deux  volets  nous obtenons une matrice de similarit   de taille nxn    De facon empirique  nous choisissons pour traiter les communiqu  s  de presse de notre corpus  une segmentation en 200 segments correspon   dant    1  du document  Ces segments se chevauchent donc  S   s      o   0 01   s     0 005  0 015   s3    0 01  0 02      pour chacun des deux vo   lets  C est en fonction de la r  partition des segments similaires sur toute  la matrice que nous calculons le parall  lisme entre deux documents   Comme l illustre la figure 20  deux segments sont consid  r  s comme  similaires lorsqu ils maximisent le nombre de liens qui les relient    La figure 2o illustre la r  partition et la densit   des appariements de  N grammes de caract  res entre un segment du volet 1 et les segments  de m  me taille du volet 2  Dans notre exemple  les segments ne se che   vauchent pas et correspondent chacun    un intervalle d offset de 1096  du volet  Les traits reliant les segments des volets symbolisent des appa   riements obtenus lors de l   tape d  crite dans la section pr  c  dente et  entrant dans la fourchette de distances vou
170. n mati  re de ressources lin   guistiques  pose le probl  me de la qualit   de ces dictionnaires et rend  l analyse d une nouvelle langue co  teuse  Nous noterons   galement que  l alignement au niveau sous phrastique suit g  n  ralement un aligne   ment phrastique et qu il est donc largement d  pendant de la qualit   de  celui ci     2 4 ALTERNATIVES POUR APPREHENDER LA CIRCULARITE    Les m  thodes pr  sent  es dans cette section visent l   encore un ali   gnement sous phrastique mais l amorcent de facon plus progressive et  moins contrainte  L objectif est de pouvoir traiter aussi bien des docu   ments synchrones qu  asynchrones     2 4 1 L alignement de phrases   une interrogation documentaire    Fluhr et al   2000  proposent une approche originale affranchie  des hypoth  ses contraignantes pr  cit  es  dans laquelle les textes ne sont  plus trait  s s  quentiellement mais comme des bases de donn  es qui  sont alors consid  r  es comme un syst  me de recherche d informations    le probl  me de l alignement de phrases est ainsi ramen      celui d une  interrogation documentaire multilingue  dont le but est de ramener  la phrase la plus similaire dans le texte    partir de la    requ  te    que  constitue la phrase source     2 4 ALTERNATIVES POUR APPR  HENDER LA CIRCULARIT      2 4 2 M  thodes d alignement sous phrastique affranchies d un aligne   ment de phrases    Bourdaillet et Ganascia  2007  abordent la question de l alignement  monolingue de textes comprenant des d  p
171. n parall  lisme entre ces deux  zones  Les chaines de caract  res    verre    en FR et    glass    en EN no   tamment y apparaissent et permettent de le r  v  ler  Ces deux zones  constituent ce que nous appelons des multizones     5 2 2 Calcul des multizones   entre alignement et appariement    Dans un document  chaque zone se distingue des autres zones du  document par une liste et une densit   de populations  Nous appelons  population l ensemble des occurrences d une suite de N grammes de  caract  res r  p  t  s dans une langue  nous appelons appariement la mise  en correspondance de ces populations  Nous appelons individu  une  occurrence d un N gramme d une de ces populations et nous appelons  alignement la mise en correspondance de deux de ces individus  Ces  diff  rences nous permettent de calculer la correspondance entre des  zones   quivalentes    Dans l exemple de la figure 18  les populations C et D sont toutes les  2 uniquement pr  sentes dans le multidocument 1 et comportent le m  me  nombre d individus  Les populations A et B pr  sentent les m  mes effec   tifs sur la collection  Mais alors que la population A est pr  sente dans les  multidocuments 1 et 3  la population B apparait elle dans les multidocu   ments 1 et 2  Ainsi  les meilleurs candidats pour l appariement avec ces  deux populations dans la collection sont respectivement    A  A    A     et   B  B    B      En outre  la population A apparait dans les multidocuments  1 et 3 avec la population E  mais
172. naturelle   ment insuffisant pour proposer des appariements  L observation des  effectifs ne peut    lui seul   tre un indicateur fiable d appariement  cette  phase de classement devra n  cessairement   tre suivie d un calcul de  distance puisque  comme le souligne Zimina  2006  p 4       Lorsqu il  s agit de mots dot  s d un large   ventail de sens dans le corpus  les cor   respondances lexicales entre les volets forment un r  seau complexe et la  comparaison des effectifs totaux des formes graphiques ne constitue pas  toujours une bonne indication pour l appariement       Nous introduisons donc dans la section 6 1 2  pour chaque popu   lation  une   tude des positions dans la collection des individus qui les  composent  ou plus pr  cis  ment une   tude de leur effectif par document     6 1 2  Appariement de N grammes de caract  res r  p  t  s    partir de venti   lation similaire sur la collection    Nous avons donc en sortie de l   tape pr  c  dente une liste de popula   tions tri  e par effectif monolingue  Afin de limiter l explosion combina   toire d un calcul exhaustif entre toutes les chaines r  p  t  es maximales     80    MISE EN   UVRE    nous comparons les chaines d effectifs proches  En tout   tat de chose  les  chaines en dessous du seuil que nous nous fixons sont n  cessairement  d effectifs proches  Pour conduire des tests d appariement plus pouss  s   nous faisons passer une fen  tre glissante sur cette liste et  pour chaque  position de la fen  tre  nous tes
173. ng  nitrogen and phosphorus losses from agricultural activities in  Beim ersten Projekt wird versucht  entsprechend den Zielen the Odense river basin  in line with the E LI Water Framework  der ELI asserrahmenrchtlinie im Flussanzugsgebiet von Directive objectives    QC dense Ma  nahmen durchzuf  hren  die das versickern von         Stickstoff  und P hasphareerbindundgen aus landwirtschaftlicher Estonia     1 project   T  tigkeit verhindern                Finland     2 projects   Estland     ein Projekt         7 France     11 projects   Finnland     zwei Projekte                Frankreich     elf Projekte Tan projects concem water management  The first will take an  Integrated approach to reduce dffuse pollution from agriculture            Deutschland     sechs Projekte in support of the Water Fran ewark Directive       mel Projekte betreffen die Wasserbewrtschaftung Das        erste verfolgt im Einklang mit der v assermahmenrchtlinie einen    Greece     4 projects  integrierten Ansatz zur Reduzierung der diffusen        verschm utzunag durch die Landwirtschaft  Hungary 1 project  is        Griechenland     ver Projekte Ireland 2 projects              Ungam   ein Projekt Italy    15 projects  m        Irland     zwei Projekte Luxembourg     1 prajed               Italien     15 Projekte Netherlands     7 projects              Luxemburg    ein Projekt Portugal     2 projects   4        Portugal     zwei Projekte Romania     1 project                   Rum  nien     ein Projek
174. ng af vine fra EU med importerede vine opretholdes   lt  p gt   lt p gt   lt b gt   Bedre etiketteringsregler  lt  b gt    Begrebet EU kvalitetsvine baseres p   geogra   fisk oprindelse  kvalitetsvin produceret i et bestemt dyrkningsomrade   Vine  med geografiske betegnelser opdeles i vine med beskyttede geografiske be   tegnelser og vine med beskyttede oprindelsesbetegnelser  Etiketteringen vil  tage hensyn til forbrugernes behov  Den bliver s  ledes enklere  og navnlig  tillades det for forste gang at anfore druesort og argang pa etiketten for EU   vine uden geografisk betegnelse for at imodekomme forbrugernes eftersporg   sel efter vine fremstillet af en enkelt druesort   lt  p gt   lt p gt   lt b gt Salgsfremstod og  oplysning  lt  b gt    Kommissionen vil gennemfore en resolut og ansvarlig kam   pagne for salgsfremme og oplysning  Hertil skal der afs  ttes et budget pa 120  mio  EUR fra de nationale rammebelob til salgsfremmende foranstaltninger  uden for EU  hvor EU bidrager med 50  af finansieringen  Der vil blive gen   nemfort A a C 4 oplysningskampagner in    nter vil fremstille vin udelukkende af druer og ikke subsideret most    lt  p gt   lt p gt   lt b gt  EU   s vinsektor  lt  b gt   lt  p gt   lt p gt  EU har over 2 4 mio  bedrifter   der producerer vin  svarende til 3 6 mio  ha og 2  af EU   s landbrugsareal     Vinproduktionen i 2006            de     lt document celex  IP 07 1008  lang  de  gt   lt p align  right  gt    lt b gt  1P 07 1008  lt  b gt    lt  p 
175. non  plus un simple transcodage  nous estimons que  quoi qu il arrive  cer   taines langues sont intrins  quement plus foisonnantes que d autres et  qu il existe une sorte de    servitude linguistique       laquelle le traduc     4  Nous utilisons    partir d ici les codes de langue tels qu ils sont d  finis par la  norme ISO 639 1    5  G  Gross  2004  cit   par  Neveu  2004    6  Leterme    servitude linguistique    d  signe les contraintes auxquelles le traduc   teur est contraint pour respecter la syntaxe de la langue  p  ex  ajout d articles et de  joncteurs    toffement des pr  positions  etc  Cochrane  2007      13 DES T  MOINS PRIVIL  GI  S DE LA VARI  T   DES LANGUES    teur doit se plier  Nous constatons cependant que les variations peuvent  autant correspondre    une r  duction qu    une augmentation du volume  de mots d un document  lors de sa traduction d une langue    une autre   Les coefficients sont  en moyenne  ceux pr  sent  s dans le tableau 2  ils  nous ont   t   fournis par l ARIZ     LANGUE D ORIGINE FRAN  AIS  anglais  20   allemand  30   n  erlandais  20   italien  10   espagnol  10   portugais  10   su  dois  30   danois  30   norv  gien  30   japonais  67     TABLEAU 2     Coefficients de foisonnement fournis par l   ARI     Le tableau 2 montre que le japonais est beaucoup moins foisonnant  que le fran  ais  La th  orie de l information peut nous en apporter une  explication  La quantit   d information associ  e    un symbole de proba   bilit   p est
176. ns  que si entre deux segments cons  cutifs x  est inf  rieur    y    1  alors  nous sommes face    un bi document asynchrone avec inversion  Enfin   sila longueur totale des segments de droites d  tect  s est inf  rieure    20   de la diagonale  nous ne nous pronongons pas sur la nature du parall     lisme qui lie les volets observ  s  Ces documents font alors l objet d un  nouveau traitement  Plusieurs solutions sont    notre disposition   utiliser  la m  thode    Grand angle    pr  sent  e dans la section 6 2 2  les plonger  dans une nouvelle collection plus grande ou th  matiquement homogene  ou changer la taille de la matrice  Dans les autres cas  le bi document est  reconnu comme synchrone     Retour aux textes    Les coordonn  es des segments calcul  s    partir des matrices nous  servent  quant    elles     r  aliser un retour aux volets  autrement dit     visualiser les multizones ainsi d  tect  es  les alignements de zones      ce stade  nous pouvons d ores et d  j   mentionner un des effets de la  m  thode  La m  thode rep  re correctement des coeurs de zones mais  moins bien les fronti  res  Les fronti  res de zones peuvent pr  senter un  d  calage de plusieurs caract  res  voir plusieurs mots  Ceci s explique par  le fait que nous utilisons ici les coordonn  es des segments compris dans  les segments de droites d  tect  es et non les coordonn  es des N grammes  appari  s se situant    l int  rieur    Nous pr  sentons dans la section 7 4 des retours aux textes sur
177. ns autre traitement  l alignement de N   grammes de caract  res ne permet pas de r  v  ler davantage qu un  alignement bas   sur des N grammes de mots      le risque de mettre en rapport des chaines de caract  res non  li  es au niveau du mot  entre    transport    et    transparence    par  exemple      la surg  n  ration de cha  nes r  p  t  es  lt  inint  ressantes  gt  dans le  but de construction de ressources lexicales par une m  thode     4    UNE M  THODE TEXTUELLE GUID  E PAR LE MODELE    d alignement  Le fait de supposer que tout N gramme de ca   ract  res d une langue puisse   tre align   avec n importe quel N   gramme dans une autre langue nous permet de trouver beaucoup  d associations mais impose de fixer des r  gles pour parcourir ce  tr  s grand espace de recherche  Nous avons r  solu ce probl  me en  comparant les positions de N grammes de fr  quences similaires     5 4 DE L ALIGNEMENT DE ZONES    L ALIGNEMENT INTRA   MULTIZONES    Nous consid  rons dans cette section le cas particulier de documents  courts  1   2 pages   comme c est le cas des communiqu  s de presse qui  constituent notre corpus  Une fois les zones maximisant le parall  lisme  identifi  es  le principe est de reprendre un alignement intra multizones  des individus qui les composent en favorisant le parall  lisme  Ainsi   suivant la taille des zones composant ces multizones  un appariement  d  tect   au moyen de la collection peut y apparaitre ou non  r  p  t   ou  non  Dans le cas ou il est 
178. nstitu  es    partir de notre corpus d autre part  Une   tude  qualitative et quantitative des diff  rents types de parall  lisme entre les  volets des diff  rents bi documents est fournie dans l annexe B     Petit Angle Grand Angle  Synchrones Asynchrones Synchrones Asynchrones    avecinversion avec suppression avecinversion avec suppression  Obtenus 601 665 333  Attendus 652 720 652  49  Correctement 554 560 325 26 358  attribu  s  Pr  cision 92 1896 14 63  0 00  84 21  97 60  11 67  10 00  54 82   Rappel 84 97  31 58  0 00  77 78  49 85  36 84  53 06  49 93   F mesure 88 43  20 00  0 00  80 87  65 99  17 72  16 83  52 26        TABLEAU 24   Mesures de pr  cision  rappel et F mesure sur les collections  1 2 3 avec leur MFM  La r  f  rence sur les 720 bi documents a   t    r  alis  e par nos soins     Petit Angle Grand Angle  Synchrones Asynchrones Synchrones Asynchrones  avec inversion avec suppression avec inversion avec suppression  Obtenus 603 277 664  Attendus 678 678 720    Correctement 572 577 270 294  attribu  s  Pr  cision 94 8696 10 8796 0 0096 85 9996 97 47  14 63  3 93  44 28   Rappel 84 37  31 25  0 00  80 14  39 82  75 00  46 15  40 83   F mesure 89 3196 16 13  0 00  82 96  56 54  24 49  7 25  42 49        TABLEAU 25   Mesures de pr  cision  rappel et F mesure sur les collections  transport  sant   et t  l  phone avec leur MFM  La r  f  rence sur  les 720 bi documents a   t   r  alis  e par nos soins     3  Les r  sultats en couleur dans le tableau font chacun 
179. nt   quivalents  L alignement des mots graphiques   choue  d autant plus que les langues compar  es sont morphologiquement diff     rentes     LANGUE MOTS GRAPHIQUES SIGNIFIANT    TRANSPORT       ET LEUR EFFECTIF    fr transports  3   transport  3   es transporte  5   transportes  1   el HETAPOPWV  3   HETAPOPEAG  1   HETAPOPES  1   uETapop  a  1     Tableau 13   Liste des mots graphiques signifiant    transport    dans un   chan   tillon de textes en fr  es et el  et leur effectif     Ici  comme en t  moigne le tableau 15  les   carts d effectifs entre  des mots align  s dans un   chantillon sont d  j   consid  rables  Or si  l on s int  resse d  sormais aux r  p  titions de chaines de caract  res  on  s apercoit qu il existe dans chaque langue une sous chaine commune     l ensemble des   quivalents s  mantiques de    transport       Cette sous chaine commune apparait donc comme un moyen de  comparaison des langues susceptible de passer    l   chelle    moindre  cout  Les   carts d effectifs entre les mots partiellement ou int  gralement    5 3 APPARIEMENT ENDOGENE DE CHA  NES DE CARACTERES R  P  T  ES 73    LANGUE CHAINES DE CARACTERES R  P  T  ES EFFECTIFS    SIGNIFIANT TRANSPORT     fr transport   3 3  6  es transporte   5 1  6  el ueraqop   3 1 1 1  6    Tableau 14   Chaines de caract  res  d au minimum 3 caract  res  communes  aux mots signifiant    transport    dans le m  me   chantillon de  textes en fr  es et el et leur effectif respectif       quivalents se trouvent
180. o    o    Per TET S6 OIT ocs FSI 9 9S vos 99S  L8 VL TOTI HEIST gee obti   snd107    ST LV tc ec SOT OT I II 99 OOT   lt k  S 9 SOT  8S v1 SE orc   JJ   TI vs OT SE 601 OT I 9 TOT OTT  ST T6 617 96  Z g Ic orc   p 1J   OT cr IT or VOT CT O 6 86 LOT  T76 LZ8 TIT 9690 7 T 6c orc 13 13   TV 44  vo OII SIE tr E QT LQT LTE  61  89 sS co  IS TI sg orc   SQUBIOT9 s   dno5   9 ZS S oS TII v v S LOT OTI  00 S6 gcc  00   S TI orc ep ap       6S II Lv ZTI I 9 OT TOT 61I      86 OCT  ZO T v orc uo IJ       Sy T OZ ZTI I 9     SOT GTI o        96 OCT  ZO   T v orc S3 1J   FT TOT QT LOT or 9 07 SI 9r    YSE  S1   L6 789   ST 07 orc   sou  oud s   dno5   r ITI o    Sg OCT TI OI SI voz 677  88 96 Sov METSE ST ogr   euoudo o1 uono  ct v6 ST 69 807 07 Z CT 007 OTT   Z1 69 TV  EQ OT TS ogr   JJUES UO1PII  0   OT 06 LT COT OTT ST S ST 661 TTT   30  76 cvv 967 6 Z QE ogv   J10dsue1  UOT DIT OD  9S Sot cg LLT roo 6v TT or coo 1 9 961Z c6 SEET  6T  L SOIT orit   Lewy  UOTDITJOD  Ic Sv 61 SE 66 ST T 6 S6 SOT  00   S8 voz  00   ST 9t orc y 1   VI Spy II oS 901 II T L OOT 60T  8S 68 SIT  TV OT ST orc   p 1J   61 ve 9I IS TOT IT O OI 69 66 HELLER 007 9629 91 or orc 13 13   vs vct oF OCT 90    Lv     97 Pet ETE  Z6  S9 619    lt o TI TOI 07    SQUBIO 9 s   dno5   S 6v 9 gS STI v L 9    OT QIT   ST 96 Itc   SLE 6 orc ep ap       LV S So ZTI T L S OOT STI  T6 L6 SET 9690 c S orc U3 1J   S or I vZ SII T 9 v QOT STI 9690 26 EET   T   T L orc S   1J      T OCT VI L61 LVE 8 07 ST LTE TSE  g0   6 669  T6 T IT 
181. o neo qej   Sj9 OA c So  suep sre gue uo neo qej   Sj9 OA T So  suep sre gue uo neo qej   1j 39 OA suep stedue1  uo oxouue  sjo O0A c SI  suep sre guv uo neo qej  Sj9 OA c So  suep sre gue uo neo qej    ympeu uou rsenb 39 0A   sa    SIT      z uono  l oO EI Ins s onueui sonsouserq     SF AVATaVL    uorssa1ddns  uorssa1ddns  uorssa1ddns  uorssa1ddns  JUOIYIU  S  uorssa1ddns  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  uorssa1ddns  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  uorssa1ddns  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  ouoi1qou  s  uorssa1ddns  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  uorssa1ddns  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  ouoi1qou  s    uorssa1ddns    ouoi1qou  s  JUOIYIU  S  ouoi1qou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  uorssa1ddns  ouoi1qou  s  ouoi1qou  s  JUOIYIU  S  JUOIYIU  S      nsouSer q    yy  17 89  1J uo  i e  ep  3p ep  y  1J S    1J uo  i e  17 9p  3p ep  Y  17 89  1J uo  i e  1    P  9p  p  1 g  17 89  1J uo  ie  Tj9P  Sp ep  1J 13  1J S3  1J uo  i e  rap  3p ep  Y  17 89  1J uo    1J  3    17 9P    3p ep  1J   17 89  1J uo  i e  1    P  pep  1 g  1J S    1J uo  i e  17 9p  prep  J g  17 89  1J uo  i e  1    P  9p ep  y  17 89  1J uo  i e  17 9P  9p ep    Pd    6781 80 d1    616 Zo gI    S6c1 ZO d     15  90 d1        
182. oSed e  Ans ajins Juoyd gt pL uon  o  o     sre gue Ud oxouue    o    SIOUUT  Ud sopuoSo  xnop      9913 Ud   pu  3   oun      sonSur n nui soxouue xneo qei  senSur n nui soxouue xneo qei  sonSur n nui soxouue xneo qei  sonSur n nui soxouue xneo qei  sonSur n nui soxouue xneo qei  sonSur nnui soxouue xneo qei  sre gue uo soxouue  sre gue uo soxouue  sre gue uo soxouue  sre gue uo soxouue  sre gue uo soxouue  sre gue uo soxouue    EVALUATION MANUELLE DU PARALLELISME     un sost eq op 2119S aun p uorsso1ddns   ep   lt     2UUUD  gt  s  sti eq ap   u  s Jun  p oouosqe   IJ    132     lt     214DUU  gt  SoSI eq ap   u  s Jun p oouosqe   1j    anbijaqeydye o1pao sed sa9117 sjo  oad op s  1srT    speyq    JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  uorsso1ddns  ouoigou  s  JUOIYIU  S  uorssa1ddns  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  uorssa1ddns  uorssa1ddns  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  uorsso1ddns  ouoigou  s  UOISIOAUT  UOISIOAUT  UOISIOAUT  UOISIOAUT  UOISIOAUT  JUOIYIU  S      nsouSer q    9  1J S9  1j ua  i e  1 J   P  PP  J g  17 89  1j ua  i e  1 J   P  9p ep  J g  17 89  1j ua  i e  ep  ap ep  J g  17 89  1j u
183. oTL   sou  oud s   dno5  Ic 96 ST SOT 617 OT 9 II ETT otc oor S    6  44 o69T 9 TE ogr       uono     o    vz 99 ET SOT OTT QT L ST LQT TIT  ZT   68 ach 96 EQ OT TS ogr         uono    o    TT 9Z TT OTI QIT LT OT TI TOT ETT  88T16 TV      T  9 6    ogr   T uono     o    L9 097 09 ccc   6   SS   c rv TOQ S99  ES T6 QICI  LZv 8 TTI obti   snd107    x  dns  oAe     Aut eae     dns aae     Aur 504       SUOISTI9PU  souo1qou  sy souoryouds   YW suorsp  q   suorsp  pul souo1qou  sy souorysuds   vd suorspoq said suorspopug roi  Po  voDeluypui                  aeuvme      NIN Sues suor  o  o        I  491e A  JULIO  Ud 9SIJA DIAL suono       73   VALUATION ET DISCUSSION DES R  SULTATS 99    de prendre en charge les documents avec cette mise en forme et  de traiter la structure et le contenu par la m  me m  thode ajoute  visiblement des informations suppl  mentaires  assimilables    des  cognats     73   VALUATION ET DISCUSSION DES R  SULTATS      valuer ces r  sultats n est pas une t  che triviale  Il n existe pas de  r  f  rences pour   valuer la d  tection de multizones  La r  alisation ma   nuelle de cette r  f  rence est une tache sinon subjective  au moins fasti   dieuse     une collection  telles que nous les constituons  correspondent  240 bi documents  Nous pr  sentons dans les tableaux  24 et 25 les me   sures de pr  cision  rappel et F mesure obtenues    partir d une r  f  rence  constitu  e pour les collections 1 2 3 d une part et sur les trois collections  th  matiques co
184. ojections   Les multizones se contraignent mutuellement      r  it  ration de ce processus jusqu      puisement des candidats  c   est      dire jusqu    ne plus trouver de diagonale suffisamment longue  pour   tre pertinente  La longueur minimum est fix  e    8 pixels     5  http   www greyc ensicaen fr  regis Pandore index fr html    07    Volet 1    88       MISE EN   UVRE    La recherche de segments de droites est guid  e par un modele  Seules  les droites avec au maximum un angle entre  25  et  25 par rapport    la  diagonale ont   t   consid  r  es    Nous utilisons deux m  thodes de d  tection des segments de droites  La  premi  re fortement contrainte pr  suppose le parall  lisme  Elle permet  de d  tecter des segments de droites ayant la m  me inclinaison que la  diagonale parfaite  une inclinaison de 45    Nous l appelons la m  thode     petit angle     En cas de d  tection insuffisante avec la premi  re  nous  utilisons la deuxi  me m  thode qui offre une relaxation des contraintes   Elle permet d   tendre l espace de recherche aux segments de droites  ayant une inclinaison situ  e entre  25 et  25  par rapport    la diagonale   Nous l appelons la m  thode    grand angle       Ainsi  la premi  re m  thode nous permet de d  tecter les volets     la fois quasi synchrones et quasi bijectifs dans lesquels globalement ce  qui est pr  sent dans l un l est dans l autre et dans le m  me ordre  et les  volets asynchrones  c est    dire les volets pr  sentant le m  me conten
185. oman De la terre    la lune  40161 mots anglais et 53181   mots francais    Cependant  la plupart des m  thodes trouvent leur limite dans la  n  cessit   qu elles ont de prendre en entr  e de leur syst  me des cor   pus pr  alablement align  s en phrases  La disponibilit   et la vari  t   de  tels corpus sont telles que l objectif de fournir  grace aux techniques  d alignement  des ressources   lectroniques en quantit   au traducteur  ou au terminologue  s en trouve compromis  N  anmoins des syst  mes  d identification automatique de corpus parall  les voient   galement le  jour  C est le cas de celui propos   par Patry et Langlais  2005  ou en   core par Enright et Kondrak  2007  qui utilisent pour l un quelques  connaissances lexicales et pour l autre des similitudes de r  partition     2 2 M  THODES D ALIGNEMENT ET HYPOTH  SE DE PARALL     LISME    2 2 1 Definition de l alignement    L alignement ou l appariement recouvre deux aspects   il s agit de  rep  rer les mots et expressions du texte source et du texte cible  puis de  les mettre en correspondance    Nous consid  rons pour notre part  comme le propose Kraif  2001    une distinction entre aligner et apparier  entre alignement et apparie   ment  Dans le cas d un alignement  nous dirons qu    une occurrence  d une unit   correspond une occurence d une autre unit   dans une autre  langue  il s agit d une correspondance observable en contexte  tandis  qu un appariement est une correspondance s  mantique fortement g  n   
186. ompanion Volume  Short Papers on XX   pages 29 32  Rochester  New York  2007  Association for Computatio   nal Linguistics  URL http    webdocs cs ualberta ca  kondrak   papers hlt07 pdf   Cit      la page 33      Tomaz ERJAVEC  Nancy IDE  Vladimir PETKEVIC  Jean VERONIS et Av  Ro   bert SCHUMAN   Multext East   Multilingual text tools and corpora  for central and eastern european languages  Technical Annex Cop  106  1995  URL http   citeseer ist psu edu viewdoc summary   doi 10 1 1 52 8485   Cit      la page 32      BIBLIOGRAPHIE    Christian FLUHR  F Bisson et F ELKATEB   Mutual benefit of sentence    word alignment and crosslingual information retrieval  In Parallel  text processing   Alignment and use of translation corpora  Dordrecht    Kluwer Academic Publishers  j  v  ronis  ed     dition  2000   Cit      la  page 42      Pascale FUNG et Kenneth Ward CHURCH   K vec   a new approach  for aligning parallel texts  In Proceedings of the 15th conference on  Computational linguistics   Volume 2  pages 1096 1102  Kyoto  Ja   pan  1994  Association for Computational Linguistics  URL http     portal acm org citation cfm id 991328   Cit   aux pages 36   41  43 et 69      Pascale Fung et Kathleen MckeownN   Aligning noisy parallel corpora  across language groups   Word pair feature matching by dynamic  time warping  In Proceedings of the First Conference of the Association  for Machine Translation in the Americas  81 88  pages 81   88  1994   URL http   citeseerx ist psu edu view
187. ondance de deux  zones de textes de deux langues diff  rentes     151    TABLE DES MATIERES    INTRODUCTION    I    1 OBSERVATIONS LINGUISTIQUES ET TRADUCTOLOGIQUES    2    3    DE L ETUDE DE CORPUS DE DOCUMENTS PARALLELES     L   TUDE DE COLLECTIONS DE MULTIDOCUMENTS    1 1 La traduction   une op  ration linguistique et humaine  1 2 Les traductions   des objets d   tude                 1 3 Des t  moins privil  gi  s de la vari  t   des langues         1 3 1 Au niveau morphologique                  1 3 2 Au niveau syntaxique                     1 3 3 Similitude et diff  rence d   ordre au niveau sous   PATASUQUE iue Saa ia k 240468 me    1 4 Les traductions   des   nonciations uniques            1 41 L implicite etl explicite                    142  Las ynon ME   u    eo 5 88 Ere  1 4 3 L anaphore                             19    1 4 4 Similitude et diff  rence d ordre au niveau sur phrastique    19  1 5 Contraintes   ditoriales                        1 6 Constat   l alignement automatique  un enjeu de taille       EXISTANT M  THODOLOGIQUE  2 1 Corpus parall  les et d  finitions du parall  lisme          2 1 1 D  finitions du parall  lisme                 2 1 2 Corpus parall  les                   o  2 2 M  thodes d alignement et hypoth  se de parall  lisme        2 2 1 D  finition del   alignement                 2 2 2 Hypothese de parall  lisme  de synchronicit             2 3 M  thodes d alignement   la circularit                 2 3 1 M  thodes d alignement de phrases   
188. ons de mise en forme mat  rielle et  de structure des documents     13 DES T  MOINS PRIVIL  GI  S DE LA VARI  T   DES LANGUES    Un rapide tour d horizon de traductions en langues europ  ennes t     moigne d  j   des principales diff  rences morphologiques et syntaxiques  que peuvent avoir des langues entre elles  et par l   d une part des difficul   t  s    traduire  mais   galement d autre part    mettre en place d   ventuelles  op  rations de r  tro ing  nierie sur des documents traduits  telles que  l alignement     131 Au niveau morphologique    Si    l   int  rieur d un document  par souci de coh  sion interne  un  terme est habituellement traduit au moyen du m  me   quivalent  il existe  des possibilit  s de variations morphologiques  Giguet  2005   entrainant  des d  calages d effectifs de ces   quivalents  Ce probl  me est particu   lierement pr  sent et g  nant dans les langues flexionnelles   et dans les  langues agglutinantes  qu elles englobent et qui d  clinent le groupe  nominal    Les langues suivantes d  clinent le groupe nominal   allemand  4  cas   finnois  15   grec  4   hongrois  18   letton  6   polonais  7   Le fin   nois et le hongrois utilisent un nombre important de cas  et n utilisent  donc pas  comme le francais par exemple  les adpositions  Le sens d une  preposition francaise est souvent traduit par un suffixe dans ces langues   que ce soit une d  sinence flexionnelle ou une postposition  qui se dis   tinguent mal  Cette grande diversit   de cas 
189. ons sur phrastiques  de m  me que les suppressions d url     S il n est pas toujours   vident de faire la part des choses entre libert    du traducteur et contraintes   ditoriales  nous pouvons n  anmoins faire  quelques remarques d ordre qualitatif sur les documents pr  sentant des  diff  rences d ordre dans le discours ou des diff  rences de contenu  des  suppressions  Il ressort de cette   tude que les inversions sont principale   ment d  es    des tris par ordre alphab  tique dans le texte ou    l int  rieur  de tableau  changeant ainsi l ordre des lignes de ces derniers   Le cas de  paragraphes invers  s a   galement   t   rencontr   sans pouvoir y relever  de raison apparente  Pour ce qui est des suppressions  nous avons pu  relever des cas de suppressions divers allant de la suppression de titres   de balises  de paragraphes  d annexes  de tableaux    la suppression de  l int  gralit   du corps de certains volets     125    126      VALUATION MANUELLE DU PARALL  LISME    COLLECTION    1  3  3  Transport  T  l  phone  Sant      SYNCHRONES    228  95 0096   223  92 92    201  83 7596   229  95 4296   220  91 67    231  91 67      ASYNCHRONES  AVEC INVERSION    5  2 0896   o  0 0096   14  5 8396   5  2 0896   5  2 0896   6  2 5096     ASYNCHRONES  AVEC SUPPRESSION    7  2 9296   17  7 0896   25  10 4296   8  3 3396   15  6 2596   3  1 2596     TABLEAU 43     tude quantitative des diff  rents ph  nom  nes r  pertori  s par  collection  une collection   240 bi documents    
190. ont explicitement mises en relation d   quivalence  traductionnelle en phrases ou en paragraphes  Certains d entres eux ont    t   partiellement align  s dans le cadre de campagne d   valuation        le Hansard est le premier et le plus connu des corpus paralleles   collect   par l IBM T J  Watson Research Center et Bell Commu   nications Research dans les ann  es 80  C est une sorte d   talon  pour l   valuation et la mise au point des syst  mes  Il s agit de  d  bats du parlement canadien disponibles en fran  ais et anglais   Des parties de ce corpus ont   t   utilis  es notamment par Gale  et Church  1993  ou encore Brown et al   1991   avant de servir  dans le cadre des deux campagnes d   valuation ARCADE 1  V  ro   nis et Langlais  1999  V  ronis  2000  et ARCADE 2  Chiao et al    2006   mais   galement dans le cadre du projet Portage  Sadat  et al   2006   Malheureusement ce corpus se trouve limit      un  seul genre et un seul couple de langues  ce qui ne le rend pas tr  s  repr  sentatif ni pour le couple frangais anglais ni a fortiori pour  les autres couples de langues       LeJRC ACQUIS Communautaire est disponible en 20 langues     Il comporte environ 800 textes incluant l ensemble des textes  et des trait  s qui constituent le socle l  gislatif de l UE  Ce corpus  parall  le multilingue a   t   collect   par l   quipe des technologies  du language du centre commun de recherche de le Commission  Europ  enne  JRC          le European Corpus Initiative de I Interna
191. ont synchrones dans chacune de nos deux s  ries de collections     Synchrones  collections 1 2 3 collections th  matiques    Obtenus 720   Attendus 652 678  Correctement 652 678   attribu  s    Pr  cision 90 56  94 17     Rappel 100  100     F mesure 95 0496 97 0096       TABLEAU 26     Mesures de pr  cision  rappel et F mesure sur les collections 1 2 3  etles collections th  matiques avec leur MFM suivant l hypoth  se  que tous les bi documents sont synchrones     Nos r  sultats sur les documents synchrones sont de 2    7  meilleurs  que les r  sultats obtenus par cette m  thode baseline     Comparaison avec le mod  le    synchrone par d  faut       Le tableau 27 donne    titre comparatif les r  sultats par rapport    une  m  thode consid  rant par d  faut Vergne et Giguet  1998  que les docu   ments parall  les sont synchrones dans chacune de nos deux s  ries de  collections  Ainsi  le nombre de bi documents synchrones correspond    73   VALUATION ET DISCUSSION DES R  SULTATS 101       la somme des documents que nous avons d  finis comme   tant syn   chrones et des bi documents non diagnostiqu  s par nos deux m  thodes  dans chacune des deux s  ries de collections     Collections 1 2 3 Collections th  matiques  Petit Angle Grand Angle Total Petit Angle Grand Angle Total    Obtenus 656 333 985  Attendus 652  652  678 1356   Correctement 609 392 326 947  attribu  s    Pr  cision 92 8496 98 0096 94 7996 95 25  97 90  96 14     Rappel 93 40  60 12  76 76  91 59  48 08  69 84   
192. orsso1ddns   sa  UIOpI   uo   W9PI    9   W9PI   1    Tunu s  sr eq op 31195 sun p uorssarddns   ep    ug e  e Juny sesr eq sanbjanb op uorssouddns   1j    map   map   ep   Mapa  topi  S 9 0A T SO  suep sTejsue uo neo qej    sped    JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  uorsso1ddns  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  uorssa1ddns  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  uorsso1ddns  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  uorssa1ddns  uorsso1ddns  uorsso1ddns  uorsso1ddns  uorsso1ddns  JUOIYIU  S  uorssa1ddns  ouoigou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S      nsouSerq    y  17 89  1J uo  i e  1    P  SP ep  y  17 89  1J uo  i e  EPP    9p ep  y  17 89  1J uo  i e  122   pep  IT  1J S    1J uo  i e  1    P    9p ep  IU  17 89  1J uo  i e  1    P  PP  y  17 89  1J uo  i e  17 9P  SP EP  IT  1J S    1J uo  i e  1    P  Pr   y  17 89  1J uo  i e  1    P  PR    Pd    ITTI 90 d1    OF lt I 9O dI    8Z1 80 gdI    VTET 8O d     OIII g0 d     1 6  0 dI    S91 ZO gI    8001 90 q       nbrunurtuto5    JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  ouoi1qou  
193. peut opposer    cette unit   d information  un manque d ergonomie interpr  tative  celle ci pr  sente n  anmoins  plusieurs avantages       elle permet de capturer par le m  me m  canisme   des expressions   fig  es  des racines de mots  des indices de formes      elle est ind  pendante de la langue  elle permet donc de couvrir   un large   ventail de langues sans module sp  cifique         statistiquement comparables  elle permet de calculer des fr  quences   d apparition et d estimer leur distribution et la r  gularit   avec    56    NOS CONCEPTS    laquelle plusieurs unit  s co occurentes dans les m  mes parties  du texte       elle est facile    rep  rer sur le plan informatique    La notion de N grammes de caract  res est d  j   utilis  e pour l identifi   cation d auteurs  Jardino  2006   l identification de la langue  Dunning   1994   l analyse de l oral  la cat  gorisation de textes  Damashek  1995    la classification num  rique multilingue de documents  Biskri et De   lisle  2001  ou encore la recherche d informations  Majumder et al    2002  Mcnamee et Mayfield  2004   Cependant     notre connaissance   il n existe qu une tentative de Cromi  res  2006  pour appliquer une  telle m  thode    l alignement multilingue  Cromieres r  alise un aligne   ment sous phrastique par calcul de coefficients de corr  lation entre des  N grammes de caracteres  Si  dans les applications de TAL   voqu  es  ci dessus  les n grammes de caract  res ont un nombre de caract  res  constant
194. phe  la phrase  la proposition  le terme  le  mot  ou encore le caract  re       Nous adh  rons    cette d  finition multilingue et multi  chelle d un  systeme d alignement id  al  Cependant nous devons noter que cette d  fi   nition tr  s g  n  rique ne correspond pas    celle utilis  e par les diff  rentes  approches de l   tat de l art  tant du point de vue des corpus utilis  s  il  s agit le plus souvent de phrases  que des unit  s qu elle souhaite aligner   Les m  thodes existantes tiennent pour vraie une hypoth  se de parall     lisme ou de synchronicit   trop contraignante y compris dans le cadre de  corpus paralleles  de documents traductions  Elles pr  supposent en effet  que tout est l   et ou tout est dans le m  me ordre     2 2 2 Hypothese de parall  lisme  de synchronicit       L hypoth  se de parall  lisme est largement exploit  e par les sys   temes d alignement qu ils soient sous  ou sur phrastiques  Les fonctions  d alignement pour maximiser leur r  sultat pr  supposent un parall     lisme fort  On suppose que l ordre des unit  s textuelles    aligner est le  m  me  ou presque     tous les volets du corpus et ce d autant plus que  l on a    faire a des unit  s supra phrastiques  Derri  re cette hypothese   on trouve deux pr  suppos  s expos  s par Lang   et Gaussier  1995   celui  de quasi synchronisation et celui de quasi bijection d  finis comme suit       quasi bijection   toute phrase source a en g  n  ral un correspon   dant dans le texte cible  et r  ci
195. prises tr  s au s  rieux et servir  d aiguillon    l acc  l  ration des r  formes  si la Bulgarie et  la Roumanie d  sirent   tre au rendez vous de l adh  sion au  1 lt sup gt er lt  sup gt  janvier 2007       p     p   La Commission  confirme que la Bulgarie et la Roumanie remplissent les crit  res  politiques d adh  sion  N  anmoins  des efforts suppl  mentaires  doivent   tre consentis  en vue notamment de renforcer l   tat  de droit  en am  liorant la fonction publique et le syst  me judi   ciaire et en luttant efficacement contre la corruption     p     p    La Bulgarie et la Roumanie satisfont    l obligation d   tre une    conomie de march   viable  Si la Bulgarie maintient le rythme  actuel de son processus de r  forme et si la Roumanie poursuit  avec autant de vigueur la mise en ceuvre de son programme de  r  formes structurelles  les deux pays devraient   tre en mesure  de faire face    la pression concurrentielle et aux forces du mar   ch      l   int  rieur de l   Union   lt  p gt   lt p gt  Ils ont continu      progres   ser dans l adoption et la mise en   uvre de la l  gislation de l UE  et sont bien avanc  s dans la     et sont bien avanc  s dans la plupart des domaines  Toutefois  la   des domaines  Toutefois  la    ons dans ces domaines particuliers d ici au 1 lt sup gt er lt  sup gt   janvier 2007     p     p   L an prochain  dans le courant des  mois d avril et mai  la Commission fera le point sur la si   tuation  Elle pourrait alors recommander  si n  cess
196. proquement  Dans ce sens  Debili  et Sammouda  1992  utilisent la notion de proximit   de taille       quasi synchronisation ou quasi monotonie   la s  quence des  phrases sources doit suivre     quelques variations locales pr  s   la s  quence des phrases cibles correspondantes  Dans ce sens   Debili et Sammouda  1992  utilisent la notion de proximit   de  rang  Cette hypothese de la conservation de la s  quentialit   des  id  es dans le processus de traduction pr  suppose deux choses   la    5  Appariement est ici pris au sens d alignement  la distinction de Kraif n ayant    t   introduite qu en 2001     2 2 M  THODES D ALIGNEMENT ET HYPOTH  SE DE PARALL  LISME    premi  re  plus on descend dans l   chelle  plus il y a de d  sordre  et la deuxi  me la phrase est la plus petite unit   dont l ordre sera  presque toujours maintenu   Si ces pr  suppos  s sont v  rifi  s et que l hypoth  se de parall  lisme est  pleinement valid  e  l alignement peut   tre illustr   comme sur la figure  10      Volet   Volet 2    2       Volet              FIGURE 10   Illustration du parall  lisme    l int  rieur d un bi texte  compos    de deux volets  respectivement en langue 1 et en langue 2     Le tour d horizon des m  thodes existantes  que nous faisons par la  suite  montre que l alignement de phrases  comme l alignement sous   phrastique peut   tre consid  r   comme r  solu lorsque les traductions  remplissent effectivement ces hypoth  ses  Cependant ces contraintes de  quasi synchronisat
197. r  p  t    nous consid  rons que la premi  re  occurrence d un N gramme de caract  res en langue Li appari   grace     la collection    un N gramme de caract  re de la langue 2 est align   avec  la premiere occurrence de ce dernier dans la multizone et le deuxi  me  avec le deuxi  me    Ainsi nous regroupons dans un m  me corpus  les multidocuments  synchrones et les multizones des documents asynchrones align  es pour  calculer l alignement intra multizones  Dans cette derni  re  nous pour   rons pr  supposer le parall  lisme puisque celui ci aura   t   mesur       l   tape pr  c  dente     cette   tape  l espace de recherche se situe autour de  la diagonale  Des strat  gies devront   tre pr  vues pour aligner au mieux  les zones r  siduelles des multidocuments asynchrones  i e  les zones  n ayant pu faire l objet d un alignement par manque d information sur  leur contenu ou par absence d   quivalent  De fa  on g  n  rale  le diagnos   tic devra pouvoir identifier le type exact de structure auquel correspond  la traduction     Dans ce chapitre 5  nous avons pr  sent   les principes d une m  thode  descendante sans pr  suppos   de parall  lisme  Cette m  thode propose un  relachement des contraintes de parall  lisme et vise    diagnostiquer en  contexte les zones    l int  rieur desquelles le parall  lisme existe     Troisieme partie    MISE EN CEUVRE  ILLUSTRATIONS     VALUATION    MISE EN CEUVRE    r Es travaux de mise en   uvre pr  sent  s dans ce chapitre sont le fruit  L 
198. r document et la somme des effectifs des deux  N grammes dans la collection de bi documents dans ces langues     Y qoc ef f ectif  sy  volet      ef fectif  s2  voletn    ef fectif_corpus s     effectif corpus sz     distancell s s2       Ce calcul de distance g  n  re des appariements entre deux popula   tions de N grammes de caract  res avec une distance situ  e entre o et 1     2  Dans nos exp  riences  nous avons essay   plusieurs tailles de fen  tres diff  rentes   typiquement entre 100 et 10000  Plus la collection est grande  plus la fen  tre doit l   tre  aussi  afin d   tre s  re de comparer les N grammes d effectifs proches  Plus on arrive  dans les faibles effectifs  plus il y a de candidats    comparer  Pour une collection de 40  multidocuments  une fen  tre de 40 suffit     6 1 APPARIEMENT ENDOGENE DE POPULATIONS    Les meilleurs appariements ont une distance de o  Cette distance fait  l hypoth  se que certains termes sont globalement traduits de la m  me  mani  re au travers des documents en relation de traduction et qu ils ont  donc une r  partition analogue calculable  Cette distance ne prend en  consid  ration les positions des individus qu en terme de pr  sence ab   sence dans les diff  rents volets  Plus pr  cis  ment nous comparons des  populations via leur vecteur d effectifs par volet dans chaque langue   sans tenir compte des positions des individus    l int  rieur des volets 3   Les deux propri  t  s principales de cette distance sont donc de      calcu
199. raitement type singulier pluriel suffisant dans le cas de la flexion de    72    UNE M  THODE TEXTUELLE GUID  E PAR LE MOD  LE     gt  1   gt  Z       A Y  transport     transports   toutes les   quivalences ne pourraient pas   tre r       v  l  es  c   est le cas notamment de la d  rivation  d  velopper     d  veloppement   cf    galement tableau 12   L usage dans ces cas est de faire appel    des  dictionnaires  mais ceci a un co  t  en termes de construction  de main   tenance et donc d extension du syst  me    de nouvelles langues  auquel  l extraction de N grammes de caract  res n est pas soumise     5 3 2 Capacit   des N grammes de caract  res    mettre en   vidence des  correspondances multilingues    Le probl  me de l alignement multilingue est un probl  me de simila   rit  s et de diff  rences de sens  graphie et r  partition  Les facteurs com   muns monolingues  d ordre graphique  pr  c  demment r  v  l  s  mettent  en   vidence des segments de textes s  mantiquement proches  Celles   ci peuvent    leur tour servir    r  v  ler des similarit  s multilingues de  r  partition  Entre deux langues  des formes diff  rentes mais s  mantique   ment   quivalentes ont des r  partitions semblables entre deux documents  traductions l un delautre    Entre deux documents traductions l un de l autre  l   cart entre les  effectifs de N grammes de caract  res s  mantiquement   quivalents est  inf  rieur    l   cart entre les effectifs des N grammes de mots graphiques  s  mantiqueme
200. ration d une ligne de matrice     Les matrices pr  sentent donc diff  rents niveaux de gris  Une simila   rit   maximale est repr  sent  e par un pixel noir  Plus un pixel est blanc   plus les segments associ  s sont diff  rents suivant notre fonction de simi   larit      Ainsi  si deux documents sont traduits de facon globalement litt  rale   alors une diagonale se dessine de l angle sup  rieur gauche    l angle  inf  rieur droit de la matrice  Une diagonale bris  e signifie au contraire  l existence d inversions dans l ordre de la traduction    Ainsi  la question qui subsiste est celle de la d  tection automatique  des segments de droites autrement dit des multizones que nous obser   vons sur ces matrices  Nous pr  sentons dans la section 6 2 2 les   tapes  du traitement r  alis   sur ces images     6 2 2 Detection des multizones    partir des matrices    Le probl  me de la d  tection des multizones  en l occurrence ici  des bizones entre deux volets  est d  sormais ramen      un probl  me de  traitement d image et plus pr  cis  ment de d  tection de segments de  droites     6 2 APPARIEMENT ET ALIGNEMENT DE ZONES    Les outils dont nous nous servons pour traiter les images font appel       la suite d outils Pandore 5    labor  e au sein de l   quipe Image du labo   ratoire GREYC de l Universit   de Caen  Ils ont   t   d  velopp  s par R  gis  Clouard  En collaboration avec lui  nous les avons utilis  s sur nos objets     Les   tapes de lecture des matrices g  n  r  es    pa
201. ration que comme produit  Parmi la vari  t   des ph  no   menes linguistiques  ce chapitre a port   sur ceux concernant les niveaux  morphologiques  syntaxiques et textuels  Les conclusions de ce chapitre  sont que      au niveau sous phrastique  l ordre des constituants d  pend prin   cipalement des langues en pr  sence  Bien que l ordre des mots n y  soit pas toujours pr  serv    il arrive n  anmoins que dans certains  cas il le soit      au niveau sur phrastique  l ordre du discours d  pend principa   lement de choix du traducteur et bien que l ordre du texte en  langue cible soit g  n  ralement le m  me que celui du texte en  langue source  certaines contraintes peuvent engendrer des inver   sions  des suppressions ou des reformulations    Nous retenons donc comme observation principale de ce premier   chapitre qu au niveau sur phrastique comme au niveau sous phrastique   on ne peut pr  supposer ni de similitudes  ni de diff  rences d ordre     Dans le chapitre 2  nous faisons le tour des diff  rentes approches propo   s  es    ce jour pour traiter ce mat  riau complexe que sont les traductions    corpus  concepts  indices  approches du point de vue grain analys   grain  align    Nous aurons un int  r  t particulier pour la facon dont elles prennent  en charge les diff  rences et les similitudes d ordre au niveau sur  et sous   phrastique  Apr  s avoir tir   les constats qui s imposent nous pr  senterons  dans le chapitre 3 les grandes lignes de notre approche et le corpu
202. ravers des volets fran  ais et anglais du communiqu    IP 05 1157 pr  sent  es dans la figure 6  page 22  La figure 15c pr  sente  trois cas de suppressions respectivement au d  but  au milieu et    la fin   comme nous avons pu l observer    travers l exemple du communiqu    IP 05 473 pr  sent   dans la figure 8  page 25    Ces figures correspondent    un attendu observable et d  finissable     l oeil nu  Dans nos exp  riences  nous   tablissons un diagnostic automa   tique d  finissant si les multidocuments sont   synchrones  asynchrones  ou si le diagnostic n est pas   tabli      ind  fini     Le diagnostic ind  fini  est un diagnostic interm  diaire donnant lieu    un nouveau traitement  automatique du multidocument  Il pourra par exemple   tre plong   dans  une nouvelle collection plus grande ou de documents th  matiquement  proches ou en cas d   chec donner lieu    une observation manuelle  Il  pourrait s av  rer que des documents identifi  s comme traductions via  leur url nele soit pas en r  alit    Une fois le diagnostic pos    nous r  p  tons    5 2 ALIGNEMENT DE ZONES 65    Volet 1    Volet 2        a  Deux volets synchrones       b   j                       w        b  Mod  les d inversions globale     gauche  et locale      droite          c  Modeles de suppressions respectivement situ  es au d  but  au milieu  et   la fin  de gauche    droite      FIGURE 15   Mod  les des diff  rents types d alignement de zones     les m  mes op  rations sur les multizones ainsi 
203. re  xd  2p ep  FT  1J S    1J ua  ire  179P  9p ep  FT  1J S    1J U3  ire  1 J   P  PR  13 13  1J S    1J U3  ire  el  pe   FT  1J S    1J U3  ire  Dep    9p ep  IT  1J S    1J ua  ire  PP  Per  FT  1J S    1J ua  ire  1 J   P  SB  HT  1J S    1J U3  ire  179P  SEED    Pd    ISYI SO dI    cvv 1 So g     9   bT SO AI    gTHT SO AI    6Z11 S0o gI    IZII SO gI        c1 So gI    SSTI SO qI    Z6or So dI    Vcct1 So gI    anbrunuruio      JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  ouoi1qou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  ouoi1qou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S      nsouSer     FU  1J S    1J U3  i e  9p  AP EP  y  17 89  1J uo  i e  1    P  PP  JU  17 89  1J uo  i e  1J 3P    9p ep  y  17 89  1J uo  i e  Jp  ep Ep  y  1J S    Ij ua  i e  Hep  ap ep  IU  17 89  1J uo  i e  Ap  3p ep  y  1J S    1J U3  i e  sp  ap ep  y  17 89  1J uo  i e  1J 3P    9p ep  y  17 89  1J uo  i e  dep  PP  J g  1J 
204. re de transfert  extrait automatiquement   fr  quence des sch  mas  de traduction  1 1 1 2        N  anmoins  si ces similitudes sont fr  quentes entre les langues indo   europ  ennes  elles s av  rent plus rares et insuffisantes entre les langues  de diff  rentes familles  indo europ  ennes et asiatiques par exemple      Les similitudes de distribution    Kay et R  scheisen  1993  s inspirent dela technique d   ancrage lexical   Pour cela  ils utilisent d une part des dictionnaires bilingues et d autre  part ils proc  dent    un rep  rage des cognats grace au coefficient de  Dice  Leur modele est bas   non seulement sur la correspondance phra   se phrase mais aussi mot mot  Selon Kay et R  scheisen  pour que les  phrases d une langue soient align  es  il faut que les mots de ces phrases  soient plus ou moins en correspondance  M  me si l alignement de ces  mots est imparfait  c est un bon point de d  part    l alignement de phrases   Il faut donc comme point de d  part trouver des phrases qui fassent of   fice de point d ancrage aux autres   les meilleures candidates sont les  premi  res et derni  res phrases  les plus susceptibles d     tre effectivement  align  es  La distribution des mots de cet ensemble de deux phrases est  pris comme point de d  part  on fait l hypoth  se que si ces distributions  sont similaires au del   d un certain seuil pour un couple de mots donn     ces mots ont de bonnes chances d   tre en relation de traduction  Ces  mots font office de point d 
205. rmat qui ne permet pas d   tablir des correspondances directes   N  anmoins  il y a suffisamment d information pour mettre en  correspondance les diff  rentes parties de ces textes    Exemple   deux versions d un m  me trait   dans deux langues    diff  rentes     Dans les formations de traduction  Hartmann  1980  et Spillner   1981  ont d  fini les textes parall  les comme   tant des documents au   thentiques  i e  non traduits  des textes choisis dans le r  pertoire du  texte cible de la culture  car ils repr  sentent le genre auquel le texte cible  devrait appartenir  Nord  2010   Cette utilisation renvoit    la notion  d intertextualit   qui reconnait dans tout texte la pr  sence d autres textes   par le biais par exemple de la citation  de l allusion  du plagiat  de la  r  f  rence et du lien hypertexte  c est    dire de fa  on plus ou moins ex   plicite pour le lecteur  Les documents auxiliaires utilis  s en traduction    2 4 CORPUS PARALLELES ET D  FINITIONS DU PARALL  LISME    couvrent les trois premiers types de parall  lisme vu pr  c  demment    explicite  fonctionnel et latent    L   cole Coseriu de la linguistique contrastive favorise la derni  re  acceptation du terme parall  le  l  implicite  Elle a utilis   les originaux et  leurs traductions comme    textes parall  les    pour l analyse des sources  et l utilisation de la langue cible  faisant valoir qu eu   gard aux fonctions  de communication   nonc  es par Jakobson  il n existe pas de textes aussi     paral
206. rn  es vers de l alignement d unit  s sous phrasti   ques  Cependant l alignement de phrases a des limites importantes  comme en t  moigne la campagne d   valuation ARCADE 1  V  ronis  et Langlais  1999  r  v  lant les meilleurs r  sultats sur le corpus JOC    corpus marqu   en paragraphes et divisions  pas d interpr  tation dans  la traduction  sch  ma le plus g  n  ralement  1  1    et les pires r  sultats  sur le corpus VERNE  il    recueille       les plus mauvais r  sultats         c est sur ce corpus que les syst  mes pr  sentent des performances les  plus disparates  de 2296    9096 de pr  cision au niveau des caract  res    Ces mauvais r  sultats s expliquent par la nature litt  raire du corpus  qui  contient beaucoup moins d alignements  1 1  que les autres  7596 seule   ment   De plus la version anglaise est abr  g  e et pr  sente des omissions  par rapport    la version francaise ce qui conduit    des  lt  d  crochements  gt   des syst  mes       Les m  thodes sous phrastiques reposant largement sur l hypoth  se  que ce pr  traitement est correctement r  alis    subissent des d  gradations  de r  sultats lorsque ce n est pas le cas  cf ARCADE 2  Chiao et al   2006   et autres   valuations      2 3    M  thodes d alignement sous phrastique    Les m  thodes d alignement sous phrastique prennent  pour la plu   part  en entr  e  un corpus de phrases pr  alablement align  es  Leurs  r  sultats sont donc largement d  pendant de la qualit   de cet aligne   ment de phrases
207. rouver l information utile le dossier de traduction    EURAMIS  NOTE DANS DOSSIER MANAGER    Le chef de l unit   de traduction  recoit la demande    Le traducteur cr  e le fichier de traduction    DOSSIER MANAGER  DGTWista    Euramis  Le traducteur traduit le document  EUA Lex    Un autre traducteur r  vise le document    WORD    LATE    TACE    Le secr  tariat sort le document    SUIVI    Le document est archiv    DOSSIER MANAGER       FIGURE 7   Cycle de la traduction    la Commission europ  enne     Les besoins en traduction am  nent des contraintes  notamment de  rapidit    Les services de traduction doivent r  pondre au mieux aux de   mandes de traductions  N  anmoins  les conditions ne sont pas toujours  r  unies  selon le couple de langues notamment  le systeme de Traduc   tion Automatique de la Commission Europ  enne  TACE  ne couvre que  18 couples de langues  et ces couples ne recouvrent que 7 langues   et  les traducteurs sur certains couples de langues ne sont pas l  gion  Ces  contraintes structurelles donnent lieu    des choix  tel que celui pr  sent    dans la figure 8 dans lequel la zone de texte commengant par    Next    24    OBSERVATIONS LINGUISTIQUES ET TRADUCTOLOGIQUES    steps    en anglais n a   t   traduite dans aucune des autres langues dans  lesquelles ce document est disponible  20 volets en tout      1 6 CONSTAT   L ALIGNEMENT AUTOMATIQUE  UN ENJEU DE  TAILLE    Nous avons fait ici l illustration de la complexit   de la traduction   tant comme op  
208. rtir de la phase    d appariement sont les suivantes      1     s  lection des points de l image initiale qui peuvent entrer dans  la composition d une diagonale  La s  lection des points d int  r  t  utilis  s pour d  tecter les lignes utilise un seuillage fixe  Un seuil  fixe est possible ici  car les images sont des images artificielles  La  valeur seuil a   t   fix  e de facon empirique    celui le plus proche de  la perception humaine  Les niveaux de gris vont de o    255  nous  ne conservons que ceux au dessus de 127  Il reste ici beaucoup de  points candidats        utilisation de la transform  e de Hough qui retourne la droite qui    contient le plus de points de l image pr  c  dente     dilatation de cette droite pour avoir une   paisseur de 3 pixels  soit  3 segments de documents afin de palier les micro d  crochements  de diagonale     filtrage des points de l image initiale pour ne garder que les points  sous la droite dilat  e        mise en relation des points qui ont une distance inf  rieure    une    distance minimum donn  e en param  tre pour construire le plus  grand segment de droite possible     conservation du segment de droite le plus long     suppression des points de l image de points candidats  qui sont  couverts par ce segment  On emp  che ainsi que ces points entrent  en jeu dans une autre diagonale  Nous souhaitons de cette facon  obtenir le meilleur recouvrement des zones  Celui dans lequel il  n y a pas de recouvrement des segments et donc des pr
209. s      us a nn    re   Tee a np m Bem  Fa  tuve RR   i       IP o7 1008 fi fr    TABLEAU 30   Les 7 bi documents asynchrones avec inversion correctement  attribu  s sur les collections 1 2 3 avec la m  thode Grand Angle   voir tableau 24      7 3   VALUATION            gt    Meg na E   4E CO P xo a    V  A      s  is     E YT Ew    f a A         5 ty IT b E  i k d     I E   E E PE LR  a   1  zn i       ul  y  w    x sa  a a e  yt     y LR     w     UN   mn                    E n 4 E u  p       DOR EOM Eus OX B sd e E E ae        Pa nm         am        u   H  lt     Ay Mi DR IE  Ey Gu S  ET is s Pure E EE  LE     r  c T   z   tu   t t F i QM         a  z Die cH F   z SIM  N  not   t       a   at nn     ipa        E TP      r UM A   m D 1 r m p  F y n n F    T NC m nn     E a a    Jo   EUM LM a I   x  US     2 T EM US     e H a E    d ta 4           nm FL o  d o7 Ey   r       E   LI      E    Da 1         1              A       f   s   na    m f  a F LE ELE              L      s a               L    Rui o  _ _    KI  MX  IP 05 1344 da de IP 05 1344 es fr  k   i ES   i iS   NN a a LI  ma   a Li LI LI LEM      m         E    T T m m  a H x   an  o  a   Sy m  a  a   C   E v ua                 amp  QU a a4  amp    a n ot a a4      pa     o sa    a oe Ra e 2  dtm I I nor 1 P ior For gg     H 1  I 1 i    Hl     H 1    I     4 I  1    Es 1  M          E I P P L HI V   i    I P   L s  og  Du     i od  vi   we   F      i CES  E    gt             u r  E      r  E oU   Z   m   Cy       L
210. s    droite  symbolisent des textes en relation avec les textes source et cible    articles  romans         dutype de document      On ne traduit pas de la m  me facon un  bulletin m  t  o  une d  p  che diplomatique ou un texte litt  raire   Parmi ces derniers  on n assimilera pas la traduction d un roman     celle d une po  sie  dont il convient de rendre avant tout la  musicalit    ou celle d une piece de th  atre  dont il importe de    OBSERVATIONS LINGUISTIQUES ET TRADUCTOLOGIQUES    restituer l efficacit   sc  nique et le rythme des dialogues     Ost   2009  p 227        des outils    disposition   dictionnaires monolingues et bilingues   des documents auxiliaires   parall  les ou comparables  voir cha        pitre 2      Tools  Texts Persons Objects  j    Auxiliary Texts Reference Works Laypersons colleagues experts  I    aa  Previous background parallel atlases manuals chronicles  lexicographical user designed  translations texts texts sources glossaries etc   model texts dictionaries encyclopaedias    FIGURE 2   Les outils du traducteur  Nord  2002     La probl  matique de la traduction est donc    aussi vaste que le  langage lui m  me     c est donc naturellement que les traductions sont  devenues des objets d   tudes    part enti  re et qu une science proposant  d en faire l   tude est n  e dans les ann  es 60     12 LES TRADUCTIONS   DES OBJETS D ETUDE    La traductologie  translatology  Harris  1988   est le nom donn   par  Harris en 1973 a la m  ta op  ration d 
211. s    transport        sant      et    t  l  phone    ont    t   constitu  es en exploitant des expressions r  guli  res sur les  mots des th  mes voulus en fran  ais     Les collections 1  2 et 3 ont   t   trait  es avec et sans leur mise en  forme mat  rielle afin de mesurer l impact de la mise en forme sur nos    2  http   europa eu rapid pressReleasesAction do reference IP 05   182 amp format HTML amp aged 1 amp language EN amp guiLanguage en    72 R  PARTITIONS DES DIFF  RENTS DIAGNOSTICS SUR LES COLLECTIONS 97    r  sultats  Une synth  se des r  sultats sur les 6 collections est pr  sent  e  dans le tableau 23    Les diagnostics sont bilingues  Ils sont r  alis  s sur les couples de  langues suivants   fr de  fr el  fr en  fr es  fr fi et de da  Ces couples  nous permettent de constater l impact de la proximit   des langues sur le  diagnostic  Ainsi pour chaque collection  nous obtenons 240 matrices    6 couples x 40 mds    Chaque collection a   t   analys  e avec les deux m  thodes      Petit  angle    et    Grand angle     Ainsi 1440 correspond au total des collections  1  2 et 3  soit 240 matrices x 3 collections x 2 m  thodes     72 2 Synth  se des r  sultats sur notre corpus d   valuation    Une synth  se des r  sultats obtenus en mati  re de diagnostic de  synchronicit   des multidocuments est pr  sent  e dans le tableau 23  Ce  tableau pr  sente les r  sultats obtenus par chacune des deux m  thodes  Petit Angle et Grand Angle sur l ensemble des collections  Ceci p
212. s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  ouoi1qou  s  ouoi1qou  s  JUOIYIU  S  ouoi1qou  s  ouo1qou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S      nsouSerq    J g  1J S    1J uo  i e  Sp  BPSEP  Y  17 89  1J uo  i e  Sp  Bp ep  y  17 89  1J uo  i e  9p  ep EP  J g  17 89  1J uo  i e  9p  Per  y  17 89  1J uo  i e  1    P    9p ep  y  17 89  1J uo  i e  1    P    9p ep  Y  17 89  1J uo  i e  ISP  per  J g  1J S    1J uo  i e  dp  Pep    Pd    VZTI 90 GI    6v11 90 gI    9ET1 90 d1    S  T 90 GI      v    1 00 gI    OO  T 90 I    6171 90 41    t  or 90 gI    anbrunururo      JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  ouoi1qou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S      nsouSer q    Y  17 89  1J uo  i e  17 9P  p ep  17 1  17 89  1J uo  i e  1J 3P  9p ep  Jr g  17 89  1J uo  i e  Feb  3p ep  y  17 89  1J uo 
213. s  dans tel document en fran  ais et n fois dans tel autre document fran  ais  et ne l est pas dans tel autre    L analyse de chacun des multidocuments de la collection est faite  avec l aide d une collection de multidocuments  tir  e du corpus  voir  section 3 3   Consid  rons une collection de quatre multidocuments  Md     Md2  Md3 et Md4  en deux langues  h et 12  et la r  partition sur la  collection de trois individus  un en langue 1 et les autre en langue 2       Individus Effectifs par document  Mdi Md2 Md  Md4    Individu    4 6 12 1  Individu    4 7 10 1  Individu    4 3 20 O    TABLEAU 11   Vecteurs d effectifs par document de trois individus dans une  collection de multidocuments    En ne consid  rant pas les positions des individus    l int  rieur des  volets des multidocuments de la collection  nous parvenons n  anmoins     r  v  ler des similitudes entre eux et    les aligner sans imposer le parall     lisme entre ces volets   l    Individu    gt  pr  sente davantage de similitude  de r  partition sur la collection avec le premier  lt  Individu     gt  qu avec le  second  lt  Individu    gt     En amont du processus d alignement  la collection nous sert   ga   lement    d  limiter et s  lectionner les chaines de caract  res pr  sentant  un int  r  t pour l appariement  Notre crit  re de d  limitation des chaines    tant la r  p  tition  nous nous servons de la collection pour la favoriser   Ainsi nous ne conservons que les chaines de caract  res d au moins deux 
214. s  feq ap uorsso1ddns   uo   lt     awupupn  gt  sosi eq op uorsso1ddns    o   lt    2U4DUD  gt  sos  feq op uorsso1ddns   ap    lt   2v  gt  sosi eq op uorsso1ddns   ep   ap   s  oop sop    T ne sjo oA xnop so  suep s  nbnu  pi  lt  t  auyn  gt  sost eq op 31198  s  oop sop    T ne sjo oA xnop so  suep s  nbnu  pir  lt      auyn  gt  sost eq op 31198  s  oop sop    T ne sjo oA xnop so  suep sanbryuapt  lt       auyn  gt  sost eq op IFS  s  oop sop    T ne sjo oA xnop so  suep sanbryuapi  lt      f 241 v  gt  sost eq op 31198  s  oop sop    T ne sjo oA xnop so  suep s  nbnu  pir  lt      f 241 v  gt  sost eq op 31198  s  oop sop    T ne sjo oA xnop so  suep s  nbnu  pir  lt     f91YD  gt  sost eq op 31198  stej3ue uo soxouue xneo qej   stej3ue uo soxouue xneo qej   stej3ue uo soxouue xneo qej   stej3ue uo soxouue xneo qej   stej3ue uo soxouue xneo qej   stej3ue uo soxouue xneo qej    sera   nsougerq   Pa   anbrunururo       a      uorssa1ddns  uorssa1ddns  uorssa1ddns  uorssa1ddns  uorssa1ddns  uorssa1ddns  ouoiqou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S      nsouSer     y  1J S    1J uo  i e  ap  9p ep  1J   17 89  1J uo  i e  T 9p  2P EP  y  1J S    1J uo  i e  Ti 9p  9p ep    Pa    U9 IJ oXouue   IJ    Ud IJ oxouue   JJ   u   s   oxouue    ousedsa Jo 0A np ul e  e uorsso1ddns   U3 1J oxouue   JJ   Je u   9XJUUP    9  U3 1J oxouue   IJ   U3 1J oxouue   JJ   6  1  0 qI u   ep oxouu
215. s  quand une  suppression de zone de textes intervient ou que les paragraphes sont tri  s  par ordre alphab  tique  figure 13   Ceci constitue un obstacle majeur aux  m  thodes d alignement qui reposent sur une hypoth  se de parall  lisme  et qui traitent comme objet de d  part des documents traduits dans leur   int  gralit    Nos travaux s orientent vers la d  limitation automatique de  ce grain interm  diaire  entre le document et les unit  s sous phrastiques   grain d  fini en contexte dans un traitement bilingue et non de facon  ad hoc  Cette bi zone est constitu  e de deux zones  une dans chaque  langue  elles m  mes constitu  es de caract  res pouvant recouvrir plu   sieurs r  alit  s en contexte   du document    la chaine de caract  res en  passant par le paragraphe  la phrase  la proposition  l expression ou le    4 5 LES MULTIZONES    mot  Une bi zone est donc le r  sultat de la mise en correspondance de  deux zones de textes de deux langues diff  rentes  Deux zones seront  align  es si elles r  v  lent un maximum de liens  autrement dit si elles  maximisent le parall  lisme     Nous avons pr  sent   dans ce chapitre les concepts originaux    la base  de notre m  thode r  solument orient  e analyse textuelle   le multidocument   la collection de multidocument  le document et sa mise en forme mat  rielle   les chaines de caract  res r  p  t  es de longueur maximale et les multizones   Nous pr  sentons dans le chapitre 5 l exploitation que nous en faisons dans  notre m
216. s av  rer une grande source de connaissances sur les langues  en pr  sence   lexicales  syntaxiques      Les organisations ayant un rayonnement international proposent  des informations en diff  rentes versions linguistiques   documentation  technique  texte r  glementaire  document contractuel  information com   merciale  communiqu   de presse    Des op  rations de r  tro ing  nierie sur ces documents peuvent ap   porter une aide tant en amont du processus de traduction qu en aval   En amont  elles participent    la cr  ation d outils d aides    la traduction    ressources dictionnairiques  terminologiques  m  moires de traduction   En aval  elles peuvent s av  rer utiles pour contr  ler a posteriori la tra   duction  voire le cas   ch  ant pour orienter une r  vision de la traduction  en mettant par exemple en lumi  re certaines divergences entre le texte  source et le texte cible  Ces outils visent    augmenter la productivit    de traducteurs humains  Cela est rendu possible par la croissance des  capacit  s de calcul des ordinateurs  Ces traductions d une m  me infor   mation font depuis plusieurs ann  es l objet de recherches en Traitement  Automatique des Langues  L informatique alli  e    la linguistique de  corpus offrent un nouveau regard sur ce mat  riau linguistique    Les techniques qui permettent la mise en correspondance de zones  s  mantiquement   quivalentes  sont des techniques dites d alignement   Les correspondances s  mantiques peuvent   tre faites    plu
217. s d  fini a priori  ce sont g  n  ralement des bi grammes ou des  tri grammes de caract  res  4 grammes ou 5 grammes dans le cas de  Mcnamee et Mayfield  2004    chez Cromieres leur taille n est pas pr     d  finie    Les syst  mes d alignement et d extraction d information au sens  large passent g  n  ralement par une segmentation en mots  Mais la ques   tion du statut du mot se pose    En TAL  le mot est g  n  ralement d  crit comme un segment de  discours compris entre deux espaces et ou ponctuation  Or ce mot  graphique  au travers des langues  recouvre des r  alit  s tr  s diverses  d un point de vue s  mantique  En outre  certains syst  mes d   criture ne  marquent pas les fronti  res du mot par des espaces  c est le cas notam   ment en chinois    Le concept de mot est donc complexe  Son statut d  pend en fait du  point de vue adopt     lexical ou graphique  Ces deux points de vue ne  sont pas toujours en correspondance  cf  tableau 1     Cette question est d autant plus complexe que l on a    traiter des  mots polylexicaux  ou complexes     savoir   toute unit   compos  e de deux  mots simples ou mots d  riv  s pr  existants       les mots polylexicaux  ou  complexes  peuvent   tre soud  s  et alors  du point de vue informatique   ils peuvent   tre assimil  s    des mots simples        ou comporter un  s  parateur       La forme graphique d une unit   lexicale compos  e tient de  propri  t  s intralangues  Elle d  pend des particularit  s morphologiques  de flexions et
218. s sur  lequel nous l avons mise en place  corpus que nous avons voulu d embl  e  repr  sentatif de la diversit   des langues et des documents     1 6 CONSTAT   L ALIGNEMENT AUTOMATIQUE  UN ENJEU DE TAILLE       en       1P 05 473  Brussels  24 April 2005    European Commission launches  Investigations into sharp surge in  Chinese textiles imports    Trade Commissioner Peter Mandelson today  announced that he has decided to ask the European  Commission to authorise him to launch investigations  into nine categories of Chinese textile exports to the  EU           Peter Mandelson said   Member States have finally made  available the import statistics for the first quarter of 2005           The product categories to be covered by the investigation  are  T shirts  pullovers  blouses  stockings and socks  men s  trousers  women s overcoats  brassieres  flax or ramie yarn  and woven fabrics flax          The product categories concerned cover 7 of the 12 product  categories identified by the European textile manufacturers  association Euratex in a letter to the Commission on 9 March  2005           The Textile Specific Safeguard Clause in Chinas WTO  Accession Protocol  2001          Next Steps    These investigations will last for a maximum of 60 days  of  which the first 21 will be used to take submissions from  parties          The Commission reserves the right  should massive and  imminent damage to European textile producers          At the end of the investigation  if the Comm
219. s symbolisent des paragraphes  entiers de plusieurs lignes  de 3    plusieurs dizaines      22 OBSERVATIONS LINGUISTIQUES ET TRADUCTOLOGIQUES    IPS 157 FR    Resume des projets LIFE Envitonnement 2005  pays par pays    Allemagne     six projets    Deux projets concement la question des eaux  LE premie  appliquera une strat  gie int  gr  e    agricole diffuse  dans le sens de W           Belgique     deux projets    Les deux projets traitent de la gestion    premier  des lignes directrices sur les m eilg  mati  re d utilisation sans risque des ee E Sera  appliqu  es dans le but de pr  server de la poll  surface et les eaux souterraines              Danemark     six projets    Deux prajetstraitent de la gestion des eaux  Le premi    r  duire les infitrations d azote et de phosphore   manant Ow   activit  s agricoles dans le bassin fluvial d O dense   conformement aux objectifs dela directive cadre sur l eau              Espagne     seize projets  Trois projets portent sur la    permettra de d  finir un model de gestion int  gr  e pour la prise    anant de l industrie du    en charge des d  chets liquides    placage            Estonie     un projet           Finlande     deux projets           France    onze projets    e  Gr  ce     quatre projets    Irlande     deux projets             Italie     quinze projets           Luxembourg   un projet  Pays Bas     sent prajets             Portugal     deux projets            Roumanie     un projet             Royaume Uni    dix proje
220. sein d un corpus bilingue  par exemple   un mot source poss  de diff  rents   quivalents dans la langue cible     Dotplot ou matrice   Le dot plot est un outil graphique servant      tu   dier la similarit   entre deux s  quences  il est principalement utilis   en  bio informatique     Foisonnement      En traduction  le foisonnement est la prolif  ration de  mots en surnombre  c est l augmentation du volume du texte d arriv  e  par rapport au texte de d  part     Durieux  1990      Grain   Taille d une unit   linguistique donn    Les grains s emboitent les  uns dans les autres selon une hi  rarchie de grains   le grain document   le grain phrase  le grain mot       Hapax   Du grec  lt  amat Aeyopuevov  gt   h  pax leg  menon      dit  une seule fois      le terme hapax signifie un mot qui n apparait qu une fois dans un texte  ou un corpus  de facon monolingue dans nos travaux      Individu   Occurrence d un n gramme de caract  re r  p  t       Intertextualit     Ensemble des relations qu un texte entretient avec un  ou plusieurs autres textes  citations  allusions  r  f  rences      Tout texte  se situe    la jonction de plusieurs textes dont il est    la fois la relecture   l accentuation  la condensation  le d  placement et la profondeur      Phi   lippe Sollers  1980     Multi document   Ensemble constitu   d un document original en langue  source et plusieurs de ses traductions     Multi zone   Ensemble constitu   d une zone de texte en langue source  et plusieurs de ses
221. sieurs niveaux   paragraphes  phrases  mots       L   tat de l art pour automatiser cette mise en correspondance fait  l hypoth  se simplificatrice du parall  lisme au niveau sur phrastique  hy   poth  se qui sous tend que l ordre du discours est globalement pr  serv      Cependant celle ci n est pas toujours v  rifi  e et des verrous de   meurent qui emp  chent de valoriser pleinement cette mine d informa   tions  d en extraire aussi massivement qu envisag   des ressources pour   tant utiles tant aux traducteurs qu aux lexicologues  Il nous semble qu il  existe une marge de progression  Certains aspects des documents paral   l  les m  ritant d   tre approfondis  notamment leur mise en forme et les  cas d inversions et de suppressions au niveau sur phrastique    Nos travaux portent sur la recherche d une m  thode d alignement  prenant en consid  ration le travail de r    criture que constitue la traduc   tion       l image de notre cursus universitaire  ces travaux sont de deux  types   observations linguistiques et r  alisations informatiques  Notre d     marche consiste    partir d une observation multi   chelle des documents  multilingues pour mettre en place une m  thode g  n  rique d extraction  d   quivalences s  mantiques entre ces traductions    L objectif de ces travaux est double   appariement et alignement  i e   cr  ation de ressources et analyse de document    La premi  re partie de ce document pose les bases n  cessaires     l   laboration de notre m  thode d al
222. ssier et Philippe Langlais d avoir accept   de  rapporter sur cette th  se  et Christine Durieux et Patrick Constant de  faire partie du jury     Merci    Lois Rigouste et Romain Brixtel  je suis tr  s heureuse d avoir  crois   vos routes  Acteurs et t  moins    privil  gi  s     si l on peut dire      de ma mutation  Il vous en aura fallu de la patience pour m   pauler  dans cet apprentissage tardif de l informatique   Merci    vous deux pour  toutes ces discussions fructueuses  toujours dans la bonne humeur     Merci    R  gis Clouard d avoir imm  diatement adh  r   au projet  de  s   tre toujours montr   disponible et int  ress    Et de m avoir fait b  n  fi   cier de ses pr  cieuses comp  tences en traitement d images     Merci    Ga  l  Leslie et Estelle  qui ont bien voulu prendre de leur  temps pour me relire  m  me quand ils n en avaient pas     Merci enfin    ma famille et    mes amis  qui pendant ces trois ann  es  de travail m ont toujours entour  e et encourag  e  Et un merci tout sp     cial    Samuel  qui a v  cu  et surv  cu     ces ann  es bien sp  ciales au jour  le jour     iii    SOMMAIRE    INTRODUCTION 1    I DEL ETUDE DE CORPUS DE DOCUMENTS PARALLELES       L   TUDE DE COLLECTIONS DE MULTIDOCUMENTS 3  1 OBSERVATIONS LINGUISTIQUES ET TRADUCTOLOGIQUES 5  2 EXISTANT M  THODOLOGIQUE 27    3 POUR UNE M  THODE SANS PR  SUPPOS   DE PARALL  LISME 47    II M  THODE D ALIGNEMENT SANS PRESUPPOSE DE PA     RALL  LISME 51  4 NOS CONCEPTS 53  5 UNE M  THODE TEXTUELLE 
223. studied nor  alignment method locks raised  including their formatting and the cases of inversions and  deletions at macro level  Thus  to date there is no tools to take benefit from this wealth of  information  to extract resources as massively as envisaged  despite their usefulness both  for translators and lexicologists      We present a method without assumption of parallelism between the different com   ponents of a multiple document  The basic idea of this work is  between two components  of a multi document  there are grains that maximize the parallelism  we call them multi   zones  They can cover several realities  document  series of paragraphs  paragraphs   proposals    Their boundaries can not be defined in an ad hoc way  it should be done  in context and independently of languages  To this end  we combine several original  processes  study each multiple document through a collection of multi document  use  the formatting of documents by direct processing of source or process repeated strings  rather than words     he purpose of this work is twofold  matching and alignment  i e  resource creation  and document analysis  This method requires little supervision  Add a new language or  change corpus of entry do not represent a significant cost     KEYWORDS  natural language processing  alignment  multilingualism  parallelism  set  of multidocuments  multizones  repeated character N grams     Laboratoire GREYC La   Campus C  te de Nacre  Boulevard du Mar  chal Juin   B
224. sy    c    qusuro 821 97  snjopuosnjose    T T  AUSSI IP   NYSISDIIEL 29SIA91 uonisodoud eT     TT  Jonjoe  snjose UsUTAYAN  uosxnjopuo    pny 1uouro 824 97     OT    2AOU9I    UNJ9 STJ18  ULULI  IX 27    91  aoug  snjopuq IX 27   Isyasynjose  S  3uouro d21 un p    uosynjopue UNJIISTAIPI 99STA9   uonrsodoid oun    Id dd      T9  9018 33  nu  STOISUOUY   y  srouuy     17  sreSue uo  26 S0 q  1usumoopng nui 21 suep s10ydeue p ougurouaud np uoneznsn i   Z nvarrav T     ppddez ap no  SoJrepuooos    sonbuioudeue saureyy    91uopo  ojue no    edrourid    onbuoudeur sureyy    HOAONVT    15 CONTRAINTES   DITORIALES 21    IP 05 1157 DE IPUS415  EN   ANHANG ANIME x  Uberblick   ber die LIFE Llm welt Projekte 2005 nach Landem Overview of LIF E Enviranm ent projects 2005 by country  Belgien     zwei Projekte                      Belgium     2 projects   Beide Projekte befassen sich mit der Wasserbewirtschaftung  Goth projects deal wih water management  In the first  best  Beim ersten Projekt werden Bewirt schattunaslertlinien mit practice management guidelines for the safe use of pesticides  bewahrten verfahren f  r die unbedenkli che Verwendung von vill be implemented to prevent surface and groundwater from  Pestiziden umgesetzt  um das Oberfl  chen  und Grundwasser run   vor Yerschmutzung zu sch  tzen           bom ark     B projects  D  nemark     sechs Projekte            Two are water management projects  One aims to reduce      mel Projekte befassen sich mit der Wasserbewirtschaftu
225. t   n  erlandais   nl   polonais  pl   portugais  pt   roumain  ro   slovaque  sk    slovene  sl   su  dois  sv   tch  que  cs        langue SOV  hongrois  hu   n  erlandais       Jangue VSO   espagnol  n  erlandais      langue OSV   roumain      ordre libre   finnois  hongrois  polonais  slovaque  slov  ne    G  n  ralement  les langues sans d  clinaison  comme le fran  ais ou  l espagnol  ont un ordre plus strict que celles qui se d  clinent  mais  ce n est pas une regle  Les langues finno ougriennes  utilisant peu la  coordination ou la subordination au profit de la juxtaposition  donnent  beaucoup d importance    l ordre des mots    Nous pouvons   galement ici   voquer l ordre d  terminant d  termin     Si en fran  ais l ordre est principalement d  termin   d  terminant  en  anglais la r  gle est davantage celle du d  terminant d  termin    quoique  les deux se rencontrent  tableau 5        d  termin    lt  gt  d  terminant    d  termin   d  terminant d  termin        d  terminant    fr  es  it  mt  pt  ro    bg  cs  da  et  fi  hu  It  lv  nl     sl  sk  sv    de  en  el  pl          TABLEAU 5     Ordre d  terminant d  termin   des langues de l Union Euro   p  enne    Ainsi  en n observant ne serait ce que le couple frangais anglais  il  nous est d  j   permis de rencontrer les deux cas de figure la similitude   ordre SVO  et la diff  rence  ordre d  terminant d  termin    d ordre au    1 4 LES TRADUCTIONS   DES   NONCIATIONS UNIQUES    niveau sous phrastique  Nous les i
226. t  possible d   viter les pi  ges  Ici  pour nous  qui nous situons en aval de la  traduction  il nous sert    prendre conscience de tous les changements  qui s op  rent dans le passage d une langue    une autre  tant au niveau de  l ordre des constituants que de leur nature  m  me si ce dernier aspect  ne nous int  resse que peu ici      13    14    OBSERVATIONS LINGUISTIQUES ET TRADUCTOLOGIQUES    Les diff  rents sch  mas Sujet Verbe Objet  SVO     Il existe des diff  rences de syntaxe courantes y compris entre des  langues de la m  me famille linguistique  Ainsi  parmi les langues indo   europ  ennes notamment  l on d  nombre plusieurs sch  mas SVO plus  ou moins contraints  L ordre des constituants de la phrase n est donc  pas n  cessairement invariant et peut   galement poser probl  me  quand  en allemand ou en grec par exemple  l ordre de la phrase peut   tre  Sujet Verbe Objet  SVO  ou Objet Verbe Sujet  OVS    ou encore SOV  parfois en allemand   Il n est alors pas toujours   vident de d  finir cet  ordre et donc  dans le cadre d une m  thode d alignement  d   tablir des  alignements  Les ressources linguistiques     ce propos  elles m  mes se  contredisent parfois    En th  orie  en ce qui concerne les langues europ  ennes  on attribue  aux langues les ordres suivants       langues SVO   allemand  de   anglais  en   bulgare  bg   danois    da   espagnol  es   estonien  et   finnois  fi   fran  ais  fr   grec   el   italien  it   letton  It   litunien  It   maltais  m
227. t attribu  s sur les collections th  matiques avec la  m  thode Grand Angle  voir tableau 25      WA  shaagime an oy     Hees Poth assis og     m   oe    m   z   LI   m       h Harn    a    _    s     a Mass      A n O o oT  eu  m                     og m        Lala   m      r      at m  m    m    M       d n a      LL    7 3   VALUATION ET DISCUSSION DES R  SULTATS 111    IP 06 1515 fi fr     i N       iSo    u r       e i 1 x     X  Lo _      IP 07 1504 es fr   rd MC RES A er  eins ur mme los W    pen IR  NUS eene und in na  See RESTS apor isa i  Tale  Ena ma  rac  t no   vi  ae oe thes   ta st ti aadi  ws 3 Uis  ENS tli t iTe n  EM MEER RN uU SERT MA NT  aC o tum I Yr  DIMISIT hv  gie n CNN Pda gea Pa  Vut    dou ma s PE JA nal  inn m E   i              78 H  K  2 i ui F  SURGE OL Garey  dai eR 1 Y WX  Macar T       x wx      MEET  IP 08 1144 fi fr   a  an      n      m    u     u      n  of Wee  R       TIR UR ata  3  MDC Tau  DU A  EF  D REC ELE LEM  2 A k u  m ive E    oe E    a            u   J 1 PL r LN n    in   oe 7   uem in     pott   r nu     Ss Tep uie n T p Ip a   n Frac  wx   B   F   ae    m  en tH    3  IP 08 803 es fr  EL       p          a   B      t  re    p           un               e  Fan      eva  cn  Ln t sita D s adm  ag  T s ma   x      I x  ape de Tad 4 Ci E an T    pan  4 L  em  IP 05 1558 el fr             EH     ak mon     TR m      E       HL       u  EE LI  K          ole   LE J      s au E     m  EYE mM     mm      a       oma               C
228. t partie des documents que nous pr  sentions au chapitre  1  p 25  et que nous annoncions au chapitre 3 vouloir   tre capable de  traiter     ultizone 1    74 ALIGNEMENT DE ZONES    Le tableau 39 illustre un cas de suppression dans un des deux volets  le  volet es  correspondant    4 lignes  350 caract  res   Les termes d une aide  apport  e par l Europe    la Bulgarie et la Roumanie n ont pas fait l objet  d une traduction en espagnol  L alignement de zones est globalement  correct    Le tableau 40 illustre un cas de suppression dans un des deux volets   le volet fr  correspondant    environ 1000 caract  res  Des balises type   lt  a gt  lt a name  _H1t188932286  gt  n apportant rien en terme de mise en  forme ont   t   supprim  es en fran  ais  L alignement de zones est globale   ment correct    Le tableau 41 illustre un cas de diff  rences d ordre entre les zones de  textes de deux volets  L ordre des paragraphes est diff  rent d un volet     l autre  Tous les segments de droites de la matrice n ont pas   t   mis  en   vidence  cependant l alignement de zones d  coulant des segments  isol  s est globalement correct    Le tableau 42 illustre un cas de diff  rences d ordre entre les zones de  textes de deux volets  L ordre des pr  sentations des projets list  s par pays  respecte l ordre alphab  tique des noms des pays concern  s  Tous les  segments de droites de la matrice ont   t   mis en   vidence  l alignement  de zones d  coulant des segments est globalement correct  Ce
229. t spain     15 projects        ri Y ore Three project focus on water management  One will define an  spanien     16 Projekte Integrated management model for dealing with liquid waste    Drei Projekte befassen sich mit der Wasserbewirtschafturng  from the plating industry     Eines dient der Erarbeitung eines integrierten Sweden     2 projects   M anagementmodals zur Behandlung f  ssiger Abf  lle aus         Ga vanisierbe neben  United Kingdom     10 projects         A Four UK projects deal wih waste management  The first aims  Vereinigtes K  nigreich  zehn Projekte ta demonstrate the use of an advanced ultra high pressure  Vier Projekte betreffen die Abfallwirtschaft Mit dem ersten meter technology ta recover material from used tyres    Projekt soll eine neue Vyasser Ultrahacherucktechnolagi e zur The second will dem onstrate innovative technologies for the  R  ck qewnnunag von  Wertst  fen aus Altreifen vorgef  hrt recyding of glass waste streams that are currently unsuitable  werden  for mast glass manufacturing processes and thus end up in  Das zweite Projekt dient der Demonstration innovativer landfill sites     Technologien f  r die Vviederzereertung von Glasabf  llen  die        f  r die meisten Glasherstellungsverfahren nicht geeignet sind  und deshalb auf M  lldepanien landen           FIGURE 5   Similitude d ordre au niveau sur phrastique entre les annexes des  documents anglais et allemand du multidocument IP 05 1157  Les        ont  t   introduits par nos soins  il
230. tion                    96    TABLE DES MATIERES    7 2 2 Synthese des r  sultats sur notre corpus d   valuation 97    7 3 Evaluation et discussion des r  sultats                7 3 1 Comparaison avec d autres mod  les            7 3 2 Pourquoi des matrices restent ind  finies   ou mal   d  finies                               7 4 Alignement de zones                           CONCLUSION    IV ANNEXES       VALUATION QUANTITATIVE DES APPARIEMENTS  B   VALUATION MANUELLE DU PARALL  LISME    BIBLIOGRAPHIE    GLOSSAIRE    29    121  123  125    137    149    155    TABLE DES FIGURES    FIGURE 1  FIGURE 2  FIGURE 3  FIGURE 4  FIGURE 5  FIGURE 6  FIGURE 7  FIGURE 8  FIGURE 9  FIGURE 10  FIGURE 11  FIGURE 12    FIGURE 13  FIGURE 14  FIGURE 15  FIGURE 16  FIGURE 17  FIGURE 18    FIGURE 19  FIGURE 20  FIGURE 21  FIGURE 22    L intertextualit   dans le processus de traduction     7  Les outils du traducteur                   8  Diff  rence de l   ordre des mots au niveau sous phrastique 16  Similitude de l   ordre des mots au niveau sous phrastique 17  Similitude d ordre au niveau sur phrastique       23  Ordre diff  rent au niveau sur phrastique         22  Cycle de la traduction    la Commission europ  enne 23  Illustration d un cas de suppression            25  Illustration du macroparall  lisme intratextuel         30    Illustration du parall  lisme                 35  Hi  rarchie de grains                     57  Maintien de l   ordre vs inversions entre les diff  rents   volets 
231. tion     pages 175 186  institut sup     rieur de traducteurs et interpr  tes  ISTI   Bruxelles  Belgique   2006    Cit   aux pages 8 et 79      147    148 BIBLIOGRAPHIE    Maria ZIMINA POIROT   Approches quantitatives de l extraction  de ressources traductionnelles    partir de corpus parall  les   Sciences du langage  Universit   Paris 3   Sorbonne Nou     velle  2004  URL http   hal archives ouvertes fr index   php halsid 7hubfdttvo7pmuoousu7ulelg7 amp view this  doc   tel 00008311 amp version 1   Cit      la page 41      GLOSSAIRE    Aligner ou apparier    lt  Aligner ou apparier deux textes dont l un est une  traduction de l autre  consiste    mettre en relation des unit  s logiques  qui se correspondent dans les deux textes  Ces unit  s logiques peuvent    tre de diverses sortes   paragraphes et structures logiques du document   phrases  syntagmes  mots     gt   Harris  1988      Alignement   Un alignement est une correspondance s  mantique locale   prise en contexte  Il met en correspondance une occurrence d une unit    donn   dans une langue avec une occurrence d une unit   d une autre  langue     Appariement   Un appariement est une correspondance s  mantique  fortement g  n  ralis  e telle qu on en trouve dans un dictionnaire  Par  extension  l appariement  en tant que m  thode  est la mise en correspon   dance de deux chaines de caract  res r  p  t  es entre des multidocuments   i e des populations  gr  ce    leur similitude de r  partitions  i e  effectifs  et pos
232. tional Telecommunica   tions Union CCITT handbook  13 5 M de mots  et l International  Labour Organisation  5M  voient le jour entre 1992 93  ils com   portent le fran  ais  l anglais et l espagnol  Puis entre 1994 95   le projet MULTEXT MLCC constitue un corpus de questions    crites de parlementaires sur plusieurs sujets  10M de mots  et de  d  bats du parlement europ  en  environ 60M   disponibles en 9  langues europ  ennes  Ide et V  ronis  1994  ont align   environ 1M  de ces mots au niveau des phrases  Erjavec et al   1995     travers  le projet MULTEXT EAST ont constitu    quant    eux  un corpus  de langues de pays europ  ens de l Est  partiellement align  s en  phrases     3  Corpus align  s   textes et annotations  m  tainformation d   quivalences entre  des niveau de granularit     paragraphes ou phrases   4  http   wt jrc it lt Acquis     2 2 M  THODES D ALIGNEMENT ET HYPOTH  SE DE PARALL  LISME      d autres projets  tel le Projet JEIDA  Isahara et Hiruno  2000    ont vis   la constitution de corpus paralleles pour les langues asia   tiques     Dans les textes juridico administratifs  l alignement de phrases est  tr  s souvent de type  1 1   d   o   l   largissement    d autres types de textes  dans le cadre de la campagne ARCADE 1   articles scientifiques  manuels  techniques  litt  rature         Science   5 articles  totalisant so ooo mots par langue      Tech   1 manuel de documentation technique  39328 mots anglais    et 46828 mots fran  ais      Verne  le r
233. tionnelles observables en contexte  i e  des alignements  Notre  m  thode d alignement endog  ne prend en consid  ration ce continuum  et propose de l exploiter dans le traitement homog  ne  multilingue et  multi  chelle d une collection de multidocuments     SOMMAIRE  5 1 Caract  ristiques dela m  thode               63  5 1 1 Une m  thodedescendante             63  5 1 2 Diff  rents types d   alignement de zones        64  52 Alignementdezones                    65  5 2 1 Recherche de multizones              65    5 2 2 Calcul des multizones   entre alignement et  appariement                     66    5 3 Appariement endog  ne de cha  nes de caract  res r       5 3 1 Capacit   des N grammes de caract  res    r     v  ler des correspondances monolingues     7o    61    62 UNE M  THODE TEXTUELLE GUID  E PAR LE MODELE    5 3 2 Capacit   des N grammes de caract  res    mettre  en   vidence des correspondances multilingues 72    5 3 3 Incapacit  s des N grammes de caract  res       73    5 4 Del alignement de zones    l alignement intra multizones 74    5 1 CARACT  RISTIQUES DE LA M  THODE 63    5 1 CARACT  RISTIQUES DE LA M  THODE  5 1 1 Une m  thode descendante    Notre m  thode  figure 14  est descendante et s attaque au probl  me  de la d  tection de parall  lisme suivant la hi  rarchie de grain  figure 11b     Document   Zone   Segment     N grammes de caract  res  Nous  pouvons r  sumer ses caract  ristiques principales en quelques points       le processus d analyse prend
234. tons l appariement du dernier   l  ment  avec tous ceux qui le pr  c  dent  Pour une fen  tre de taille F    on aura  donc calcul   une distance sur les positions dans la collection  selon une  m  thodologie que nous pr  cisons ci dessous  entre une population et  les 2F 2 populations les plus proches de la liste  F 1 au dessus et F 1  en dessous   M  me s ils pourraient se r  v  ler int  ressants pour d autres  applications  nous ignorons ici les couples constitu  s de populations de  m  me langue  Ils pourraient servir    r  v  ler les couples dont les appa   ritions sont fortement corr  l  es  Nous nous concentrons sur les liens  interlingues     langue   N gramme effectif dans effectif par volet  la collection       el  _agpoliuev  23  4 2       3  fr  a  roports   21  4 2       2    Tableau 16   Exemple de r  partitions de deux N grammes de caract  res en grec  et en fran  ais  Les espaces sont repr  sent  s par le caract  re  lt  _  gt      Ainsi  nous calculons les appariements entre chaines de caract  res  de langues diff  rentes  en prenant en compte des similitudes de r  parti   tions sur l ensemble des bi documents  Un exemple de r  partitions par  volet de deux N grammes de caract  res est donn   dans le tableau 16     Pour calculer les appariements  nous utilisons une distance L1 nor   malis  e  elle consiste    faire pour deux N grammes de caract  res  s  et   5  de deux langues diff  rentes  l   et 12   le rapport entre la somme des  diff  rences d effectifs pa
235. transformation m  tataxique    quivalente du second qui lui est solidaire  Concr  tement  si on  change un substantif en verbe ou inversement  il y a lieu de chan   ger parall  lement l adjectif en verbe ou inversement  Ceci est  valable aussi bien en monolingue qu en multilingue         transformation complete de l ordonnance structurale avec chan   gement de noeud central  tableau 4    on dit qu il y a interversion  des actants  quand    un actant d une langue correspond s  man   tiquement un autre actant dans une autre langue  La traduction  de l une    l autre n est possible qu en changeant la nature de  l actant  M  me si le niveau s  mantique pr  vaut sur le structural   un verbe dont on connait le sens  mais dont on ignore la struc   ture actancielle  est inutilisable  d   o   l importance de la structure  actancielle dans le passage d une langue    une autre  Sans rap   peler toute l   tude de la m  tataxe que propose Tesni  re  on peut  simplement rappeler que cette interversion des actants peut   tre  notamment simple  double  intervenir entre des actants et des  circonstants  ou dans le passage de l actif au passif       LATIN  gt  FRAN  AIS  Tela milites deficiunt les armes font d  faut aux soldats  Actant 2 Actant 3    TABLEAU 4   Transformation complete de l ordonnance structurale avec chan   gement de n  ud central     Cette liste des diff  rents types de m  tataxe que Tesni  re nous offre se  veut une sorte de mode d emploi de la traduction  grace auquel il es
236. ts    Gualre projets britanniques traitent de la  J I  Le premier utilisera une techri que avanc  e de projedion d ea      ultrahaute pression pour r  cup  rer des mati  res    partir des    pneumatiques usag  s     Le deuxi  me projet utilisera des technologies innovantes pour  le recyclage des d  chets de verre actuellement inutilisables  dans la plupart des processus de fabrication du verre et qui  aboutissent des lors dans des d  charges     Suede     deux projets                          IFP 051157 EN  ANNEXE ANNEX  Overview af LIFE Emironment projects 2005 by country  Belgium     2 projects  Bath projects deal with water management  Inthe first  best  pradice management guidelines forthe safe use of pesticides  Will be implemented to prevent surface and groundwater from  pollution              Denmark     B projects  To are water management projects  One aimsto reduce  nitrogen and phosphorus losses from agricultural activities in  the Odense river basin  inline with the ELI Vater Framework  Directive objectives          E aonia    1 project    es ex  Dans le    in les eaux de           Finland     2 projects    France     11 projects           Gemany      projed s  Tao projects concern water management  The first vil take an  integrated approachto reduce diffuze pollution from agriculture   in support ofthe Water Framework Directive          Greece     4 projects         Hungary     1 project       lon des eaux  Le premier    Ireland     2 projects          Italy     1
237. tung von Kulturlandschaften verbundenen zus  tzlichen Kos   ten und Einkommenseinbu  en und Vorruhestand  Zu diesem Zweck w  r   den Mittel auf die Mafinahmen zur landlichen Entwicklung   bertragen  von  100 Mio  EUR im Jahr 2009 bis 400 Mio  EUR im Jahr 2014   Diese Mittel  w  ren den Weinbauregionen vorbe    n im Rahmen der Entwicklungsprogramme f  r den landlichen Raum werden  aufgestockt   lt  p gt    p     b   Der Weinsektor der EU  lt  b gt   lt  p gt    p   In der EU  gibt es mehr als 2 4 Millionen weinerzeugende Betriebe mit einer Flache von  insgesamt 3 6 Mio  ha  das sind 2  der landwirtschaftlichen Flache der EU     Im Jahr 2006 r S F VR sal    TABLEAU 41  Alignement de zones entre les volets da et de du communiqu    IP o7 1008 pr  sentant une diff  rence d ordre des zones d  tect  e  au travers de la collection 1 et dela m  thode    Petit Angle        Multizone 1    Multizone 2    Multizone 3    Multizone 4    Multizone 5    Multizone 6    Multizone 7    74 ALIGNEMENT DE ZONES    117    IP os 1157    fr    Bruxelles  le 19 septembre 2005  lt  p gt    hl     a name  Heading4  id  Heading4  gt  lt  a gt  lt b gt   Environnement la Commission subventionne 89 projets d innovation dans  17 pays pour un montant de 71 millions d euros  lt  b gt     hl     p    lt b gt  lt i gt La  Commission europ  enne a approuv   le financement de 89 projets innovants  dans le domaine de l environnement dans 17 pays  au titre du programme    LIFE Environnement 2005           Pour plus 
238. u  mais avec des diff  rences d ordre notables dans la structure  La seconde  permet  quant    elle  l identification de volets globalement dans le m  me  ordre mais avec une diff  rence de contenu  Il s agit de volets synchrones  non bijectifs  pr  sentant une ou des zones supprim  es  ou ajout  es  d un  volet    l autre volet  Ainsi     ce stade  nous ne prenons pas en charge le  cas de figure de deux volets diff  rents    la fois du point de vue de l ordre  et du contenu    La taille des matrices que nous cr  ons    partir de notre corpus de  communiqu  s de presse est de 200x200  Il est   videmment possible  de changer la taille de l image  notamment pour traiter des documents  plus longs  mais il faut que le contenu soit toujours    la m  me   chelle   notamment  la distance minimale entre les points d un m  me segment  de droite  l   paisseur des segments de droites   Le programme fonctionne  avec des a priori sur la taille des objets    l int  rieur  points  lignes   mais  pas avec les dimensions de l image     6 2  Diagnostic de parall  lisme       l issue du traitement pr  sent   dans la section 6 2 2  nous disposons  d images sur lesquelles les segments de droites sont mis en   vidence  par des ellipses  en rouge dans les images du tableau 18  page 83  et  leur longueur projet  e sur les axes correspondant    chacune des deux  langues  en bleu dans les images du tableau 20  page 90   L analyse de  ces matrices nous fournit les informations chiffr  es suivantes    l
239. u  s    uoiuou  s    uoiuou  s    uoiuou  s    uoiuou  s    uoiuou  s  ouoigou  s  ouoigou  s  ouoigou  s  ouoi1gou  s  ouoigou  s    uoiuou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  ouoigou  s  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  ouoigou  s  ouo1gou  s  ouoigou  s      rnsouSer     y  17 89  1j ua  i e  1    P    9p ep  y  17 89  1j ua  i e  1    P  PP  J g  17 89  1j ua  i e  1    P  pP ep  JU  17 89  1J ua  i e  1    P  3p Pp  17 1  17 89  1j ua  i e  1    P    9p ep  IU  17 89  1j ua  i e  1    P    9p ep  y  17 89  1J U3  i e  1    P    9p ep  JU  17 89  1j ua  i e  1    P    9p ep  y  17 89  1J ua  i e  ap    9p ep  IH  17 89  1J ua  i e  1    P  SP EP    pq       Sv L0 g     c0Oc Z0 gI    8cZ1 ZO gI    9ZS1 Z0O gI    6vVv1 Zo gI    ook oo dI    6S9T 90 qI    909 S0 d     o9b So al    S lt  lt  SO dI      nbrunuuuroB      a    JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  S  JUOIYIU  
240. u MET  Tu eee    li VH Maa a   la Ta la ka          ha     Lu u           E TETHITLNES S IL  idera    eo dete V S E 5   KS  ALTES CM SER    LEA I Li        UN dgr PL W a rum x  MM PET XI p m  UM IWwUR Hi  Eg  iu YT  SE sens RER  LIA du a  hen Segment  ita A Eten Er nd  Ven cate Ls    E rnit  4   Pas J FEL og      TE    E Pus   2 en gf ohm  mu nn   Js tata    LE  INC AG    T       fi    d Nm  H oe j    Y ly i    T  d H       x  d  NI pi mu E  ip LIFT m Lf       j pl B os  gag   LR A  xi m LF  m     j ki Dad   Ej vp ou pr a str    s  Hoa mph HE PU ee 9  eee Kart    ri k    nad ee a  r   k  ii Es    Min  uim  Won  mm   ua Qm N  at dS Vu a SUN Za    um LS a     zu   Ma mS       mam am    um        Pa gua a pa  NE    LI piu    a  d a pu ue hn rig       u    sa            F ku Fm    a oa p tcd TERT PS RS ei  2  ir  E   t x  H   r  uz qu            LIE qi hi l W       um gu    Qe Moenum igs A y   ue   caa Ua m s   Nel ae ms z du yy Mens Sp m i  lt      BEE Reen pu Dep m ui pero    OCA   YU Iru fw pvp   UT n Du is a     zog JESU Mt Ee E Pq ts EA  IP 07 919 el fr    ET DISCUSSION DES R  SULTATS    DL a r     n    Pr a      L    F toa K   T    u he ILL  um m     m  rt cn  4     H       Lh  yl at  k  ge ores g   j EIS  P          i Vins      pA A RE ur  FE CUm E a        F     T au E  ee ae EA ia  c et  du  gt  mg  T     h 1  it E E E wa sn     will mus B     FR    zn   1 M  ue                a a  aim E Fon aw Dr nn 1  oa    ma  E ars RC pone aa a u   a   ati    778 wi d   a        gt  
241. ue langue  Pour ces raisons      compter du chapitre 3 qui pr  sente notre approche  nous favoriserons  l expression collection de multidocuments  d  pourvue d ambiguit   et de  pr  suppos   quant au parall  lisme des documents que nous traitons    Nous pr  sentons dans la section 2 1 2 les principaux corpus paralleles     disposition  avant de pr  senter l hypoth  se de parall  lisme sous jacente     la quasi totalit   des m  thodes     2  N  anmoins  l expression    textes parall  les    continue de prosp  rer dans les  formations de traductions pour d  signer des documents non traduits  Deux raisons     cela   d une part  elle a   t   utilis  e dans la formation des traducteurs  au moins en  allemand  bien avant que les   tudes de traduction sur corpus aient   merg   et d autre  part  les universitaires sp  cialis  s en traduction ont toujours pris le parti de ne pas  consid  rer les traductions comme une source fiable pour l   tude de l utilisation du  langage  car il n existe aucune preuve empirique que les fonctions communicatives des  textes et leurs traductions sont toujours les m  mes     31    32    EXISTANT M  THODOLOGIQUE    2 1 2 Corpus paralleles    Le terme textes paralleles d  signe un ensemble de textes en relation  de traduction mutuelle  En fonction des applications vis  es  ces corpus  parall  les correspondent    des corpus de phrases parall  les ou    des  corpus de textes parall  les que l on dira align  s   si des sous parties  des diff  rents volets s
242. ues  fi joukkoliikenne 1 mot graphique    Tableau 1   Illustration du d  calage interlangue entre le niveau lexical et le ni   veau graphique du concept de mot     partir de l exemple de    trans   port en commun        Cette question est d autant plus complexe que l on a    traiter des   mots polylexicaux  ou complexes     savoir   toute unit   compos  e de deux  mots simples ou mots d  riv  s pr  existants       les mots polylexicaux  ou  complexes  peuvent   tre soud  s  et alors  du point de vue informatique   ils peuvent   tre assimil  s    des mots simples        ou comporter un  s  parateur     gt   La forme graphique d une unit   lexicale compos  e tient de  propri  t  s intralangues  Elle d  pend des particularit  s morphologiques  de flexions et de d  rivations de chaque langue   Au regard de ces caract  ristiques morphologiques  le mot graphique  n appara  t pas suffisamment universel pour   tablir des correspondances   Une autre granularit   doit   tre recherch  e pour r  pondre au besoin de  comparativit   d un syst  me multilingue d alignement  qui plus est  sans  pr  suppos       Le foisonnement    Le foisonnement est le terme utilis   pour d  finir    en traduction        la prolif  ration de mots en surnombre        l augmentation de vo   lume du texte d arriv  e par rapport au texte de d  part      Durieux  1990    Celui ci peut   tre fortuit et r  sulter d un d  faut de m  thode  Mais sans  nier le r  le du traducteur dans le foisonnement et sans envisager 
243. ul   t  s  D une part  un mot peut   tre traduit par un phras  me     because      lt  gt    a cause  gt    Kraif retient alors le couple portant l   tymon commun      because  gt      cause  gt   D autre part il est parfois difficile de d  terminer  si un mot peut en traduire un autre   la traduction mot    mot est un  cas limite    loign   de la pratique effective de la traduction  Kraif  1999     2 3 M  THODES D ALIGNEMENT   LA CIRCULARIT      prend lui le parti restrictif de ne garder que les cognats effectifs du cor   pus  ceux qui sont effectivement traduits l un par l autre et qui de fait  peuvent servir    l alignement de celui ci    Dans chacune de ces m  thodes  les invariants graphiques  trans   fuges et cognats  permettent la r  duction de l espace de recherche  la  constitution d un certain nombre de ce que Kraif  1999  appelle des       lots de confiance  gt  entre les points    aligner  Cette   tape de r  duction  de l espace    parcourir pr  c  de la phase d alignement    l int  rieur de  ces ilots de confiance    On peut   galement mentionner ici le systeme LIA  proche du sys     t  me Jacal mais moins restrictif  qui fait appel    une   tape de pr   traitement    bas  e sur les cognats  Le syst  me propose un alignement en phrase par  programmation dynamique pour d  limiter un espace de recherche per   tinent  en utilisant une fonction de score faisant intervenir de maniere  pond  r  e les informations suivantes   longueur des phrases  cognats  dic   tionnai
244. uments avec inversion ou suppression  Cette   valuation pourra  dans un premier temps   tre r  alis  e sur la tache d alignement de phrases  avant de l   tre sur l alignement d unit  s sous phrastiques  En outre   d autres corpus comme      Acquis Communautaire qui pr  sente   gale   ment des cas de suppressions ou de non traduction d annexes  pourront    galement   tre test  s     N  anmoins ces travaux peuvent d ores et d  j   se placer dans le cadre  d une chaine d observation et de contr  le qualit   de documents traduits   La d  tection de corpus de traductions synchrones ou non est   galement  un champ d utilisation de notre m  thode qui atteint les 97  de d  cisions  sur des corpus de langues proches     Quatri  me partie    ANNEXES      VALUATION QUANTITATIVE DES APPARIEMENTS    Lorsque l on examine les appariements obtenus  ils semblent coh     rents et repr  sentatifs de ce que l on cherche  Pour aller plus loin  il est  n  anmoins souhaitable de valider    plus grande   chelle  Une difficult    suppl  mentaire dans notre contexte est que les   quivalents multilingues  peuvent   tre aussi bien des expressions  des morceaux de mots que des  balises HTML  Notre m  thode s appuie sur une des applications de  l algorithme   la constitution de dictionnaires  Si cet objectif est attei   gnable  nous devrions  en utilisant des dictionnaires existants disponibles  sur Internet  trouver au sein de nos appariements des liaisons existantes  dans les dictionnaires    On observe
245. un document  donn   dans une langue source et    produire un document s  mantique   ment   quivalent dans une ou plusieurs langues cibles  peut donner lieu     des modifications dans l organisation interne des diff  rents volets   Cette possibilit   intervient tant au niveau microscopique qu au niveau  macroscopique  Les figures 5 et 6 pr  sentent deux cas de traductions  diff  rents du point de vue de l ordre macroscopique  co pr  sents dans  un m  me multidocument disponible en trois langues  fran  ais  anglais et  allemand  repris dans la figure 12  page 58  pr  sentant de facon simplifi  e  les multidocuments des figures 5 et 6         DROITE  l alignement entre les volets allemand et anglais montre le  cas d un maintien de l ordre        GAUCHE  le cas d inversions massives de plusieurs zones de textes  entre le volet fran  ais et le volet anglais  et par cons  quent alle   mand  du m  me multidocument     2  Nous utilisons N de facon g  n  rique  sa valeur n   tant pas pr  d  finie    58    NOS CONCEPTS    Volet francais    Allemagne   six projets             Belgique   deux projets             Danemark   six projets             Espagne   seize projets             Estonie   un projet             Finlande   deux projets             Volet anglais         Belgium   2 projects        Estonia      project  y       l  L J  li    A    j  Finland   2 projects  A    Y    La     fl        Germany   6 projects         d   Spain   16 projects    Volet allemand          5  Belgien  
246. un l  hetettiin yli    300  k    nn  st    L  ht    ja kohdekielten erilaisia yhdistelmi   oli 134   K    nn  stoimen p    osaston k    nt  j  t arvioivat k    nn  kset ja  osallistuivat siten kunkin EU j  senvaltion voittajak    nn  ksen  valitsemiseen   lt  p gt   lt p gt  T  m   laatuaan ensimm  inen k    nn  s   kilpailu oli Euroopan komission  lt b gt  pilottihanke  lt  b gt    jolla ha   luttiin tuoda esiin k    nt  misen keskeist   roolia komission nou   dattamassa monikielisyyspolitiikassa  Lis  ksi koululaiset saivat  hankkeessa tilaisuuden kok    TABLEAU 40     Alignement de zones entre les volets fr et fi du communiqu    IP 08 405 avec suppression d  tect  e au travers de la collection  3 et dela m  thode    Grand Angle        Multizone 1    x 2    Multizone 3    Multizone 4    Multizone 5    116    RESULTATS ET EVALUATION SUR LA TACHE D ALIGNEMENT DE ZONES       RR rc   C t    a eee ee      ght   gt    b   IP 07 1008  lt  b gt   lt  p gt   lt p align  right  gt  Bruxelles  den 4  juli  2007  lt  p gt    hl    lt a name  Heading3  gt   lt  a gt   lt b gt  Reformen af den f  lles land   brugspolitik   Med vinreformen vil Europa kunne generobre tabte markedsan     la d    Europa helfen  verlorene Marktanteile zur  ckzugewinnen  e eef      nsigten  at krisedestillation skal erstattes af to kriseforvaltningsforanstaltnin     ger  som finansieres over de nationale rammebelob            altninger er bl a    salgsfremstod i tredjelande  omstrukturering og omstilling  af v
247. uue   sre guv Ud JUOS oxouue p s  1s  1 SIT  oxouue p 1nq  p uo soovld ya   sy  npe1  Juos  7  souoydouexj sAed sa  jueurssuos sayde  sered sa  s nos    13    shed red syofoxd sop 1uejsi  soxouue   stej3ue uo JUOS oxouue p s  1s  1 SIT  oxouue p jnqop uo s  2e d 19 s INpes  Juos  T  seuoudooueag sAed sa  Jueu1a9uo9 soyder3ered sa  s nos   1j t oxouue  p qp uo sooe d yo  sj  npe1  quos  7  seuoudooo18 sAed saj jueu1o2uoo soyder3ered xnop sinas    asked red sjo oud sop Jue7st  soxouue   sre 8ue uo JUOS oxouue p so1sa1 SAT  oxouue p jnqop uo SIRIA 19 s INpes  Juos  z  sououdooueuj sAed sa  jueuroouos sayde  sered sa  s nos   1  t oxouue p 1nqop ua saDerd ja  sjinpes  juos sououdoueur198 shed sa  1ueu122uoo soyderSered stor  s nos   op    shed sed sjaford sop 1ueisi  soxouue   stej3ue uo JUOS oxouue p S9J891 SIT Npe 1s   xreurouep 9  jueujo2uoo oydersered 2   nos   ep  oxouue p qp uo saoejd ya   sym peu juos souoydoueursas shed sa  1ueu122uoo saudeiSeied stor  s nos   op    shed red sjaford sop 1ueisi  soxouue    srera    UOIS I9AUI  UOIS I9AUI  UOIS I9AUI  UOIS I9AUI  UOIS I9AUI    UOIS I9AUI      nsouSerq    13 13    1J S3    1J U9    13 T9    REP    ap ep    Pd     lt OOI OI dI      nbrunuttuo5    BIBLIOGRAPHIE    Haneen ABUDAYEH  Traduire l   motion dans le discours politique  These  de doctorat  Caen Basse Normandie  2010   Cit      la page 7      Michel BALLARD      propos de l erreur en traduction  Revue des lettres  et de traduction   5 51 65  1999   Cit      la page 8   
248. ve Textology  Comparative  Discourse Analysis in Applied Linguistics  Num  ro 5 in Studies in  Descriptive Linguistics  Groos Verlag  Heidelberg  1980   Cit      la    page 30      St  phane HUET  Julien BOURDAILLET et Philippe LANGLAIS   Int  gration  de l alignement de mots dans le concordancier bilingue TransSearch   In Actes de la 16e Conf  rence sur le Traitement Automatique des Langues  Naturelles  TALN  09   Senlis  France  2009   Cit      la page 34      Nancy IDE et Jean V  RONIS   MULTEXT   Multilingual text tools and cor    pora  In Proceedings of the 15th conference on Computational linguistics     Volume 1  pages 588 592  Kyoto  Japan  1994  Association for Compu    tational Linguistics  URL http   portal acm org citation cfm   id 991990   Cit      la page 32      H ISAHARA et M H  runo  Japanese English aligned bilingual corpora    2000   Cit      la page 33      Roman JAKOBSON   Linguistique et po  tique  Num  ro 1 in Essais de  linguistique g  n  rale  Les   ditions de minuit  1963   Cit   aux pages 28  et 29      BIBLIOGRAPHIE    Mich  le JARDINO   Identification des auteurs de textes courts avec des  n grammes de caract  res  In Actes des 8emes Journ  es internationales  d Analyse statistique des Donn  es Textuelles  Besancon  France  2006    Cit      la page 56      Denis JUHEL   Prolixit   et qualit   des traductions  Meta  44 2  238 249   1999  ISSN 0026 0452  URL http   id erudit org iderudit   003275ar   Cit      la page 8      Martin Kay et Martin R  S
249. xplique par  la diminution du nombre d hapax par document  Un hapax de  document pourra   tre r  p  t      d autres endroits de la collection   ce qui nous permet obtenir les informations n  cessaires    son  appariement  et    son alignement ult  rieur       traiter les documents avec leur mise en forme donne lieu    de  meilleurs r  sultats    10  de d  cisions prises  Le parti pris original     gt     RESULTATS ET EVALUATION SUR LA TACHE D ALIGNEMENT DE ZONES    A    LA    LA    98     SIAIISIO sansuey op so dnoo sop 39 o2Ao duro opoujour  e  op    SUOHIATO  ap IA  np uor  uoj US s  l1u  s  id JUOS ST   sJu  um  opnr nu op suoro sanorsn d ms snuo3qo SINSOU  PIP sop asayyUAG   Er nva avg          oS ST zt CT OZ Sy O ZT gS GZ   TV09 SYT   gS 6E  6 orc U 1J   6    9t 61 9c IS ot O II 6Z 06   STIL TT WSL gT 69 orc   p 1J   Lv 67 I lt  ET    Z or T TI T9 vl  STTO LVI   SL gE   6 orc 13 13  OCT 06 cL c9 Vit ITI T 6    861 6tc  I   v9 tor 9669 S     LST 07    souSro    s   dno5  9c cr 6 TV v6 ST O 8 v6 TOT   LOTR 961 WEERT vy orc ep ap   ST os 6 or SOT 9 I S OOT TII  TV06 LIT  8S 6 ET orc uo IJ   Z gv S 09 CTI Z     v OOT CTI oo Z I V 6 OTT oo   9 S PT orc S9 1J   gv IFI CT ST TIE        v Lt 90    LTE  SL   88 6   9   Sc TT IS oTL   sau  oud s   dno5  rS cg QT 9Z SSI vy T ET TLT 961 HSLEL VSE   Sc 9c    TI ogr       uono    o     9 9Z TE g9 VTI rS I 9T 691 OST 96  Z 99 ott HSTTE OST ogr         uono    o     9 tZ 9t 99 6   T 9S     ZT VOT PSI  67    9 tct HILL TE LST ogr   T uon
    
Download Pdf Manuals
 
 
    
Related Search
    
Related Contents
Origin Storage IBM-320S/7-NB16 hard disk drive  白色LED式デジタル時計 取扱説明書 - シチズンTIC株式会社  TC Electronic Hall of Fame Mini Reverb Manual  MAGNUS 1302  User Guide  取扱説明書 品番 SV-AV100  D-Link AirPremier DWL-G680 802.11g/b (DWLG680) Wireless Adapter    thermoMETER LS - Micro-Epsilon Messtechnik & Co. KG    Copyright © All rights reserved. 
   Failed to retrieve file