Home
        Explorations textométriques
         Contents
1.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             
2.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             0000000000 0000000000                                           
3.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       Illustration 1  Extrait de la traduction de la nouvelle Arfled d Alphonse Allais              lt langue  frth  gt    lt nouvelle  001  gt  lt auteur  1  gt    lt par  00001  gt         Le Dr Joris Abraham W  Snowdrop       Pigtown  U S A      tait arriv      l   ge de   cinquante cinq ans  sans que personne de ses parents ou amis e  t pu l amener       prendre femme     a  7 v v    4     L4 o   H y 1     7     y                                       
4.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         al zi                Centrol clic sur marqueur de page   s  lection 5 sections l clic sur marqueur de            s  ler        Eu BI  Sei        CILE la section Affich  e EI Num  ro de la section Affich  e                Je remercie le pr  sident Bush des services rendus    notre      remercie le pr  sident Bush pour les services qu il a  nation  ainsi que de la g  n  rosit   et de la coop  ration dont   rendus    notre nation  ainsi que pour la g  n  rosit   et la  il a fait preuve durant toute la transition    coop  ration dont il a fait preuve tout au long de cette     transition     Figure 17   Carte des sections   projection de la forme  nation  sur le volet source    L outil carte des sections permet une visualisation globale de la r  parti
5.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                50     mH 100  EN            150   E 200             250   EN     300   350     400   m   450     500                                                                                                                                                                                                                   7                                    ON                B                      C CCm                             11             o    HN NENN                                               7350  m                                                                                             INNEN o    mmm                                                     75                          am                                                                                          ma ss    Cie                     NEN                        
6.                                                                                                                                                                                                                                                                                                                                                                Traduction chinoise par Fu Lei  1957         Le tableau 1 montre un extrait du texte original suivi de sa traduction chinoise        Nous avons utilis   la version compl  te  r  unie en 1957 par les   ditions Litt  raires Populaires                                         apartir d   une r  vision par Fu Lei      la premi  re version de 1953        La figure 4 montre  dans la fen  tre de droite  l   affichage par Lexico 3 du texte chinois dans  lequel les caract  res ont   t   isol  s par insertion d   un caract  re espace entre chaque caract  re   Dans la fen  tre de gauche on peut lire le r  sultat du d  pouillement statistique r  alis   sur la  base du d  compte des caract  res isol  s  Les caract  res sont tri  s par ordre de fr  quence  d  croissante dans le corpus analys                ES      Pr    S  lectionnez une couleur   zzii             gt  59        Navigation   Rapport Dictionnaire               Recherche   version C ig   Formes  ordre lexiconfirique    Frfuence  4     5            SUFHG  B RS E Jr  M ok     X B  I    ZS E      E k SS mg opp xm uw gu  4                                                                 
7.                                                                                                                                                                                                                                                                               5 Une m  thode de rep  rage de passages originaux dans la traduction    On mat  rialise les distributions des types bilingues appari  s sur une carte des sections bi   textuelle  Si les distributions se ressemblent     quelques asym  tries pr  s  la pr  sence isol  e de  sections monochromes montre le plus souvent des passages originaux dans la traduction o    sont attest  es des   quivalences lexicales susceptibles d int  resser le chercheur  Le diagramme  d une telle ventilation se pr  sente de la facon suivante                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       
8.                                                                                                                                                                                                                                                           i                                                                            a  n                                                                          Ti                                                     lt par  00002  gt     Texte 1  Extrait du fichier en relation de traduction        Le deuxi  me fichier de           dont nous disposons  corpus frth al win contient la version  fran  aise en relation de traduction avec la version tha  e segment  e en unit  s lexicales  La  partition langue unique est identifi  e par la cl    lt langue frth gt   La valeur de la cl   nouvelle est  seulement compos  e du num  ro de la nouvelle sans   tre pr  fix  e d une lettre     La cl     par   ainsi que le symbole d  limiteur de section sont utilis  s      mani  re    maintenir  la relation de traduction  L int  r  t de cette structure est de pouvoir retrouver facilement les  unit  s lexicales en relation de traduction    l aide de la carte des sections     Encodage des textes Thais pour Lexico3    Le couteau suisse de Lexico3 permet d afficher les caract  res thais lorsqu ils sont encod  s  avec win874  Cependant  on doit prendre quelques pr  cautions car les caract  res   et     partagent le m  me code 8 bits  Il faut donc exclure   de l
9.                                                                                                                                                                                                                                  250                                                                                                                                                         300                                                                                                                                                                                                                  350                                                                                                                                                                                                                 400                                                                                                                                                                                                                                                   ah                                                                                  BF 7                        RE        OR                               Bk               EAR    H  9             Et Pt               HK                                                Bath         To             WE By                529                     Bo MMA 69                               LE             HB  Bappon Efacer           HF               nn  SEDE 
10.                                                                                                                                                                                                     FSBR HE                                                                                                                                                             VOLO E e 8 EIE        F e lat TR gq  I                                                                                                                                          AT EJ                                                                               RICE Z f                        RT                                                                                                    TESTA ET                                                                                                                                                                                                                                  IR                                                                                                                                                                                                                        WE FE                                                                                                                                                                                                                        W                                                                        
11.                                                                                                                                                                                                  gt       i   a             v a   y S 9 1       a d    a j de                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      lt langue  thsyl  gt  lt nouvelle  A001  gt  lt auteur  1  gt     v v  2    4 A    4 v a                                                                                                                                                                                                                      m                         d                                                                                                               m                               a  n    la en                                                                                                                     dv                     a      y 5  D or M  E a g                                                              T
12.                                                                                                                                                                                              5                                                                                                                                                                                                                                                                                                                                                                                                                                                                                0000000000                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              Section    lt teste  fr  gt      toute autre lecture non seulement p  cherait par manque de coh  rence   mais surtout trahirait          intention des autorit  s   lesquelles entendaient soustraire        emprise de la convention tout le syst  me  H E administratif      compris les dispositions de fond et de proc  dure du droit administratif p  nal      Oc
13.                                                                                                                                                       100                                                                                                                                                                                                          150                                                                                                                                                                                                          200                                                                                                                                                                                                              250                                                                                                                                                                                                          300                                                                                                                                                                                                          350                                                                                                                                                                                                          400                                                                                                                 
14.                                                                                                                                       850                                                                                                                                                                                                                                                                                                                                                                                                         350                                                                                                                                                                                                          1000                                                                                                                                                                                                         1050                                                                                                                                                                                                          1100                                                                                                                                                                                                          1150                                                                                                                                                
15.                                                                                                                                     Be  L    5      ol clic sur marqueur de page   s  lection 5 sections   Shift control clic sur marqueur de page   s  lection sections  l ligne   n  es Cbjnation  Nb          81   EI  01  Nombre de sections s  lectionn  es   1 mm  ro de 1a section Affich  e   D B    PEE        5      Export Recherche  html        Etape n  2   calcul des cooccurrents de la forme p  le    gt  recherche des mots sp  cifiques dans les sections  contenant la forme p  le   ce calcul est fait dans les  sections source contenant la forme  nation  et en parall  le  dans les cellules associ  es du volet cible  zone miroir                          Figure 18   Calcul des cooccurrents d une forme par la carte des sections    Le r  sultat est constitu   par deux listes donnant    voir d   une part les mots sp  cifiques de la    forme p  le  pour le volet source  et les mots sp  cifiques dans les sections associ  es du volet  cible         Specificites du vocabulaire sur les sections SOURCE contenant le motif     nation      Specificites du vocabulaire sur les sections CIBLE associees aux sections SOURCE  Nombre d occurrences du texte global   2726 Nombre d occurrences du texte global   2956   Nombre d occurrences dans la partie visee   284 Nombre d occurrences dans la partie visee   297   Seuil   5 Seuil   5      Specificites positives en haut de liste  negatives en bas     Spec
16.                                                                                                                               1550                                                                                                                                                                                                      mm 1600                                                                                           Emp urba  1550  0000000040 000000000 0000000000 0000000000 0008         1700                                                                                                                                                                                                          1750                                                                                                                                                                                                         4750  00000000 05000000000 000000000 0000000000 0000  OO 4800                                                                                                           450  050000000 00000050000 000000000 00500000000 000000000 40             D                                                                                                                              4350  12050000000 050800000000 0000000000 00500000000                                                 5000                                                                                                                    
17.                                                                                                                  1                                                                                                                                                                                                                                                                                                                                                                          OORT                                                                                                                                                                                                                                                                                                                                                                                              0000000000                                                                                                                                                                                                                                                                                OEE sim                                                                                                                                                                                                                                                                                                                                                             
18.                                                                                                                  Y                                                                                    29                                                 BR            o                                                                                                               X                                 WI                               1                                                          b                                                                                                                          Er    Er       H                                                                                                    SE                                                  WH                                                              1                                                HH  6                                                                                                                                                   Br   m Am T  2   Ip      Su  KAK                                               VY H                     mos            JL                 RR   RE                           HE                                      1                    PX                                                                                        amp                                    1                                                    H          o    H           
19.                                                                                                                  aiuu                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       
20.                                                                                                             100      50  a   100      100    100  L        150     100      200     100      50     100        300     100      350     100    m1 400     100                    1550     Cas  e                   EH               1600  BN                                                      1         1550     100         1700     100                   1750     100      4750     100      4800     100      4850     100      4900   I 100    I 4950     100      5000                                                                                                                                                                                                               5050    100      5100     100      5150                                                                                                                                                                                                                                                                                                                                                                                  2  I 100    I 5250     100      5300     100      5350     100      5400     BN                    5450   BOO 100      5500  100      7150     100      7200                                                                                                         222    100      7300                                           
21.                                                                                           Diner N Diner V  manger    table  manger diner V D  jeuner         Manger  V d  jeuner V  F    E                                        d  jeuner  V Diner  V   Hi     a                 tre            de  P Table N                           se mettre     table  R  serve N  provisions N                           ms                                         manger ses   provisions N  2 Cabaret  Restaurant  314                      gargote N                       Tableau 16  Matrice de composition lexicale    Le Tableau 10 est une matrice de composition lexicale  On la lit en combinant les formes de  la premi  re colonne avec les formes de la premi  re ligne  Par exemple _                         nourriture   Cela signifie que le sens de la forme    la place du caract  re _   tait clairement s  par   de celui  de la forme                       De plus une s  quence entre parenth  se pr  cise le contexte  par exemple                                                                se mettre     table ou                                                               gargote     D apr  s          matrice en regardant la premi  re ligne et la premi  re colonne on peut isoler le  sens de                     comme   tant nourriture ou aliment     La s  quence      m ams  hung ha ahan  existe en entr  e de dictionnaire avec le sens de  cuisiner dans un niveau de langue litt  raire  On peut d  composer c
22.                                                                                          450                                                                                                                                                                                                          500                                                                                                                                                                                                                                                                                                                                                                                                                       600                                                                                                                                                                                                          650                                                                                                                                                                                                          700                                                                                                           750                                                                                                                                                                                                          800                                                                    
23.                                                                                      0000 000 400                                                                                                                                                                                          450      OO0O000000000000 00000 OO0000000000000000000 50                                                                                                                                         7150  O0O0000000M00000000000000000080B0000B0B000BBO0BOMOD 720                                                                                                                                                                                                          7250                                                                                              2000                           7300                                                                                                                                                                                                          7350                                                                                                                                                                                                                                                                                                                                                            7400  2000 mm                                                             
24.                                                                                   Tableau 15  Groupe de formes avec segments r  p  t  s    Les r  sultats de la recherche consign  es dans le Tableau 9 montrent un                  de sous   segmentation pour la forme           f  licit    puisque nous avons trouv   un certain nombre de  formes contenant                voit tout l int  r  t d utiliser les segments r  p  t  s puisqu on  remarque que la forme wf  jier  n est pas un nom propre  Le vrai nom propre est                                       Grangier  puisqu en contexte  la s  quence est pr  c  d  e de                      Madame                                          Monsieur   ou                ny  le petit  Grangier    On vient donc d identifier un probl  me de sur   segmentation     Le probl  me de sur segmentation de la forme                                     s explique partiellement par le fait que         forme                  krong  est un mot tha    On utilise la carte des sections pour trouver des  occurrences de                 n apparaissant pas en                      avec la forme                                     STEET ST  ANT     Zi    T   lt  aucune     Aicina DI ml  D   DaAA Sp  cils CA                                                                                                                                                                                                                 50                                                    
25.                                                                                 5050                          Iw                         mi                                                                                                              5100                                                                                                                                                                                                                                                      5150                                                                                                                             mimi 5200                                                                                                                                                                                                                         5250  100000000 0000000000 0000000000 000000000 00000000900 5300                                                                                                                                                                                            1           TL 5550                                                                                                                                                                          50000000000 5400                                                                                                                                                                                       0     
26.                                                                                 H Ve                                                                                      TR                   RE                                                                    LE                          NE       Hon                                           D                                                                                                             Ed                                                                                                                                                                   5 Comparaisons quantitatives    partir des mots    Les comptages r  alis  s    partir des mots ainsi d  coup  s par l algorithme de segmentation  permettent de comparer les r  sultats obtenus sur le texte chinois    ceux que l on obtient de la  m  me mani  re sur la version fran  aise du texte     Tableau 4    Principales caract  ristiques quantitatives du d  pouillement en mots  r  alis   sur les volets fran  ais JC1 Fr et chinois JC1 Chin du corpus     Partie Occurrences  Formes Hapax F  Max  JCI Chin 34 743 7 196 3 781 2313 BJ  JCI Fr 39 666 6 673 3 970 1578 de       Comme on le voit au tableau 4  la traduction chinoise compte nettement moins de mots  graphiques que le texte frangais  On notera qu elle compte cependant nettement plus de  formes diff  rentes  La proportion des formes qui n apparaissent qu une seule fois dans chacun    Java Lucene segmentation du chin
27.                                                                                 WA                                   FH    KF 2                             Bb                                                E W m                                                              25 I                            D   FH             KE                                EZ                   n                                       ME                 H    LI             Z m uu                                      B                                                                                                                                                    R                    WA                                     RREH   km FX                          i                                        A                    ZATI                                               BHE                                                   B                 A                                      BF       f                                            Sam                    MT                              GC          Chr                                                                                                   fh BJ                                          ix                                                                                                                                                                         8                                                                                     
28.                                                                               BIC                                                                                                                                                                                                                                                                                                                                                                                                                                                6 6                                     La d  marche propos  e permet de comprendre les raisons d   asym  tries dans les distributions  parall  les du vocabulaire bilingue correspondant aux Types appari  s  La suite des op  rations  textom  triques convoqu  es pour localiser les ruptures de parall  lisme sur un diagramme  repr  sentant le bi texte align   constitue une m  thode largement applicable    d   autres corpus  pluritextuels     A la phase de rep  rage direct  appuy  e sur la topographie bi textuelle  succ  de une phase de  remise en contexte des particularit  s distributionnelles constat  es  Cette derni  re phase  d  bouche sur une   dition contrast  e des erreurs d   alignement phrastique et de contextes  originaux  o   sont attest  es des   quivalences lexicales peu communes  difficiles    postuler  a priori     7 R  f  rences    Bourigault D   Chodkiewicz Ch   Humbley J     Construction d   un lexique bilingue des droits  de l   homme    partir de l   analyse
29.                                                                       10                                                                                                                                                                                                                           150                                                                                                                                                                                                                                                                                                20  mimimimimmim mimi Jm                                                                                                                              250                                                                                                                                                                                                                                                                                                      200                                                                                                                                                                            350                                                                                                                                                                                                          400                                                                                        
30.                                                           1200                                                                                                          1250                                                                                                                                                                                                          1300  Ee EE SE       UH    M    2                   d  Illustration 5  Carte des sections   en bleu                   en rouge                           On remarque que la forme                  krong  appara  t sans la forme                     jier  dans six sections  On  a pu r  partir ces occurrences de                      trois groupes apr  s analyse     Deux occurrences r  f  rent    l unit   lexicale tha  e dont le sens attest   par nos dictionnaires  est le verbe filtrer  Dans nos textes  elles sont en relation de traduction avec le nom commun    filtre     Trois autres occurrences sont des erreurs de segmentation concernant des noms de lieu non  reconnus                                       rue Grand     Pont  fi                             Granville                                 Granville  La       forme                  krong  est ici une transcription approximative du son gran qui n existe pas en tha       Enfin  la derni  re occurrence n aurait pas d   exister  En effet nous avons le segment suivant                                                     pour Onfroy l apothicaire  qui est une err
31.                                                   alcool                      viande    m  m  dicament    voum  vieille chose            boutique estaminet boucherie pharmacie brocante  v          vendre              Tableau 17  Composition lexicale                                X    On peut d  terminer le sens de       ran     partir de ces exemples  C est un terme g  n  rique  d  signant un local dans lequel s exerce une activit   commerciale     peut s utiliser avec une  certaine autonomie  ce n est donc pas un pr  fixe au sens de l analyse morphologique mais la  plupart du temps il est sp  cialis   par un ou plusieurs autres morph  mes lexicaux     Le fait que le segmenteur a trait   diff  remment w   rankha  des autres formes compos  es de                  s explique certainement par le mod  le statistique utilis    bas   sur le score d information  mutuelle  Toutes ces formes devraient   tre trait  es de la m  me mani  re qu on les consid  re  comme une seule unit   lexicale ou comme plusieurs  Si on se r  f  re    l article  Asa2002   il  est possible que les auteurs du segmenteur consid  rent une s  quence d  butant par    comme  un syntagme nominal et non comme une unit   lexicale puisque la s  quence ne fait que  pr  ciser le sens de                 sans changer le concept fondamental auquel il r  f  re     On     d  nombr   six occurrences de                            sabieng  om r  partie dans deux nouvelles dont  cinq comme traductions de provisions au sens de 
32.                                         7450                                           0580500006000 88060500000 500050005000  0                                                                                                                                                                                                          7550                                  0000                                                 000 7600                                                                                                                                                                                                          7650                                                                                                                                                                                                                                                                                           7700                                    00                                                                                     Figure 27    Extrait de la carte des sections      omme fr et             _      dans le corpus Droits    La distribution du type homme  co ne s accorde que tr  s partiellement avec celle du type  homme  fr  Figure 5   Une fr  quence sup  rieure du TGen homme  co dans certaines parties  nous am  nera au constat que diff  rentes expressions frangaises     tres humains  individu   personne humaine   ainsi que des formes qui constituent des reprises anap
33.                                    7350   Figure 30      Extrait de la carte des sections                dans le volet cor  en    5 Conclusion    La traduction qui se donne pour objectif de transf  rer le sens d   un texte d   une langue    une  autre mobilise des processus tr  s complexes dans le cerveau humain  Lorsqu il s agit de  langues n ayant aucune parent    la traduction des unit  s de la langue source vers des unit  s    quivalentes dans la langue cible demande un travail encore plus complexe    A partir de l analyse lexicom  trique du corpus Droits nous avons   tabli un certains nombre de  rapports de correspondance pour le couple traductionnel homme  fr homme  co  La complexit    de ces rapports de traduction trouve sa source dans les diff  rences profondes qui existent au  plan linguistique et au plan culturel entre le frangais et le cor  en  Cependant  l observation des  diff  rences distributionnelles locales nous a permis d   tablir un sch  ma de traduction du  couple homme  fr homme  co valable  pour le moins     l   int  rieur du corpus Droits     e homme     saram            o si homme accompagne le mot femme     namnyeo ou namseong  e droits de l homme     ingwon  o si inclusion d autres expressions lexicales               ex   droits fondamentaux de l homme  o si    est suivi par le mot femme     namja ou namseong  ex   droits de l homme et de la femme  e Autres expressions     tres humains  individu  personne humaine  chacun  tous      saram  ingan    Da
34.                               lt langue  thlex  gt  lt nouvelle  C001  gt  lt auteur  1  gt        2   v a  4 A   E   v a                              DUNIN                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   d A       0               y    v a g y a 9   v    a                                 qu                                                                                         141                                                                                                                                                                                                  a a     y                             nu                    N      aw                                 Tableau 7  Les diff  rentes versions d une nouvelle     Guide de lecture du tableau 1       La premi  re partie du Tableau 1 correspond    la version originale de la nouvelle Collage d   Alphonse Allais  La deuxi  me partie du tableau correspond    la version traduite en tha    On    remarque que le texte n est globalement pas segment   hormis quelques espaces ici ou l
35.                           DER           Pour rendre le sens vaguement p  joratif associ   en fran  ais    vieux v  tement  il faut  en  chinois  avoir recours    d autres mots  La traduction mot    mot en chinois de   vieux rideau et  vieille caisse ne signifierait pas forc  ment  que les objets consid  r  s sont en mauvais   tat  mais soulignerait simplement leur anciennet    sans liaison explicite avec leur   tat au moment          du r  cit  Fu Lei emploie      po  ab  m    d  chir    et         po jiu  ab  m    us    d  chir    etc    pour rendre accessible aux lecteurs chinois le sens original     Tableau 7    Extrait de la concordance autour du p  le Z  lao  vieux                    EEK I             Ge                    1                 Hi                                 o                                              XP                      E E   un                o             Pa   mm                                                                                                                           ER o  sgr tH iz                                                                   NM                                                                                                                                                                                                    2 7  5 Z    ZX    RE                  A                                                                                                                                                    REN
36.                    has shown throughout this transition           otre nation  ainsi que de la g  n  rosit   et de la  coop  ration dont il a fait preuve durant toute la  ransition                          Forty four Americans have now taken the presidential  loath                 m                                                          prosperity and the still waters of peace     ER  E    calmes de     Ces mots ont   t   souvent prononc  s dans la mar  e  ontante de la prosp  rit   et dans les eaux  la paix     The words have been spoken during rising tides of                                                          0    Reb       121              gt           Figure 2   Chargement des fichiers    aligner    Les 2 volets   tant charg  s  on peut ensuite affiner l   alignement en utilisant les outils idoines  pour scinder certaines sections ou en fusionner d   autres     FA mkAlign 2 00  2 0b116     MODE GENERAL    Chargement Source et Cible  S       Dots ee            1                    SE    Sea               fellow citizens  es chers concitoyens               I stand here today hunbled by the task before us   grateful for the trust you have bestowed  mindful of   the sacrifices borne by our ancestors     ilit   face    la t  che qui nous attend   reconnaissant de la confiance que vous m avez accord  e  let conscient des sacrifices consentis par nos  anc  tres                            I thank President Bush for his service to our   is remercie le pr  sident Bush des s
37.                   7                                 8   2   sn 147                                    8   2      19                                     6   2 W 13                                                         15   2      5 7   2                     38   2      7    Illustration 6  Recherche groupe de formes  segments r  p  t  s                         On voit d  j   appara  tre quelques segments int  ressants mais pour compl  ter la recherche on  r  alise un inventaire distributionnel sur l ensemble du groupe  Une fois que nous disposons de  ces formes compos  es  on recherche l expression correspondante source dans les textes  fran  ais afin de d  terminer le sens en contexte  Pour analyser les r  sultats  on construit une  matrice dite de composition lexicale  cf Tableau 10  o   les formes de la premi  re colonne se  combinent avec certaines formes de la premi  re ligne pour traduire un mot source                                                                                                                                                                        nourriture  aliment Souper N                m   faire la cuisine               euner N Men  du      iner N                                          a     de vie diner N                                                 servir                                      A    nar   heure  T  pendant le  repas N   du  D  jeuner  N   4            Diner  V                                                                  
38.                  4 Une m  thode de synchronisation de l alignement    On pose l   quivalence de types bilingues issus de chaque volet du corpus parall  le align   au  niveau du paragraphe ou de la phrase  Le rapprochement des types peut   tre effectu   en  prenant en consid  ration leur proximit   s  mantique ou th  matique dans le corpus  On  mat  rialise les distributions des types sur une carte des sections bi textuelle  Si les  distributions sont toujours parall  les mais tr  s l  g  rement d  cal  es dans certaines parties du  corpus  les ruptures du parall  lisme signalent le d  calage dans l alignement des sections  Les  paires de sections monochromes voisines signalent g  n  ralement les passages o   il existe des  erreurs  Voici un diagramme sommaire r  alis      partir d une telle ventilation                                               oe tell lll tells ltl                                                                                                                                                                                                                                                                                                                                                                  ri mmm ui np                                                                                                                                                                                                                                                             
39.               500                                                                                                                                                                                                          550                                                                                                  nouvelle  013                                                    nouvelle  014                            nouvelle 015   NN EN  Section       gt  Flicite de temps     autre parlait     des ombres   Les bonnes femmes s   en allrent   La Simonne                                                                                                             an                                                                                          par   00556   gt       ation 4  Carte des sections pour        et Simon ne    Que sont les 12 occurrences de        dans la partie thlex   Une concordance group  e par  nouvelle montre que sur les douze occurrences de 3  cinq  r  partie dans quatre nouvelles  ont  une autonomie r  elle en tant que particule d insistance  Comme le montre la carte des sections    Illustration 4  les sept autres occurrences sont localis  es dans une seule nouvelle et n ont  qu une valeur syllabique en tant que constituant d un nom propre nom reconnu par le  segmenteur                  Simonne  Les deux formes         si  et         sont apport  es majoritairement par  le pr  nom F  licit   nlasiia  Le segmenteur essaie de reconstituer les mots in
40.               7  gt  GON        Se Partition      mum       4 a    gt     TM UL nouvelle  gt    seuilage m   Sp  cifs EJ                                                                                                                                                                                  leg HUES                                                                                                                                                                                      200  nouvelle  009                                                                                          nouvelle  010                                           250                                                                                                   nouvelle  011                                                                                                           300 Illust  00001 20 01 2000000 ustr           012                                                                                                                   350                    100 Ol                                                                                                                               400                                                                                                               450                                                                                                                                                                                            
41.           S S       Si o     JL d dE ix E H ou                        AA dE 7k SL B           SR     PB BY BI fx Mu d amp           FE QE OBS wu o            B 58 To  SE H      t I deo A   2982 dio  dg V RE x s od T          SS  SS SS o ISS 29 S                                                                          Zo xe d         dB 69 RR B    fh ck XT WB OR                                                                                                                                                         k SS               gt  RE du OBS Hy SB dT  ES       Ue 4              H t mE Uu EC    K SS sm  SS 3 3E   HE RERE     3k YE T   8 B9  RS HS MO 8                 EEZ  M A B W   0 W 8    f 2       S E                 T DOW  HE B   Z    JL      SS     uw Em toi Dm SG  mp zx m  dT               mo m od       amp   9              in               m  B BS Se           2490 formes A ET    pp       amp  rH E db  Xe RBS oi ye b     FB    2    Pr  t  C  Documents and Settinas Salem Bureau MJvourAS miao7carC nar   Figure 4    Exploitation avec Lexico3 du texte chinois d  coup   en caract  res  Le texte ainsi modifi   va nous permettre d   obtenir un premier d  pouillement en caract  res     hanzi  du volet chinois du corpus  On peut voir les principales caract  ristiques quantitatives  de ce d  pouillement au tableau 2     Tableau 2    Principales caract  ristiques quantitatives r  sultant du d  pouillement en  caract  res  hanzi  du volet chinois du corpus    Partie NB      caract
42.           T            aah                                                                                                                                           AUDE                                                  KA                     0 fiU Wu d                              BT MW XK SL          X                    Je                   BA                                                                                                 E                                                                       am                                    CE                                                    BA                                       Dr                                                                      DEES Partition           3  um an vm    U  8  eAucune gt  Zu ar seuillage visi  Sp  cits                                                                                                                                                                                                         50 d                                                                                                                                                                                                                                                                  1 100                                                                                                                                                                                                                               
43.          rideau usag    vieilles dames           vieilles dames   vieille caisse                    caisse abim  e  il vieillissait                  il prenait de 1                           7 Conclusion    La complexit   apparente  le syst  me d   criture chinois ne constitue pas un obstacle  incontournable    l exploration textom  trique des textes  Les traitements informatis  s   labor  s  pour les textes cod  s    l   aide d     critures alphab  tiques peuvent   tre adapt  s  moyennant des  modifications mineures    l   tude des textes chinois     Malgr   des difficult  s importantes dans la d  finition de l entit   mot en chinois  l introduction  de cette notion et sa prise en charge par des logiciels de segmentation automatique permet  d augmenter l efficacit   de l   exploration textom  trique du bitexte franco chinois et de  d  passer l exploration fond  e sur les caract  res hanzis consid  r  s comme des entit  s isol  es     Les r  sultats  obtenus sur la base de la comparaison textom  trique du bitexte align   d  coup    en mots ouvrent  au plan traductologique  des pistes de comparaison qui semblent  extr  mement prometteuses  Elles permettent d envisager la comparaison simultan  e des  moyens lexicaux utilis  s dans les corpus de traduction mis en confrontation et des proc  d  s  employ  s par les traducteurs pour faire saisir    leurs lecteurs les diff  rents sens  nuances et  connotations v  hicul  s par le texte d origine     8 R  f  rences    ALLETON V  1997 
44.         150                                                                                                                                                                                                                                             200                                                                                                                 250                                                                                                                                                                                                                                                                               300                                                                                                                                                                                                                         1 350                                                                                                                 400                                                                                                                                                                                                                          Section  le nouveau   n   s   agite dans son berceau   bien que le vieux ait laiss     pour     E iter ie 3               xfi  entrer   ses sabots   la porte   son pas    fait craquer le plancher   1   enfant  En commence  gt  geindre   la m 7 re se penche hors de son     afin de le rassurer      ES et
45.        Chacune des parties suivantes a   t   segment  e par l outil Kucut         remplac   les espaces  originels par la suite de caract  res     puis il a ajout   des espaces afin de d  limiter les  segments  La troisi  me  quatri  me et cinqui  me partie du tableau correspondent aux versions    tha  es segment  es respectivement en syllabes  morph  mes et unit  s lexicales     3 Navigation dans les segmentations du tha      Nous essayons de caract  riser dans cette partie les diff  rents niveaux de segmentation en    observant leurs formes avec les outils statistiques de Lexico3     Principales caract  ristiques       Partie occurrences formes   hapax   Fr  q Max   Forme  thsyl 110235 399  11083 4125         98199 5978  2276  4125       89178 6493 2656 4125  Corpus 297612 8050  1353 112375    Tableau 8  Principales Caract  ristiques Lexicographiques                                         On observe  dans le Tableau 2 conform  ment    ce que l on pouvait supposer que plus  l unit   est petite telle la syllabe  plus la forme est en moyenne r  p  t  e et moins elle est  susceptible d   tre hapax  Inversement  plus l unit   est grande comme l unit   lexicale  moins la  forme est r  p  t  e et plus il y    d hapax  Le nombre   lev   de syllabes diff  rentes peut frapper  mais sachant que le syst  me d   criture thai peut th  oriquement produire plus de 1 400 000  syllabes diff  rentes Ber2004   le nombre attest   est relativement faible     Les sommations sur l ensemble du cor
46.    6 000    5500    5 000    4 500    4  e  e  e       Nombre de formes diff  rentes              cen e on                           10 000 20 000 30 000 40 000 50 000 60 000 70 000 80 000 90 000 100000 110000  Position dans le texte  nombre d occurrences     Illustration 2  Courbes d accroissement de vocabulaire    Diagramme de Pareto    Le diagramme de Pareto  Illustration 3  montre que les syllabes  les morph  mes et les unit  s  lexicales suivent    peu pr  s la loi de Zipf  Il confirme que les syllabes sont plus utilis  es que  les morph  mes  ceux ci plus utilis  s que les unit  s lexicales  Cependant on observe que les  courbes des morph  mes lexicaux et des unit  s lexicales sont tr  s proches alors que celle des  syllabes est un peu plus   loign  e     Diagramme de Pareto   langue     thsyl           thlex    EX  e  e    Fr  quence  F                 1 10 100 1 000  Nombre de formes  gt   F    Illustration 3  Diagramme de Pareto    Les segmentations vues par les sp  cificit  s    Nous avons observ   dans les parties pr  c  dentes que les syllabes et plus encore les  morph  mes et les unit  s lexicales ont des comportements textom  triques assez similaires  Par  cons  quent  nous allons utiliser les sp  cificit  s  de chacune des parties par rapport au corpus  entier pour faire ressortir les formes sp  cifiques    chaque partie     Les syllabes    Le Tableau 3 montre dans le volet gauche les cinq formes les plus sp  cifiques de la partie  thsyl qui n est autre que les
47.    Caract  diff  rents   hapax FMax  Caract  res  56 797 2 478 579 2959           Le tableau 2 montre que les 56 797 caract  res que compte le corpus JC1 Chin sont des  occurrences de 2 478 hanzis diff  rents  Un quart environ de ces caract  res  soit 579  ne  trouvent qu   une seule occurrence dans le corpus  Le caract  re le plus fr  quent est le caract  re  BJ  qui correspond plus ou moins    la pr  position de en fran  ais      La figure 5  qui rend compte de l   apparition de nouveaux caract  res au fur et    mesure que  l   on parcourt le texte  permet de pr  ciser ces observations  La courbe d   accroissement r  alis  e     partir des caract  res hanzis montre qu   on atteint  d  s les 5 000 premiers caract  res du texte  le seuil de 1 000 caract  res diff  rents  Les 5 000 caract  res suivants n   apportent que 500  nouveaux hanzis  Comme dans le cas des courbes d   accroissement de vocabulaire constitu  es     partir des mots  les tranches successives apportent de moins en moins d   unit  s nouvelles   Dans le cas des hanzis cependant on peut remarquer que l   accroissement initial est plus fort  que dans le cas des courbe d   accroissement r  alis  es    partir d   unit  s lexicales   cf    5  infra      Accroissement de vocabulaire        Corpus entier       2 400  2 300  2 200  CS Se Gen  2 000  1 900  fati  cda ber Dese ee  1 700     i          1 600    m            1 400      1 300      163 WIN ARE        IN AI HIN s  1100     1 000    Nombre de formes diff  ren
48.    l exception de quelques caract  res sp  ciaux  portant sur la structure des textes et sur leur alignement en phrases  le paragraphe  9   la  phrase      l indice des phrases align  es     et les lettres en majuscules contenues dans  l original       Une relecture attentive du corpus nous a permis de corriger certaines erreurs  de traduction  Certains fragments absents dans l un des volets ont   t   supprim  s dans le volet  correspondant pour constituer un corpus d exp  rimentation acceptable        francais    cor  en            article 1        tous les   tres humains naissent libres et    gaux en dignit   et en droits      ils sont  dou  s de raison et de conscience et doivent  agir les uns envers les autres dans un esprit      4 411      HE AE old dy ns  x  9178 DYN AAA BEA   H                     FAS                         34  9  ANSE rj  ele  ok stu        de fraternit     88   article 2       chacun peut se pr  valoir de tous les        A12    884 RE AREE US  s  3 4    Hou 1o   RUOTE  Ax EL      We         vl               9191  Fu     m     droits et      toutes les libert  s proclam  s A AL 2      z  EF            Gol upz       dans la pr  sente   d  claration  sans m   FR  THE 90       A      ANE  distinction aucune  notamment de race  de        Aa  9      s             al    couleur  de sexe  de langue  de religion   d opinion politique ou de toute autre  opinion  d origine nationale ou sociale  de  fortune  de naissance ou de toute autre  situation            
49.    sans fond d o  se d  tachent  comme des jet  Tuo  MHZ      sm          aue          bon dieu   qu il est laid   fit le vieux  d un ton  convaincu  il alla reposer la lampe sur la table                   Figure 9      Visualisation des correspondances de vieux et     dans le bitexte     l aide du logiciel mkAlign     La localisation des concordances et des discordances dans la localisation des termes qui qui  sont r  put  s constituer des   quivalences traductionnelles permet d approfondir l   tude  traductologique et de mieux cerner les techniques propres    chaque traducteur pour rendre  compte du sens v  hicul   par le texte source     Tableau 8    Traductions attest  es dans le volet chinois pour le terme vieux                                                                         francais traduction chinoise francais traduction chinoise  vieille maison 19 2  maison ancienne  de vieux amis              vieux amis   vieille ficelle              ficelle usag  e vieux grand                  grand p  re    de vieux habits IHX  v  tements usag  s    vieux grand                       vieux grand pere   vieux veston bleu                  veston usag   le vieux jean michel              vieux grand p  re   vieille chanson          m  lodie ancienne  le vieux             un vieil homme   vieille chanson          chanson ancienne pauvre vieux             vieil homme   vieil escalier PE      HR       escalier noir   vieilles dames              vieilles dames   vieux rideau        
50.    x Lll A Delo  R  sum     Le tha   ou siamois est une des langues d Asie du Sud Est      criture non segment  e d  riv  e de  la d  vanagari indienne     Pour le chercheur qui tente de p  n  trer le domaine des   tudes thaies  la mise    disposition   sur des sites webs tha  landais  de traductions de textes fran  ais r  alis  es par des traducteurs  dont le thai est la langue maternelle  constitue une occasion pr  cieuse d avancer dans la  compr  hension de la langue et de la culture thaies     La pr  sente   tude est consacr  e    l exploration en corpus    l aide des outils fournis par  Lexico3 des probl  mes de segmentation du thai dans l optique d une   tude textom  trique  comparative ult  rieure  En effet  des   tudes portant sur le thai dans le domaine du traitement  automatique des langues sont de plus en plus pr  sent  es en France  Toutes introduisent une  sp  cificit   du thai    savoir l utilisation d une   criture non segment  e mais rares sont celles  montrant les intrications entre les notions de syllabe  de morph  me et d unit   lexicale dans le  systeme de la langue thaie     Pour r  aliser cette   tude nous disposons d un segmenteur automatique permettant de  segmenter les textes thais en trois niveaux   la syllabe  le morph  me lexical et l unit   lexicale   Les m  thodes de segmentation de cet outil ont fait l objet d une publication en tha     Asa2003    Nous nous appuierons sur cette   tude pour d  finir les notions de syllabes  de morph  mes  lexicau
51.   411  race  la nationalit   ou        religion  ont le droit   de se marier et de fonder une famille              3g uL Ax Sao  ue  HE           F         lacc  s aux   tudes sup  rieures doit   A ARSA       19    tre ouvert      pleine   galit      tous        fonction de leur m  rite        2        91491             TA er v       2   l     ducation doit viser au plein      gt   PIE TEE 5      panouissement de la personnalit   humaine et   jo           au renforcement du respect des droits de   l homme et des libert  s fondamentales     Tableau 5      Exemple des expressions fran  aises correspondantes au type bomme co  dans le corpus Droits                                  4 3  droits de l homme     Hingwon      Plusieurs m  thodes  s  lection des termes cooccurrents  calcul des segments r  p  t  s   permettent de constater que  dans notre corpus  la forme homme est en cooccurrence   troite  avec la forme droits  Le segment droits de l homme compte 986 occurrences dans le corpus   Cependant  on ne trouve aucune occurrence de la traduction litt  rale du segment fran  ais qui  serait constitu  e par l expression  212 9  4 z inganui gwolli    Le segment droits de l homme  est souvent traduit        la seule forme   lxlingwon  qui compte 1 244 occurrences  Si nous  tentons de localiser ces occurrences    partir des p  les de recherche saram et ou ingan  nous ne  localiserons pas les occurrences de la forme ingwon  L   cart important des fr  quences que  l on a constat   entre
52.   Belgique   2004     http   www cavi univ paris3 fr lexicometrica jadt jadt2004 pdf JADT 118 pdf       Zimina Maria  Topographie bi textuelle et approches quantitatives de l extraction de  ressources traductionnelles    partir de corpus parall  les  in Actes des 7es Journ  es  scientifiques du R  seau de chercheurs  Lexicologie  Terminologie  Traduction   Institut    sup  rieur de traducteurs et interpr  tes  ISTI   Bruxelles  8 10 septembre 2005   http   perso univ lyon2 fr  thoiron JS 20LTT 202005 pdf Zimina pdf       Zimina Maria  Corpus multilingues   exploration textom  trique dans l espace intertextuel  in  Ballard M   Pineira Tresmontant C     d  Les corpus en linguistique et en traductologie   p   107 121   Artois Presses Universit    2007     Equivalences traductionnelles     Equivalences     Maria Zimina    zimina  9 msh paris fr    R  sum     Les Types bilingues fran  ais anglais administr  administ  sont appari  s en raison de leur parent    s  mantique dans le corpus parall  le  Dans le bi texte d  coup   en sections  leurs distributions respectives  pr  sentent des divergences  Une suite d op  rations textom  triques permet de cerner les causes de ces  discordances  On d  couvre deux ph  nom  nes sensiblement diff  rents   1  Les asym  tries sont dues au d  calage  dans l alignement des sections   2  Il existe des contextes originaux o   les mots fran  ais commen  ant par la  chaine administr   administration  administrer etc   ne sont pas traduits par des mots
53.   Tableau 1      Extrait du corpus Droits    Le corpus Droits se compose de quarante parties qui correspondent chacune    une convention  ou    un protocole  Les deux volets du corpus comptent respectivement 7 867 phrases  fran  aises et 7 947 phrases cor  ennes  Le nombre de couples des phrases align  es est de  7721  en raison des divers types de correspondances entre les phrases align  es  Pour cette    Commission interam  ricaine des Droits de l Homme  http   www cidh org docdebase htm   et  Bureau international du Travail  http  www logos net net ilo 150 base fra instr afri 2 htm      28 TI est possible d obtenir les textes traduits en cor  en que nous avons utilis  s sur les sites suivants   UNESCO en Cor  e  http   www unesco or kr hrtreaty   Commission nationale des Droits de l Homme de Cor  e   http   humanrights go kr eng index jsp        Les caract  res identiques contenus dans les textes originaux ont   t   remplac  s par d autres signes de  ponctuation       tude lexicom  trique  les deux textes ont   t   segment  s      occurrences de formes graphiques   afin d   obtenir une premi  re comparaison des caract  ristiques lexicales des deux langues  sur      30   la base de ce type de segmentation           Partie Occurrences   Formes Hapax Fr  q  Max   Forme Max  fran  ais 214 313 7 821 2 548 12 576 de  cor  en 114 006 21 068 11 732 1 642                               Tableau 2     Principales caract  ristiques lexicom  triques du corpus Droits    Le Tableau 2 mont
54.   constitue  une entr  e privil  gi  e dans le domaine des   tudes comparatives entre textes r  dig  s dans des  langues diff  rentes  Dans ce cas  en effet  les caract  ristiques quantitatives calcul  es    partir  de chacun des volets du corpus peuvent   tre directement utilis  es pour cerner les diff  rences  entre les langues mises en pr  sence  C est ce que nous allons tenter de faire dans l   tude qui  suit afin de poser les premiers jalons d   tudes traductologiques que nous nous proposons  d entreprendre par la suite     2 Le syst  me d   criture chinois    Les   critures chinoise  japonaise et cor  enne utilisent  toutes trois  les caract  res Han   caract  res d origine chinoise dits         hanzi  en chinois  ainsi que des caract  res nationaux  propres    chacune des langues    Le chinois poss  de  pour sa part  un syst  me d   criture qui  n est ni alphab  tique  ni phon  tique  On peut dire que chaque caract  re correspond plus ou  moins    un morph  me et    une syllabe de l oral     Le nombre de hanzis diff  rents utilis  s par ces syst  mes d   criture se compte en milliers   parfois en dizaines de milliers  d  passant de tr  s loin le nombres des lettres qui permettent de  transcrire les   critures alphab  tiques  On dit que pour lire un journal  un lecteur chinois doit  pouvoir identifier sans mal 5 000 hanzis environ     2 1 Les caract  res chinois    Chaque caract  re chinois est compos   d   un certain nombre de traits que l   on peut retrouver   dans un
55.   l   tude des  corpus textuels  on consultera    Lafon 1984  ou  Lebart et Salem 1994      6 Nous utilisons ici un simple calcul hyperg  om  trique pour comparer le nombre des occurrences du candidat  cooccurrent dans les sections ou est attest  e la forme p  le avec sa fr  quence dans l ensemble du corpus     Shift clic sur carr     affichage   clic droit sur carr     sp  cificit  s   Control rlic sur carr     s  lection   Shift Control clic sur s  lection   d  s  lection    source cible                                                                                                               I00000 00000 0  I00000 00008 000000000000                                                    H                                              IO0000 O0000 SO000 0008000                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     Etape n  1   projection de la forme p  le sur la carte    mo   gt  projection de la forme  nation  sur le volet source                              
56.   les morph  mes  lexicaux et l unit   lexicale en tha   et par cons  quent certains probl  mes de segmentation qui  en d  coulent  La m  thode originale d utilisation des outils de Lexico3 tel que le calcul des  sp  cificit  s par partie  segment  e selon un niveau  pour faire   merger des formes sp  cifiques  ainsi que l utilisation des segments r  p  t  s associ  e    la recherche par expression rationnelle     permis de trouver des exemples pertinents     L analyse des formes ainsi rep  r  es et de leurs contextes    permis de pr  ciser la mani  re  dont travaille le segmenteur  Ainsi les syllabes semblent correctement segment  es  La  segmentation en morph  mes lexicaux ne constitue pas v  ritablement une analyse  morphologique mais une   tape interm  diaire vers la construction des unit  s lexicales  Enfin  il  semble que la segmentation en unit  s lexicales ne corresponde pas    la plus grande  composition lexicale possible au point de ne plus distinguer l unit   lexicale du syntagme  nominal mais    la composition de morph  mes lexicaux en une unit   dont le sens n est pas  vraiment calculable    partir de ceux ci  C est aussi l   tape de reconstitution des mots inconnus  tels les noms de personnes qui sont imparfaitement mais assez bien reconstitu  s     Cette   tude a donc montr   qu il   tait possible en utilisant ce segmenteur de r  aliser une    tude textom  trique avec Lexico3 mais qu il fallait prendre quelques pr  cautions quant    la  d  finition de l unit   
57.   parties dont chacune correspond    un ensemble de documents juridiques d un certain type             les r  sultats que l on peut voir au tableau 1     Tableau 1  Structure du corpus Convention                Corpus Convention volet frangais volet anglais  296 396 occ  284 958 occ    Convention europ  enne des Droits de 5 953 occ  5 710 occ    l Homme   Protocoles int  graux de la Convention 8 984 occ  8 773 occ    Arr  ts de la Cour Europ  enne des Droits  281 459 occ  274 475 occ    de l Homme                   Les arr  ts de la Cour europ  enne constituent la principale partie du corpus Convention   On trouve un extrait du texte des arr  ts en fran  ais et en anglais au tableau 2 ci dessous     Tableau 2  Convention   Arr  ts de la Cour europ  enne des Droits de l Homme  extraits        volet fran  ais    volet anglais        lt texte  fr  gt  5 du c  t    gibraltarien de la fronti  re  les  fonctionnaires des douanes et de la  police en service normal ne furent ni  inform  s ni associ  s    la  surveillance  au motif que cela  impliquerait que l information soit  communiqu  e    un trop grand nombre de  personnes       texte  en      on the  gibraltar  side of the border  the customs  officers and police normally on duty  were not informed or involved in the  surveillance on the basis that this  would involve information being  provided to an excessive number of  people                  lt texte  fr  gt    aucune mesure       fut prise pour ralentir la file de  voitures
58.   pertori   au tableau 4 des parties du corpus pour lesquelles la diff  rence fr  quentielle entre  les deux volets est particuli  rement importante     Parties 01   03   14   33   36   37   38   40            _     11   10   42 55   44 109   56   502            _     42   41 7 19   11 71 18   83    Tableau 4      Extrait des fr  quences locales de homme fr et homme co  dans les parties du corpus Droits                                           Une cartographie textuelle permet de visualiser  au niveau de chaque section  la pr  sence ou  l absence des occurrences de chacun des TGens  La carte des sections  Figure 27  montre des    carts dans la r  partition des TGens homme fr et homme  co entre les deux volets du corpus  Droits  Dans chacun des volets de la carte des sections  un carr   repr  sente une s  quence  en  g  n  ral une phrase  align  e avec une s  lection appartenant    l autre volet du corpus     Dans le  volet fran  ais  la ventilation du TGen homme  fr est repr  sent  e par des carr  s noirs   celle du  T Gen homme  co est repr  sent  e par des carr  s vert fonc   dans le volet cor  en       volet fran  ais gt                                                                                                                                                                                                                                                                                                                                                                      
59.   s avoir s  lectionn   des items dans la liste  on active l   op  ration vis  e pour ces  items     2 3 2 Etude globale des types simples    Courbe d accroissement du vocabulaire  Fichier   graph graph 1247391211  jpg     1048       858 4 F    628 8      Nombre de formes    419 2    209 6                   o 295 590 85 1180 1475 1770 2065 2360 2655 zm  Nombre d occurrences  source  rouge cible  vert     Figure 10   Accroissement de vocabulaire sur les 2 volets de l alignement    Le Diagramme d   accroissement du vocabulaire permet d   observer l   apparition de nouvelles  formes au fur et    mesure que l   on avance dans le corpus  Comme c   est toujours le cas pour  les corpus textuels  la courbe conna  t une croissance rapide au d  but du corpus   cette  croissance ralentit    mesure que l   on avance dans le corpus  On remarque  par del   cette  caract  ristique globale  des zones d   accroissement plus fort ainsi que des paliers durant  lesquels l   apport de nouvelles formes est plus faible  Dans le cas de mkAlign  on peut observer  cette ventilation sur les 2 volets charg  s             mkAlign      Accroissement du vocabulaire  Y Dans l onglet Graphe  activez le bouton AC  Y Le diagramme apparait dans la zone d   dition de l onglet Graphe              2 3 3 Les types complexes    Les segments r  p  t  s    La fonctionnalit   Segments r  p  t  s permet d     tablir la liste de toutes les s  quences de formes  r  p  t  es  pour les 2 volets align  s  sans changement    
60.  3   Affichage du texte avec le codage  lt  Chinois simplifi    GB2312   gt     B Xl    Segmentation   Musiques      Nombre maximum d articles        00000    Nombre des   tiquettes    en test   1    Police d affichage      Chinois simplifi amp    Mainland China  Y       Figure 3   Lexico 3   Fen  tre de r  glage du param  tre    encodage des caract  res       4 Un corpus d opplication    Pour illustrer ces possibilit  s  nous utiliserons un corpus bilingue dont le volet frangais est  constitu   par le premier chapitre du roman Jean Christophe publi   en 1904 par Romain  Rolland  1866 1944   On trouve  au tableau 1  ci dessous un extrait du texte original de  Romain Rolland  Le second volet du corpus est constitu   par la traduction de ce texte en  chinois par Fu Lei  1908 1966   Nous appellerons respectivement ces deux corpus          Fran  ais et JCI1 Chinois     41 Segmentation du texte      caract  res   Comme on l a vu plus haut  sans que cela constitue une g  ne pour le lecteur exp  riment    le  systeme d   criture chinois n utilise pas d espace entre les unit  s lexicales plac  es c  te    c  te   Cette circonstance constitue une difficult   sp  cifique pour l exploitation textom  trique des  textes chinois     Sur quels crit  res peut on s appuyer pour d  couper des unit  s statistiques au fil du texte afin  de r  aliser des comparaisons entre textes   Pour cette premi  re analyse  nous nous appuierons  sur une segmentation automatique  relativement facile formaliser
61.  L   criture chinoise   lt  Que sais je      Se   dition corrig  e  1      dition   1970  Paris  Presses  universitaires de France           FU LEI  f amp        1998  La grande s  rie de la traduction de Fu Lei fg iE X 4   He fei    ditions de l   art  d An Hui                                 FLEURY S   MKAlign   Manuel d utilisation  http   tal univ paris3 fr mkAlign mkAlignDOC htm  GRANGER 5  LEROT J   PETCH TYSON S   eds    2003  Corpus based Approaches to Contrastive  Linguistics and Translation Studies  Amsterdam     New York  Editions Rodopi     HABERT B   NAZARENKO A   et SALEM A  1997  Les linguistiques de corpus  Paris  Armand Colin Masson   HOA M  2005  C est du chinois  I  volume  Lire et   crire   3     dition  Paris    dition You Feng     LEBART L   SALEM A   Statistique textuelle  Paris  Dunod  1994  t  l  chargeable sur le site  http   www cavi univ paris3 fr lexicometrica livre st94 st94 tdm html       OLOHAN M  2004  Introducing Corpora in Translation Studies  London and New York  Routledge     SALEM A    Introduction    la r  sonance textuelle   Actes des 7  mes Journ  es d analyse des donn  es textuelles   Louvain la neuve  2004    WEI N  et alii  2005  Corpora in use                   Shanghai    ditions de l enseignement des langues    trang  res de Shanghai                                           ZIMINA  M  2004  Approches quantitatives de l extraction de ressources traductionnelles    partir de corpus  parall  les  Th  se de doctorat  Universit   de 
62.  Tableau 3  Extrait du volet chinois JC1 Chin segment   en mots   Chaque mot isol   par le logiciel Hailanda est suivi d   un blanc        8           JL                EUH       WK ER             fd                                    ZOUR WE                   RE BF     T      HE EA   A      EW                                                                                                                                                     Wy UST o  RER M        KH          i                                                                          BR GE                                                    MH Hm ON                                                                                J        Dt         N   dip   t S                                                                                       HN          o am Hy ws T A      WA     EX                     RE                                               WE                      KM qd DU  D HU                                                     AE                                         B  RT                                                  4 o     EY     M                        bk                                                                mz ka                     xe                                                MEHR                                                                                                                                                                  BE d o  DS 3     DE E            
63.  anglais commen  ant par la  chaine administ   administration  administering etc   et r  ciproquement  On      d  duit deux m  thodes de travail  sur corpus parall  les   1  Une m  thode de synchronisation d alignement phrastique    l aide de la carte des  sections bi textuelle   2  Une m  thode d exploration bi textuelle permettant le rep  rage de passages originaux o    sont attest  es des   quivalences lexicales peu communes     1 Contexte de la recherche    Le corpus Convention est constitu   de textes juridiques fran  ais anglais de la Convention de  sauvegarde des Droits de l Homme et des Libert  s fondamentales  de ses protocoles  int  graux  et d une s  rie d arr  ts rendus par la Cour europ  enne des Droits de l Homme de  Strasbourg      1995  Deux versions de chaque document existent parall  lement   il est difficile  de distinguer une langue source et une langue cible  Ce corpus a   t   r  uni dans le cadre d une    tude plus large qui avait pour objectif la construction d un lexique bilingue des droits de  l homme    base de corpus parall  les align  s au niveau de la phrase  Bourigault et al   1999    Au cours du projet  le corpus Convention a   t   align   semi automatiquement jusqu au niveau  du paragraphe  On estime le taux de pr  cision du d  coupage en phrases    90   environ     Le corpus compte 12 913 formes pour 296 396 occurrences dans le volet frangais et 9 530  formes pour 284 958 occurrences dans le volet anglais  La partition naturelle du corpus en 3
64.  automatique d   un corpus align        in actes de la  troisi  me conf  rence    Terminologie et Intelligence Artificielle   Nantes  1999     Fleury S     MKAlign  gt   documentation  Paris   Universit   de la Sorbonne nouvelle     Paris 3    Travaux du SYLED CLA  T  2005   http   tal univ paris3 fr mkAlign mkAlignDOC htm    Lamalle C   Salem A      Types g  n  ralis  s et topographie textuelle dans l analyse quantitative  des corpus textuels     in actes des 6emes journ  es d analyse statistique des donn  es  textuelles  Inria  St Malo  2002     Zimina M     Alignement textom  trique des unit  s lexicales    correspondances multiples dans  les corpus parall  les   gt   in actes des 7emes journ  es d analyse statistique des donn  es  textuelles  Presses universitaires de Louvain  Louvain la neuve  2004    Zimina M  Approches quantitatives de l extraction de ressources traductionnelles    partir de  corpus parall  les  Th  se de Doctorat en Sciences du langage  Universit   de la Sorbonne  nouvelle     Paris 3  2004     Zimina M     Exploration textom  trique de corpus de traduction     in actes du colloque    Pour  une traductologie proactive  gt      META 50  Presses de l Universit   de Montr  al  Montr  al   2005     paraitre      8 Fonctionnalit  s Lexico3 utilis  es dans cette navigation                N   Fonctionnalit   R  sultat  8 2   S  lection d un Type  occurrences de formes graphiques  i    x ES Figure 4  commen  ant par une chaine de caract  res d  finie   7 Cart
65.  aux ponctuations faibles et fortes contenues dans la police des caract  res       les caract  res s  parateurs de phrase    sous ensemble des d  limiteurs de s  quence  qui correspondent  en  g  n  ral  aux seules ponctuations fortes     forme ou  forme graphique    arch  type correspondant aux occurrences identiques dans un corpus de textes   c est    dire aux occurrences compos  es strictement des m  mes caract  res non d  limiteurs d occurrence    partition  d un corpus de textes   division d un corpus en parties constitu  es par des fragments de texte  cons  cutifs  n ayant pas d intersection commune et dont la r  union est   gale au corpus     ventilation  des occurrences d une unit   dans les parties du corpus    La suite des n nombres  n   nombre de  parties du corpus  constitu  e par la succession des sous fr  quences de cette unit   dans chacune des parties  prises  dans l ordre des parties    motif   un ensemble d objets poss  dant une propri  t   reconnaissable     analyse factorielle   famille de m  thodes statistiques d analyse multidimensionnelle  s appliquant    des tableaux  de nombres  qui visent    extraire des  facteurs  r  sumant approximativement par quelques s  ries de nombres  l ensemble des informations contenues dans le tableau de d  part     sp  cificit   positive   pour un seuil de sp  cificit   fix    une forme 1 et une partie j donn  es  la forme 1 est dite  sp  cifique positive de la partie j  ou forme caract  ristique  de cette partie  si sa so
66.  dire que tous les mots sont invariables   le masculin   f  minin  singulier et pluriel ne sont pas morphologiquement marqu  s  Les verbes ne se  conjuguent pas  C est une langue    tendance monosyllabique dont les nombreux emprunts au  sanskrit  au p  li et plus r  cemment    l anglais ont introduit de nombreux mots constitu  s de  plusieurs syllabes     Comme on le voit sur l extrait de traduction pr  sent   ci dessous  le tha   poss  de une   criture  non segment  e  Les mots ne sont pas s  par  s les uns des autres par des espaces  Il n y a pas de  d  limiteur de phrase comparable aux signes de ponctuation de l alphabet latin bien que  l espace Tha1978  puisse sembler jouer parfois ce r  le     L   criture thaie    utilise 44 signes consonnes et 19 signes suppl  mentaires qui en se  combinant permettent de repr  senter 32 voyelles     cela il faut ajouter 4 marques tonales  2  diacritiques  10 chiffres traditionnels  3 marques additionnelles pour les mots p  li sanskrit et 6  signes typographiques utilis  s principalement dans les ceuvres versifi  es  Dans le corpus que  nous avons r  uni  on remarque aussi la pr  sence de guillemets     Segmentations pr  alables des textes tha  s    Afin de rendre le texte tha   analysable par Lexico3 nous l avons pr  alablement segment   en  utilisant l outil           d  velopp   par l unit   de recherche NaiST   de l universit   Kasetsart  sp  cialis  e dans le traitement automatique des textes   crits en tha       La m  thode de segm
67.  diverses   tudes comparatives   stylistique  compar  e  lexicographie bilingue  traductologie  traitement automatique des langues   d  sormais TAL  cf  V  ronis  2000     La m  thode textom  trique nous permet     partir de la segmentation des s  quences textuelles   d explorer  dans chacun des volets du corpus  la ventilation des formes graphiques ainsi que  les r  seaux de cooccurrences autour d une forme p  le  Cette m  thode permet  dans certains  cas  d entreprendre des analyse directes bas  e sur la forme graphique des unit  s lexicales qui  entrent en rapport de traduction    cartant dans un premier temps  l obstacle que constitue les  caract  ristiques syntaxiques diff  rentes de chaque langue  Cependant  les comparaisons  fructueuses entreprises    partir de textes   crits dans des langues proches deviennent plus  compliqu  es    mettre en   uvre lorsque les bitextes associent des langues qui ne pr  sente  aucune parent      Dans cette   tude  nous commencerons par pr  senter les principales caract  ristiques  morphosyntaxiques du cor  en que nous comparerons tr  s bri  vement    celle du fran  ais    2    Nous analyserons ensuite les diff  rences quantitatives induites par ces caract  ristiques pour  les d  pouillements de bitextes franco cor  ens   3   Nous envisagerons enfin l approche  textom  trique des   quivalences traductionnelles dans le cadre de l   tude d un corpus parall  le  cor  en frangais  8 4      2 Le cor  en et son syst  me d   criture    Le cor  
68.  dp de le      et le e                                                         w ait pas peur de la nuit       flemme   claire la   5 257   KR         KD RE    figure rouge du vieux jean michel  sa barbe 210 d KA       el       E          blanche et rude  son air bourru et ses yeux vifs  il                IE           MAP TP     H  vient pr  s du berceau  son manteau sent      D       BE                                            mouill     il tra  ne en marchant ses gros chaussons                  XX                           bleus  louisa lui fait signe de ne pas s   approcher               my t                            Sk                elle est d   un blond presque blanc   ses traits sont                 BH                   ME          tir  s   sa douce figure mouton est marqu  e de     4k                 Am                 taches de rousseur   elle a des l  vres p  les et   jj          mp  lt  s          s   grosses  qui ne parviennent pas    se rejoindre et          mat  M Se      qui sourient avec timidit     elle couve l enfant     IO                                    des yeux     des yeux tres bleus  tres vagues                                                                prunelle est un point tout petit  mais infiniment                             BK              tendre     n                                                          8 l enfant s   veille et pleure  son regard trouble            nw         dp              s agite  quelle   pouvante   les t  n  b
69.  du corpus  ont   t   effectu  s    l aide du logiciel Lexico 3   d  velopp   par le CLA2T  Centre de Lexicom  trie et d Analyse Automatique des Textes   Universit   de la  Sorbonne Nouvelle   Paris 3   http   www cavi univ paris3 fr ilpga ipga tal lexicoWWW          Les hapax sont les formes dont la fr  quence est   gale    un dans le corpus         Signalons que ce corpus particulier montre un accroissement du vocabulaire relativement constant pour un  texte fran  ais  Cela est sans doute    mettre sur le compte d une certaine h  t  rog  n  it   des documents rassembl  s  dans le corpus    partir de sources diverses  bien que concernant le th  me des droits de l homme     20 000     16 000  14 000  12 000  10 000   8 000    6 000    Nombre de formes diff  rentes    4 000  2 000       50 000 100 000 150 000 200 000  Position dans le texte  nombre d occurrences     Figure 23     Accroissement de vocabulaire dans les deux volets du corpus Droits    3 2 Diagramme de Pareto    Le diagramme de Pareto  figure 2  permet de visualiser la gammes des fr  quence du  vocabulaire pour chacune des deux langues rassembl  es dans le corpus Droits           cor  en      fran  ais                         Fr  quence                                          1 10 100 1 000 10 000  Nombre de formes  gt   F    Figure 24      Diagramme de Pareto pour les deux volets du corpus Droits        Le diagramme de Pareto fournit une repr  sentation tr  s synth  tique des renseignements contenus dans la    g
70.  e  http   www mofat go kr  et sur celui du Centre  d information des Nations Unies au Japon  http   www unic or jp know kensyo htm      Par ailleurs  le chinois poss  de fondamentalement une structure phrastique qui n   est pas sans  rapport avec les deux premi  res langues occidentales  sujet verbe compl  ment   alors que le  cor  en et le japonais recourent    une structure phrastique inverse  sujet compl  ment verbe    Par contre  le chinois suit  pour la position des attributs  un ordre identique    celui des deux  langues orientales     Le cor  en fait partie  avec le japonais et le turc  des langues agglutinantes caract  ris  es par la  combinaison des radicaux avec des particules auxiliaires qui d  terminent les propri  t  s  grammaticales des radicaux  Comme nous le verrons plus loin  ces particularit  s entra  nent  des cons  quences importantes au plan quantitatif  Le grand nombre des formes diff  rentes  dans les textes cor  ens d  pouill  s en formes graphiques r  sulte avant tout de cette  agglutination des particules auxiliaires aux radicaux qui complique singuli  rement l   analyse  morphologique     2 2 Les caract  ristiques typographique    Le cor  en moderne utilise g  n  ralement les signes de ponctuation occidentaux pour marquer  les limites de la phrase et celles de la proposition  Il utilise de surcro  t quelques ponctuations  cor  ennes comme         2 pour noter les titres d oeuvres  On note aussi quelques  diff  rences entre la ponctuation du cor  en
71.  et    mettre en oeuvre sur un  ordinateur  qui isole chaque caract  re hanzi          Pour r  aliser cette segmentation en caract  res  nous avons remplac    en utilisant pour cela une expression  r  guli  re  chaque caract  re du texte de d  part par ce m  me caract  re pr  c  d   d un espace  code ASCII 32   Le  fichier ainsi modifi   r  alise l isolation de tous les caract  res du corpus  Une proc  dure de ce type est disponible     l adresse   http   www cavi univ paris3 fr     Tableau 1  Extrait des corpus JCI Fr et JC1 Chin           Le grondement du fleuve monte derri  re la maison  La pluie bat les carreaux depuis le  commencement du jour  Une bu  e d   eau ruisselle sur la vitre au coin f  l    Le jour jaun  tre  s     teint  Il fait ti  de et fade dans la chambre     Le nouveau n   s agite dans son berceau  Bien que le vieux ait laiss    pour entrer  ses sabots    la  porte  son pas a fait craquer le plancher   l enfant commence    geindre  La m  re se penche hors de  son lit  afin de le rassurer   et le grand p  re allume la lampe en t  tonnant  pour que le petit n ait  pas peur de la nuit  La flamme   claire la figure rouge du vieux Jean Michel  sa barbe blanche et  rude  son air bourru et ses yeux vifs  Il vient pr  s du berceau  Son manteau sent le mouill     il  traine en marchant ses gros chaussons bleus  Louisa lui fait signe de ne pas s approcher  Elle est  d un blond presque blanc   ses traits sont tir  s   sa douce figure mouton est marqu  e de taches de 
72.  et celle du fran  ais   par exemple  le cor  en utilise  pour les citations des guillemets anglais           au lieu des guillemets fran  ais            Comme en fran  ais et en anglais  les mots cor  ens sont s  par  s par des espaces  Les corpus de  textes cor  ens se pr  tent donc sans grande difficult      la segmentation automatique en mot par    la s  lection d   un ensemble de d  limiteurs  signes de ponctuation et espace      La structure syllabique originale du cor  en est caract  ris   par la combinaison      2    3 lettres  par syllabe  dispos  es en carr   virtuel  on recense effectivement 11 172 combinaisons de ce  type qui peuvent   tre identifi  es    des caract  res  La version actuelle de Lexico3 n accepte pas  encore la table Unicode  Elle rencontre  de ce fait  des probl  mes pour afficher simultan  ment  le cor  en et le frangais     2 3 Encodage des textes cor  ens pour Lexico3   Le couteau suisse de Lexico3 permet d afficher les caract  res cor  ens lorsqu ils sont  encod  s avec la table de caract  res win 949  bas  e sur l ASCII  qui correspond au codage     Cor  en Wansung     Mais  dans le cas du traitement informatique d un corpus multilingue  constitu   par des couples langues occidentales  langues orientales  les outils informatiques  ont du mal    afficher simultan  ment les caract  res correspondant aux deux syst  mes  d   criture     3 Le corpus    Pour illustrer notre propos  nous avons s  lectionn   un corpus de textes juridiques constitu   
73.  guard    5                         Sur la figure4  chacun des types administr   478 occ   et administ   482            fran  ais anglais  est constitu   par l   ensemble d   occurrences des formes graphiques  regroup  es en raison de leur parent   s  mantique dans le corpus transform   pour une  exploration parall  le sous Lexico3  voir l extrait pr  sent   au tableau 3             Sous Lexico3  le langage des  lt  expressions r  guli  res  gt  permet    l utilisateur de constituer des groupes de mots  correspondant au type de son choix et d enregistrer la liste de ces unit  s pour une exploration ult  rieure     10 Dans l   tat actuel  les fonctionnalit  s de Lexico3 ne permettent pas encore de charger s  par  ment les  dictionnaires de formes correspondant    chaque volet d un corpus bi textuel  Pour contourner cette difficult     nous avons diff  renci   les deux langues en introduisant le caract  re  lt  _  gt   underscore  devant chaque forme  graphique du volet anglais  Automatis  e par une op  ration Rechercher Remplacer  l insertion de cette marque a  permis d   viter toute confusion entre les vocabulaires correspondant    chaque volet du corpus     Groupes      formes       administrative    administrative       administration    administration       administratif    administered       administratives      administer       administratifs      administering       administrateur    administrations       administre 2   administrator  administrer  administrant  administ
74.  l     diteur d   alignement  ou aux sections dans la carte des sections    e Le terme poly cooccurrence d  signe les attractions lexicales au del   de la  cooccurrence binaire    Le module de poly cooccurrences int  gr   reprend l   algorithme d  crit dans  Martinez  2006          On calcule pour le p  le A les cooccurrents sp  cifiques B  C et D   e Dans leurs contextes communs  on calcule pour les p  les A B les cooccurrents  sp  cifiques E et F       Les p  les          ont pour cooccurrent sp  cifique H       Les p  les A B E HH n ont pas de cooccurrent sp  cifique et l exploration s interrompt  pour ce chemin       Les p  les A B F ont pour cooccurrents sp  cifiques I  etc        Durant l   exploration  diff  rents filtrages conditionnent l   puisement des explorations  contextuelles et r  duisent le bruit dans les r  sultats pour privil  gier l   information la  plus sp  cifique   seuils maximaux de fr  quence et de sp  cificit   du cooccurrent    Le calcul des cooccurrents   tant termin    l   activation du module de polycooccurrence  construit les chemins de polycooccurrence   le graphique suivant construit par mkAlign  synth  tise l ensemble de ces chemins que nous ins  rons  plus bas      2 3 1          2031   284 1     Figure 14   Les polycooccurrents de la forme  nation     Dans ce graphique  les formes en jaune sont pr  sentes dans les 2 volets  les formes en rouge  sont pr  sentes dans le volet source  FR 1  et les formes en bleu sont pr  sentes dans le volet  
75.  la n   vons pardu nol   us AXES que    Ile sont   en    pas les          ou rapidement Mais je          dire ceci    Wees   de faire Srionpher Atespeir sur E e sommes r  uni  pe re i l espoir    1   eri   AM            des fausses promesses  1 zo    1 amer   mesquines wt des fausses promus       ler Reritures    I ert taspa de     1 e En une nation jeune  mais                  temps ert wanu de di   t     de choisir ce qu il y a de mieux dans            hist  22 Le moment est venu de preuve    nouveau de t  nacit    de choisir ce qu il    a de mieux di   vous Het que nous sommes tous libres       que nous                    2   promesse divine selon laquelle nous sommes tous   gaux  nous sommes tous libres  er nous a   aue Grandeur n est 1             13          nouveau la arandeur de notre nation  nous SAVOLA que l amp  grandeur n est               25 E doit      m  riter  acceptation de moindres bien     lt  Em    e BEE      roccoureis dvf pr  sensien   Ft Ri poue Les        ceux qu pr  tiram   27 Ca chenin          par die pour le  ics REN   pour sam goi pri  res 8 pem    plutdt pour ceux qui pr      des risques  qui qui 2e ceux qui prennent des risques  Ceux qui    l action  ceux qui o    gt       leurs Timer            ap ont travers     r         nons d  e les quelques p pur terre et traver   sie ont dans der mis  re et i Ouert   318 ont endur   la      e   3 e der et ER ront install  e    1 peur nous  sis B battus      sont Lech sur weng champs de bataille     Concor
76.  le concept vieux  vieillard  etc   est souvent rendu en chinois par les termes         1ao  ren  vieil homme  et  lao  vieux  qui constituent par ailleurs les   quivalences  traductionnelles les plus adapt  es pour traduire le concept de vieux     Dans une seconde   tape  nous introduisons les mots        et Z sur la carte des sections  d  coup  es    partir du texte chinois  La comparaison des deux volets montre que la  correspondance est loin d   tre parfaite  On a rassembl   dans le tableau 8 des paires   s  lectionn  es    partir du concept frangais vieux  qui se trouvent   tre en rapport de traduction  avec des expressions chinoises  L analyse des discordances dans la localisation de ces formes  r  v  le avant tout un   cart entre le champ s  mantique du mot frangais vieux et celui du hanzi  chinois    1ao  vieux  ancien  etc    En fran  ais  le mot vieux poss  de un lien   troit avec  l   ge et le temps  mais il v  hicule aussi une valeur parfois p  jorative lorsqu il s applique    des  objets ou    des personnes dans certains contextes  vieux v  tements  vieille caisse   En chinois   tout au contraire  le mot 2  dont le champ s  mantique est un peu plus large  est employ    pour d  signer des personnes anciennes  respectables  honorables         professeur              vieux ma  tre      24 Cet alignement a   t   r  alis   en utilisant le logiciel MKAlign propos   par Serge Fleury   ce logiciel peut   tre  t  l  charg   sur le site   http   tal univ paris3 fr mkAlign 
77.  le grand   p   re allume la lampe en t  tonnant   pour que le petit n   ait pas  E peur de la nuit   la flamme   claire      figure rouge du vieux jean   michel         3 EG barbe blanche et rude   son air bourru et        yeux vifs   il vient pr   s du    berceau   son manteau sent le mouill     il traine en marchant ses eros    Bappor Effacer       R   chaussons bleus              lui fait signe de ne pas s   approcher   elle est d   un             qe                 3      tition        T                                                                                                                                                                                                                                                            50                                                                                                                                                                                                                                                     1 100                                                                                                                                                                                                                                                                             150                                                                                                                                                                                           200                                     
78.  les types homme  fr et homme  co dans les parties 36 38  40 tient bien fait  que la majorit   des occurrences qui rel  vent de la forme homme apparaissent dans le corpus  Droits en cooccurrence avec la forme droits  la plupart du temps sous la forme droits de  l homme  On localise les occurrences correspondantes du type ingwon  dans les derni  res  parties du corpus  cf  Figure 28     Dans les cas ou le segment subit une inclusion  il est    nouveau rendu par ingan  Par exemple   les droits fondamentaux de l homme est traduit par  914t9   de l homme  7 9   fondamentaux  xl     droits  et non plus   Z  2  5 gibonjeok ingwon      On v  rifie  sur        figure 6  que les distributions dans les parties du corpus du couple droits de  l homme ingwon  sont assez similaires     quelques expressions dues    la pr  sence de  segments comme droits fondamentaux de l homme  etc      650      600   I                e    ingwon      s    droits de l homme                               Fr  quences                                T DETUR  1 3 5 7 9 1113 15 17 1921 23 25 27 29 31 33 35 37 39  Parties    Figure 28      Les fr  quences locales du couple ingwon  droits de l   homme  dans les quarante parties du corpus Droit    L   cart constat      propos de la partie 40 tient essentiellement au ph  nom  ne que nous venons  de d  crire plus haut  Cependant  apr  s la prise en compte de ces variantes traductionnelles  les  parties 33 et 40 montrent encore des   carts importants au plan fr  quenti
79.  lors de leur entr  e  ou pour  examiner tous les passeports  car on  craignait que cela puisse alerter les  suspects      lt texte  en  gt    no steps were taken  to slow down the line of cars as they  entered or to scrutinise all  passports since it was felt that this  might put the suspects on quard         lt texte  fr  gt  5 une   quipe de  surveillance distincte se trouvait  cependant    la fronti  re et un groupe  pr  pos      l arrestation   tait post    dans le secteur de l a  roport voisin          texte  en      there was  however   a separate surveillance team at the  border and  in the area of the  airfield nearby  an arrest group                texte  fr    S le t  moin  m   dirigeait une   quipe de surveillanc  post  e    la fronti  re  exprima sa  d  ception au vu du manque apparent de  coop  ration entre les divers groupes    qui          impliqu  s     gibraltar  mais il  comprit que les choses   taient ainsi  organis  es pour des questions de  s  curit              lt texte  en  gt    witness xm who led  a surveillance team at the frontier  expressed disappointment at the  apparent lack of co operation between  the various groups involved in   gibraltar but he understood that  matters were arranged that way as a  matter of security        Guide de lecture du tableau 2            Dans cet extrait du corpus parall  le Convention  plusieurs types de codage sont mis en   vidence        la cl     texte   texte qui distingue deux langues  fran  ais    fr   anglai
80.  m  me 51                       ahan  est d  crit par les sp  cificit  s et donc par le segmenteur comme une des formes les plus    repr  sentative de l unit   lexicale  on    vu bien des cas o   elle rentre en composition avec  d autres unit  s lexicales pour   tre en relation de traduction avec un seul mot fran  ais     Toute cette analyse doit nous permettre de r  interpr  ter les courbes d accroissement de  vocabulaire Illustration 2 page 7  En effet  les morph  mes lexicaux  sans parler de l instabilit    de cette segmentation  n est qu une   tape interm  diaire de la syllabe vers l unit   lexicale   L unit   lexicale regroupe les morph  mes lexicaux parmi lesquels certains on   t   recompos  s  en noms propres et en mots compos  s de certains types  Toutefois de nombreuses s  quences  pouvant   tre consid  r  es comme unit   lexicale vis    vis du r  f  rentiel s  mantique fran  ais  telle celle commen  ant par la forme  gt   ran  n ont pas   t   recompos  es  Sous l hypoth  se que  ces s  quences s apparentent    des syntagmes nominaux  ce segmenteur tha   imite les  segmenteurs pour les langues      criture segment  e en ne les recomposant pas  laissant  si  besoin est  le soin    un analyseur morpho syntaxique de les reconstituer  Mais quelle est la  diff  rence r  elle entre syntagme nominal et unit   lexicale dans une langue dite isolante qui  n isole rien    l   crit      5 Conclusion    Cette premi  re   tude a illustr   en corpus l intrication entre les syllabes
81.  o                                                                          7650                       mi EN    7700    lt volet cor  en gt                                                                                                                                                                                              50                                                                                                                                                                                                                                            100                                                                                                                                                                                          150                                                                                                                                                                                                                        20    50050                                                                              DDD 250                                                                                                                                                                                                                   30                                                                                                                                                                                          350                           
82.  par une s  rie de conventions  protocoles  chartes  etc   publi  s    propos du th  me des droits de  l homme  par le Haut Commissariat des Nations Unies aux droits de l homme  le Conseil de  l Europe  la Commission Interam  ricaine des Droits de l Homme et le Bureau International  du Travail     27 On peut consulter les textes originaux du corpus Droit sur les sites suivants    Haut Commissariat des Nations Unies aux droits de l homme  http   www ohchr org french    Conseil de l   Europe  http   conventions coe int Treaty FR v3DefaultFRE asp      Le corpus Droits se compose de deux volets   le premier est constitu   par le texte orignal       fran  ais  le second par sa traduction en cor  en  Les traductions cor  ennes ont   t    officiellement publi  es par la repr  sentation de l UNESCO en Cor  e et par la Commission  nationale des Droits de l Homme de Cor  e  Signalons que les traductions cor  ennes n ont  pas   t   r  alis  es directement    partir des textes frangais mais    partir de leurs   quivalents  anglais  Cependant  dans la mesure o   l anglais et le fran  ais sont les deux langues officielles  de ces organisations qui effectuent pour leur compte des traductions de qualit    nous avons  consid  r    pour cette exp  rience  que le bitexte franco cor  en pouvait   tre consid  r   comme  un corpus parall  le de bonne qualit       Le corpus Droits a d  j     t   align   au niveau des phrases  Il ne contient aucune balise  v  hiculant des informations linguistiques 
83.  rousseur   elle a des l  vres p  les et grosses  qui ne parviennent pas    se rejoindre et qui sourient  avec timidit     elle couve l enfant des yeux     des yeux tr  s bleus  tr  s vagues  o   la prunelle est  un point tout petit  mais infiniment tendre       l enfant s   veille et pleure  son regard trouble s   agite  quelle   pouvante   les t  n  bres  l     clat  brutal de la lampe  les hallucinations d un cerveau    peine d  gag   du chaos  la nuit   touffante et  grouillante qui l entoure  l ombre sans fond d   o   se d  tachent  comme des jets aveuglants de  lumi  re  des sensations aigu  s  des douleurs  des fant  mes   ces figures   normes qui se penchent  sur lui  ces yeux qui le p  n  trent  qui s enfoncent en lui  et qu il ne comprend pas   il n a pas la  force de crier   la terreur le cloue immobile  les yeux  la bouche ouverts  soufflant du fond de la  gorge  sa grosse t  te boursoufl  e se plisse de grimaces lamentables et grotesques   la peau de sa  figure et de ses mains est brune  violac  e  avec des taches Jaun  tres     Romain Rolland  Jean Christophe  1904    M                                                                                             EKER    nmn         P  em                                                                                                                                                                                                                                                                                          
84.  s par le ralentissement de l   accroissement du  vocabulaire au cours du r  cit peuvent   tre mis en rapport d   une courbe    l   autre  Au  ralentissement qui survient sur la courbe correspondant au texte fran  ais  abscisse 20 000   correspond un ralentissent dans la traduction chinoise  abscisse 17 000      celui qui survient  pour le texte fran  ais  abscisse 32 500  correspond   galement un ralentissent dans la  traduction chinoise  abscisse 28 000      Accroissement de vocabulaire        francais   chinois             5 000 10 000 15 000 20 000 25 000 30 000 35 000  Position dans le texte  nombre d occurrences           Figure 6    Courbes d   accroissement du vocabulaire r  alis  e  sur les volets fran  ais JC1 Fr et chinois JC1 Chin du corpus     Diagramme de Pareto   version      chinois   francais       1 000          100             Fr  quence  F                                   1 10 100 1 000  Nombre de formes  gt   F          Figure 7    Diagramme de Pareto pour les deux volets du corpus         Guide de lecture pour la figure 7        Pour un texte T d  pouill   en unit  s statistiques appel  es formes  le Diagramme de Pareto  permet de visualiser la structure de la gamme des fr  quences     m           vertical permet de repr  senter la fr  quence F des formes du textes   laquelle varie de 7    Fmax  fr  quence maximale calcul  e pour le texte 7      m Sur l   axe horizontal  on porte la quantit    nombre de formes du texte dont la  fr  quence est sup  rieur
85.  se ne confortent appellant cites in evidence in this  toutefois pas cette affirmation  connection do not  however  support  that assertion                    La pr  sence de sections monochromes sur la carte montre qu   il existe des cas de non   correspondance entre les types  En cliquant sur un carr   monochrome  bleu ou rouge   il est    possible de visualiser dans la fen  tre du bas le texte correspondant    la section o   les deux  types ne sont pas li  s         volet fran  ais volet anglais           lt texte  fr  gt  toute autre lecture          lt texte  en  gt  any other construction  seulement p  cherait par manque de would not only lack coherence   coh  rence  mais surtout trahirait  l intention des autorit  s   lesquelles entendaient soustraire     l emprise de la  convention tout le  Syst  me administratif  y compris les  dispositions de fond et de proc  dur  du droit administratif p  nal                          Type 1    Lorsque deux sections monochromes colori  es en bleue et rouge se succ  dent sur la carte  on  peut g  n  ralement constater les d  calages dans l appariement des sections  Par exemple         volet fran  ais volet anglais           lt texte  fr  gt  toute autre lecture          lt texte  en  gt  any other construction  seulement p  cherait par manque de would not only lack coherence   coh  rence  mais surtout trahirait  l intention des autorit  s   lesquelles entendaient soustraire     l emprise de la  convention tout le  Syst  me administra
86.  tant dit  on peut avoir affaire    deux probl  mes  Le premier est un probl  me de sous   segmentation c est    dire que des parties de noms propres sont rattach  es    d autres unit  s  lexicales  Le second est un probl  me de sur segmentation c est    dire que des bouts de  morph  mes de noms propres n ont pas   t   rattach  s ensemble     La m  thode pour retrouver des occurrences de formes mal segment  es avec Lexico3  consiste    calculer les segments r  p  t  s sur le corpus segment   en trois parties puis    utiliser  conjointement l outil de recherche de groupe de formes et les expressions rationnelles                 Expressions Exemples de formes Expressions Exemples de formes                                                                                                       aa d                                                                                                                                                                             14 formes                                                          Au  N                                                trouv  es  la plupart                                                                              sont des             14 segments r  p  t  s                                                                                                                                                                  distribution vari  e                                                                                
87.  traductions thaies segment  es en syllabes  Il montre dans le volet  droit les cinq formes les moins sp  cifiques de cette partie  On observe que toutes ces formes  sont monosyllabiques  De plus  on remarque que les occurrences des formes du volet gauche  sont presque exclusivement dans cette partie alors que les occurrences des formes du volet  droit ne compte que pour un tiers des occurrences totales     2x Nous avons retenu un seuil de probabilit   de 5 et une fr  quence minimale de 10                          Syllabes   Sp  cificit  s positives Sp  cificit  s n  gatives  Formes  Fr  q  Fr  q Tot   Coef     Formes  Fr  q   Fr  q Tot    Coef           256 301 ENT        1980 5938  10              437 556                        0 1248 3735  7          211 216 RTF         1144 3400  6              423 536               1151 3441  6          174 181 TR            1013 3028  6                                     Tableau 9  Sp  cificit  s pos n  g thsyl sur thsyl thmor thlex    On peut corroborer ce constat num  rique par des connaissances linguistiques  En effet  il  semble difficile d attribuer un sens aux formes de gauche alors qu on sait par connaissance du  thai qu elles sont pr  sentes dans de nombreuses unit  s lexicales  On peut confirmer cette  affirmation par une recherche    l aide de l outil groupe de formes  Quelques exemples sont  donn  s dans le Tableau 4  Quant    la pr  sence d occurrences de ces formes dans les parties  thmor ou thlex  il peut s agir d erreur 
88. 5450                                                                                                                                                                                                             1           1                                                                                                                                                 7                                                                   NN                                                                                                                                                                                                                                                                  s                                                                                 NEN                             N 1 7200                                                                                                                                                                     350  Figure 29    Extrait de la carte des sections    homme_fr  femme fr et I homme femme          dans le volet francais                                                                                                                                                                                                                                                                                                                                                                                                             
89. Cf    par exemple   ALLETON 1997   p 11 18                 dongAEst  WI   xi          x        HONGXT Abkhose HH       2 2 Les mots chinois   C   est la combinaison de deux caract  res ou parfois de trois caract  res qui constitue le mot       ni  fu  toi  Af h  o  bon  bien              nih  o  Bonjour  Comment ca va   J       Dans la langue moderne  il existe beaucoup      mots bi syllabiques  voire tri syllabiques  Par  suite de l     volution de la langue et de l   adoption de mots emprunt  s    d   autres langues  Par  exemple          1   2   3   4                               sh  u Shou j1 xi   h  u qi  o ke li  main portable rencontre par hasard chocolat    Dans le premier exemple  le caract  re    sh  u  signifie main  il constitue une syllabe et  correspond en m  me temps    un sens ind  pendant  Dans ce cas  il peut   tre consid  r   comme  un mot     Dans le deuxi  me exemple  FHl  le m  me caract  re est associ   au caract  re      ji   machine  appareil     garde dans ce cas le sens main  mais la combinaison des deux caract  res  prend un nouveau sens   t  l  phone mobile  portable     Dans le troisi  me exemple  la combinaison des deux caract  res         xi   h  u  signifie se  rencontrer par hasard  mais ces caract  res perdent leur sens lorsqu il sont isol  s     Dans le mot            anglais chocolate   chacun des caract  res 15  v    7  poss  de un sens  propre sans rapport imm  diat avec le mot  257  adroite  habile        convaincre  JJ  force      Pro
90. Dordrecht    Boston   London   Kluwer Academic Publishers  pp  1 24    Zimina  M   2000    Alignement de textes bilingues par classification ascendante  hi  rarchique     In Actes des 5es Journ  es internationales d Analyse statistique des  Donn  es Textuelles  Lausanne  pp  171 178    Zimina  M   2002      Rep  rages lexicom  triques des   quivalences    basse fr  quence dans les  corpus bilingues     In J  V  ronis  Ed    Revue   lectronique Lexicometrica  n  sp  cial     Corpus align  s       Zimina  M   2004a      Alignement textom  trique des unit  s lexicales    correspondances  multiples dans les corpus parall  les     In Actes des 7es Journ  es internationales  d Analyse statistique des Donn  es Textuelles  Louvain la Neuve  pp  1195 1202    Zimina  M   2004b   Approches quantitatives de l extraction de ressources traductionnelles     partir de corpus parall  les  Th  se de doctorat  Universit   Paris III     7 Fonctionnalit  s Lexico3 utilis  es dans cette exploration                               N   Fonctionnalit   R  sultat  5 5   Courbe d accroissement du vocabulaire Figure 5  5 Principales caract  ristiques lexicom  triques  PCLC  Tableau 2  5 5   Courbe d accroissement du vocabulaire Figure 1  54   Diagramme de Pareto Figure 2  6 Ventilation dans les parties Figure 4  6  8 Groupe de formes Figure 3  7 Carte des sections Figure 5  7  8                Le tha    De la segmentation aux maux   fran  ais tha       Christian Jean  chr_jean2000 yahoo fr    2 2 E     39
91. Ressentir  sentir    233 335 SES             1 369       sentiment                                  F  licit   76 76 41         8 472                            Causer  faire      225 355 39             3 536 S    sorte de                              Modificateur 159 255 27             6 556 MEN  d aspect  temporel   pouvoir  N                         Pronom 111 157 26   82 988 Ka  personnel  r  flexif                                         Tableau 12  Sp  cificit  s pos neg thlex sur thsyl thmor thlex    On observe que toutes les formes de gauche sont polysyllabiques alors que celles de droite  sont monosyllabiques     Les formes de gauche sont vari  es quant    leur nature  En effet  nous avons un verbe  un  nom commun  un nom propre ainsi que des mots outils      On remarque que le mot outils                             tham haj  est compos   de deux syllabes dont l une est principalement un verbe  faire   rentrant dans la composition d un nombre assez important d unit  s lexicales et l autre est aussi  un mot outil d  riv   du verbe             haj   donner   Ils sont tr  s fr  quents  Par exemple              appara  t dans les parties thsyl  thmor  thlex respectivement 581  360  210 fois et hi  respectivement 1002  854 et 748 fois        Les fr  quences des formes de droite  hormis celle de la forme h     sont faibles dans cette  partie  Ainsi il n y a qu une seule occurrence                   seuk  contre 132 dans la partie thmor et  236 dans la partie thsyl  On ne m
92. SYLED   CLA2T    Universit   de la Sorbonne Nouvelle   Paris 3    Explorations textom  triques    LEXICO     amp  mk lign       Volume 3   corpus multilingues    Sous la direction de  Andr   Salem et Serge Fleury    S  Fleury  M  Zimina  J  Miao       Salem  J H  Cho  Christian Jean    2009    Nous avons rassembl   plusieurs compte rendus d exp  riences r  alis  es avec les logiciels              famille Lexico au cours de nombreuses recherches et dans le cadre de collaborations diverses   Les navigations rassembl  es ici ont   t   choisies pour mettre en   vidence la tr  s vaste gamme  des domaines d application des m  thodes textom  triques ainsi que les fonctionnalit  s des  logiciels Lexico3 et mkAlign  Elles sont publi  es sous la forme de trois volumes  volume 1    corpus et probl  mes  volume 2   s  ries textuelles chronologiques  volume 3   corpus  multilingues      Lexico3  http   www cavi univ paris3 fr ilpga ilpga tal lexicoWWW   mkAlign    http   tal univ paris3 fr mkAlign     Lexicometrica  http   www cavi univ paris3 fr lexicometrica     Fonctionnalit  s      Lexico3    Tableau des fonctionnalit  s    Pour pr  senter les fonctionnalit  s mises en   uvre dans les sections suivantes  nous avons  r  unis ci dessous les diff  rentes ic  nes associ  es aux fonctionnalit  s vis  es dans leur contexte  d   utilisation      Fen  tre barre principale    J 4 55 7 89 10                    Pattition   Sr      lt              gt                         0 L  Sp  cifs    Fen  
93. Xie up d                               RE                  2                      me   HEART               5                          E                                                               EX AN                                                                          a          Figure 8    Localisation des correspondances de vieux et Z dans le bitexte       l   aide du logiciel Lexico3           le grondement du fleuve monte derri re la       maison  la pluie bat les carreaux depuis le 5    6 3                                 ES commencement du jour  une bu  e d eau                E km HE WA     ER MAF  ES                                                                    ruisselle sur la vitre au coin f l    le jour     jaun  tre s   teint  il fait ti de et fade dans la         chambre     Chargement Source et Cible            version   fran  ais gt   s   lt version chinois gt     Alignement Source Cible 5 a fait craque  lan   Recherche de cognats    ce   geindre  la m re        I hors de son lit  afin de le rassurer          le       7 grand p re allume la lampe en t  tonnant  pour                        RRES            ALR o   1 bres  gt      zh B                     Ss                                                                                   SHE                      i r g   du chaos  la nuit                                                           touffante et grouillante qui l entoure  l ombre       RP MAR                                    28          
94. a agi en violation d un unlawfulness on the allegation that  principe g  n  ral de          the  commissioner has acted in breach  administration   algemeen beginsel van  of a general principle of  good  behoorlijk bestuur   governance   algemeen beginsel van             behoorlijk bestuur                  12 Les erreurs recens  es dans l alignement des sections bi textuelles peuvent   tre corrig  es    l aide du  programme mkAlign  Fleury  2005      Tableau 6  suite   Convention   Contextes originaux rep  r  s    l   aide de la topographie bi textuelle                         volet fran  ais volet anglais    lt texte  fr  gt  en outre  la r  serv  lt texte  en  gt  moreover  the   n entr n jeu que lorsqu ont   t   reservation only comes into play  appliqu  es des dispositions where both substantive and procedural  administratives de fond et d of one or more of the four  proc  dure d une ou plusieurs des Specific laws indicated in it have  quatre lois qu elle sp  cifie  been applied            lt texte  fr  gt  il ressort des m  moires   texte  en    it is apparent to the  soumis par les parties    la proc  dure    court from the pleadings of the                                  devant ell t des dossiers des parties to the proceedings before it  proc  dures ant  rieures  qu une and from the files relating to the  audience ne contribuera sans doute earlier administrative proceedings  pas      claircir l affaire  that an oral hearing is not likely to    clarify the case further
95. a liste des s  parateurs et y ajouter le  caractere   qui sert de d  limiteur de sections dans notre corpus  Comme on veut garder la trace  des espaces originaux  on exclu aussi le caract  re _ de la liste des d  limiteurs     La table win874  id  ale pour des textes bilingues anglais thai  permet de travailler  simultan  ment avec les caract  res ASCII et les caract  res thai mais pas avec les caract  res  fran  ais accentu  s  Ainsi il faudra faire un choix d affichage lorsqu on travaillera avec les  fichiers contenant    la fois les versions fran  aises et les versions tha  es des nouvelles         lt langue  fr  gt  lt nouvelle  001  gt  lt auteur  1  gt     Le Dr Joris Abraham W  Snowdrop  de Pigtown  U S A      tait arriv      l   ge de cinquante cinq ans  sans que  personne de ses parents ou amis e  t pu l amener    prendre femme     L ann  e derni  re  quelques jours avant No  l  il entra dans le grand magasin du 37th Square  Objets artistiques  en Banaloid   pour y acheter ses cadeaux de Christmas         lt langue  th  gt   lt nouvelle  001  gt  lt auteur  1  gt   A  2 Ei v a  4 a    4 v a                              9015183                                                                                                                                                                                                                                                                                                                                                           
96. alignement des deux  volets du bitexte r  alis      partir du corpus        au niveau du paragraphe     A partir d un tel alignement on peut s  int  resser aux traductions de ce qui constitue une unit    dans la langue source dans l autre volet du corpus  Cette comparaison peut   tre men  e  simultan  ment du point de vue distributionnel      l aide de l outil concordance  cf  tableau 7   et d un point de vue spatial  cf  figure 8      6 2 Le groupe vieux vieillard ef son correspondant               ren     A titre d exemple  nous examinerons les traductions chinoises d un ensemble de mots qui  We     25     rendent en fran  ais le concept de vieillesse   vieux  vieillard  etc     Pour cette famille de mots    nous obtenons une fr  quence globale de 95 occurrences qui se r  partissent comme suit      vieux 77  vieille 7  vieil 3  vieillard 3  vieilles 2  vieillards 1  vieillissait 1  vieillots 1     On trouve au tableau 7 un extrait de concordance r  alis  e autour du p  le 2 1      vieux   dont  les lignes sont tri  es par ordre d   apparition dans le texte chinois  La localisation des  occurrences de chacun de ces termes dans la carte des sections   tablie pour le texte fran  ais   figure 8  permet de rep  rer des sections correspondantes du texte chinois dans lesquelles on  peut s   attendre    ce que soit rendue  en chinois  l   id  e de vieux  La liste des mots les plus  sp  cifiques dans le texte chinois qui correspond    ces derni  res sections  nous laisse penser  que
97. am connait deux principales variations grammaticales saram  singulier  et  saramdeul  pluriel   Dans le volet cor  en  nous nous trouvons du fait de la structure  agglutinante de la langue cor  enne  de nombreuses occurrences qui concernent   galement la  forme saram      x3 2 sarameun      134      A                      55      AH                         34                                        30     LHbxbsaramgwa       26      AEsarameul        23            saramdeurui     F 22   etc  Dans notre corpus  cf  figure 3   ces formes trouvent   pour la plupart  une fr  quence sup  rieure    celle de la forme saram laquelle ne compte que 10  occurrences     Dans le cadre du d  pouillement      formes graphiques    partir      la s  lection de caract  res  d  limiteurs  la variation graphique associ  e    un nom commun fran  ais provient de la marque    ventuelle du pluriel par rapport au singulier  Dans le cas d   un texte cor  en cette variation est  augment  e par la combinaison possible avec diff  rents mots fonctionnels ou particules  auxiliaires     C   est la raison pour laquelle le d  pouillement des textes cor  ens g  n  re  comme  nous l avons d  j   signal   au   2  beaucoup plus de formes et d hapax    que celui des textes    quivalents fran  ais    Faute de poss  der une proc  dure de segmentation adapt  e    la morphologie de la langue  cor  enne  il est n  cessaire  pour rep  rer des traductions possibles du terme homme   d examiner  au del   de la cha  ne de ca
98. amme des fr  quences        Sur l axe vertical  gradu   selon une   chelle logarithmique  on porte la fr  quence de  r  p  tition F  qui varie donc de 1    Fmax  la fr  quence maximale du corpus  Sur l axe horizontal  gradu   selon la  m  me   chelle logarithmique  on porte  pour chacune des valeurs de la fr  quence F comprises entre 1 et Fmax  le  nombre N F  des formes r  p  t  es au moins F fois dans le corpus  La courbe obtenue est donc une courbe  cumul  e      Lebart et Salem  1994   48     Les diff  rences que l   on peut constater aux deux extr  mit  s du Diagramme confirment que le  fran  ais utilise plus de formes de haute fr  quence et moins d   hapax que le cor  en  Ainsi  le  taux de formes ayant plus de 10 occurrences atteint 24 6   pour le fran  ais  tandis qu   il est  environ de 8 8   pour le cor  en  Pr  s de 91 2   des formes graphiques du cor  en ont une  fr  quence inf  rieure    9 occurrences     Les r  sultats statistiques pr  sent  s ci dessus conduiraient    penser que le cor  en utilise un  grand nombre de mots monos  miques  Comme nous l   avons d  j   signal    il s   agit sans doute  d   un artefact li      la segmentation en formes graphiques que nous avons op  r  e sur la base de  la distinction entre caract  res d  limiteurs et caract  res non d  limiteurs  Nous reporterons     une autre   tude l   analyse de l   incidence des propri  t  s agglutinantes que avons mentionn    plus haut sur les calculs de fr  quence     Cet obstacle li   a la seg
99. anquera pas de remarquer qu elle rentre en composition dans  la forme     n  ruuseuk   celle ci apparait 102 fois dans la partie thlex  ce qui nous permet de    d  duire par calcul que la s  quence        appara  t 131 fois dans la partie               existe donc           Conform  ment    l expression utilis  e dans la m  thode de langue intitul  e    Pratique du Tha     de    Wanee Pooput et Mich  le Conjeaud     9s La formel  cai  est une des plus belles formes du thai dont le sens est associ      celui de c  ur au sens    propre comme figur    Je laisse son   tude aux doctorants ou au romancier amoureux du thai  cf   http   www learningthai com hearttalk htm    53       On notera au passage que la segmentation en morph  mes lexicaux n est pas stable puisqu il n y a pas de  raison de d  couper la s  quence                         tant  t         n tant  t en      n  Cela n est pas tr  s grave car l   tape morph  me    une occurrence de             dans la partie thlex et une dans la partie thmor  L utilisation des  concordances group  es montre que c est la m  me     On     remarqu   pr  c  demment que les formes              pra  et              kra  participaient en tant que  syllabe    la formation de nombreux mots  cf  Tableau 4  mais il s av  re que ces deux formes  ont aussi une signification autonome attest  e par l existence d entr  e dans diff  rents  dictionnaires  Cependant  il reste    confirmer le statut de leurs occurrences dans nos textes                 Fo
100. cible  FR 2      Polycooccurrents    FR 1  nation  co freq   2  seuil   3   nation 2 3    demeurons 2 3 1    Nous 2 3 4    i1l 2 3 1    est  nation 28 4 1    de 2 3 1    grandeur  nation 28 4 1    de 3 4 1    envers  nation 28 4 1    de 3 3 1    chaque    Polycooccurrents    FR 2  nation  co freq   2  seuil   3   nation 3 4 1    envers 2 3    c  nation 2 3 1    grandeur      Les chemins de polycooccurrence sont accessibles apr  s sauvegarde des r  sultats du calcul dans le rapport  d exploration  cf    sauvegarder un rapport    dans le manuel d utilisation      Le graphique des chemins      polycooccurrences permet aussi de r  aliser des retours au  contexte en s  lectionnant des n  uds    forme     Control Clic sur un n  ud  que l   on peut  ensuite projeter sur la carte des sections de l   alignement  ic  ne carte des sections dans la  partie haute de la zone d     dition du graphe dans l   onglet Cooc   Cette projection permet de  mettre au jour les sections contenant l   ensemble des formes s  lectionn  es  Option    Global     coch  e  ou celles contenant au moins l   une des d   entre elles  On peut ainsi visualiser  rapidement les sections contenant des chemins complets de polycooccurrences             mkAlign      Polycooccurrences   Dans l onglet Coocs  s  lectionner la forme p  le  volet source et volet cible    Charger   ventuellement une liste de forme    exclure du calcul  stop liste  sur chacun des 2 volets  Choisir une fr  quence minimale et un seuil de probabi
101. connus uniquement  lors de la segmentation en unit  s lexicales  il est donc normal de retrouver les formes    et         dans la partie thmor lors de la segmentation en morph  me lexical  En revanche  laisser telles  quelles les occurrences             dans la partie thlex lorsqu elles font parties du pr  nom  w est    clairement une erreur du segmenteur  Le probl  me sp  cifique de la reconnaissance des noms  propres sera abord   ult  rieurement     Les formes du volet droit sont toutes monosyllabiques et ont une fr  quence faible dans la  partie thmor  On observe que deux des formes e   a   n  we  sont des syllabes des formes                  ara  et mai  wela  respectivement  Les quatre occurrences de es dans la partie thmor  proviennent essentiellement d emprunt dont certaines des syllabes sont connues comme des  mots tha  es ainsi                  aku  pronom malais signifiant je  o   la syllabe         signifie aussi je     familier  en thai  La plupart de ces formes     l exception des instances de noms propres   seront reconstitu  es correctement dans la partie thlex     Les unit  s lexicales    Le Tableau 6 montre dans le volet gauche les cinq formes les plus sp  cifiquement  employ  es comme unit   lexicale et dans le volet droit  les cinq formes les moins sp  cifiques                             Unit   lexicale Principaux Sp  cificit  s positives Sp  cificit  s n  gatives  Forme SEn Fr  q Fr  q Tot   Coef      Forme Fr  q  Fr  q Tot  Coef                          
102. currence    lt texte  en  gt              other construction  would not only  Jack coherence         zn Ex    D          Rapport Effacer             Figure 5    Ventilations des Types fran  ais anglais administr    administ  dans le corpus align   au niveau de la phrase    recherche d   asym  tries distributionnelles    Guide de lecture de la figure 5            L alignement des sections  phrases  du bi texte est mat  rialis   par des carr  s  Le coloriage des  carr  s indique la pr  sence des types   tudi  s dans les sections concern  es      E     les carr  s bicolores de la carte signalent les sections bi textuelles o   les mots fran  ais  commen  ant par la chaine administr   administration  administrer etc   sont traduits par des  mots anglais commen  ant par la chaine administ   administration  administering etc       WO     les carr  s monochromes correspondent aux sections du bi texte o   le type fran  ais  administr  et le type anglais administ  ne se correspondent pas dans le corpus  En cliquant  sur un carr   monochrome  bleu ou rouge   il est possible de visualiser dans la fen  tre du bas  le texte correspondant    la section o   les deux types ne sont pas li  s  On peut ensuite   tudier  les particularit  s de ces contextes et trier entre les cas qui correspondent aux d  calages dans       l alignement des sections parall  les du corpus  Type 1  et les autres  susceptibles de r  v  ler  des   quivalences lexicales peu communes     Type 2         Rappel sur les fo
103. d   aligner au niveau de la phrase  mkAlign permet de  s  lectionner un caract  re  le segmenteur d alignement  permettant de d  couper les textes     aligner pour ensuite charger les diff  rentes sections r  sultantes dans les zones d   dition  disponibles   chaque page contient 5 zones d   dition align  es permettant de visualiser chaque  couple de sections textuelles align  es  Notre objectif d alignement phrastique nous a conduit   pour amorcer grossi  rement les choses     charger les 2 volets initiaux en choisissant comme  segmenteur d alignement le caract  re retour    la ligne     mkalign 2 00  2 061 16  ksi    MODE GENERAL    Chargement Source et Cible    Segmenteur    Pr  traitement    MODE ALIGNEMENT AUTO     Alignement Source Cible   Recherche de cognats     MODE Import Export TMX      Outils Alignement    Sauvegarde    Modes SPLIT MERGE    Recherche Source Cible             I stand here today humbled by the task before us   grateful for the trust you have bestowed  mindful of  the sacrifices borne by our ancestors     My fellow citizens  es chers concitoyens         Fichiers charg  s    les 2 volets ont   t   align  s sur la base du segmenteur d alignement  choisi  ici le retour    la ligne   zone segmenteur vide                2 17   me pr  sente devant vous aujourd   hui en toute  rumilit   face    la t  che qui nous attend   reconnaissant de la confiance que vous n avez accord  e  let conscient des sacrifices consentis par nos  anc  tres                 s     
104. d e          31 T    Concord      Cettysburg  en Normand           encore  ces hommes et        d   re sont         ont travaill            p  ouzes et ces ont lutt    des sacri at travaill          lie que i Am  rique Zap plur ue la    ambitions individueller      tan  r us DH ambitions individueller  AIN   14 Cert trajectoire que 1 aujourd bus  35 Nous une nation prosp   puissante     e 5 s nation la plus sp  re  la plus puissante de la Terre   36 Mos travailleurs ne sont pas moins productis que Cette crise    commenc    a        s moins productifs qu avant la   27 Nos                                      ne ront pas moins        ID as biens et services ne want par moins n  cessaires                               16               la semaine derni  re    20 Nos biens et             services ne sont pas moine n  cessair    capacit       29 Wos intactes         le          de E            inerte droite         de repousser z 0 Le temps O   nous   G   nous prot  gions nos int  r  ts  1    partir d aujourd hui  nous devons KE  relever  la Voce  de nos sandales at no 1    partir d aujourd hui  nous devons nous relever  ti x  2 Wm effet  partout e    i anah HEN En effet  o   Qe nous   pen neus  3 audacieuses et rapides  3         4           de notre   conomie des audacieuses      rapides   x une au et    les prendre   wulement pour cr   nouveaux endroits  mi  aux   lectriques vt les E et        num  riques nott          d  t merveilles de la te     s rendre    1     science Dm re
105. de segmentation                                      Motif   ss   Fr  q    Motif           8   Fr  q  Motif     35     40 formes  12 formes  198 formes                               60             39                85                      26                7                66                      13             6 Motif   A Anl        3          33 formes                    1                 2                                     8                      1                         1                                        8                              1                                         1                                         1                            Tableau 10  Extraits de r  sultats de recherche de groupe de formes dans la partie thlex    En revanche  les formes du volet droit sont bien connues comme unit   lexicale  Par exemple  les formes         phony              theu  et       khaw  peuvent   tre utilis  es comme des substituts du  nom  je  tu elle il  il elle ils elles  ou avoir une valeur lexicale  cheveux  montagne  quant             l    c est une conjonction de coordination   tant presque   quivalant    notre  lt  et  gt   Le a  ja   est une particule marquant l inaccompli     On peut confirmer cette connaissance linguistique par l utilisation du concordancier pour  d  compter ces formes par partie  Par exemple  cela donne pour la forme        les r  sultats  suivants   thsyl  1980   thmor  1979   thlex  1979  confirmant ainsi le statut de syllabe   morph  
106. diff  rents endroits du corpus dont la  fr  quence totale d  passe un seuil minimal F pr  alablement fix   par l   utilisateur  Les segments  ainsi s  lectionn  s peuvent ensuite   tre tri  s selon diff  rents crit  res   longueur  fr  quence  etc        et de la   que nous avons  que nous sommes  parce que nous   et que nous   sont pas moins   de notre nation        me sont pas moins  me sont pas   o   la r  ponse   et que la   de notre   conomie  qui nous ont   et que nous sommes  tout ce que  d une nouvelle   re  les gardiens de  face    la   de notre libert    la r  ponse sera  mous sommes tous    5  5  4  3  3  3  3  3  3  3  2  2  2  2  2  2  2  2  2  2  2  2  2         prosp  rit   et                   que nous sommes  me peut pas   que nous avons   pour nous qu ils ont   de ceux qui   C est pour nous   C est pour nous qu ils   me sont pas moins   mous qu ils ont   parce que nous   sont pas moins   mous ne pouvons   C est pour nous qu ils ont  une nouvelle   re   pour nous qu ils   me sont pas   chaque fois que la   qui nous ont   des hommes et des femmes  les gardiens de      chaque fois      chaque fois que la r  ponse  de notre libert         Figure 11  Liste des segments r  p  t  s sur les 2 volets du corpus            mkAlign      Segments r  p  t  s   Y Dans l onglet Param  s  lectionner un seuil de fr  quence minimal pour les segments   Y Dans l onglet Segments  activez le calcul   Y Les segments apparaissent dans la zone d   dition de l onglet Segments sous la 
107. duit courant            m   li hua cha  le th   au jasmin  est un mot  dont les composants  identifiables sont difficiles    segmenter  On peut consid  rer              li  jasmin  comme un  mot bi syllabique compos   de deux caract  res d  pourvus de sens propre  Mais en  combinaison avec le caract  re ZE  hua  fleur   le mot qui d  signe toujours le jasmin  renvoie     la fleur de l arbuste  On peut consid  rer le caract  re     cha  th    comme un mot  monosyllabique  Mais pr  c  d   par le caract  re 4  hua  fleur   on peut   galement consid  rer  que les caract  res combin  s         hua cha  th   aux fleurs  qui sont diff  rents de         l   ch     th   vert  ou              h  ng ch    th   noir  forment un nouveau mot        2 3 Les phrases      la ponctuation    Comme dans le cas des mots  il est difficile de d  finir clairement les limites de la phrase  chinoise  Les d  finitions et les classifications de la phrase que l on trouve dans les  grammaires chinoises  phrases   nonciatives  interrogatives  imp  ratives  exclamatives  etc    permettent difficilement de segmenter un texte en phrases de mani  re automatis  e     La ponctuation est d usage r  cent en chinois  En 1919  on a commenc      utiliser la  ponctuation moderne en se r  f  rant au syst  me de ponctuation occidental  Le syst  me utilis      actuellement conserve la trace des r  formes successives de l   criture chinoise  C est pourquoi  la ponctuation chinoise moderne  malgr   ses similarit  s avec ce
108. e          m Avant de tracer le Diagramme  on transforme chacune de ces quantit  s en son  logarithme d  cimal     Le Diagramme ainsi obtenu prend alors approximativement la forme droite que l   on appelle  Droite de Zipf en l   honneur de Georges Kingsley Zipf qui a montr   que ce type de proc  dure  r  alis  e    partir de larges cat  gories de textes permet de mettre en   vidence une propri  t    statistique commune aux d  pouillements en unit  s lexicales  Cette propri  t   est parfois  pr  sent  e sous la forme excessivement simplifi  e      Rang x Fr  quence   Constante    Pour en savoir plus      Zipf  GK  1935   The Psychobiology of Language  an introduction to Dynamic Philology   Boston  Houghton Mifflin    Lebart L   Salem A   Statistique textuelle  Paris  Dunod  1994  t  l  chargeable sur le site    http   www cavi univ paris3 fr lexicometrica livre st94 st94 tdm html       La comparaison des deux courbes fait apparaitre des diff  rences assez nettes dans la structure  des gammes de fr  quences des deux textes  Le texte fran  ais poss  de nettement plus de    formes dans        zone de fr  quences qui s     tend      50 occurrences    1000 occurrences environ   De son c  t    le chinois cr  e plus de formes diff  rentes dans la zone des tr  s basses fr  quences     6 Un exemple d   tude parall  le    Aligner un bitexte  c   est construire une repr  sentation qui met en correspondance des unit  s  textuelles en rapport de traduction mutuelle  Le tableau 6 montre un 
109. e  Aragon  Baudelaire  Bertot  Bloy  Daudet     Didier Daeninckx  Flaubert  Jean Hourgon  JMG Leclezio  Marcel Schwob  Maupassant  Perrault  Raymond  Radiguet  Renard  Roegiers  Sagan  Sartre  Zola     valeurs sont thsyl pour la partie segment  e      syllabes  thmor pour celle segment  e       morph  mes et thlex pour celle segment  e en unit  s lexicales  Chacune de ces parties est  divis  e en nouvelles identifi  es par la cl     nouvelle   dont la valeur est compos  e d un  num  ro et pr  fix  e de la lettre A  B ou C pour les nouvelles segment  es respectivement en  syllabes  morph  mes et unit  s lexicales  Par exemple la nouvelle 001 est identifi  e par les  valeurs   nouvelle A001     lt nouvelle B001 gt  et  lt nouvelle C001 gt                                               WANAKAM       k e  Home Archives Authors Titles Webboard                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           
110. e des sections  sections bi textuelles   pr  sence absence des Types bilingues fran  ais anglais Figure 5    administr    administ                  Comparaisons textom  triques de  traductions franco chinoises     Traductions franco chinoises   Jun MIAO  Andr   SALEM       silaomiaomiao yahoo fr  salem  msh paris fr       R  sum     Apr  s un bref rappel sur le syst  me d     criture chinoise et ses prises en charge par diff  rents syst  mes  de codage informatique   3   on compare les d  pouillements textom  triques d   un texte fran  ais et d   une de ses  traductions chinoises  Apr  s le d  pouillement du texte chinois en caract  res isol  s   4   on compare un  d  pouillement automatis   en mots de ce m  me texte avec le texte fran  ais original   5   La derni  re section est  consacr  e    l     tude des perspectives ouvertes par la d  marche textom  trique pour l   analyse des diff  rentes  traductions chinoises utilis  es pour rendre un m  me mot fran  ais   6      Mots cl  s   textom  trie  caract  res chinois  hanzi   litt  rature  traductologie     Abstract   After a short recall of the Chinese writing system and on its various encoding systems   3   the  authors apply textometric methods to compare a French text with its Chinese translation  After an examination  of the Chinese text with isolated characters   4   the same text cut into words with a Chinese word separation  program is compared with the French original   5   The last section aims at studying the pers
111. e recherch  e dans deux directions distinctes  sans que l   on  puisse exclure  a priori  que le ph  nom  ne soit d      une combinaison de ces deux  possibilit  s       Type 1  il existe des d  calages dans l alignement des sections parall  les du corpus  ce qui  expliquerait la pr  sence de sections bi textuelles o   les deux types ne sont pas en  correspondance     Type 2  le type administr  n   est pas toujours traduit par le type administ  et il existe des  contextes originaux  o   sont attest  es des   quivalences lexicales peu communes   susceptibles d   int  resser le chercheur     La figure 5 permet de trier entre les cas qui correspondent    la premi  re hypoth  se et les  autres     3 R  solution du probl  me    Les fonctionnalit  s de la carte des sections rendent possible une visualisation simultan  e de la  pr  sence absence des types bilingues  Comme indiqu   sur la figure 5  la couleur bleu est  utilis  e pour mat  rialiser le type fran  ais administr  et le rouge pour le type anglais  administ   En cliquant sur un carr   bicolore  il est possible de visualiser dans la fen  tre du  bas le texte correspondant    la section o   les deux types sont li  s  L   analyse de ces sections  signale l     quivalence lexicale des types appari  s         volet fran  ais volet anglais                       lt texte  fr  gt  les extraits du dossier   lt texte  en  gt  the passages from the  administratif que cite l appelant    administrative file which the  l appui de sa th 
112. e ressources textuelle  cf  Tableau 6       e le recours administratif   the non contentious application       l administration des douanes   the customs       bonne administration   good governance   e  d  positions administratives   provisions   e l administration du district   district authority   e l administration des eaux   water rights authority       proc  dures ant  rieures   earlier administrative proceedings    Tableau 6  Convention   Contextes originaux rep  r  s    l aide de la topographie bi textuelle                                                                volet fran  ais volet anglais    lt texte  fr  gt  1       recours  lt texte  en  gt  1   the non contentious  administratif       application           lt texte  fr  gt  il prononca la  lt texte  en  gt  the court also ordered  confiscation des marchandises saisies  confiscation of the goods seized and  et infligea aux pr  venus une amende  sentenced the defendants to pay a  assortie de la contrainte par corps  fine  with imprisonment in default      payer    l administration des to ihe customs  which was a co    douanes   partie poursuivante jointe prosecutor and had also joined the  et qui s   tait constitu  e partie proceedings as a civil party     civile    l audience            lt texte  fr  gt  en pareil cas  le tiers  lt texte  en  gt  in so doing  the third                                                       peut aussi chercher    d  montrer qu party may also base his claim of   le directeur 
113. e s  rie d autres caract  res  Les caract  res correspondent    la fois    un segment sonore   x Dy  15   la syllabe  et    une unit   de sens             r  n ffhomme t                                                          tian                  m   bois      RFA      l  n  f  ret                      seng  grande for  t     Chaque caract  re v  hicule une signification  mais ne constitue pas n  cessairement    lui seul  un mot  Certains caract  res changent de sens dans la combinaison avec d autres     14 Le Consortium Unicode et PISO consid  rent que les caract  res chinois  cor  ens et japonais sont les m  mes   que seuls les glyphes diff  rent  On peut rapprocher cette diff  rence d aspect des traditions diff  rentes qui ont  longtemps pr  valu en allemand  police de caract  res gothique   en fran  ais  police           5  et en anglais  police  sans s  rifs   Les caract  res sont cod  s de la m  me facon  Chaque tradition utilise une police appropri  e pour  afficher les caract  res dans le style qui convient le mieux aux habitudes locales    Apr  s l   tablissement de la R  publique Populaire de Chine en 1949  les autorit  s ont entrepris des efforts pour  simplifier les caract  res chinois  En 1955  le Comit   pour la R  forme de l     criture  Wenzi gaige wei yuanhui      publi   une proposition de caract  res simplifi  s  En 1964  il a publi   une deuxi  me liste de simplifications  Cette  derni  re liste r  gle actuellement l emploi des caract  res chinois     5 
114. e sont pas ceux de  de caract  res l ensemble des voyelles minuscules        gt    1       1 sme b  A  Repr  sente une fin de L expression   repr  sente des   b mol s  quences comme   syndicalisme   capitalisme       Sommaire    Tutoriel n  3   Exploration du corpus    Traductions align  es du discours d   investiture    de B     EC TT 8  1  Le corpus  lt  Traductions align  es du discours d   investiture de B Obama     Investiture Obama                    8  2  Construction d   corpus align        oae ente e Ret deve          i 9  3  Et  de la distribution d un type    emt        0     0     19  4  M  thodes textom  triques       inccr   1 21  SSH ER                 a 25  Eauivalenices traductionnelles  rrr 26  Ree EE  en         tent 10 26  2 Asym  tries distributionnelles des Types bilingues appari  s  nn 27  Rappel sur les fonctionnalit  s de la carte des sections bi textuelle  pp 31  3 R  solution d   Probl  me error 117 31  4 Une m  thode      synchronisation      l   alignement ss 34  5 Une m  thode de rep  rage de passages originaux dans la traduction    34                              35  E EC      eL 35  8 Fonctionnalit  s Lexico3 utilis  es dans cette navigation                                                                                                                                                                                                                                                           6 35  Comparaisons textom  triques de traductions franco c
115. e trust you have bestowed  mindful of the sacrifices    borne by our ancestors        seq     lt  tuv gt     tuv xml langs fr        lt seg gt Je me pr  sente devant vous aujourd hui en toute humilit   face    la t  che qui nous attend     reconnaissant de la confiance    que vous n avez accord  e et conscient des sacrifices consentis par nos anc  tres        seg      lt  tuv gt     lt   gt     lt tu gt      tuv xml lang  en  gt     lt seg gt I thank President Bush for his service to our nation     throughout this transition      lt  seg gt    lt  tuv gt     tuv xml lang  fr  gt             well as the generosity and cooperation he has shown      seq  Je remercie le pr  sident Bush des services rendus    notre nation  ainsi que de la g  n  rosit   et de la coop  ration dont il     amp  fait preuve durant toute la transition        seq     lt  tuv gt     Figure 5  Code source du fichier d alignement au format TMX    2 2 Etape n  2   G  n  ralisation de l alignement    L op  ration d  crite dans l   tape pr  c  dente      t   r  p  t  e sur les diff  rents couples de textes  disponibles  Les fichiers TMX construits    chaque   tape ont ensuite   t      fusionn  s    pour  fournir au final un fichier regroupant les diff  rents volets align  s   l   alignement construit ici  est compos   pour chaque section d   alignement de 5 volets  le volet anglais et ses 4  traductions                U  DE PARIS 3  Sorbonne nouvelle      mkalign  Alignement au format          Le discours d in
116. el dans la r  partition  des occurrences des deux TGen dont nous avons entrepris le rapprochement  Dans la partie  33  les types ingwon  et droits de l homme comptent respectivement 123 occurrences et 55  occurrences Dans le volet fran  ais  la fr  quence du type homme fr s   l  ve   galement    55  occurrences  ce qui signifie que la forme homme n apparait dans cette partie que dans le  contexte plus large droits de l homme  Dans la partie correspondante du volet cor  en  la  fr  quence locale du type ingwon  d  passe largement celle de droits de l homme  Cette  diff  rence provient du fait que le nom des organisations internationales contenant ce segment  et leurs sigles respectifs sont fr  quemment traduits en cor  en par le m  me segment cor  en     Commission des droits de l   homme   91911      Commission   Haute Commissariat des Nation Unies   FANAI AFAA  aux droits de l   homme   HCDH    K      4 4  homme   H                 On peut fournir une explication du m  me type pour rendre compte de la fr  quence nulle du  TGen cor  en              Voir Tableau 3   Le retour au texte permet de v  rifier n  anmoins la  pr  sence d une opposition homme femme  Dans les contextes o   homme apparait en  cooccurrence avec femme  la plupart des occurrences cor  ennes apparaissent sous la forme       Hnamnyeo        31    eh                         40   Namnyeo est un mot compos   indiquant    homme  nam  et femme             gt  et namseong  synonyme de namja  signifie  entre  autre
117. en est langue parl  e en Cor  e par environ 72 millions de personnes  L   alphabet  cor  en  appel   Hangul  se compose fondamentalement de 24 lettres de base  14 consonnes et  10 voyelles   Mais on utilise en fait 40 lettres  si on inclut les consonnes et les voyelles  doubles     2 1 Caract  ristiques linguistiques    Le cor  en se distingue du chinois et du japonais  qui appartiennent    la m  me r  gion  culturelle et g  ographique par quelques caract  ristiques typographiques et grammaticales    On trouve ci dessous     titre d   exemple  cinq traductions  comment  es grammaticalement   d   un m  me article de la Charte des Nations Unies  chapitre I  article 2 1   anglais  fran  ais   chinois  cor  en et japonais         The Organization  sujet    is based   verbe   on the principle of the sovereign equality of all its  Members   complement    pr  dicat    anglais        L Organisation  sujet    est fond  e   verbe   sur le principe de l   galit   souveraine de tous ses  Membres   compl  ment    pr  dicat    fran  ais                    sujet   REF   verbe                                                compl  ment    pr  dicat    chinois       Zb  sujet     ME            435 9121    compl  ment  plaa   verbe    pr  dicat    cor  en    e           sujet    PE 0073      D SERES SEQ JE      compl  ment       5                                   2    verbe    pr  dicat    japonais                                                                                            Bien 
118. ent comparer des mots contenus dans le corpus parall  le en langues sans parent    bien que  celles ci n aient aucune structure syntaxique en commun  Dans le pr  sent article  nous pr  senterons comment  cette m  thode est applicable aux corpus parall  le en langues h  t  rog  nes    travers l analyse textom  trique d un  couple      mots traductionnel fran  ais cor  en dans un corpus parall  le cor  en frangais     Mots cl  s   corpus bilingues  cor  en  traductologie  textom  trie    Abstract  A quantitative approach enables us to explore the distribution of words in translational  correspondence obtained from the segmentation of the textual sequences in a corpus  With this method  we can  directly compare the words from the parallel corpus in languages without cognates  although they do not have  any syntactic structure in common  In this article  we will present how this method is applicable to parallel  corpora in heterogeneous languages through the textometric analysis of a couple of French Korean translational  words in a parallel French Korean corpus     Keywords   bilingal corpora  korean  traductology  textometrics    1 Contexte de la recherche    Les corpus parall  les bilingues  sont des corpus compos  s de deux textes en langues  diff  rentes dont l un constitue la traduction de l autre  Chacun des textes est d  coup   en un  syst  me d unit  s de traductions qui peuvent   tre mises en correspondance deux    deux  Ce  type de corpus est actuellement utilis   dans
119. entation utilis  e par      segmenteur est d  crite dans  Asa2003   Le taux  de reconnaissance des mots d  clar   est d environ 8096 pour la segmentation des mots  inconnus et de 65  pour la fixation des fronti  res de l unit   lexicale  Cet outil permet de  r  aliser la segmentation sur trois niveaux diff  rents     Le premier niveau est la syllabe  Cette segmentation consiste    regrouper des caract  res afin  de former une syllabe pronon  able  Par exemple          Le mot                      thorara t   sera d  coup   en 2 syllabes n3 thon     sn ra t   mot d origine  sanskrite     E Tous les caract  res tha  s sont r  pertori  s dans le seul standard existant   le TIS 620 25335 d  fini         1990 par l Institut des Standards Industriels Tha  landais  Il est encod   principalement par deux tables d encodage  8 bits tr  s similaires   la tis620  table officielle et la Windows 874 tr  s utilis  e dans le monde Microsoft  Ce jeu  de caract  res est aussi repr  sent   dans Unicode     H Kucut est un programme   crit en Python et t  l  chargeable gratuitement      http   naist cpe ku ac th wordcut static kucut 1 2 2 tar gz    d  Natural Language Processing and Intelligent Information SystemTechnology Research    http   naist cpe ku ac th          Notes sur        translitt  ration        translitt  ration utilis  e ici est une solution ad hoc ayant pour but    l identification des mots par le lecteur  Elle renseigne peu sur la fa  on de lire car ni les tons  ni les valeurs e
120. ents l    l Am  rique    pers  v  r   non seulement du  fait des comp  tences et de la perspicacit   de ses dirigeants   mais parce que nous  le Peuple  sommes demeur  s loyaux envers  les id  aux de nos anc  tres et envers les documents fondateurs  de notre nation     11 en a   t   ainsi        So it must be with this generation of Americans     Et il doit en   tre ainsi pour cette g  n  ration d Am  ricains        That we are in the midst of crisis is now well    understood        Le fait que nous traversons une crise est d  sormais bien  compris        Our nation is at war against a far reaching network  of violence and hatred   Las     11                            Notre pays est en guerre contre un r  seau tentaculaire de  violence et de haine           Figure 4  Alignement au format         affichage dans le navigateur    La seconde montre un extrait du code source de ce fichier au format TMX          lt  xml version  l 0  encoding  UTF 8  EI    tux version  l 4       header adminlang  en  creationdate  20090712T110800Z  creationtool  mkAlign  creationtoolversion  2 00  2 0b116    datatype  xml  o tnf  unknown  segtype  block  srclang  en         lt body gt     lt tu gt      tuv xml lang  en  gt    lt seg gt  My fellow citizens      lt  seg    lt  tuv gt      tuv xml lang  fr  gt    lt seg gt Mes chers concitoyens       lt  seg    lt  tuv gt     lt  gt     lt tu gt      tuv xml lang  en  gt      lt seg gt I stand here today humbled by the task before us  grateful for th
121. ervices rendus       LL ginsi que de la g  n  rosit   et de                  chargement ou sauvegarde d un alignement  au format TMX    Les outils d alignement       sauvegarde des volets align  s     le mode SPLIT permet de scinder une cellule     le mode MERGE permet de fusionner 2 cellules    il a fait preuve durant toute la                                           Am  ricains ont d  sormais fait ce  htiel                   Ces mots ont   t   souvent prononc  s dans la mar  e  montante de la prosp  rit   et dans les eaux calmes de  la paix     The words have been spoken during rising tides of   prosperity and the still waters of peace                                      HR RE B  TE EE  E           Figure 3   Les outils de l alignement    Au final  on dispose dans l     diteur de l   alignement d   un corpus align   avec lequel on peut  mener des explorations textom  triques  cf infra   On peut aussi sauvegarder chacun des volets  ainsi remodel  s  dans 2 fichiers  ou exporter les 2 volets dans un fichier au format TMX  ce  type de fichier permettant de stocker de mani  re s  quentielle les diff  rentes sections align  es   La premi  re figure qui suit montre l     tat de l   alignement export   au format TMX tel qu   il est  affich   dans un navigateur avec une feuille de styles fournie      CLA T  U  DE PARIS 3  Sorbonne no  mkAlign Export Alignement au format              My fellow citizens     I stand here today humbled by the task before us   grateful for the trust y
122. es Textuelles  pp  495 506     Rastier  F   2005    lt  Enjeux   pist  mologiques de        linguistique de corpus  gt   In G  Williams   Dir    La linguistique de corpus  Rennes   Presses Universitaires de Rennes  pp  31   45    Salem  A   1987   Pratique des segments r  p  t  s  Essai de statistique textuelle  Paris    Klincksieck    Salem  A   2004      Introduction    la r  sonance textuelle     In Actes des 7es Journ  es  internationales d Analyse statistique des Donn  es Textuelles  Louvain la Neuve  pp   986 992    Salkie  R   2000      Quelques questions m  thodologiques dans l   exploitation des corpus  multilingues     in M  Bilger  Ed    Corpus  M  thodologie et applications  linguistiques  Paris   Honor   Champion  pp  180 195    Shin  J  H   Han      5  et Choi      5   1996      Bilingual Knowledge Acquisition from  Korean English Parallel Corpus Using Alignment Method  Korean English Alignment  at Word and Phrase Level      In Proceedings of the 16th International Conference on  Computational Linguistics  Copenhagen  Denmark  pp  230 235    Simard  M   Foster  G  et Isabelle  P   1992   Using Cognates to Align Sentences in Bilingual  Corpora  Proceedings of the Fourth International Conference on Theoretical and  Methodological Issues in Machine Translation  TMI   Montreal  Canada  pp  67 81    V  ronis  J   2000      From the Rosetta stone to the information society     In J  V  ronis  Ed     Parallel Text Processing   Alignment and Use of Translation Corpora  
123. es chaines de caract  res cod  s sur  un seul octet  Cette limite  qui est en voie d     tre d  pass  e   n   entra  ne cependant pas  l impossibilit   de traiter des chaines de caract  res cod  es sur plusieurs octets  Comme on  comprend  en les comparant octet par octet  1l est possible de conclure que deux chaines de  caract  res multioctets sont identiques ou qu elles sont diff  rentes  De plus  les syst  mes  informatiques modernes permettent d afficher correctement certaines repr  sentation  multioctets qui ne sont pas des repr  sentations unicode      Pour le pr  sent travail  nous avons utilis   un codage Chinois simplifi     Mainland  China propos   par le logiciel Word  On prend en charge ce codage sous Lexico3 en activant  l   article Chinois simplifi   Mainland China propos   par le menu Options  couteau  suisse  de Lexico3        Les composants utilis  s dans Lexico3  Edition du texte  Concordances  Carte des sections   etc   affichent ce codage correctement lorsqu on choisit de le visualiser avec le codage  Chinois GB2313 des navigateurs            16 A l instar de tr  s nombreux syst  mes d   criture parmi lesquels ceux de l antiquit    latin  grec  h  breu   sum  rien  etc       Un grand nombre de syst  mes d   criture occidentaux  dont le syst  me du frangais ont utilis   jusqu    une date  r  cente le code ASCII  127 caract  res   puis le code ASCII   tendu  255 caract  res  qui permettait de coder en  outre les voyelles accentu  es du frangais     18 Nous a
124. ette s  quence de la mani  re  suivante    1  hung    cuisiner  attest   dans le m  me dictionnaire   m  ha       existe en tant que  verbe    multiple sens  chercher   mais je pense qu ici il a une valeur euphonique  ha  plus que  s  mantique                       ahan    ici nourriture  Il sert de compl  ment                de la m  me mani  re que  pour 7  servir   Il va de soi que si m  ha  a une valeur euphonique alors il faut consid  rer  l expression enti  re comme une seule unit   lexicale     La s  quence                  liqueur                  dig  rer                       nourriture  n est pas attest  e dans les  dictionnaires  mais il semble que ce soit un bon   quivalent du mot digestif si on calcule le  sens global    partir de chaque unit       La forme                  ran va permettre d illustrer en corpus la notion de termes g  n  riques bien    connues des   tudiants de tha    En effet     opposer    la s  quence   u   owns  nourriture     restaurant nous avons dans le corpus les s  quences                                           caf    boisson   caf    le lieu   fu  ran               khaj   cf Tableau 11       fu  boutiques  commerces              commercer  marchander                m   On trouve quelques occurrences isol  es mais toujours en coocurrence dans un  paragraphe avec une autre des formes compos  es  La seule s  quence isol  e dans une  nouvelle est              f  tes               sortir    u qui est utilis   pour traduire f  te foraine 
125. eur de segmentation de niveau caract  re   En effet la s  quence aurait d     tre segment  e de la fa  on suivante                                                        apothicaire    Onfroy     Nous tenons    faire remarquer que nous n avons pas utilis   le segmenteur dans ses  conditions optimales puisque pour r  soudre les probl  mes de mots inconnus  il utilise une  m  thode de segmentation bas  e sur des statistiques globales et locales  On aurait  probablement gagn   en pr  cision si on avait segment   nouvelle par nouvelle au lieu du corpus    dans sa globalit    Ainsi les occurrences de                  krong  dans les autres nouvelles n auraient  peut   tre pas interf  r   avec celles li  es        wf  gier      Cette exploration des noms propres a permis d expliciter quelques probl  mes de segmentation  provoqu   par le fait que les formes emprunt  es sont compos  es de syllabes correspondant     des mots tha    Ces probl  mes ne concernent pas uniquement des textes traduits mais aussi les  textes proprement tha  s puisque bien souvent les noms et pr  noms tha  s sont des noms venant  du sanskrit et du p  li ayant leur propre sens notamment dans le domaine religieux et royal     Globalement le segmenteur bas   sur des m  thodes statistiques a r  ussi    correctement  segmenter de nombreuses occurrences de noms propres  Peut   tre qu un post traitement  symbolique de reconnaissance d entit  s nomm  s permettrait d am  liorer cette segmentation     Probl  mes de comp
126. forme de 2 listes  Ils  peuvent   tre tri  s selon diff  rents crit  res  longueur  fr  quence  ordre lexicographique  en  cliquant sur le bandeau situ   au dessus de la colonne correspondante    Y Chaque s  lection  simple ou multiple  r  alis  e dans la fen  tre des segments peut ensuite   tre  analys  e comme un tout    l aide des diff  rents outils disponibles  concordance  histogramme  carte  des sections  etc   au dessus de chaque liste              Cooccurrences et polycooccurrences pour un type donn      Un alignement induit un d  coupage du corpus en sections  les diff  rentes cellules align  es    Pour une forme p  le  nous prendrons comme ci dessus l   exemple de la forme   nation  il est  possible de constituer la liste des formes qui trouvent  d   apr  s un calcul statistique  particulier     un nombre   lev   d   occurrence dans les m  mes sections que la forme p  le sur  chacun des volets        Cooccurrents Forme p  le  Source  E    specif  demeurons  de             Figure 12   Les cooccurrents de  nation     Nous trouvons ici pour la forme p  le sur le volet FR 1  demeurons  de  envers  chaque   grandeur et pour cette m  me forme p  le sur le volet FR 2   envers  grandeur   Le retour aux contextes confirmera que ces formes entrent avec le p  le choisi dans des  associations r  currentes      Concordance de   grandeur                         de   grandeur    SECTION  24  SECTION  24   En r  affirmant la grandeur de notre nation  no lamant    nouveau la grandeu
127. ha         79  4 Les maux de l unit   lexicale  se ciaoen t risian eik EnniodnconaDenaDnccanc Hn LG OCDE tasas 88  S COBCIUSIOB         8 1 111                                     7     95    6  DT 95    Tutoriel n  3   Exploration du corpus    Traductions  align  es du discours d investiture    de B  Obama  Corpus align  s  m  thodes textom  triques pour l alignement   Obamal    Serge Fleury    Apprendre           Construire une ressource textom  trique align  e      Utiliser les outils textom  triques de base sur un alignement de textes  e Conduire une exploration textom  trique sur un corpus align      1  Le corpus    Traductions align  es du discours d investiture de B Obama      Investiture Obama   Le corpus Investiture Obama est constitu   de 5 volets  le discours original en anglais    prononc   par B  Obama le 20 janvier 2009    Washington et 4 traductions en frangais de ce  discours     Ces diff  rents volets ont   t   r  cup  r  s sur diff  rents site web      Volet EN   le discours en anglais disponible sur le site du New York Times  Cette page n est  plus accessible    ce jour  On peut acc  der    une version de cette page sauvegard  e pour cette    tude    cette adresse      http   tal univ paris3 fr mkAlign corpus obama tmx v5 PDF nyt pdf       Volet FR 1   traduction en fran  ais fournie par les services de la Maison Blanche  On peut  acc  der    une version de cette page sauvegard  e pour cette   tude    cette adresse    http   tal univ paris3 fr mkAlign corpu
128. hinoises                                                        36  1 Contexte de la                    ce puse eee up ee 77             1             1     0     36  2 L   systeme d   criture LEE 37  3 Le codage informatique des caract  res chinois ss 39  4 Un corpus d application                      00 41  5 Comparaisons quantitatives    partir des moie  45                                                             a    ASEEN 49                            ast                                  54  NS EE EE 0 54  9 Fonctionnalit  s Lexico3 utilis  es dans cette exploration    55  Traductions franco cor  ennes                                                                                                              56  1 Contexte                            iios s 3 3 1 1 1 1 11     56  2 Le cor  en et son systeme d   criture                11     1 11111111111                                       1050 57  3        E 58  4 Analyse des   quivalences traductionnelles fran  ais cor  en                                                 62                        A NN 71                  TT 1         1     1 71  7 Fonctionnalit  s Lexico3 utilis  es dans cette exploration    72  Le thai  De la segmentation aux mausx                                                                                                 74                                          33 3 1 1 1             1 75  pao M             EE ee                   aq      ent te 76  3 Navigation dans les segmentations du t
129. horiques de ces    38 Dans certains cas       m  me carr   peut contenir plus de deux phrases en fonction de la relation de  correspondance avec l autre volet     derni  res  le pronom personnel ils   et le pronom chacun  tous  Tableau 5  sont rendues       cor  en par des formes relevant du TGen           _      L   cart des fr  quences locales dans les  parties 01 et 03 s explique par la pr  sence de ces   quivalences traductionnelles           cor  en francais  964 HE             J  YL                    8 4  tous les   tres humains naissent libres et  9252    lel AAA AEA    gaux en dignit   et      droits         4 AHS      2 9  i ai                        ils sont dou  s de raison et de conscience  A BAA 3419 2       stu  et doivent agir les uns envers les autres dans    un esprit de fraternit                     4 HE     oz Ha      910   EN        chacun peut se pr  valoir de tous les              droits et de toutes les libert  s proclam  s             MI AE                              FA        tout individu a droit    la vie     la libert    S  2            7 Qt  et    la s  ret   de sa personne      4 o z  st Aus NAg 279 51             0             reconnaissant que ces droits d  coulent           d         eld eru   de la dignit   inh  rente    la personne    humaine        1         SE UE 91      EE         1      partir de l     ge nubile  l homme et         mE             ASE uta  Qu 5            la femme  sans aucune restriction quant    la   7A       4 2   7
130. i s   crit                                  Ceci laisse    penser que la s  quence compl  te de la    troisi  me ligne constitue une seule unit   lexicale construite    des fins litt  raires mais dont le  sens est parfaitement d  composable     Nous voyons donc que la notion d unit   lexicale n est pas simple et que les sp  cificit  s donc  le segmenteur  ne se sont pas tromp  es en nous pr  sentant la forme             comme peu  repr  sentative d une unit   lexicale et en nous pr  sentant les noms propres et les mots outils  comme des unit  s lexicales  Toutefois  on peut s interroger sur la pertinence      la  segmentation des s  quences plus longues comme celles du Tableau 7     Bilan de la navigation    Les observations fa  tes sur les courbes d accroissement de vocabulaire    savoir que les  accroissements de syllabes  de morph  mes et d unit  s lexicales sont corr  l  s  ont   t    confirm  es par l analyse des sp  cificit  s par partie  Ainsi on a vu que les syllabes les plus  sp  cifiques rentrent dans la composition de nombreuses formes polysyllabiques ayant autant  le statut de morph  me lexicale que d unit   lexicale  On a aussi observ   que certaines syllabes  tr  s fr  quentes sont aussi des morph  mes et des unit  s lexicales notamment des mots    usage  grammatical comme les substituts du noms     On a aussi montr   qu il ne fallait pas trop se fier    la partie morph  me lexicale lorsqu il  s agissait d analyser la composition d une unit   lexicale car bien s
131. ificites positives en haut de liste  negatives en bas    Le fichier construit   EXPORT TXT resultspecif source 1247416002 txt Le fichier construit   EXPORT TXT resultspecif cible 1247416003 txt   Forme Ind Specif Fq Totale Forme Ind Specif Eq Totale  mation 11 9 11 mation 6 9 11  de 4 1 147 envers 4 0 3  envers 4 0 3 grandeur 3 0 2  chaque 3 0 5 la 2 9 81   demeurons 3 0 2 de 2 7 133  grandeur 3 0 2 preuve 2 3 4  En 2 2 4   re 2 3 4  ses 2 2 4 sachez 2 3 4  il 2 2 5    2 1 60  notre 2 1 43 sommes 2 1 17  ainsi 2 1 5 fortement 2 0 1  sommes 2 0 11 Pas 2 0 1  donne 2 0 1 chr  tiens 2 0 1  part 2 0 1 aspirent 2 0 1  membres 2 0 1 Ecritures 2 0 1  prosp  res 2 0 1 neige 2 0 1  reconnaissance 2 0 1 proclamant 2 0 1    critures 2 0 1 m  mes 2 0 1  favorise 2 0 1 puissante 2 0 x  affaiblie 2 0 1 pairs 2 0  amp   loyaux 2 0 1 musulmans 2 0     remercie 2 0 1 favorise 2 0 1  pers  v  r   2 0 1 antis 2 0 1  population 2 0 1 affaiblie 2 0     assumer 2 0 1 remercie 2 0 1  fenme 2 0 1 vision 2 0 1  transition 2 0 1 collective 2 0 1  incapacit   2 0   restons 2 0 1  rendus 2 0 1 transition 2 0     cupidit   2 0 1 moments 2 0     pr  sident 2 0 1 g  n  rosit   2 0 1  prosp  re 2 0 T rapacit   2 0     pr  parer 2 0 1 incapacit   2 0 1  comp  tences 2 0 1 rendus 2 0 1  documents 2 0 1 toujours 2 0 1  Peuple 2 0 1 s                6             2 0 1       Figure 19   Liste des cooccurrents de la forme p  le et liste des mots sp  cifiques de la  zone miroir    Nous retrouvons normalement ici 
132. l   int  ressant de publier ces premiers comptages sur la comparaison textom  trique entre textes  chinois et textes frangais  Cependant  ces r  sultats pr  sent  s dans le but de fournir une comparaison sur deux  syst  mes d   criture tr  s diff  rents doivent   tre pris avec de grandes pr  cautions  Nous   tudierons par la suite  l influence que peut avoir la lemmatisation de chacune des listes de formes sur les r  sultats produits de la sorte   ainsi par exemple  la fr  quence dela forme chinoise la plus fr  quente     2313 occ  renvoie    la forme  francaise de 1578 occ   mais aussi aux formes du 243 occ   des 447 occ   etc       courbes d   accroissement du vocabulaire  figure 6  pr  cise les r  sultats obtenus par la  comparaison des principales caract  ristiques lexicom  triques des volets fran  ais et chinois du  corpus  La courbe situ  e dans le haut du graphique correspond    l   enrichissement du  vocabulaire chinois au fil du texte  Le fait que ce texte comporte moins d   occurrences est  responsable de l   interruption de la courbe correspondante  abscisse 34 743  avant la courbe  qui correspond au texte fran  ais  abscisse 39 666   La courbe correspondant    l   apparition de  nouveaux mots chinois est situ  e  d  s que l   on atteint le premier tiers du corpus  largement  au dessus de celle qui correspond    l   apparition des mots fran  ais  ce qui confirme l   existence  d   un plus grand nombre de formes en chinois     On peut remarquer que des paliers cr   
133. la Sorbonne nouvelle     Paris3     ZIMINA  M  2005  Topographie bi textuelle et approches quantitatives de l extraction de ressources  traductionnelles    partir de corpus parall  les  Actes des 7es Journ  es scientifiques du R  seau de  chercheurs  Lexicologie  Terminologie  Traduction   Institut sup  rieur des traducteurs et interpr  tes   ISTI   Bruxelles     ZIPF  G    K  1935  The Psychobiology of Language  an introduction to Dynamic Philology  Boston  Houghton   Mifflin     ZHOU Q   DUAN H                            2007  Traitement de segmentation et de marquage des mots dans les  corpus chinois   modernes            MU                disponible sur  http   hi baidu com Jagard blog item dcdb653844fd842097ddd8ec html    9 Fonctionnalit  s Lexico3 utilis  es dans cette exploration                         N   Fonctionnalit   R  sultat  5 5   Courbe d accroissement des caract  res  hanzis  Figure 5  5 Principales caract  riques lexicom  triques  PCLC  Tableau 4  5 5   Accroissement du vocabulaire  chinois et fran  ais  Figure 6  54   Diagramme      Pareto  chinois et fran  ais  Figure 7  7 Carte des sections  volets fran  ais et chinois  Figure 8          Traductions franco cor  ennes     franco cor  en     Cho Joon Hyung  chojh4netG gmail com    R  sum     L approche quantitative nous permet d explorer la ventilation des mots en correspondance de  traduction    partir d une segmentation des s  quences textuelles dans le corpus  Avec cette m  thode  nous  pouvons directem
134. les r  sultats d  j   vus plus haut  Le corpus   tant align    la  forme en t  te de liste est sans surprise la forme    nation      les deux traductions convergent    sur cette forme localis  e dans les m  mes sections dans les 2 volets  par contre les divergences  entre les traductions se traduisent par des comportements lexicaux sp  cifiques propres     chaque volet     4 2 Mise au jour de la variation entre les 2 volets du corpus align      Dans l   exemple trait   dans ce tutorial  les volets fran  ais sont issus par une d  rivation de  traduction du m  me texte original  Dans ce cas pr  cis  si on choisit 2 volets fran  ais  particuliers  ces deux textes sont th  oriquement proches  mais diff  rents   les traductions  n   tant pas compl  tement similaires 2    2   On peut donc vouloir essayer      mettre au jour les  diff  rences entre ces volets traduits du m  me texte de d  part  Cette mise au jour de la  variation est possible dans mkAlign   une fois les textes align  s  le module de variation donne     voir globalement les diff  rences entre les 2 volets charg  s  Ce processus s appuie sur  l impl  mentation de la commande di f      dans la biblioth  que Tk    Di ffText   composite  widget for colorized diffs        Figure 20   param  trage du calcul de la variation    Apr  s avoir choisi le grain      la variation  mot  ligne  caract  re   on lance la visualisation de  la variation en activant le bouton idoine      aujourd hui en toute humilit   face    la c  che q
135. lexicale notamment dans le cas d   tude comparative     6 R  f  rences     Tha1978  Kobkool THAWARANON  1978      Asa2002  Nattakan Pengphon  Asanee Kawtrakul  Mukda Suktarachan    Word Formation Approach  to Noun Phrase Analysis for Thai     Asa2003  S P et Kawtrakul Asanee   Thai Word Segmentation based on Global and Local  Unsupervised Learning      Kos2003  Krit Kosowat   M  thodes de segmentation et d analyse automatique de textes tha    th  se de  doctorat Universit   Marne La Vall  e      Ber2004  Vincent Berment   M  thodes Pour Informatiser Des Langues Et Des Groupes De Langues  lt   Peu Dot  es     th  se de doctorat Universit   Joseph Fourier     Dictionnaires   HAAS  Stanford 1964  Thai English Students dictionnary  SE ED S  Bangkok 2001   Modern Thai Enlish dictionnary                                                                                                            wis                   Dictionnaire en ligne de    l institut royal 2542   http   rirs3 royin go th dictionary asp     
136. li  res permettent de repr  senter de mani  re g  n  rique  des motifs textuels   un motif est un ensemble d objets poss  dant une propri  t   reconnaissable   par exemple tous les mots termin  s par le suffixe    able    ou commengant par le pr  fixe     pr       Les expressions r  guli  res permettent ainsi de d  crire des portions de texte    l aide  d op  rateurs particuliers  Le tableau suivant rassemble l ensemble des op  rateurs disponibles  avec Lexico3 pour   crire des motifs sous la forme d expression r  guli  re      Op  rateur Fonction Application   le point  Repr  sente n importe  L expression  m l  repr  sente des s  quences        quel caract  re           mal  mol          O ou n occurrences du  L expression  com e  repr  sente des s  quences  caract  re qui pr  c  de komme   coe  come  comme  commme      1 oun occurrences du  L expression  com e  repr  sente des s  quences  caract  re qui pr  c  de komme   comme  commme       L expression   bcapital  repr  sente des  s  quences comme  capital  capitale   capitalisme       Repr  sente un d  but de  mot         L expression    aeiou   repr  sente des s  quences               un des caract  res de l ensemble des    Repr  sente un ensemble oyelles minuscules     de caract  res I n        L expression    a z     repr  sente un des caract  res    inuscules compris entre a et z          Repr  sente         n  gation  L expression     aeiou   repr  sente un des  du contenu      l ensemblelcaract  res parmi ceux qui n
137. lit   pour les cooccurrents   Appuyer sur l ic  ne des cooccurrences   Appuyer sur l ic  ne des polycooccurrents   Le graphe des polycooccurrents appara  t dans la zone sup  rieur de la zone d   dition de l onglet  Coocs  Les chemins de cooccurrence seront accessibles dans le rapport si les r  sultats produits y  sont ajout  s                           3  Etude la distribution d un type    3 1 Les outils de base    3 11 L outil concordances    L outil concordances permet de rassembler toutes les occurrences relatives    un type donn    en les munissant d   un petit fragment de contexte  En faisant varier la taille du contexte   l   ordre de pr  sentation  ici les contextes sont tri  s en fonction de la forme qui suit le p  le  s  lectionn     A l   aide de cet outil  le chercheur peut op  rer des rapprochements qu   une lecture  cursive du texte ne lui aurait sans doute pas permis de saisir  La concordance est ici  disponible pour chacun des volets du corpus align          Concordance de   nation    Concordance de   nation      SECTION    SECTION    SECTION    SECTION    SECTION    SECTION    SECTION    SECTION    SECTION    SECTION    SECTION       Figure 15   Concordance de la forme nation sur les 2 volets du corpus     3        ices rendus    notre   7     mation      ainsi que de la g         fondateurs   12     de notre nation         t de pr  parer notre   21     nation       une nouvelle donn       deneurons une jeune   24     mation      mais comme il est          gra
138. lle utilis  e en occident  reste  distincte de cette derni  re     L utilit   des rep  res li  s    la notation de la ponctuation chinoise est d autant plus importante  que  comme on s en souvient  les mots  ou plut  t les caract  res  chinois sont   crits l un apr  s  4      16  l   autre sans   tre s  par  s        des espaces     3 Le codage informatique des caract  res chinois    En raison de leur nombre   lev   et contrairement    ce qui se passe pour les syst  mes  d   criture des langues qui utilisent un alphabet restreint  les caract  res chinois ne peuvent   tre  repr  sent  s    l   aide d   un codage sur un seul octet  La norme Unicode qui permet de  repr  senter chaque caract  re sur plusieurs octets fournit une bonne solution pour repr  senter  les caract  res chinois          3 1 Logiciels supportant le traitement de textes chinois     Dans leurs versions r  centes  les logiciels de traitement de textes permettent de manipuler  en  plus des textes cod  s en unicode qui vont rapidement constituer la norme  des polices  multioctets qui permettent d   afficher correctement les textes chinois  entre autres   critures  non latines   Avec le logiciel Word   par exemple  lorsqu on tente d enregistrer un texte  chinois  avec l option texte seulement une boite de dialogue permet de s  lectionner le  codage Chinois simplifi    GB2312  comme on peut le voir sur la figure 1        3 2 Lexico3 et les textes chinois    Dans ses versions actuelles  3 5 0 2   Lexico3 manipule d
139. me lexicale et unit   lexicale de cette forme     Les morph  mes lexicaux    Le Tableau 5 montre dans le volet gauche les cinq formes les plus sp  cifiques de la partie  thmor qui n est autre que les traductions tha  es segment  es en morph  mes lexicaux  Ceux ci    tant d  fini par le segmenteur comme la plus petite unit   ayant un sens selon son dictionnaire   Il montre dans le volet droit les cinq formes les moins sp  cifiques                             Morph  mes Sp  cificit  s positives Sp  cificit  s n  gatives  Forme              thsyl  Fr  q Tot   Coef      Forme         Fr  q Tot    Coef                  205 205 0 410 13         4 216  32         184   12   184 381 10         6 181  24                 140 143 0 283 9        8 172  20     108 0   108 216 8         1 117  20                      147 167 0 314 8             2 119  18                                        Tableau 11  Sp  cificit  s pos neg        sur thsyl thmor thlex    On observe dans le volet gauche trois formes compos  es de deux syllabes                    a raj             aY we la  et                        ma dam  et deux formes compos  es d une seule syllabe           si  et          Le  nombre de syllabes est aussi d  ductible par l observation de la distribution des fr  quences  selon les parties  Les morph  mes dissyllabiques sont clairement des morph  mes lexicaux  en  effet on a                 pronom interrogatif   a  Le temps  et                 qui est une translitt  ration de  madame 
140. ment    l entr  e des dictionnaires  Quant    savoir si les    formes                          langka  et                         doivent   tre fusionn  es  il s agit d un autre probl  me     La deuxi  me occurrence de             laisse    penser que ce sont bien deux unit  s s  par  es car la       NC   54  s  quence              pra  mins  maw  n est attest  e dans aucun de nos dictionnaires   Cependant le    sens de             est l  g  rement modifi   par rapport aux diff  rents sens donn  s par ces  dictionnaires     La troisi  me occurrence de             ajoute encore au doute  En effet  on retrouve de nouveau la  s  quence                                  En outre  on observe la s  quence                             khraw  et            suey  qui est une  accumulation de deux formes au sens proche ce qui l  gitimerait la composition en                                         Quant    la forme     phou  elle est souvent d  crite dans les m  thodes de langues comme un  pr  fixe permettant la cr  ation de nombreux mots relatifs    une personne  Ainsi  si la forme    lexical pour le segmenteur est une sorte de pr   traitement pour constituer les unit  s lexicales  Ce n est pas une  analyse d une unit   lexicale en morph  mes     i Voir la liste des dictionnaires utilis  s dans les r  f  rences                         khien  signifiant   crire est pr  c  d  e de    pour former                                 le tout signifie auteur     ne pas  confondre avec   crivain qu
141. mentation en formes graphiques peut cependant   tre contourn    pour  les analyses qui suivent  par un rep  rage syst  matique  utilisant notamment le langage des  expressions r  guli  res qui offre une possibilit   de rep  rer les diff  rentes compositions  r  alis  es    partir d   un m  me radical     4 Analyse des   quivalences traductionnelles fran  ais cor  en    Pour l   analyse textom  trique  les textes sont d   abord segment  s en occurrences de formes  graphiques qui sont ensuite regroup  es par type  Les corpus textuels ainsi d  coup  s  permettent d   observer directement des formes ou des s  quences textuelles sans r  f  rence  particuli  res aux structures syntaxiques particuli  res des langues consid  r  es    Les r  sultats obtenus    l   aide du calcul statistique    partir de textes qui entrent en  correspondance de traduction  constituent des donn  es parall  les particuli  rement pr  cieuses  pour les   tudes contrastives   Les travaux lexicom  triques de M  Zimina  Zimina 2000   portant sur des corpus parall  les frangais anglais constitu  s de documents concernant la  Convention de sauvegarde des Droits de l Homme et des libert  s fondamentales  ont illustr    les possibilit  s de cette m  thode pour contribuer    l alignement des unit  s correspondantes  dans les deux volets du corpus  En comparant les fr  quences globales et locales des termes  frangais et de leurs traductions anglaises  ils ont mis en   vidence des similarit  s  distributionnelles en
142. mkAlignDOC htm     2 Maria Zimina Poirot a   tudi   dans sa th  se  Zimina 2004  des correspondances traductionnelles de ce type   Les logiciels de textom  trie permettent d  sormais l   tude syst  matique de ce genre de correspondances  traductionnelles  Les termes de la correspondance peuvent   tre   tendus par l utilisation du syst  me des  expressions rationnelles  Dans notre cas  le motif   vie iu  permet de localiser toutes les occurrences des formes  d  taill  es plus haut     Tableau 6    Alignement en paragraphes sur les deux volets du corpus                      le grondement du fleuve monte derri  re la             Bum                                   maison  la pluie bat les carreaux depuis le   I  dT    fd b  EA      BOR      commencement du jour  une bu  e d   eau ruisselle          ek ot               m   sur la vitre au coin f  l    le jour jaun  tre s   teint                     JE iz A    il fait ti  de et fade dans la chambre                                                    le nouveau n   s agite dans son berceau  bien                        qe  que le vieux ait laiss    pour entrer  ses sabots    la                                                                                                                                                               AE  porte  son pas a fait craquer le plancher   l enfant                                    NE         commence    geindre  la m  re se penche hors de   ik  tj    T                                    Pu
143. ml  o graphique de comptage de la variation  http   tal univ paris3 fr mkAlign mkalign variation graph variation obama  pg   e Deux discours de S  gol  ne Royal  campagne 2007         export comparaison  apr  s alignement automatique   http   tal univ paris3 fr mkAlign mkalign variation variation royal export html       Deux discours de Nicolas Sarkozy  conf  rence de presse 2008         export comparaison  apr  s alignement automatique   http   tal univ paris3 fr mkAlign mkalign variation variation sarko export html  On peut aussi calculer des indicateurs de la variation  fond commun  mots ajout  s  supprim  s   modifi  s      le graphique produit donne    voir pour chaque section d alignement un  d  compte des variations sur chaque section  On trouvera en ligne  supra  des exemples de  telles sorties           5 Bibliographie    Fleury Serge  Zimina Maria   Exploring Translation Corpora with mkAlign   in    Translation Journal  Volume 11  n  1 January 2007   http   accurapid com journal 39mk htm       Fleury Serge  Zimina Maria   Utilisations de mkAlign pour la traduction philologique    PDF   in Actes JADT 2008  Journ  es Internationales d Analyse Statistiques des Donn  es  Textuelles  Lyon  2008     http   www cavi univ paris3 fr lexicometrica jadt jadt2008 pdf fleury zimina pdf  http   tal univ paris3 fr mkAlign Slides 20  20JADT2008   http   tal univ paris3 fr mkAlign Demo mkAlign 20  20JADT2008              Leblanc Jean Marc  Martinez William   L analyse contrastive de
144. n        ol rrillyu   en fr   humanit                                      en fr   l antonyme de femme     A l inverse de ce qui se passe pour les confrontations entre langues proches comme le  frangais et l anglais pour lesquelles les comparaisons peuvent s appuyer sur des  ressemblances typographiques  homme human  administration administration  etc    les  confrontations entre textes fran  ais et cor  ens ne peuvent s appuyer sur des ressemblance de  ce type  Pour recenser l ensemble des   quivalences traductionnelles d un terme particulier  appartenant    un des volet du corpus  il est n  cessaire d examiner  autant que possible   l ensemble du vocabulaire de l autre volet  On peut optimiser ce genre de recherche en  s appuyant sur la fr  quence et la r  partition des formes attest  es dans chacun des volets du  corpus    Le nom commun frangais connait deux variations grammaticales  le singulier et le pluriel   Dans le volet frangais du corpus Droits  la forme singuli  re homme compte 1 046 occurrences  et son pluriel hommes 41 occurrences  En cor  en  le nom commun est susceptible de prendre  un assez grand nombre de variations au plan de la forme graphique     _ Groupes          BE    Nom du groupe    saram       Le motif                           contenu dans ce que je recherche         Ajouter    9 Rechercher Enregistrer           Charger          Fr  quence    134       Figure 25      Groupe de formes saram dans le volet cor  en du corpus Droits    Le mot cor  en sar
145. nctionnalit  s de la carte des sections bi textuelle       Pour   tudier la ventilation des types sur la carte des sections  on proc  de de la fa  on suivante      On s  lectionne le Tgen     partir du dictionnaire  du Garde mots  de la liste des segments r  p  t  s  etc   et on le  fait glisser sur la carte  bouton gauche maintenu enfonc           On s  lectionne la section    visualiser dans la fen  tre du bas en cliquant sur le carr   qui la  repr  sente dans la carte des sections           La case seuillage permet de r  gler deux seuils en probabilit  s qui entraineront un coloriage  plus ou moins  sombre  des sections     Pour une repr  sentation simultan  e de deux Tgen s   ce processus doit   tre r  it  r    en prenant soin de changer la  couleur dans la boite correspondante   Il faut maintenir la touche Control en position basse lors du second  glisser d  poser        La figure 5 montre la ventilation des types administr    administ  dans les sections appari  es  du corpus  Une conclusion s impose   dans le corpus Convention  m  me si l   on peut constater  des similitudes importantes qui concernent des parties   quivalentes  les distributions des ces  types pr  sentent des divergences     Ce constat am  ne une question   Quelles sont les particularit  s des contextes o   les mots  fran  ais                    par la cha  ne administr  ne sont pas en correspondance avec des mots  anglais commen  ant par la cha  ne administ       La r  ponse    cette question peut   tr
146. ndeur de notre   35     nation      nous comprenons qu       Nous demeurons une   61     nation    prosp  re et puissan         et qu une   69     nation    ne peut pas prosp  r       st l amie de chaque   81     nation    et de chaque homme        Nous sommes une   103     nation    de chr  tiens  de mu       vers nous m  mes  la mation et le monde      112        ue le p  re de notre nation ordonna que les par       SECTION     3        il    rendus    notre   11     mation      ainsi que pour la       Notre   12     nation    est en guerre contr       es et    pr  parer la   21     nation       une nouvelle   re        Nous restons une   24     nation    jeune  mais  selon          grandeur de notre   35     nation      nous savons que la       sommes toujours la   61     nation    la plus prosp  re  1       Une   81     nation         peut pas prosp  r       Nous sommes une   96     nation    de chr  tiens et de       e am  ricain dont la nation d  pend      103        m  mes  envers notre nation et envers le monde      113            le P  re de notre nation    demand   que ces n               mkAlign    Concordances    Y Dans l onglet Concordances  Y Entrer une forme dans la zone de saisie  ex   nation         Choisir    ventuellement  un regroupement par parties  si une partition a   t   s  lectionn  e           3 1 2 L outil ventilation par sections d alignement    Cet outil permet de juger de la r  partition des occurrences relevant d   un m  me type dans les  diff  
147. ns cette   tude  nous nous sommes attach  s    la seule entit   traductionnelle  homme_fr homme_co sans   puiser l exploration des r  seaux de cooccurrence autour de ces  notions  Malgr   ces limites  nous pensons avoir montr   que l   analyse lexicom  trique constitue  d  sormais un outil extr  mement utile pour l   analyse des corpus parall  les qui concernent des  langues sans parent       6 R  f  rences    Isabelle  P  et Warwick Armstrong  5   1993      Les corpus bilingues   une nouvelle ressource  pour le traducteur     In P  Bouillon et A  Clas  Dir    La Traductique     tudes et  recherches de traduction par ordinateur  Les Presses de l   Universit   de Montr  al  pp   288 306    Isahara  H  et Haruno  M   2000    lt  Japanese English aligned bilingual corpora    In J   V  ronis  Ed    Parallel Text Processing   Alignment and Use of Translation Corpora   Dordrecht   Boston   London   Kluwer Academic Publishers  pp  313 334    Lamalle  C  et Salem  A   2002      Types g  n  ralis  s et topographie textuelle dans l   analyse  quantitative des corpus textuels  gt   In Actes des        Journ  es internationales d Analyse  statistique des Donn  es Textuelles  Saint Malo  2002  pp  403 412    Lebart  L  et Salem  A   1994   Statistique textuelle  Paris   Dunod    Martinez  W  et Zimina  M   2002      Utilisation de la m  thode des cooccurrences pour  l   alignement des mots de textes bilingues     In Actes des 6es Journ  es internationales  d Analyse statistique des Donn  
148. ois  etc   Signalons qu en raison de l absence d un consensus sur la d  finition  de ce qu est un mot chinois  aucun logiciel ne peut pr  tendre fournir de r  sultats parfaits     des textes est moindre dans le texte chinois alors que la forme la plus fr  quente y trouve  nettement plus d   occurrences que dans le texte fran  ais       La comparaison entre le syst  me des mots chinois et celui des caract  res chinois  pour lequel  nous avons pr  sent   plus haut des d  comptes comparables montre que les mots chinois sont  compos  s en moyenne de 1 6 caract  res et que le mot le plus fr  quent rassemble presque  toutes les occurrences du caract  re le plus fr  quent  dans les deux cas le caract  re           de     Tableau 5  Les formes les plus fr  quentes pour chacun des volets du corpus                Fran  ais Chinois   2313       1 d 1 578      1581 4b   2 il 1 044 638       3 et 1034 373      368       4 le 908 276       5 la 841 275    274              6 les 575 235       7 Il 515 208 ES  204       463      8      6 184           9 lui 448 158       10 des 447 156 WT  147           11 ne 439 143       12 un 407 142          139       13 en 399 139       14 que 394 136       15 pas 376   16 qui 375   17             362   18 dans 329   19 une 314                   La comparaison entre les formes les plus fr  quentes dans chacun des volets du corpus montre  que les fr  quences d  croissent plus rapidement dans le volet chinois  L     tude compar  e des    23    nous a semb
149. onstruits Barre principale  par Lexico3  Elle permet  surtout de faire des recherches  de formes ou de groupes de  formes en utilisant la notion  d expression r  guli  re   5 3 AFC AFC  Fen  tre des PCLC  SPECIFICITES Fen  tre des PCLC  5 1  7 2  POSITIVES Partie ou section du corpus  NEGATIVES              Carte des sections             Lexico3  Tableau des Fonctionnalit  s       Glossaire    segmentation   op  ration qui consiste    d  limiter des unit  s minimales dans un texte  Les unit  s minimales   pour un type de segmentation    unit  s que l   on ne d  compose pas en unit  s plus petites pouvant entrer dans  leur composition  ex   dans la segmentation en formes graphiques les formes ne sont pas d  compos  es en  fonction des caract  res qui les composent     caract  res d  limiteurs   non d  limiteurs   distinction op  r  e sur l ensemble des caract  res qui entrent dans la  composition du texte  permettant aux proc  dures informatis  es de segmenter le texte en occurrences  suite de  caract  res non d  limiteurs born  e    ses extr  mit  s par des caract  res d  limiteurs      On distingue parmi les caract  res d  limiteurs       les caract  res d  limiteurs d occurrence  encore appel  s  d  limiteurs de forme   qui sont en g  n  ral   le blanc   les signes de ponctuation usuels  les signes de pr  analyse   ventuellement contenus dans le texte       les caract  res d  limiteurs de s  quences   sous ensemble des d  limiteurs d occurrence correspondant  en  g  n  ral 
150. osition lexicale    Le Tableau 8 montre que les formes du volet droit ont une distribution diff  rente des formes  nominales du volet gauche  Par exemple  la forme  ahan  apparait 88 fois dans la partie thlex  et seulement 43 fois dans la partie thmor  On a d  j   expliqu   ce ph  nom  ne pr  c  demment   De plus  ce qui nous int  resse pour la suite de cette   tude est de trouver des formes ou des  segments r  p  t  s dans la partie thlex contenant la forme  ahan  afin de d  terminer la limite de  l unit   lexicale        La m  thode pour retrouver ces formes avec Lexico3 consiste    calculer les segments r  p  t  s  sur le corpus align   puis    utiliser conjointement l outil de recherche de groupe de formes et  les expressions rationnelles comme dans l Illustration 6     O Lexico3    Groupes de formes       Fichier Traitement Fen  tre    Navigation   Rapport   Dictionnaire Segments r  p  t  s      2 Nom du groupe      S  lectionnez une couleur   C aliad    Emi Le motif                                          ig  sme  ral       fest une expression rationes      2 Un 10       2           12   Ajouter                    10 Q Rechercher Enregistrer il           2            11 i   Supprimer   gt  Charger   3        07 5   2   i   3 7                       o                                     1             11                         5   3                    7                                                 7      7                        7                     gn o   3 7      
151. ou have bestowed  mindful of  the sacrifices borne by our ancestors     I thank President Bush for his service to our  nation as well as the generosity and  cooperation he has shown throughout this transition     f               chers concitoyens      de me pr  sente devant vous aujourd hui en toute humilit   face     la t  che qui nous attend  reconnaissant de la confiance           vous m avez accord  e et conscient des sacrifices  consentis par nos anc  tres    Je remercie le pr  sident Bush des services rendus    notre    nation  ainsi que de      g  n  rosit   et de 1a coop  ration dont  il a fait preuve durant toute la transition        Forty four Americans have now taken the presidential  oath     Quarante quatre Am  ricains ont d  sormais fait ce serment  pr  sidentiel        The words have been spoken during rising tides of   prosperity and the still waters of peace     Ces mots ont   t   souvent prononc  s dans la mar  e montante de  la prosp  rit   et dans les eaux calmes de la paix        Yet  every so often the oath is taken amidst  gathering clouds and raging storms      At these moments  America has carried on not simply  because of the skill or vision of those in high  office  but because We the People have remained  faithful to the ideals of our forebears  and true to  our founding documents     So it has been     r z cx     Mais il est arriv   que ce serment ait   t   prononc   alors que  le temps   tait orageux et que la temp  te faisait rage     En ces mom
152. ouvent la segmentation   tait  instable   soit l unit   lexicale apparaissait telle quelle  soit elle apparaissait segment  e     Conform  ment    la description de cette m  thode employ  e par le segmenteur Asa2003   la  segmentation en morph  mes lexicaux doit   tre vue comme une   tape interm  diaire vers la  construction des unit  s lexicales    partir des syllabes     Enfin  l observation des sp  cificit  s sur la partie unit   lexicale a montr   que si les mots  outils  les noms propres semblent constituer le gros des unit  s lexicales c est que les fronti  res  des unit  s compos  es ne semblent pas tr  s nette     4 Les maux de l unit   lexicale    On vient d observer que la nature des formes les plus sp  cifiques de la partie thlex est vari  e   noms propres  mots outils  verbe   Cependant  si on s  lectionne les quinze premi  res formes  au lieu de cinq  on remarque une large pr  dominance des noms propres  Ces formes  compl  mentaires sont consign  es dans le Tableau 8     L identification des noms propres et notamment des personnages est int  ressante puisque  notre corpus est constitu   de nouvelles frangaises traduites en thai  L enjeu est donc la  restitution des noms de personnes  mots vraisemblablement inconnus des dictionnaires du  segmenteur mais dont la limite signifiant signifi   est claire     Par cons  quent  nous utiliserons dans un premier temps les outils de Lexico3 pour v  rifier si  les occurrences de noms propres ont   t   correctement identifi  e
153. pectives of  textometric approaches in the analysis of different Chinese translations of French words   6      Key words  Textometry  Chinese characters  Hanzi   literature  translation studies                                                                                                                                                                                                                                                                  8  3                                                                                                                                                                                                                       4                                                                                                                              48 5                                                                                                               FERAS  86                                 HO                                                                     UI                                                                                           1 Contexte de la recherche    Parmi les nombreuses raisons qui peuvent expliquer le fait que les m  thodes d   analyse des  textes sur ordinateur  de plus en plus largement r  pandues dans le monde occidental  ne se  sont d  velopp  es que plus tardivement dans la sph  re culturelle chinoise  on doit consid  rer  les facteurs li  s    l   existence d   un syst  me d     criture t
154. produits alimentaires et une comme  traduction de r  serves au sens de r  serves alimentaires en coocurrence dans le m  me  paragraphe avec provisions  On a aussi d  nombr   trois occurrences de                        sans ams comme  traduction de provisions  De plus  nous avons aussi relev   une occurrence de la s  quence  suivante ms kan                                       rappratan                          sabieng  om  ahan  comme traduction de  provisions  On a aussi relev   la s  quence                                                                     1               comme traduction de wagon   restaurant  On      d  duit donc que la pr  sence de                        la suite de                       n est pas obligatoire     la construction du sens mais servirait plut  t un but litt  raire     Le Tableau 11 laisse clairement apparaitre deux autres oppositions que nous ne d  taillerons  pas  Il s agit de l opposition entre                                      rappratan  et   w  kin  qui est normalement une  opposition de registre de langue  l emploi de                                       tant plus soutenu que fu  La seconde  opposition concerne                                                          116     du jour                         u  soir  e  N frais ADJ   ams  amp  N nuit  o    les trois formes viennent pr  ciser                             ajoutant une information temporelle     Cette partie a montr   quelques probl  mes de composition lexicale puisque
155. pus montrent que les parties ne sont pas au sens strict  des partitions  En effet  il existe des formes et des hapax communs aux diff  rentes parties     Une derni  re remarque concerne la forme la plus fr  quente  le symbole   qui repr  sente les  espaces pr  sents initialement dans le corpus  Son utilisation reste fr  quente bien que l espace  ne sert pas    s  parer les mots     Accroissement de vocabulaire    L Illustration 2 montre les courbes d accroissement de vocabulaire pour chacune des parties   On observe une forte corr  lation entre les courbes des morph  mes et des unit  s lexicales   L   cart entre ces deux courbes tend    se stabiliser plus on avance dans le corpus alors que la  courbe des syllabes a un comportement diff  rent  elle se tasse beaucoup plus rapidement  On  observe cependant dans deux secteurs du corpus  entour  s en gris  une acc  l  ration de  l accroissement du vocabulaire pour chacune des parties  Ceci indique que l apport de  nouveaux mots et de nouveaux morph  mes est en partie r  alis   par l apport de nouvelles  syllabes  Peut   tre s agit il de mots emprunt  s transcrits comme des noms propres         Nous rappelons que les partitions thsyl  thmor       correspondent au corpus segment   respectivement    en syllabes  morph  mes et unit  s lexicales     iid Une   tude textom  trique de son usage    travers par exemple des concordances serait int  ressante       mener ult  rieurement     Accroissement de vocabulaire     thsyl  thmor  thlex 
156. qu   il s   agisse de langues diff  rentes  l   anglais et le fran  ais partagent  en plus de  l   alphabet latin  des structures syntaxiques proches  En revanche  les trois derni  res langues  orientales poss  dent des caract  ristiques qui diff  rent fortement des premi  res et qui ne sont  pas les m  mes    l   int  rieur du second groupe  En premier lieu  les trois langues orientales  utilisent depuis longtemps certains caract  res chinois    des fins de communication  Mais  ceux ci se diff  rent dans chaque cas par la prononciation et la forme    En cor  en moderne  les caract  res chinois  hanja caract  res phon  tiques  id  ogrammes  indispensables    l     criture du chinois et du japonais  ont pour r  le principal d   aider    lever de  nombreuses ambigu  t  s s  mantiques qui r  sultent de la transcription en Hangul des mots  chinois     on the principle of the sovereign equality of all its Members    LEM d zx 271  sur le principe de   souveraine de tous ses Membres                                                     NAMI    PEPES EER                E    _ 1 N           X 037  00 JI 3 Es  OO 3E                                                                     E        Ja                26 Les versions anglais fran  ais chinois de la Charte de l ONU se trouvent sur le site officiel de l ONU   http   www un org   Les versions cor  enne et japonaise  peuvent   tre consult  es respectivement sur les sites du  Minist  re des affaires   trang  res et du commerce en Cor 
157. r  s ancien  dont certaines qualit  s sont  indiscutables  mais dont l   informatisation s   est r  v  l  e beaucoup plus complexe que celle des  syst  mes bas  s sur l   utilisation d   un alphabet r  duit     Dans la p  riode r  cente  parall  lement aux efforts entrepris par les linguistes chinois pour  simplifier la repr  sentation des caract  res hanzi  les probl  mes li  s    l informatisation des  syst  mes d   critures complexes ont   t   d  pass  s par la mise en place de normes  internationales  telle la norme Unicode  et de technologies permettant la saisie et l affichage    P Les auteurs remercient Kim Gerdes  Serge Fleury et C  dric Lamalle pour leur aide et leurs conseils pr  cieux  dans la r  alisation de ce travail     de textes   crits dans des langues jusqu alors difficilement accessibles au traitement sur  ordinateur     Ces avanc  es technologiques ouvrent la voie    un formidable d  veloppement des   tudes  textuelles appliqu  es    des gisements textuels que les codages traditionnels   taient incapables  de prendre en charge  Au del   de l   exploration des corpus   lectroniques    des fins de  recherches linguistiques ou sociolinguistiques  la fouille de donn  es textuelles concerne  dor  navant un tr  s vaste ensemble de textes saisis dans le cadre d   activit  s entreprises dans  tous les secteurs de la vie socio   conomique d   un pays en plein d  veloppement     L   tude de bitextes  dont l   un des volets est constitu   par la traduction de l autre
158. r de notre nation  no  omprenons que cette grandeur n   est jamais un d    nous savons que la grandeur n est jamais un d       retour au contexte via une concordance sur les 2 volets             Figure 13   Retours aux contextes            mkAlign      Cooccurrences   Y Dans l onglet Coocs  s  lectionner la forme p  le  volet source et volet cible    Y Charger   ventuellement une liste de forme    exclure du calcul  stop liste  sur chacun des 2 volets  Y Choisir une fr  quence minimale et un seuil de probabilit   pour les cooccurrents   v Appuyer sur l ic  ne des cooccurrences              On verra infra qu il est possible de d  terminer cette liste de cooccurrents en utilisant dans  mkAlign une autre m  thode bas  e sur la repr  sentation graphique de l   alignement     A partir de la liste de cooccurrents  on peut ensuite activer le calcul des polycooccurrents  Ce  calcul reprend la d  marche mise en ceuvre dans le travail de William Martinez  2002  2003   2006      3 Un calcul hyperg  om  trique est utilis   ici pour comparer le nombre des occurrences du candidat cooccurrent  dans les sections ou est attest  e la forme p  le avec sa fr  quence dans l ensemble du corpus         Une cooccurrence d  signe l   apparition de deux mots      m  me temps et dans le m  me  contexte    Le module de cooccurrences mis en   uvre prend appui sur l   alignement en cours  les  contextes dans lesquels on examine la co pr  sence sont donc ceux qui co  ncident aux  diff  rentes cellules dans
159. ract  res isol  e saram  les occurrences de toutes les  formes contenant la s  quence de caract  res saram    Pour venir    bout de cette t  che  le concept de Type g  n  ralis    TGen  va se r  v  ler d une  grande utilit     Le TGen homme   d  sormais homme  fr  nous permet de rassembler les  variations de la forme homme attest  es dans le volet frangais du corpus  hommes et hommes    De la m  me fa  on  on constitue le TGen saram  en rassemblant toutes les occurrences  contenant saram  Nous pouvons faire de m  me pour chacune des formes traductionnelles  cor  ennes mentionn  es ci dessus et rassembler l ensemble de ces occurrences du corpus  cor  en dans un TGen homme  co que nous allons comparer au TGen fran  ais homme  fr                 TGen Fr  quence  saram  428  ingan  135          18              0  Total 581                Tableau 3      Fr  quence des mots traductionnels cor  ens correspondants au type homme fr  dans le volet cor  en du corpus Droits    La comparaison des fr  quences de chaque sous groupe de formes du TGen homme  co r  v  le  que  dans le corpus Droits  les types saram  et ingan  sont nettement plus fr  quents pour  traduire le terme frangais homme  Tableau 3   Au contraire  la fr  quence du TGen             est  nulle dans la pr  sente enqu  te  Ce r  sultat peut laisser penser que la forme homme n est  jamais utilis  e comme antonyme de femme dans le corpus Droits    La question qui reste pos  e est celle de comprendre les raisons qui peuvent   
160. rateurs  administrations  administr  e                                              Figure 4  S  lection des Types bilingues pour une exploration parall  le    Afin de poursuivre notre exploration  nous allons cr  er une carte bi textuelle en s appuyant  sur l alignement des sections parall  les        La mise en correspondance des parties   quivalentes du corpus parall  le a   t   r  alis  e l aide du logiciel  mkAlign qui permet de construire ou de corriger un alignement de deux textes  L outil permet de visualiser  l alignement en cours et de le modifier via un   diteur    double entr  e  dans notre exemple  le caract  re   sert de  d  limiteur de sections appari  es   mkAlign donne la possibilit   d exporter l alignement au format Lexico3  Pour  plus d informations sur les fonctionnalit  s de cet outil  on consultera la documentation    l adresse suivante      http   tal univ paris3 fr mkAlign mkAlignDOC mkAlignDOC htm          Partition    C s ope El cl H T F  TT                 gt  m I   seuillage administratives   administrative Sp  cifs   m                                                                                                                                                                                                                                                                                                                                                                                                                                                    
161. re      S  lectionnez une couleur 8  Recherche       Formes  ordre       FrMuence   a SE           RGEC               2797                            EUH BE AF              m      T 991 XT  ZSAE Be             907             SUL                                                                                                     MUR                                         454                    T             ROM ST 708       BA                                                                               3 286      GE          ker ZTZT   Hz  3H 89S B9    AN            212                                    de EF       L       251         W                        BOX X wd d  SS d        E                                      WE                               iB E   TR   gt        4        en e           RK                                 TE    I 158 EX                                                      165         BE         X     So RE         XL  amp   g      162 TH wp                                           Erb 3  HOS  3l  8 CH                             9                                               189     mm                                                                H                  ES                                     XD                       142                                                                                  e                                                                                    RE          F SG DIS           Figure 2    Lexico
162. re que la taille du volet fran  ais  mesur  e en occurrence de formes  graphiques  est pr  s deux fois sup  rieure    celle du volet cor  en  A l   inverse  le nombre des  formes du volet cor  en est 3 fois plus   lev   que celui qui a   t   calcul   pour le volet fran  ais   Le volet cor  en compte beaucoup plus d   hapax     que le volet fran  ais  cons  quence des  particularit  s morphologiques propres    la langue cor  enne que nous avons mentionn  es plus  haut  Dans le volet cor  en  plus de la moiti   des formes  soit 55 7   des formes graphiques   apparaissent en tant qu hapax  ce qui contraste avec le taux de 32 6   calcul   pour le volet  fran  ais     3 1 Accroissement du vocabulaire    L     tude de l   apparition de nouvelles formes graphiques au fil du corpus confirme les  diff  rences quantitatives entrevues plus haut entre le cor  en et le fran  ais  La courbe  d   accroissement de vocabulaire calcul  e simultan  ment pour les deux volets du corpus   Figure 1  montre que la croissance du vocabulaire fran  ais s     puise plus rapidement que  celle du vocabulaire cor  en     De plus  l   accroissement du vocabulaire fran  ais devient de  plus en plus faible au fur et    mesure que l   on avance dans le texte  alors que la courbe qui  correspond au texte cor  en maintient une pente relativement stable  Plus que le texte fran  ais   le texte cor  en voit sans cesse appara  tre de nouvelles formes graphiques     30 Les pr  sents travaux  y compris la segmentation
163. rences   Pour expliquer cet   cart important  il est n  cessaire  d explorer les fr  quences locales du couple homme  fr homme  co dans les parties du corpus   L exploration de la variation des fr  quences locales nous permettra de comprendre les raisons    de cette disparit   globale        550    500 RM    450          A  e  e             homme co     s    homme fr                                m m                                              Fr  quences absolues                        100  50                      1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39  Parties    Figure 26      Fr  quences locales des deux types homme  fr et homme co  dans les quarante parties du corpus Droits    Comme nous l avons signal   plus haut  le corpus Droits est constitu   de quarante parties  On  voit  sur la Figure 26  que les deux courbes pr  sentent un profil distributionnel similaire     quelques exceptions pr  s  Le TGen homme  fr ne d  passe la cinquantaine d occurrences que  dans quelques parties  Dans les parties 37 et 40  homme  fr compte respectivement 109 occ  et  502 occ  Les parties 04  09 12  17 18  20  22 contiennent au maximum occurrence    Dans le volet cor  en  la fr  quence locale du TGen Aomme co dans chaque partie reste  inf  rieurs    50 occurrences     l exception des parties 37 et 40  dans lesquelles leur fr  quence  atteint respectivement 71 et 83 occurrences    Les parties 4 5  9 10  12  15  17 22  25  27 comptent chacune une occurrence au plus  On a  r
164. rentes sections de l alignement      Ventilation des formes s  lectionn  es  Fichier   graph graph 1247395753  jpg                       Nombre de formes  Fq absolues                                                                                                                                                            Il                8 z 8 z       z   z        z         Sections       source   nation    cible   nation    Figure 16   Ventilation de la forme    nation    sur les 2 volets de l   alignement            mkAlign      Ventilation par section d alignement   Y Dans l onglet Dic  et dans chaque onglet donnant    voir des listes de formes    v S  lectionner une  ou plusieurs  forme s    Y Activez le bouton Ventilation  la ventilation concernera l ensemble des formes s  lectionn  es dans le  volet source et dans le volet cible             3 13 L outil carte des sections       Shift clic sur carr     affichage   clic droit sur carr     sp  cificit  s   Control clic sur carr     s  lection   Shift Control clic sur s  lection   d  s  lection                            source cible                                                                                                                                                                                                                                                                                                                                                                                                              
165. res  l   clat             ag  lt                                   brutal de la lampe  les hallucinations d un   li                                                cerveau    peine d  gag   du chaos  la nuit                                              etouffante et grouillante qui l   entoure  l   ombre                                                    sans fond d   o   se d  tachent  comme des jets                                    MER                 aveuglants de lumi  re  des sensations aigu  s  des    KOE                        xu mus  A    douleurs  des fant  mes   ces figures   normes qui        se penchent sur lui  ces yeux qui le p  n  trent  qui BR           RA Jr                EX    s enfoncent en lui  et qu il ne comprend pas   il              1E       IRIE W   d  fb        LIH                J cr  4                            8                             r                                                            n a pas la force de crier   la terreur le cloue                                                             immobile  les yeux  la bouche ouverts  soufflant                                     KA   du fond de la gorge  sa grosse t  te boursoufl  e           D ment mr       E Dh   plisse de grimaces lamentables et grotesques   la                                                           peau      sa figure et de ses mains est brune      M eeu epe   violac  e  avec des taches jaun  tres  x Kc     TE Pe NE KE 5         m  JK            Hy              
166. rmes Occurrences dans le texte Entr  es de dictionnaire                           Not                                                               capote                          N c     uverture                           V                                      convenir                    Adj etre adapt                                      Abs  dico                             N personne               V                                       tre fait pour                                                                                   Y  malheureuse                                N chance ou malchance                Adj malchanceux              mnz     Vi  roder fu   V    tre abim                                                           us  s                             pr  p  Jusqu                        tre   roder       Tableau 13  Occurrences en contexte d unit  s lexicales les moins sp  cifiques    Le Tableau 7 montre les occurrences des formes              pra  et              seuk  de la partie thlex  c est      dire consid  r  es comme une unit   lexicale apr  s segmentation du texte original  On voit que  leur statut respectif n est pas simple puisqu    chacune des s  quences o   apparaissent ces  formes correspond un seul mot source fran  ais  La premi  re ligne du tableau montre que la  s  quence est mal segment  e puisque les formes              pra  et nu  thun  auraient d     tre  fusionn  es en                                                          conform  
167. rs les occurrences  en anglais tokens   Dans le cas de mkAlign   cette segmentation des 2 volets en unit  s est r  alis  e au chargement des fichiers  Le  d  pouillement des 2 volets en formes graphiques d  limit  es par les d  limiteurs propos  s par  d  faut conduit aux r  sultats suivants  visibles dans l onglet Rapport de mkAlign       Fichier Trait     frO txt Fichier Trait     frl txt  Encodage   UTF 8 Encodage   UTF 8    D  limiteurs                    S           D  limiteurs                    S              Nombre des occurrences   Nombre des occurrences    Nombre des formes   Nombre des formes    Fr  quence maximale    Fr  quence maximale  Nombre des hapax   Nombre des hapax       Figure 8  Param  tres lexicom  triques des deux volets align  s    Cette segmentation conduit    la g  n  ration des 2 dictionnaires de formes  chacun   tant associ       un des volets du corpus align              Figure 9  Les dictionnaires de formes issus de l alignement    Diff  rents outils textom  triques que l   on d  crira plus loin permettent d   appr  cier la fr  quence   la r  partition  la spatialisation des occurrences relevant de chacun des types constitu  s    cette    tape  Les r  sultats fournis par ces outils ne sont pas ind  pendants des types d   unit  s  constitu  s  mais les m  mes outils s   appliquent    tous les types constitu  s de la sorte  Dans la  figure pr  c  dente  certains de ces outils sont visibles dans la partie sup  rieure sous la forme  d   ic  ne  Apr
168. s    en          le caract  re 5 qui mat  rialise l alignement des phrases        le caract  re   qui permet d identifier des lettres     l origine  en majuscules              2 Asym  tries distributionnelles des Types bilingues appari  s    La confrontation des dictionnaires de formes graphiques constitu  s    partir de chacun des  volets du corpus nous am  ne    nous interroger sur les particularit  s d un ensemble de    vocabulaire associ   dans les deux langues    la notion d   administration  en anglais    administration      Nous allons constituer un type particulier  que nous appellerons administr     partir de toutes  les formes graphiques commen  ant par cette cha  ne de caract  res dans le volet fran  ais du  corpus     Puis  de la m  me fa  on  nous allons construire un deuxi  me type    partir de toutes les  formes graphiques commen  ant par la cha  ne administ  dans le volet anglais du corpus      priori  on peut s   attendre    ce que ces entit  s soient li  es sur le plan de la traduction     Tableau 3    Convention   transformation pour une exploration parall  le sous Lexico3       5     lt texte  fr  gt  aucune mesure      fut prise pour ralentir la file de voitures  lors de leur entr  e  ou pour examiner tous les passeports  car on craignait  que cela puisse alerter les suspects            lt texte  en  gt  no steps wer taken to slow down the line of cars   _as they entered or to scrutinise all passports since it was felt  that this might put the suspects on
169. s   il permet aussi de sauvegarder l alignement dans un format normalis     le format          permettant de stocker pour une ressource textuelle donn  e diff  rents volets  associ  s  comme ses diff  rentes traductions par exemple      2 1 Etape n 1   alignement de 2 volets initiaux    e En entree   en  txt  fr 0 txt  les 2 volets initiaux     e En sortie  en mkAlign txt  fr 0 mkAlign txt  obama alignement   en frl tmx  les 2 fichiers sauvegard  s    l issue de l alignement et la version         de l alignement    La figure suivante donne    voir l interface de mkAlign permettant de construire un  alignement     1 http   tal univ paris3 fr mkAlign        2 http  en wikipedia org wiki Translation Memory eXchange       EAmkalign 2 00  2 0b116     MODE GENERAL         Editeur de l alignement              _Editeur de l alignement                                1  choix du segmenteur    N  2  chargement du fichier source  3  Chargement du fichier cible                         MODE ALIGNEMENT AUTO     Alignement Source Cible   Recherche de cognats     H C  6     MODE Import Erport me     p D                         1          Modes SPLITMERGE            Di                  Zone d   dition du Zone d   dition du    fichier source fichier cible                                                                                                                         mate Me m                      Figure 1   Interface      l alignement avec mkAlign    Pour cette   tude  nous avons choisi 
170. s choses  un homme adulte    La cartographie textuelle permet de repr  senter simultan  ment la localisation des occurrences  du type homme  et celle du type femme   femme 120 occurrences et femmes 55 occurrences    On compare ces r  sultats    la ventilation des occurrences du type cor  en namja     partir du  d  pouillement de namnyeo et namseong    Dans le volet frangais de la carte des sections  Figures 7 et 8   les carr  s noir indiquent la  pr  sence d une occurrence du type homme    un carr   gris celles des occurrences du type               Les carr   bicolores  noir et gris  signalent la cooccurrence au sein d une m  me  section des types homme  femme   De mani  re sym  trique  les carr  s noirs de la carte des  sections r  alis  e pour le volet cor  en indiquent la pr  sence des occurrences du type               La cartographie r  v  le que le type 8                       g  n  re une repr  sentation qui ressemble  consid  rablement    celle   tablie    partir du type g             pour le volet cor  en  Le tableau 6  rassemble quelques cas qui font exception    cette r  gle et qui int  resseront le traducteur       cor  en francais            TE         Tan   pz VA            gF                AREA LFE ZAZ AHSA                 les mesures destin  es    combattre la  traite des personnes de l   un ou de l   autre  sexe aux fins de prostitution              7  9  41 5  9 AAA AAA aalt                 selon des proc  dures sp  ciales devant la      commission des droit
171. s de l   homme et la    commission de la condition de la femme   Tableau 6      Exemples de cooccurrences homme  amp  femme ne correspondant pas au  TGen namja  dans le corpus Droits              ael  AE                      La diff  rence de fr  quence constat  e dans la partie 14  Tableau 4  s   explique bien par la  relation de cooccurrence du couple homme femme  Le retour au contexte nous montre  quelques segments comme droits de l   homme et de la femme  entre l   homme et la femme     galit   de l   homme et de la femme  La fr  quence locale du type namja  dans la partie 14 est  effectivement beaucoup plus   lev  e que dans les autres parties     38                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       50                                                                                                                                                                                            
172. s et analyser  le cas   ch  ant   les probl  mes de non reconnaissance  Dans un deuxi  me temps nous essayerons de saisir la  complexit   de la notion d unit   lexicale en l illustrant par un exemple tir   des formes les plus  sp  cifiques     priori simple  la forme ew  ahan  aliment  nourriture                        Forme   Principaux sens   Fr  q Fr  q Tot      Forme Principaux sens Fr  q Fr  q Tot                                F  licit   76 76                 Ressentir  sentir  233 335  3   S                    Aubain 40 40 ER                                         Marguerite 39 39 am   Repas  diner  aliment    88 131                      Paris 35 35                      Porte V    75 110                         Gier 31 31                               Tableau 14  Formes extraites parmi les 15 unit  s lexicales les plus sp  cifiques   Probl  mes de segmentation des noms propres    Le Tableau 8 montre que les formes r  f  ren  ant des noms propres situ  es dans le volet  gauche n apparaissent que dans la partie thlex  Ceci indique qu elles ont   t   d  coup  es  diff  remment dans la partie thmor  C est    premi  re vue surprenant puisque ce sont des mots  emprunt  s donc impossible    analyser morphologiquement mais il faut garder    l esprit que le  segmenteur n analyse pas en morph  mes les unit  s lexicales  En effet  1 d  coupe d abord le  texte en syllabes  puis en morph  mes lexicaux enfin recompose les unit  s lexicales    partir de  ces morph  mes        Ceci  
173. s obama tmx v5 PDF traduction maison blanche pdf  Volet FR 2   traduction fournie sur le site du Monde  Cette page n est plus accessible    ce  jour  On peut acc  der    une version de cette page sauvegard  e pour cette   tude    cette  adresse     http   tal univ paris3 fr mkAlign corpus obama tmx v5 PDF LeMonde pdf   Volet FR 3   traduction fournie sur le site de Lib  ration  via l AFP   Cette page n est plus  accessible    ce jour  On peut acc  der    une version de cette page sauvegard  e pour cette   tude     cette adresse     http   tal univ paris3 fr mkAlign corpus obama tmx v5 PDF libe pdf   Volet FR 4   traduction fournie sur le site de RFI  Cette page n est plus accessible    ce jour   On peut acc  der    une version de cette page sauvegard  e pour cette   tude    cette adresse      http   tal univ paris3 fr mkAlign corpus obama tmx v5 PDF RFI pdf       2  Construction du corpus align     Les contenus textuels des diff  rentes pages web contenant le discours ou sa traduction ont   t    sauvegard  s dans 5 fichiers diff  rents au format texte brut   en txt  volet EN   fr 0 txt  volet  FR 1   fr 1 txt  volet FR 2   fr 2 txt  volet FR 3   fr 3 txt  volet FR 4   Les volets EN et FR 1  ont servi d amorce pour construire l alignement global  Ces deux volets   tant align  s  on a  ensuite align   FR 1 avec FR 2  FR 2 avec FR 3 et enfin FR 3 avec FR 4    Cet alignement a   t   construit avec mkAlign  qui fournit des outils d aide    l alignement dans  un   diteur    2 volet
174. s r  seaux de cooccurrence  Le monde dans les discours des pr  sidents de la Cinqui  me R  publique   in Actes JADT  2006  Journ  es Internationales d Analyse Statistiques des Donn  es Textuelles  Besan  on   2006     http   www cavi univ paris3 fr lexicometrica jadt jadt2006 PDF II 054 pdf       Martinez William  Zimina Maria   Utilisation de la m  thode des cooccurrences pour  l alignement des mots de textes bilingues   in Actes JADT 2002  Journ  es Internationales  d Analyse Statistiques des Donn  es Textuelles  St Malo  2002     http   www cavi univ paris3 fr lexicometrica jadt jadt2002 PDF 2002 martinez zimina pdf       V  ronis Jean  Alignement de corpus multilingues  in Pierrel  J  M     diteur  Ing  nierie des  langues  Informatique et syst  mes d information  chapitre 6  pages 151 172  Herm  s  Sciences  2000     http   www up univ mrs fr  veronis pdf 2000hermes6 pdf       Zimina Maria  Approches quantitatives de l extraction de ressources traductionnelles     partir de corpus parall  les  Pr  sentation    la soutenance de th  se  Universit   de la Sorbonne    nouvelle   Paris 3  le 26 novembre 2004   http   www cavi univ paris3 fr ilpga ED student stmz ED268   PagePersoMZ fichiers stmz page6 fichiers 26novembre MZ zip          Zimina Maria  L alignement textom  trique des unit  s lexicales    correspondances multiples  dans les corpus parall  les  Conf  rence aux 7es Journ  es internationales d Analyse statistique  des Donn  es Textuelles JADT 2004  Louvain la Neuve
175. t ni  les longueurs de voyelles ne sont vraiment repr  sent  s        Le mot wa  khlaw  sera d  coup   en une seule syllabe bien qu on aurait pu le d  couper  en deux syllabes w khe   av a   mais dans ce cas  on aurait eu soit deux mots thais  soit  un mot d origine   trang  re  Le v kh  et le a l  forment un groupe consonantique     Le second niveau de segmentation est celui du morph  me lexicale   Il est d  fini comme la  plus petite unit   ayant un sens et apparaissant dans le dictionnaire de mots du segmenteur  Par  exemple      e  o  phau    p  re             m      m  re        hung   cuire  asmu                  pont     Le troisi  me niveau est celui de l unit   lexicale  L unit   lexicale est soit un morph  me lexical   soit un mot compos        Un mot compos   est la fusion de plusieurs morph  mes dont le sens est  changeant par rapport    ces morph  mes  Par exemple          Simple                    i  nam    eau   e Compos  e                             parents                            m               rivi  re  fleuve      Le but de notre   tude est de pouvoir observer en corpus les formes les plus et les moins  sp  cifiques de chacun de ces niveaux  d initier le lecteur    la complexit   de diff  rencier un  mot compos   d un syntagme nominale et de d  terminer    quoi correspond r  ellement ce  niveau d unit   lexicale     2 Le corpus    Nous pr  sentons dans cette partie le corpus de travail  sa structure logique ainsi que les  probl  mes d encodage     Cons
176. tes    w            800  700 i i  e E  E E   400    300    200       100             5000 10000 15000 20000 25000 30000 35000 40000 45000 50000 55000  Position dans le texte  nombre d occurrences           Figure 5  Apparition progressive des caract  res dans le volet chinois     4 2 Segmentation automatique en  lt  mots  gt     Certains professionnels du Traitement Automatique des Langues proposent sur le web des  proc  dures qui permettent de d  couper un texte chinois en    mots     Dans cette section  nous  utiliserons un d  coupage automatique en mots r  alis   par un logiciel de segmentation  sp  cialement con  u pour les textes chinois     On peut voir au tableau 3 le r  sultat de cette  segmentation en mots r  alis  e    partir de l extrait de texte pr  sent   au tableau 1        2  Pour cette premi  re   tude  nous avons utilis   le logiciel                                   Hailanda Segmentation  intelligente   version d essai  r  alis   par le Centre d intelligence artificielle Hailanda  disponible    l adresse  suivante   http   www mydown com code 234 234301 html   En plus de la segmentation  ce logiciel r  alise une  cat  gorisation des mots du texte orient  e vers la recherche d information technico commerciale  Nous n avons  pas utilis   cette cat  gorisation pour notre   tude  Il existe d autres logiciels de segmentation du chinois  que l on  peut trouver sur l Internet   ICTCLAS Institute of Computing Technology  Chinese Lexical Analysis System   et         
177. tif  y compris les  dispositions de fond et de proc  dur  du droit administratif p  nal                        lt texte  fr  gt  cela vaudrait m  me dans  le cas o    comme en l esp  ce   l accus   ne se voit infliger qu une  amende  d  s lors qu    d  faut de  paiement une peine d emprisonnement  s y substitue           would be so even in a case where  as  in this instance  the accused was  merely fined  in so far as default  on payment of that fine would entail  committal to prison                 Les erreurs de l   alignement initial peuvent   tre corrig  es si l   on prend soin de sauvegarder les  sections concern  es dans un rapport  Pour ajouter une section au rapport  1 suffit de cliquer  sur l   ic  ne Rapport CA situ  e en bas de        fen  tre de la carte des sections  cf  Figure 5        Type 2    La pr  sence isol  e de sections monochromes colori  es en bleu ou en rouge r  v  le des  contextes originaux o   les mots fran  ais commen  ant        la chaine administra   administration  administratif  etc   ne sont pas traduits par des mots anglais commengant par  la chaine administ   administration  administrative  etc   et r  ciproquement     La mat  rialisation de ces sections sur une carte repr  sentant le corpus parall  le permet de  dresser une v  ritable topographie bi textuelle     devient possible d isoler des contextes  singuliers o   sont attest  es des   quivalences lexicales originales  susceptibles d int  resser  l expert humain pour la construction d
178. tion des occurrences  qui rel  vent d un type donn   dans l ensemble du corpus  constitu   ici de 2 volets et donc de 2    cartes   Chacun des carr  s repr  sente un   l  ment particulier du texte d  coup   en sections   les  sections correspondent ici aux sections de l   alignement construit  les cellules align  es dans  l     diteur de l   alignement      Chacun des carr  s de la s  quence du haut repr  sente une des sections du texte original  volet  source    gauche et volet cible    droite   La forme nation a   t   projet  e sur la carte des sections     partir du dictionnaire  source  provoquant ainsi le marquage par une croix et le coloriage du  contour des sections ou elle est attest  e  Le texte d   une des sections s  lectionn  e par  l utilisateur est affich   en bas de la figure  Les occurrences de la forme s  lectionn  e y sont  mises en   vidence             mkAlign      Carte des sections   Y Dans l onglet Map   Y  Activez la construction de la carte   Y Projet une forme sur la carte    partir du dictionnaire par exemple  nation    Y Choisir    ventuellement  un regroupement par parties  si une partition a   t   s  lectionn  e             4  M  thodes textom  triques    Plusieurs m  thodes statistiques permettent d   clairer la structure d un corpus textuel    partir  de comparaisons r  alis  es entre les fragments du corpus  La partition du corpus constitue une    tape tr  s importante dans l analyse comparative des textes dans la mesure o   les oppositions  q
179. titution    Ce corpus est constitu   d un ensemble de nouvelles fran  aises    ainsi que de leurs  traductions en thai  Elles sont disponibles sur le site http   www wanakam com  Un travail de  normalisation ainsi qu un alignement manuelle en unit  s de traduction a   t   effectu    Celle ci  varie d une phrase    plusieurs paragraphes selon les nouvelles     Nous disposons de deux fichiers de travail qui ont chacun une finalit   et donc une structure  diff  rente     Le premier fichier de travail sylmorwor corpus th cp874 a pour but l   tude des diff  rents  niveaux de segmentation du thai  Il contient les textes thais en trois exemplaires divis  s en  parties selon leur niveau de segmentation  Elles sont identifi  es par la cl     langue   dont les          On utilisera tout au long de l article le     pour marquer        segmentation des syllabes        Nous employons le terme morph  me lexical bien qu il puisse s agir de mots outils pour indiquer qu il    n est pas question de morph  mes comme dans les langues flexionnelles ou agglutinantes     46 Pour le lecteur curieux  ouvrir un dictionnaire thai anglais    l entr  e  kham  que l on donne comme  2    traduction du mot    mot    peu impressionner tant la liste de mots compos  s    partir           morph  me lexical est  longue  Par exemple dans le SE ED s thai english dictionnary la liste d  bute    la fin de la page 133 et s ach  ve     la fin de la page 136     47 Auteurs de ces nouvelles   Alphonse Allais  Apollinair
180. tre    groupe de formes       Nom du groupe        Le            8    est exactement ce que je recherche              v Ajouter  Q Rechercher Enregistrer             Supprimer  5 Charger                      Le tableau ci contre rassemble  nomme et pr  sente bri  vement l   ensemble des fonctionnalit  s  du logiciel Lexico3 utilis  es pour mener    bien l exploration textom  trique propos  e dans les  sections suivantes  On pourra aussi se reporter aux diff  rents manuels du logiciel disponibles  en ligne                                               N   Nom Param  tres Localisation ic  ne  Liste de d  limiteurs  1 SEGMENTATION           d  faut   Barre principale     2 2 _           10055  3 CONCORDANCE   Forme  ou Type G  n  ralis    Barre principale  4 SEGMENTS Barre principale 5  REPETES R  Une fois la partition construite   on peut acc  der au tableau IPCLC   5 PCLC pr  sentant les Principales B incipal dr  Caract  ristiques SES   e  lexicom  triques de la partition   Une cl   d  finissant une  partition dans le corpus original  6 PARTITION est du type               Barre principale m   lt CLE     valeur    gt   C est le nom de la cl   qui est  donn   ici pour construire la  partition vis  e  6 VENTILATION Forme ou groupe de formes  7 ARTE DES d  limiteur de section Barre principale  princip z  SECTIONS  Cette fonctionnalit   produit des  listes de formes qu   il est  possible de m  moriser   8 GROUPE DE d   exporter ou de    projeter     M E  FORMES sur les graphiques c
181. tre    l origine de  l   cart fr  quentiel entre les deux TGen homme  fr     1 087  et homme  co     581   Dans ce  qui suit  nous allons chercher ces raisons    partir de l exploration des fr  quences locales de  ces deux TGen dans les parties du corpus           35 Dans nos exemples         eun     nominatif     o i   nominatif                   g  nitif          N ege   datif   Seul   accusatif      Z gwa   conjonction  appartiennent aux particules auxiliaires  Elles ne d  finissent que        position  du nom dans une phrase et n entrainent aucun changement au plan s  mantique  Ce                    est un des traits  particuliers des langues agglutinantes telles que le cor  en et le japonais     36 Dans l     tat actuel  bien que la forme cor  enne ait une seule occurrence  il serait difficile d affirmer que cette  forme est un hapax  Par exemple  les formes cor  ennes        saramdeuldo    et    FF   sarameuro  ont une  seule occurrence dans le corpus Droits  En pratique  nous recens   12 hapax contenant      dans le volet cor  en  du corpus Droits     37 Le TGen  Type g  n  ralis    est un ensemble d occurrences s  lectionn  es parmi les occurrences du texte   cf   Lamalle et Salem  2002      4 2  Comparaison des fr  quences locales dans les parties du corpus    Le type homme  fr compte 1 087 occurrences dans le volet fran  ais du corpus  Comme nous  l avons vu  la fr  quence du TGen correspondant dans le volet cor  en  homme co  est  beaucoup moins   lev  e  581 occur
182. tre les r  partitions des termes des deux volets  D autre part  l analyse  multidimensionnelle des formes qui entrent en rapport de cooccurrence avec un terme p  le a  permis de mettre en lumi  re des similarit  s distributionnelles qui concernent les r  seaux de  cooccurrences    Le fran  ais et le cor  en sont deux langues qui n ont aucune parent   structurelle et qui  de plus   utilisent des caract  res diff  rents  Ces diff  rences interdisent de s appuyer sur la ressemblance  des formes graphiques pour comparer la ventilation de termes qui entrent en rapport de  traduction dans les deux langues  L approche lexicom  trique est elle susceptible d apporter  un   clairage int  ressant pour l   tude des corpus parall  les cor  en frangais     Dans ce qui suit  nous montrerons l utilit   de la m  thode textom  trique  sur l exemple de  l analyse d un ensemble de formes qui entrent en rapport de traduction dans le corpus  fran  ais cor  en Droits     34 Des analyses lexicom  triques de ce type ont   t   r  alis  es    propos de corpus parall  les  parmi lesquelles    Martinez et Zimina  2002   Salem  2004  et Zimina  2000  2002  2004a  20045   etc     41 Etude de l   guivalence traductionnelle homme         saram       La forme homme est  en fran  ais  une forme polys  mique capable de d  signer plusieurs  concepts du g  n  rique au particulier  Dans des contextes ordinaires  cette forme est  fr  quemment traduite en cor  en par les quatre formes                         17kinga
183. u                                                                                                de                                                                                                    du                                                        a              am                                                                                                   lt langue  thmor  gt  lt nouvelle  B001  gt  lt auteur  1  gt                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          y      a                   v a 7 y S s 1     Ad 5                                                                                                                                                                                                                                                                                                                                                                                                     y 0  fi                                   
184. u il sera possible de mettre en   vidence entre les parties soumises    comparaison d  pendent    troitement du choix de la partition initiale     4 1 Analyse des sp  cificit  s du corpus    L analyse des sp  cificit  s permet de porter un diagnostic exprim   en probabilit   sur l effectif  de chacune des cases d un tableau lexical   on se reportera au Tutorial n  1 pour des  informations compl  mentaires sur la m  thode des sp  cificit  s      Exemple n  1   Calcul des cooccurrents d une forme    partir de la carte des sections de  l alignement    La carte des sections construit par d  finition         d  coupage du corpus en sections  correspondant    l     tat de l alignement  Une forme p  le   tant choisi  sur le volet source ou le  volet cible   la projection de la forme sur la carte des sections donne    voir la localisation de  la forme dans la carte des sections  Nous reprenons ci dessous l exemple de la forme   nation  et la projection construite dans la figure pr  c  dente  A partir de cette carte  il est possible de  constituer la liste des formes et des segments r  p  t  s qui trouvent  d apr  s un calcul  statistique particulier   un nombre   lev   d occurrence dans les m  mes sections que la forme   p  le  les cooccurrents de cette forme      5 L analyse des sp  cificit  s repose sur l utilisation du mod  le hyperg  om  trique pour l analyse des tableaux de  nombres    deux dimensions  Pour plus de d  tails sur le mod  le des sp  cificit  s et ses applications  
185. ui nous attend  r  i deren vous avec un  Push services rendus otre nation  ainsi que de la g  n  rosit   3       ie services tre nation  ainsi que  ne ent      rernent pr  sidentiel         H                             gw  pr  sidence   souvent Le war  e montant de la prorp  rir   et dans ier eaux D Di 1 Aen de prosp  rit   ep alors que nous vivions     que ce serment ait   t   alors que le temps   tait orageun et E qu    Fa 28  acr      serment      t   alors que les nuages sg  ure eto  nts l    l Am  rique a pwrs  v  r   non s  ulexent     fait des comp  tences st de la per 7                            6616  EE OR SG la 00                 6    ar                  g  n  ration     6                       6                 d   D ert Aves cette g  n  ration d Aw  ricains                aa une crise   F L compris  e        que   KE rise   rra contre      Wlaire de violence wt de baine  1 m quei        de vi   n vu afaiblie  cons  quence de la     153               Z Notre   conomie es miblie                     164  lt t     is responsabilit             des emploie ont   t   Ai entreprises ont  64 bris  e   Maison  ont   t   2 des entrepriser ont  fait faillite   syst  me de    est crop                  nos   coles m  nent das        i     Onireun  nos   coles ant crop de portes ou bord de la                1   des indices de crise pr lo  e stiques   5 Voil   les de  lt  que l on peut exprimer   n donn  es  lt t statistiques    A     I ins mesurable  mais tout aussi a ni c est
186. us fr  quence est   anormalement   lev  e  dans cette partie  De fa  on plus pr  cise  si la somme des probabilit  s calcul  es    partir du  mod  le hyperg  om  trique pour les valeurs   gales ou sup  rieures    la sous fr  quence constat  e est inf  rieure au  seuil fix   au d  part    sp  cificit   n  gative   pour un seuil de sp  cificit   fix    une forme 1 et une partie j donn  es  la forme 1 est dite  sp  cifique n  gative de la partie j si sa sous fr  quence est anormalement faible dans cette partie  De fa  on plus  pr  cise  si la somme des probabilit  s calcul  es    partir du mod  le hyperg  om  trique pour les valeurs   gales ou  inf  rieures    la sous fr  quence constat  e est inf  rieure au seuil fix   au d  part    partie  d un corpus de textes    fragment de texte correspondant aux divisions naturelles de ce corpus ou    un  regroupement de ces derni  res     section   portion de texte comprise entre deux d  limiteurs de section  exemple   le paragraphe  etc       segment r  p  t    ou polyforme r  p  t  e    suite de forme dont la fr  quence est sup  rieure ou   gale    2 dans le  corpus     Les expressions r  guli  res avec Lexico3    Dans les sections qui suivent on utilisera    plusieurs reprises la notion d expression  r  guli  re en particulier    travers la fonction   GROUPE DE FORMES     Nous rappelons ci dessous  bri  vement cette notion et les diff  rents op  rateurs disponibles avec Lexico3 pour   crire de  telles expressions  Les expressions r  gu
187. vestiture de Barak Obama  le 20 janvier 2009     Washington          es lors de toute  transition     Am  ricains ont                   ETES  RE    ia H en       1 arrive de temes          Figure 6  Alignement du corpus    Obama Investiture     Affichage dans un navigateur    2 3 Etape n  3   Exploration textom  trique de l alignement  P P q g    mkAlign permet de mener des explorations textom  triques sur des couples de textes align  s   Dans notre cas  le fichier TMX   tant compos   de 5 volets  il est n  cessaire de s  lectionner au  pr  alable 2 volets avec de d  marrer cette exploration  Dans les exemples qui suivent nous  travaillerons avec les 2 volets FR 1 et FR 2  La figure qui suit montre l     tat de l   alignement  de ces 2 volets     mk Align 2 00  2 00116                              gardant    l esprit les                4540    8  consentis par nos anc  tres          1   coop  ration dont il a fait preuve cout au long  de cette transition               muarante quacre Am  ricains ont d  sormais faic ce  serment pr  sidentiel        Ces mote          t   souvent prononc  e dans 1   mar  e  ante de la prosp  rit   et dans les eaux calmes de  lla pain                 Figure 7  Alignement Volets FR 1 et FR 2    2 3 1 Le d  pouillement en formes graphiques    Comme pour toute exploration textom  trique  la premi  re phase de l exploration  textom  trique est constitu  e par la segmentation du corpus textuel en unit  s qui serviront de  base aux d  comptes ult  rieu
188. vient  et nous  nos voitures et faire marche   A     du soleil  du vent ec du sol pour  av  s de fa  on    r  pondre mum  lt  s transformer nos   coles et nos universit  s pour           cus pouvons B  rete    nous allone  t en cause l ampleur de nos ambitions         Figure 21   Mise au jour de la variation  comparaison au niveau du mot     7 Compare deux fichiers et affiche les diff  rences  cf http   fr wikipedia org wiki Diff   8 http   search cpan org  mjcarman Tk DiffText 0 1 7 lib Tk DiffText pm             Figure 22   Mise au jour      la variation  comparaison au niveau des lignes     Pour ce module le texte source     gauche  est consid  r   comme le texte de r  f  rence    partir  duquel on mesure les diff  rences  La coloration permet de mettre au jour       Les   l  ments supprim  s dans le texte source  zones rouges dans le volet    gauche      Les   l  ments ajout  s dans le texte cible  zones vertes dans le volet    droite      Les   l  ments modifi  s dans les 2 volets  zones bleues dans les 2 volets      Les   l  ments inchang  s d un volet    l   autre restant non color  s  dans la seconde  comparaison  la seule ligne inchang  e dans la partie visible    l   cran est cercl  e de  rouge    Ce r  sultat est exportable au format HTML   on trouve en ligne plusieurs illustrations de ces  exports         Deux traductions du discours d investiture de B  Obama        export comparaison    http   tal univ paris3 fr mkAlign mkalign variation variation obama export ht
189. vons utilis    pour cette   tude  la version 2003 du logiciel Word distribu   par Microsoft     19 Plusieurs versions de la s  rie Lexico  en cours d ach  vement  permettent d  j   de traiter les chaines de  caract  res unicodes  Le logiciel MKAlign  d  velopp   par S  Fleury dans l   quipe Syled Cla2t permet   galement  de traiter les textes encod  s sous ces formats        Bouton droit   gt  Codage   gt  Plus   gt   Chinois simplifi    GB2312           Conversion de fichier   Mian6mcf txt A xl    Choisissez le codage    utiliser pour rendre ce document lisible           Codage de texte    C Windows  par d  faut     MS DOS    Autre codage   Arabe  Windows   Direction du document   ASCII E U       Baltique  Windows   Canadien frangais  DOS   Chinois simplifi     Chinois simplifi    GB2312     C De droite    gauche    De gauche    droite    Aper  u          lt version chinois    4L               EG EH  SK ER     TE Ste         ue              QUE 4                       RE ET HET       He HR S   ow                        x 3508               ZEA GE             k MM      4 9 s                     HE                     Qm 2 9      dE JJ                       EIRE SF AREE         485  RR 98 5   37                             ARU m          WS GUT To fh      XOFD           2        55   HD H    Ke    Word 2003   Param  trage de l   enregistrement du texte    7    Figure 1         Lexico3    TextPloreur   Fichier Traitement Fen  tre                  Navigation   Rapport Dictionnai
190. x et d unit  s lexicales  Acquies  ons que sans cet outil et sans cette publication  la  pr  sente   tude aurait   t   impossible    r  aliser     Nous disposons par ailleurs d un corpus parall  le de nouvelles frangaises traduites en thai   Ce corpus initialement pr  par   dans le but de faire une   tude textom  trique comparative entre  le fran  ais et le thai  permettra d appr  cier le sens des mots thais en fournissant le r  f  rentiel  s  mantique d origine en plus de fournir des mots inconnus au segmenteur     La section  1 pr  sente les particularit  s du syst  me d   criture thai ainsi que les trois  niveaux de segmentation utilis  s  La section  2 pr  sente le corpus s  lectionn    La navigation  dans les syllabes  les morph  mes et les unit  s lexicales d  bute v  ritablement dans la section   3  La derni  re section  4 est consacr  e    un approfondissement des probl  mes de  segmentation en unit  s lexicales        3 Le terme tha                 est        mani  re dont les Tha  s nomment leur langue  leur pays et eux m  mes depuis    1939  Le siamois est le dialecte du centre de la Tha  lande  ancien royaume du siam  promu au rang de langue  officielle  on l appelle aussi tha   standard     1 Pr  sentation du tha      Nous commencerons par d  crire quelques propri  t  s du tha   sur lesquelles les chercheurs  s   accordent en g  n  ral et qui nous seront utiles pour notre   tude     La langue et son syst  me d   criture    Le thai est une langue isolante c est   
    
Download Pdf Manuals
 
 
    
Related Search
    
Related Contents
カットマン AS02  Kettler AERO 9981-700 User's Manual  Untitled    Manual de Instrucciones - TA Triumph    Wavemaster Dakota White  Hoover Domestic Appliance User Manual    Copyright © All rights reserved. 
   Failed to retrieve file