Home

Outils de segmentation du chinois et textométrie

1. Figure Variations des textes de segmenteurs Hylanda et celles d ICTCLAS Nous avons calcul le nombre de formes diff rentes selon les quatre segmentations Six paires de comparaisons ont t faites en s appuyant sur trois types de distinctions pr d finies l ajout case verte la modification case bleue et la suppression case rouge Le nombre le plus lev case bleue de formes diff rentes segment es pour chaque paire est obtenu avec les segmenteurs Hylanda et SF CTB pour Constitution Pour Presse il est obtenu par Hylanda et ICTCLAS On en d duit qu ils poss dent de nombreuses formes de segmentations diff rentes Les segmenteurs ICTCLAS et SF PKU poss dent au contraire le moins de formes de segmentations diff rentes Nous faisons l hypoth se que ICTCLAS et SF PKU sont les plus similaires dans la segmentation pour des textes de droit et des textes de presse 3 2 Accroissement de vocabulaire L tude de l apparition de nouvelles formes graphiques du corpus Constitution confirme les diff rences quantitatives entrevues entre les quatre types de segmentations La courbe d accroissement de vocabulaire calcul e simultan ment pour les quatre volets du corpus figure 2 montre que la croissance du vocabulaire du segmenteur Hylanda augmente plus rapidement que celles des trois autres L interruption de la courbe de Hylanda avant les autres indique que le texte comporte moins d occurrences La cour
2. Hylanda ICTCLAS SF CTB SF PKU Nombre de formes diff rentes Nombre de formes diff rentes 500 1 000 1500 2000 2500 3 000 3500 4000 4500 5 000 550 6 000 6500 7 000 7 500 6 000 6500 9 000 9 500 10 000 500 1 000 1500 2000 2500 3 000 3500 4000 4500 5 000 5500 6000 6500 7 000 7500 8000 S00 9 000 9500 Fete cane AE Position dans le texte nombre d occurrences Figure 2 Accroissement de vocabulaire dans les Figure 3 Accroissement de vocabulaire dans les quatre volets de Constitution quatre volets de Presse 3 3 Nombre de syllabes Le chinois est une langue monosyllabique Cela est vrai pour le chinois ancien ou archaique dans une forme traditionnelle de la langue crite du style noble wenyan avant l apparition du chinois vernaculaire baihua Le chinois contemporain a tendance passer du monosyllabisme au dissyllabisme voire polysyllabisme Wang 2000 Les deux corpus aux th mes diff rents l un provient d un domaine sp cialis l autre d un domaine g n ral segment s par les quatre outils nous ont pouss e faire une tude sur le nombre de syllabes D anciens travaux ont indiqu que le nombre de syllabes est influenc par plusieurs facteurs ph nom nes phon tiques s mantiques la formation des mots la communication de langue d veloppement de la soci t etc Alleton 1994 Huang Yang 1990 OUTILS DE SEGMENTATION DU CHINOIS ET TEXTOMETRIE 3 3 1 Formes fr quentes Dan
3. ZIPF G K 1949 Human behavior and the principle of least effort an introduction to human ecology Cambridge MA Addison Wesley
4. de calculer le nombre de syllabes dans l ensemble des corpus dans chaque segmenteur nous avons eu recours la fonction groupe de forme de Lexico3 Les groupes de formes sont des unit s textuelles d finies par l utilisateur l aide d outils automatiques Cela permet de regrouper les occurrences de formes graphiques diff rentes mais li es par une propri t commune dans le texte comme la flexion la d rivation etc L analyse de la fr quence des mots comprenant plus de trois syllabes montre que plus le nombre de syllabes augmente plus la fr quence de ces mots l diminue Il existe donc un lien entre la fr quence d un mot et son nombre de syllabes Zipf 1949 parle de principe du moindre effort qui est que le nombre de syllabes tend a tre inversement proportionnel a la fr quence d utilisation d un mot Autrement dit que les mots les plus couramment utilis s sont les plus courts Nous avons obtenu les deux graphes pr sent s par les figures 6 et 7 selon ce principe du moindre effort Les graphes montrent que la r partition de la longueur des mots correspond au principe de Zipf en faisant abstraction des dissyllabes de plus en plus fr quents en chinois contemporain Les quatre courbes de Presse sont tr s semblables elles se pr sentent comme un graphe harmonieux Rappelons que les monosyllabes sont plus nombreux que les dissyllabes cf figure 5 ce qui n est pas le cas ici dans l ensemble du corpus n
5. difficult s dans le traitement automatique des langues il est n cessaire d avoir une norme de la segmentation des mots chinois Une norme de segmentation du chinois comporte en g n ral deux parties segmentation des unit s lexicales et annotation des cat gories grammaticales En 1993 la R publique populaire de Chine a con u a norme de la segmentation des mots l L absence d espace entre les mots tait pratiqu e dans l antiquit grecque et romaine ainsi qu au d but du Moyen Age europ en Dans le cas des langues europ ennes le lecteur devait d abord rep rer les syllabes puis les mots Dans le cas du chinois les syllabes sont marqu es un caract re correspondant une syllabe et il ne reste qu assembler les caract res en mots OUTILS DE SEGMENTATION DU CHINOIS ET TEXTOMETRIE chinois contemporains pour le traitement informatique fa EAH BU ae ME xinxi chuli yong xiandai hanyu fenci guifan pour le traitement automatique du chinois Cette norme propose des principes et des r gles de segmentation des mots chinois qui ne sont pas toujours op ratoire et parfois difficiles a appliquer Depuis de nombreuses normes de segmentation du chinois ont t cr es par diff rents organismes en Chine continentale ou en dehors du territoire afin d avoir des r gles de segmentation am lior es Elles sont soit appuy es sur cette norme d tat soit cr es par l organisme en question Deux de ces segmenteurs que nou
6. du Dictionnaire des fr quences des mots chinois contemporains Modern Chinese Frequency Dictionary De nombreux travaux sur des livres sp cifiques ont t publi s la m me poque sp cialement des ouvrages sur le chinois classique Dans la majorit des cas les calculs de ces tudes ont t faits manuellement les chiffres statistiques ne seraient donc pas garantis sans erreur C est ainsi qu a merg la recherche sur les textes qui a men vers les tudes statistiques des textes chinois Notre travail a pour objectif d effectuer une comparaison de quatre outils de segmentation galement appel s segmenteurs L tude est bas e sur une analyse textom trique et nous nous sommes concentr e sur le nombre de syllabes en chinois La comparaison des segmenteurs a pour but de d finir les sp cificit s pour chaque segmenteur en analysant les types de textes les plus adapt s L tude textom trique en chinois s est d velopp e tardivement certainement cause de facteurs li s au syst me de l criture traditionnelle chinoise L informatisation de cette langue s est en effet r v l e beaucoup plus complexe que celle du syst me bas sur l utilisation des alphabets latins La mise en place de technologies permettant la saisie et l affichage des caract res chinois a permis de d passer la complexit de ce syst me d criture La norme internationale du codage de caract re Unicode fournit d sormais la poss
7. first step in Chinese natural language processing The system of segmentation has considerably developed since the first automatic system of segmentation of the 1980 s However till today there are no standard tools The aim of this paper is to compare various tools of segmentation by through statistical analysis Our goal is to identify the kind of texts for which these segmentation tools are the most effective This study chose four segmentation tools and two corpora marked by distinct themes Using two textometric toolboxes Lexico3 and mkAlign we focused on the number of syllables in Chinese The quantitative data allowed us to objectify disparities between tools The Hylanda system turns out to be effective in the segmentation of specialized terms and the Stanford system is more appropriate for general texts The comparative study of segmenters shows the undeniable status of textometrical analysis which is able to quickly access information retrieval Mots cl s Textom trie comparaison des segmenteurs chinois nombre de syllabes Keywords Textometry comparison of Chinese segmenters number of syllables LI CHI WU 1 Introduction Les m thodes d analyse des textes sur ordinateur sont r pandues depuis longtemps dans les travaux sur les langues occidentales Mais l tude textom trique du chinois n a commenc que dans les ann es 1980 Les premi res tudes quantitatives concernaient la lexicologie comme par exemple la production
8. CDWS JER EMKA FAIK Journal of Beijing University of Aeronautics and Astronautics 4 97 104 TSENG H CHANG P ANDREW G JURAFSKY D MANNING C 2005 A conditional random field word segmenter In Proceedings of Fourth SIGHAN Workshop on Chinese Language Processing 168 171 Wana H E466 2000 Lun xiandai hanyuci de shuangyinjiehua ji qi fazhan guilii im ir AY PL RL ER On the disyllabe superiority of modern Chinese and its developing laws 7 7 te The Northern Forum 164 6 120 125 OUTILS DE SEGMENTATION DU CHINOIS ET TEXTOMETRIE WANG L J 1984 Zhongguo yufa F 493 Grammaire chinoise Shandong Shandong chubanshe XIa F 2000 The segmentation guidelines for the Penn Chinese Treebank 3 0 Technical Report IRCS Report 00 06 University of Pennsylvania YU S ZHU X DUAN H MEN R BK EH 2000 Daguimo xiandai hanyu biaozhu yuliaoku de jiagong guifan ASR Ee BE ae BLY Ola The guideline for segmentation and part of speech tagging on very large scale corpus of contemporary Chinese PX fa M4 Journal of Chinese Information Processing 6 58 64 ZHANG H LIU Q CHENG X ZHANG H YU H 2003 Chinese lexical analysis using hierarchical hidden markov model In Proceeding of the Second SIGHAN Workshop on Chinese Language Processing 63 70 ZHU D REEE 1982 Yufa jiangyi APZ Lectures on grammar P kin Shangwu yinshu guan
9. IC TCLAS et de SF PKU abscisse 5 000 et celui de Hylanda abscisse 4 500 Quant au corpus Presse figure 3 les courbes de l accroissement de vocabulaire se superposent quasiment dans les premi res cinq cents occurrences L interruption de la courbe de Hylanda avant les trois autres comme pour le corpus Constitution confirme que le texte comporte moins d occurrences C est galement le texte segment par SF_CTB qui poss de le plus d occurrences pour Presse Comme le montre la figure 2 le nombre d occurrences entre les quatre segmenteurs pour Presse est tr s proche La courbe d ICTCLAS et celle de SF_ PKU sont galement tr s proches comme nous l avons d j vu dans Constitution Sur la figure 3 nous pouvons voir que les quatre courbes suivent la m me progression avec peu de d calage entre elles par comparaison aux courbes de la figure 2 Cette similarit indique que les quatre textes de Presse sont segment s de fa on similaire au niveau des occurrences et au niveau des formes graphiques l inverse du corpus Constitution Grace aux repr sentations graphiques la distinction entre les segmenteurs apparait clairement De plus le genre du texte influence la segmentation En effet le texte de presse a t segment de fa on semblable par les quatre segmenteurs alors que nous avons mis en vidence de grandes diff rences dans les versions segment es du corpus de droit Hylanda ICTCLAS SF CTB SF PKU
10. ICTCLAS 0 pour SF_CTB 33 pour SF PKU Notons que ces termes sp cialis s sont entre quatre et treize syllabes Hylanda a une bonne performance alors que ICTCLAS et SF_PKU ont des r sultats assez faibles En revanche SF_CTB n est pas du tout sp cialis dans la segmentation des textes de loi Par contre SF_CTB et ICTCLAS montrent un tr s bon r sultat dans Presse aussi bien pour les noms propres de personnes chinois que pour la translitt ration des noms trangers Au contraire Hylanda est plut t faible dans la segmentation des noms propres de personne dans Presse Cette valuation manuelle met en vidence l utilit de l tude de ces segmenteurs Cette exp rience de petite taille sur deux corpus r v le un trait distinctif entre les segmenteurs Il serait int ressant d tendre notre tude a d autres ph nom nes linguistiques chinois en valuant ces segmenteurs sur des corpus plus volumineux Segmenteurs Constitution Presse Noms propres du domaine Noms propres de personnes Noms propres de personnes chinois trangers Manuel 327 63 32 Hylanda 289 14 19 ICTCLAS 138 61 28 SF_CTB 0 63 30 SF_PKU 108 18 21 Tableau 2 Nombre de noms propres segment s dans les deux corpus 17 Les noms propres de personne en chinois sont compos s en premier le patronyme monosyllabique en majorit ou dissyllabiques suivi du pr nom correspondant la longueur d une ou de deux syllabes Il
11. RECITAL 2010 Montr al 19 23 juillet 2010 Outils de segmentation du chinois et textom trie Li Chi WU 1 SYLED Universit Sorbonne Nouvelle Paris III 13 rue de Santeuil 75005 Paris France lucielichi gmail com R sum La segmentation en mots est une premi re tape possible dans le traitement automatique de la langue chinoise Les syst mes de segmentation se sont beaucoup d velopp s depuis le premier apparu dans les ann es 1980 Il n existe cependant aucun outil standard aujourd hui L objectif de ce travail est de faire une comparaison des diff rents outils de segmentation en s appuyant sur une analyse statistique Le but est de d finir pour quel type de texte chacun d eux est le plus performant Quatre outils de segmentation et deux corpus avec des th mes distincts ont t choisis pour cette tude l aide des outils textom triques Lexico3 et mkAlign nous avons centr notre analyse sur le nombre de syllabes du chinois Les donn es quantitatives ont permis d objectiver des diff rences entre les outils Le syst me Hylanda s av re performant dans la segmentation des termes sp cialis s et le syst me Stanford est plus indiqu pour les textes g n raux L tude de la comparaison des outils de segmentation montre le statut incontournable de l analyse textom trique aujourd hui celle ci permettant d avoir acc s rapidement la recherche d information Abstract Chinese word segmentation is the
12. ats Le tableau 1 pr sente la pr cision des unit s lexicales segment es par les segmenteurs par rapport la segmentation manuelle La bonne performance doit tre interpr t e en fonction du contexte et de la segmentation manuelle effectu e La proportion de formes segment es pertinentes est plus importante dans le corpus g n ral que dans le corpus sp cialis Dans les deux corpus la segmentation de Hylanda est la plus proche de la segmentation manuelle SF_CTB est le plus loign du d coupage manuel pour le corpus sp cialis Constitution Au contraire il atteint une performance assez bonne de segmentation pour le corpus g n ral Presse ICTCLAS et SF_PKU sont interm diaires et n ont pas de trait distinctif Ils ont une pr cision assez proche pour les deux corpus OUTILS DE SEGMENTATION DU CHINOIS ET TEXTOMETRIE Constitution Presse Hylanda 93 5 96 7 ICTCLAS 92 4 93 1 SF_CTB 87 5 95 1 SF_ PKU 91 9 93 6 Tableau 1 valuation de la segmentation des segmenteurs pour les deux corpus pr cision La segmentation des mots inconnus est toujours une tache difficile dans le TAL Nous avons galement valu ces deux corpus en comptant les noms propres qui y sont pr sents tableau 2 Etant donn les textes de loi du pays comme Constitution de nombreux termes d institutions de l tat ou d organisations ayant des termes locaux sont apparus 88 3 pour Hylanda 42 2 pour
13. be rouge correspondant l apparition de nouveaux mots chinois est situ e au dessus de celles qui correspondent a l apparition des mots dans les textes segment s par ICTCLAS SF CTB et SF PKU Ceci confirme que le texte segment par Hylanda comprend le plus grand nombre de formes graphiques La courbe jaune situ e au dessous t moigne que le texte segment par SF CTB poss de moins de formes graphiques Les courbes d ICTCLAS verte et de SF PKU bleue se superposent quasiment Nous supposons que leurs segmentations sont similaires Nous pourrions avancer l argument que cela provient du fait que ICTCLAS et SF PKU utilisent la m me norme la norme de l tat de Chine savoir celle fonctionnant selon le corpus annot de l Universit de P kin 10 is m r A r Variation permet de rep rer les variations dans deux versions d un m me texte ou dans deux textes diff rents en les comparant avec l outil d alignement mkAlign Li CHI WU Des paliers cr s par le ralentissement de l accroissement du vocabulaire au cours du r cit pourraient tre mis en rapport d une courbe l autre Au ralentissement qui survient sur la courbe du segmenteur SF_CTB abscisse 2 000 correspond un ralentissement sur celle du segmenteur ICTCLAS et SF PKU abscisse 1 900 et sur celle de Hylanda abscisse 1 800 celui qui survient pour le texte de SF_CTB abscisse 5 600 correspond galement un ralentissement dans le texte de
14. du nombre de syllabes pourrait d terminer si celle ci est li e la linguistique chinoise L exploration textom trique des textes chinois a d j franchi certains obstacles dus la complexit du syst me d criture de la langue chinoise Les r sultats favorables de cette tude nous am nent approfondir le ph nom ne de collocation et d entit s nomm es dans la segmentation et nous demander si la cat gorie grammaticale est un trait pertinent dans la segmentation de la langue R f rences ALLETON V 1994 Le nombre de syllabes d un mot est il pertinent en chinois contemporain Cahiers de linguistique Asie orientale 23 1 5 11 FLEURY S ZIMINA M 2009 mkAlign Manuel d utilisation EA2290 SYLED CLA2T Universit Sorbonne Nouvelle Paris 3 HUANG Z YANG J 20558 AJ 1990 Lun hanyu shuangyinjiehua de yuanyin HE ah nn oe EE E BALE tude du dissyllabisme des mots chinois 4429 4 F G Fudan Journal Social Sciences Edition 1 98 101 LAFON P 1980 Sur la variabilit de la fr quence des formes dans un corpus Mots 1 127 165 LAFON P 1984 D pouillements et statistiques en lexicom trie Travaux de linguistique quantitative Gen ve Slatkine LIANG N FA Jt 1984 Shumian hanyu de zidong fenci yu yige zidong fenci xitong CDWS THE ae oy ff A il Ki CDWS Written Chinese automatic distinguishing word amp a automatic distinguishing words system
15. erm diaires aucune sp cificit n ayant t mise en vidence 4 R sultats 4 1 Processus d valuation Notre objectif est de d terminer quel type de texte est le plus adapt pour chaque segmenteur Afin d valuer nos analyses nous avons segment manuellement tant native chinoise en se r f rant au Dictionnaire du Chinois Moderne WARI iF ix xiandai hanyu cidian dictionnaire d autorit dans la langue chinoise Ensuite nous avons compar cette segmentation manuelle avec les quatre segmentations sur les deux corpus De plus nous avons compar les noms propres sp cialement les noms propres de personnes en chinois et la traduction litt rale des noms trangers et galement les termes sp cialis s du domaine du corpus Les formes segment es par les outils qui sont pr sentes et identiques dans la version manuelle sont consid r es comme pertinentes alors que les autres sont soit une segmentation diff rente effectu e selon les r gles de l outil soit une segmentation erron e La segmentation manuelle est bas e sur l introspection de la personne native et sur sa connaissance de la langue et privil gie le sens complet d une forme en tenant compte du domaine du texte Par exemple dans le corpus Constitution PEA RIE AI R publique populaire de Chine est segment comme une forme lexicale au lieu d tre d coup e en trois formes comme Fte AK AI Chine peuple r publique 4 2 Pr sentation des r sult
16. ibilit de repr senter des textes dans toutes les langues ind pendamment du syst me informatique ou des plates formes Les progr s consid rables des quipements informatiques nous apportent une tr s grande libert d acc s l information Les applications du traitement automatique des langues sont de plus en plus vari es la traduction le r sum de textes la fouille de textes l extraction d information etc Le chinois poss de une typographie diff rente des langues occidentales en raison de son syst me d criture Un texte chinois est repr sent par une cha ne de caract res continue sans blanc typographique Pour qu un ordinateur effectue une analyse correcte la premi re tape primordiale est de segmenter les textes en unit s lexicales tokenisation d coupage d un texte en mots Or il n y a pas de consensus entre les Chinois et diff rentes segmentations sont accept es Le premier syst me de segmentation automatique a t r alis en 1983 par l Institut a ronautique de P kin Par la suite beaucoup d outils de segmentation du chinois ont t d velopp s mais il n y a pas d outil standard Une m me phrase peut tre d coup e de fa on diff rente selon l outil utilis Il est donc crucial de choisir un outil de segmentation ad quat permettant l acc s direct l information recherch e 2 Outils de segmentation et corpus tant donn que l criture chinoise cr e des
17. kin Yu et al 2000 car ce corpus est utilis comme corpus d apprentissage de la segmentation 3 Stanford Chinese Word Segmenter L entreprise Hylanda Tianjin fait des tudes sur le traitement automatique de la langue chinoise dans la fouille de textes Elle d veloppe galement des produits de nouvelles technologies Son segmenteur a t mis en application par plusieurs moteurs de recherche La version de l outil que l on a trouv e dans le site de l entreprise est une version d essai sans annotation des cat gories grammaticales la quantit de texte d essai est donc limit e http www hylanda com server page consult e le 6 janvier 2010 Le segmenteur d ICTCLAS Institute of Computing Technology Chinese Lexical Analysis System a t mis au point par Kevin Zhang l Institute of Computing Technology Chinese Academy of Sciences Il en existe plusieurs versions nous avons utilis la version 2008 zhenghe ban AFN qui a t am lior e par rapport aux anciennes versions pour la recherche universitaire Le t l chargement est disponible dans un forum de discussion sp cialis pour la linguistique de corpus http www corpus4u org attachment php attachmentid 426 amp d 1220683589 page consult e le 8 janvier 2010 Le Mod le de Markov Cach Hi rarchique Hierarchical Hidden Markov Model HHMM est un mod le statistique utilis dans le traitement automatique des langues Il est appliqu l ext
18. les plus caract ristiques dans un corpus ou dans une partie du corpus Cette m thode est propos e par Pierre Lafon 1980 1984 Elle mesure les variations de la fr quence dans un corpus d coup en parties en fonction d un seuil choisi par l analyste il indique si la fr quence observ e dans telle ou telle partie peut tre consid r e comme normale ou non OUTILS DE SEGMENTATION DU CHINOIS ET TEXTOMETRIE Hylanda alors que l on en trouve tr s peu dans le texte de SF_CTB Les quadrisyllabes apparus dans le texte de SF_PKU et d ICTCLAS arrivent en second Les dissyllabes sont en grand nombre dans le texte de SF _CTB au contraire il en existe un petit nombre dans le texte de Hylanda par rapport SF_CTB Les monosyllabes sont relativement plus nombreux dans Hylanda Quant a Presse figure 9 les formes poss dant plus de quatre syllabes sont relativement importantes dans Hylanda sp cialement pour les quadrisyllabes Le segmenteur ICTCLAS est plus apte a d tecter les formes de cinq syllabes et plus Elles sont au contraire moins nombreuses dans SF_CTB Les trisyllabes sont remarquables dans SF_CTB Quant aux dissyllabes ils sont plus nombreux dans SF_PKU mais la proportion de monosyllabes est relativement moins importante Sp Bificit AF Hylanda Ictclas Stanford_ctb Stanford_pku Figure 8 Ventilation des mots d une syllabe plus de Figure 9 Ventilation des mots d une syllabe plus de ci
19. lle La figure 8 param tr e par termes de sp cificit s permet de faire une synth se de la ventilation du nombre de syllabes des mots d coup s du corpus Constitution La sp cificit de telle ou telle syllabe en fonction d un segmenteur donn appara t galement dans cette figure 8 Les formes de plus de cinq syllabes sont en nombre relativement lev dans le texte segment par 13 Comme les mots chinois sont invariables les verbes n ont aucune conjugaison Pour exprimer le temps ou l aspect en chinois on emploie des particules Il existe trois particules if T et qui marquent respectivement l exp rience v cu l action accomplie et une action qui se prolonge dans la dur e Les trois particules d aspect sont toujours pr c d es de verbes Le motif de l expression rationnelle pour trouver une syllabe ou un caract re chinois dans une cha ne de caract res est 2 c est dire que l on cherche une cha ne de caract res qui d bute par n importe quel caract re qui contient deux octets et qui termine cette cha ne Un caract re chinois contient deux octets dans le codage de caract res que nous utilisons pour chercher deux syllabes le chiffre 2 est remplac par le chiffre 4 etc Les deux corpus ne contiennent pas de caract res non chinois de plus les ponctuations chinoises ont t retir es lors de la recherche des syllabes La m thode de sp cificit montre les mots
20. nq syllabes dans Constitution cing syllabes dans Presse Hylanda Ictclas Stanford_ctb Stanford_pku 3 3 4 Pentasyllabes Hylanda montre une proportion tr s importante de polysyllabes cinq syllabes et plus dans les figures 8 et 9 class s par termes de sp cificit s Cela nous pousse envisager une observation plus soigneuse La concordance fournie par Lexico3 repr sente des termes sp cialis s polysyllabiques pour le texte Hylanda en grand nombre dans Constitution p ex F ARHEAI zhonghua renmin gongheguo R publique populaire de Chine HARA KXS quanguo renmin daibiao dahui assembl e nationale populaire eis ABE BE zuigao renmin fayuan cour supr me de justice EH ARRRASHSBAS quanguo renmin daibiao dahui changwu weiyuanhui comit permanent de l assembl e nationale populaire Hylanda segmente de fa on appropri e les termes sp cialis s du corpus Constitution Cela pourrait aider sp cifiquement la recherche de la terminologie Hylanda para t donc plus performant dans ce domaine que les trois autres segmenteurs Nous avons proc d selon la m me m thode pour le segmenteur SF_CTB tant donn qu il a un taux tr s bas de quadrisyllabes et de pentasyllabes en opposition un fort taux de dissyllabes Les noms propres segment s correctement par Hylanda sont ici d coup s l int rieur de la cha ne de caract res en plusieurs formes graphiques p ex la forme 46 A RAME R publique po
21. ous avons examin la liste des cents premi res formes les plus fr quentes elles sont les mots grammaticaux J de de T le particule Lexico3 outil d analyse des donn es textuelles est d velopp par l quipe universitaire SYLED CLA2T Syst mes Linguistiques Enonciation et Discours Centre de Lexicom trie et d Analyse Automatique des Textes Le logiciel a t con u par Andr Salem professeur de l Universit Paris IL http www cavi univ paris3 fr Ipga ilpga tal lexicoW W W page consult e le 6 janvier 2010 2 x r F ae TE i R fg 5 z Le caract re chinois est suivi de la transcription pinyin en italique et de la traduction en fran ais entre parenth ses Li CHI WU aspectuelle 3 les verbes monosyllabiques lt shi tre F you avoir yao vouloir les conjonctions de coordination 45 yu et Al han et les pr positions I xiang pour E zai Xf dui pour les pronoms R wo je K ni tu la n gation adverbiale bu ne pas etc Ce sont des mots courants dans un texte g n ral mais plut t rares dans un texte du domaine sp cialis comme Constitution Dans ce dernier on trouve plut t des mots pleins des dissyllabes sont majoritaires dans le chinois contemporain cf figure 4 au contraire les mots vides y sont peu fr quents Les courbes de Constitution sont dissemblables figure 6 Les
22. plus grandes diff rences sont relev es entre les monosyllabes et les dissyllabes ainsi qu entre les trissyllabes et les pentasyllabes Par contre les courbes d ICTCLAS rose et de SF PKU bleu turquoise se superposent quasiment les fr quences des mots pour un nombre de syllabes donn est quasi similaire Le choix de deux domaines diff rents pour chacun des deux corpus a permis de mettre en vidence l influence du type de texte d une part sur la r partition des mots et d autre part sur la variation du nombre de syllabes des mots Les textes du domaine sp cifique sont plus remarquables en ce qui concerne la diff rence entre le nombre de syllabes par rapport aux textes g n raux comme Presse 6000 6000 5000 5000 2 4000 Hylanda 2 4000 Hylanda 5 Ietclas S Ietclas 3 3000 3 3000 8 SF CTB 2 SF_CTB 2000 gn py 00 SF PKU 1000 1000 0 yie 0 i 2 3 4 5 6 7 8 9 10 13 Gba 1 2 3 4 5 6 7 8 9 10 11 Syllabes Figure 6 Effectif des mots en fonction du nombre Figure 7 Effectif des mots en fonction du nombre de syllabes dans Constitution de syllabes dans Presse 3 3 3 Analyse par syllabe Nous proposons maintenant une tude plus approfondie des sous parties du corpus La fonction groupe de formes de Lexico3 permet d acqu rir une cha ne de caract res contenant le nombre de syllabes rechercher au moyen d une expression rationne
23. pulaire de Chine est d coup e en trois formes comme P4 A JAI Chine peuple r publique Les formes de quatre ou cinq syllabes 16 Le symbole tiret bas _ sert ici indiquer la fronti re d une unit lexicale Li CHI WU sont simplement les expressions temporelles p ex HH 0 yi ba si ling nian l ann e 1840 litt ralement 1840 suivi du mot ann e et les num rotations des articles de la Constitution p ex H di yi bai ling yi article 101 litt ralement un pr fixe servant former les nombres ordinaux suivi du nombre 101 Ce ne sont pas des termes sp cifiques du corpus Par ailleurs parmi les polysyllabes segment par Hylanda certains qui sont des termes non sp cifiques du domaine ont attir notre attention Ce sont des collocations c est dire la combinaison de deux termes ou plus qui sont fr quemment utilis s Par exemple PBI buxing yunanzhe des victimes est compos de P buxing malheur et ix yunanzhe victime Ce ph nom ne pourrait tre abord dans une tude subs quente D apr s cette tude textom trique de deux corpus en quatre segmentations Hylanda appara t comme un outil pertinent dans la segmentation des noms propres et plus particuli rement dans un domaine sp cifique La segmentation de SF_CTB serait plut t fine c est dire que la longueur moyenne des segments est plus limit e Les deux autres segmenteurs peuvent tre qualifi s d int
24. raction d informations la reconnaissance vocale etc Li CHI WU Le segmenteur Stanford qui s appuie sur la norme de l Universit de Pennsylvania Xia 2000 a t produit par le groupe de sp cialistes du traitement des langues naturelles de l Universit Stanford Cet outil utilise le mod le des champs al atoires conditionnels pour tiqueter les donn es Tseng et al 2005 Il propose deux mod les de segmentation sans annotation des cat gories lexicales l une s appuyant sur la norme du corpus annot de l Universit de P kin ou SF PKU et l autre s appuyant sur celle de Penn Chinese Treebank ou SF_CTB 2 2 Pr paration du corpus Afin d initier cette tude de la segmentation en textom trie deux chantillons de test contenant un petit nombre d unit s lexicales ont t choisis Nous avons utilis deux corpus de diff rents domaines poss dant un nombre de caract res similaires correspondant 16 000 sinogrammes le corpus de la Constitution de la R publique Populaire de Chine d sormais Constitution et le corpus des conf rences de presse du Minist re des Affaires trang res de Chine d sormais Presse La taille totale des deux corpus segment s par les outils tudi s est entre 8 300 et 9 800 occurrences ce qui correspond approximativement entre 1 000 et 1 600 formes diff rentes cf 3 2 pour plus de d tails Pour chaque corpus nous obtenons quatre segmentations diff rentes du m me te
25. re gov cn chn gxh wzb fyrbt jzhsl default htm page consult e le 18 janvier 2010 GB2312 est un jeu de caract res utilis en Chine Il attribue un code de 16 bits pour un sinogramme simplifi soit deux octets Mais certains caract res rares ne peuvent pas tre repr sent s avec ce syst me GB18030 a donc t cr et il supporte les caract res tant du chinois simplifi que du chinois traditionnel Big 5 est un jeu de carat res utilis Taiwan et Hong Kong pour les caract res traditionnels Le programme mkAlign cr par Serge Fleury de l Universit Paris III permet d afficher et de corriger simultan ment un alignement de deux textes de m me langue ou de langues diff rentes http tal univ paris3 fr mkAlign page consult e le 17 f vrier 2010 OUTILS DE SEGMENTATION DU CHINOIS ET TEXTOMETRIE 3 Etude des outils 3 1 Exploration pr liminaire Le module variation de mkAlign Fleury Zimina 2009 permet de rep rer toute variation d un texte source par rapport un texte cible ou dans deux types de segmentations d un m me texte comme c est le cas ici Les diff rences de segmentation sont mises en vidence au moyen de la coloration Les num ros des paragraphes signal s par le s parateur figure 1 sont not s dans la premi re colonne La visualisation du corpus nous permet d avoir un aper u des deux textes et d examiner leurs diff rences et leurs similitudes
26. s avons tudi s ICTCLAS et SF_PKU cf 2 1 sont fond s sur la norme d tat Ils effectuent une segmentation similaire que notre analyse va mettre en vidence 2 1 Description des segmenteurs Nous avons utilis dans notre tude les quatre segmenteurs les plus connus dans la segmentation du chinois 1 Hylanda Zhongwen zhineng fenci Le segmenteur Hylanda est une application commerciale Il utilise des m thodes comme le nombre maximum ant rieur de segments forward maximum matching FMM nombre maximum post rieur de segments backward maximum matching BMM etc Liang 1984 Son programme annote les cat gories grammaticales des mots segment s La caract ristique de Hylanda est de reconna tre des entit s nomm es des noms propres de personnes des noms de lieux g ographiques des noms des organismes etc et sp cialement des noms propres dans le domaine de la m canique 2 Chinese Lexical Analysis System Le segmenteur ICTCLAS Zhang et al 2003 a t cr par la Chinese Academy of Science et a t mis a jour plusieurs fois Il poss de des fonctions comme l annotation lexicale la reconnaissance d entit s nomm es et de nouveaux mots et leur int gration dans un dictionnaire d fini par l utilisateur ICTCLAS s appuie sur un grand lexique et utilise un mod le de Markov L tiquetage grammatical se r f re principalement au corpus annot du Quotidien du peuple de l Universit de P
27. s cette tude nous nous sommes appuy e sur les cent premi res formes les plus fr quentes de chaque texte Les monosyllabes et dissyllabes sont les plus nombreux au sein des deux corpus Dans Constitution les dissyllabes sont plus nombreux que les monosyllabes figure 4 Les polysyllabes trois syllabes ou plus sont beaucoup moins nombreux On note tout de m me que les pentasyllabes sont particuli rement remarquables dans Hylanda Le segmenteur ST CTB poss de peu de quadrisyllabes et aucun pentasyllabe Dans le corpus Presse figure 5 les monosyllabes sont plus nombreux que les dissyllabes par rapport au texte Constitution Mais ils sont dominants dans le corpus Au contraire les quadrisyllabes sont beaucoup moins nombreux un seul quadrisyllabe apparait dans le segmenteur ICTCLAS et aucun de pentasyllabes 70 60 50 60 50 B1 syllabe A E syllabe 40 E syllabes w M2 syllabes 03 syllabes 30 O13 syllabes O4 syllabes 20 O4 syllabes E 5 syllabes et plus 10 E 5 syllabes et plus 10 0 HL IC HL IC SF_CTB SE_PKU Segmenteurs SF CTB SF_PKU Segmenteurs Nb de formes Ww ER Nb de formes Figure 4 R partition des formes par segmenteur Figure 5 R partition des formes par segmenteur sur les cent premi res formes les plus sur les cent premi res formes les plus fr quentes de Constitution fr quentes de Presse 3 3 2 Le nombre de syllabes Afin
28. s sont form s de longueur de deux quatre syllabes g n ralement de trois syllabes Par ailleurs les femmes mari es portent le nom de famille de leurs maris suivi du nom de jeune fille puis du pr nom quatre syllabes sont majoritaires La translitt ration des noms trangers est interpr t e soit par un patronyme seulement soit par un pr nom suivi du patronyme Ce dernier est ins r un point m dian pour s parer un pr nom et un patronyme comme Jacques Ren Chirac est translitt r e en chinois JETE WIAA hi LI CHI WU 5 Conclusion Cette comparaison de segmenteurs sur deux corpus de themes diff rents parvient 4 une bonne qualit d analyse Notre tude bas e sur le nombre de syllabes du chinois a permis de distinguer un segmenteur plus performant pour les textes sp cialis s et un autre segmenteur plus pertinent pour les textes g n raux Les deux autres segmenteurs sont apparus relativement similaires ce qui est justifi tant donn qu ils sont fond s sur Ja norme de l tat de Chine Leur performance est interm diaire par rapport aux deux premiers L valuation de la comparaison de ces quatre segmenteurs au moyen de la segmentation manuelle affirme que la m thodologie est pertinente dans le cadre de l tude L tude sur le nombre de syllabes en chinois ouvre des portes dans la recherche en textom trie sur la comparaison des outils de segmentation Une tude approfondie sur la variation
29. xte au moyen des quatre segmenteurs Les textes chinois ont t sauvegard s en format texte brut avec le jeu de caract res GB2312 qui est destin repr senter les caract res simplifi s Dans un premier temps les segmentations obtenues pour les deux corpus ont t align es afin de faciliter l analyse Pour cela nous avons eu recours l outil d alignement mkAlign ce qui nous a permis de comparer en lexicom trie les deux textes L alignement a permis d obtenir des textes o chaque groupe align est signal par le symbole di se comme s parateur Les quatre textes ont t regroup s dans un m me fichier et s par s par des balises Le Penn Chinese Treebank contient des corpus segment s tiquet s de POS de 500 milliers de mots chinois Les ressources des corpus proviennent de l agence de presse Xinhua Sinorama news magazine et Hong Kong News http www cis upenn edu chinese ctb html page consult e le 20 janvier 2010 Les textes lectroniques ont t recueillis sur le site de l agence de presse chinoise Xinhua http news xinhuanet com newscenter 2004 03 15 content_1367387 htm page consult e le 6 janvier 2010 Nous avons rassembl les textes lectroniques des dialogues entre le porte parole et des journalistes sur six conf rences de presse du 11 juin au 30 juin 2009 dans le site officiel du Minist re des Affaires Etrang res de la R publique populaire de Chine http www fmp

Outils de segmentation du chinois et textométrie

Contents

Download Pdf Manuals

Related Search

Related Contents

Outils de segmentation du chinois et textom&eacute;trie

Contents

Download Pdf Manuals

Related Search

Related Contents

Outils de segmentation du chinois et textométrie