Home
Jean BAUDOIN (Waris Abdukerim JANBAZ, Waresijiang - E
Contents
1. Figure 14 consignes de t l chargement de police pour ceux qui ont des probl mes d affichage 3 9 2 Interface 137 Cette police avait t d velopp e par deux membres de l Association Informatique Ouighoure qui se sont inspir s de la premi re police Unicode mentionn dans le chapitre 4 5 79 Pour assister les utilisateurs du dictionnaire l interface et les messages d instruction sont pr sent s en deux langues anglais et ouighour et en trois critures pour l ouighour La boite de texte s aligne a droite lorsqu on s lectionne la recherche par ASU ou a gauche dans les autre cas pour s adapter la r gle de direction de l criture Cette fonctionnalit a t impl ment e gr ce aux attributs HTML de bo te de texte relatifs au contr l
2. Table 8 1 Extrait d entr e du correcteur de Yulghun Editor Dans la table pr c dente on constate que si existe la forme suivie de l interrogatif je est absente De ce fait les deux logiciels consid rent comme une faute d orthographe bien que ce ne soit pas le cas L introduction d un nouveau mot n cessiterait d ajout d une entr e dans le corpus Dans le 5 9 1 nous avons montr la possibilit de cr er 24 294 nouveaux mots partir de la racine d un seul verbe Si on multiplie ce chiffre par le nombre des verbes primitifs on obtient le nombre de 15 135 162 qui repr sente le total th orique des formes verbales Comme ce chiffre ne couvre que les verbes on peut ais ment imaginer la taille d un corpus regroupant toutes les d rivations possibles de toutes les cat gories lexicales alors qu un dictionnaire de frangais courant par comparaison con
3. pr AU Table 8 2 liste des entit s apr s segmentation 150 Apr s avoir obtenu la liste des mots segment s chacun de ces mots sera envoy la proc dure qui v rifie l orthographe voir la figure 8 4 8 3 2 Reconnaissance des critures ULY UEY USY La plupart des textes sont crits dans un seul syst me d criture Cependant il n est pas rare que des mots ou des phrases crites dans un autre syst me d criture soient ins r s dans le texte Dans l extrait du texte ou ghour ci dessus on remarque que les deux termes ISO Unicode apparaissent en caract res latins Pour ce texte un outil de correcteur d orthographe ouighour ne doit pas les consid rer comme des mots ou ghours Afin d effectuer la correction orthographique d un texte ouighour ou des mots ouighours dans un texte multi criture l outil doit pouvoir identifier si le mot en cours de v rification est un mot ouighour tant donn q
4. Figure 16 Suggestion automatique des mots candidats Cette fonctionnalit est inspir e de celle qui a t d velopp e par Google et impl ment e en utilisant la technologie ASP NET AJAX 3 9 4 Recherche et pr sentation du r sultat Nous avons propos quatre options de recherche savoir exacte commence par termin ZE par contient L option par d faut recherche exacte renvoie a l entr e qui l int rieur d un champ d une table de la base de donn es du dictionnaire correspond exactement la valeur de recherche pr cis e Les autres options renvoient toutes les entr es qui contiennent commencent ou se terminent par la valeur de recherche La recherche du mot saisi ou s lectionn commence par un clic sur le bouton search Quand le mot est retrouv dans le dictionnaire le r sultat de recherche est pr sent dans les formes suivantes en tenant compte du nombre de r sultats pertinents v Exact aldirash OY rypas Uyghurche OEnglish 2535 How aldirash angupaw 1 form of 2 busy rushed 3 busily in a rush Figure 17 pr sentation du r sultat de recherche option de recherche 2 recherche exacte 81 v Start With OY rypse OUyghurche OEnglish 4 3525 amp alma anma T alma gorumisi anma Kopymucu V ASG al
5. Table 5 Formes conjointes des voyelles ouighoures les positions primes marqu es d une apostrophe indiquent les positions o la voyelle n est pas pr c d e de la marque d arr t glottal d ae 10 108 Malheureusement les formes conjointes m dianes 4 7 et AIP des lettres ouighoures indiqu es en gris fonc ci dessus sont toujours absentes 10 de la table de et Glyphes ne comprenant pas glyphes supportant le hamza Voir annexe 7 et note 20 Voir Arabic Presentation Forms A zone FBEA FBFB Voir aussi table Erreur Document principal seulement et unicode org charts PDF UFBS0 pdf 07 Nom de caractere pour le standard Unicode ARABIC LIGATURE YEH WITH HAMZA ABOVE WITH E MEDIAN FORM Ex Bagh riq Nom de caract re pour l Unicode ARABIC LIGATURE UIGHUR KIRGHIZ YEH WITH HAMZA ABOVE WITH ALEF MAKSURA MEDIAN FORM Ex certainement Les membres de la d l gation de la ROAX Prof Hoshur Islam et Yasin Imin qui ont envoy la proposition admettent aussi cette omission Voir aussi Arabic Presentation Forms A zone code FBEA FBFB 59 l Unicode Standard Arabic Presentation form A Cette omission rend la pr sente table Unicode standard incompl te et impose l emprunt de deux positions vides FBD1 et FBD2 Afin d viter toute confusion l UCSA qui compte soumettre une requ te crite au Consortium
6. son architecte 6 2 3 L harmonie vocalique L utilisation des suffixes suit les r gles de 17118111101116 vocalique Reinhard F Hahn amp Ablahat Ibrahim 1991 pr sentent celles ci dans le cadre de la langue parl e Mirsultan Osmanov 1985 le fait dans celui de la langue crite A Qaydarov amp Gh Sedwaqasov amp T Talipov 1963 s int ressent aux deux Nous tentons ici de montrer les r gles applicables au TAL en r sumant le syst me vocalique de 1 01018110101 1 La variation de la voyelle du suffixe se fait en fonction de la voyelle de la derni re syllabe du mot auquel il se lie Dans plupart de cas suivant les conventions qui gouvernent les rapports intervocaliques le suffixe comporte une voyelle de m me type front milieu arri re de voyelle que la derni re syllabe du mot v de le derni re syllabe voyelle du suffixe v de la derni re syllabe voyelle du suffixe 180 vi y A x L ouighour a absorb un grand nombre de mots d origine trang re surtout de l arabe et du persan mais aussi du mongol du russe du chinois et plus r cemment d autres langues Phonologiquement ces mots se comportent diff remment des termes proprement t rks de l ouighour particuli rement en ce qui concerne les r gles d harmonie vocalique interne Mais ils se plient aux 168165 d harmonie dans leurs rapports avec les suffixes 111 Ds 0 0 Par exemple geme de dans la cave ter i s
7. 10646 ISO Unicode Extrait d un texte ouighour avant la segmentation 5 G gt Bun BS 1998 ISO 10646 Unicode 5
8. FBAD a FE8C Table 6 caract res probl mes dans la table de l Unicode Dans l Unicode deux points de code diff rents sont donn s chaque s et a La lettre arabe a hah a quatre formes diff rentes qui correspondent quatre formes de deux lettres ASU diff rentes 45 et a La lettre ASU 45 a un code unique 06D5 mais les positions de ses quatre formes diff rentes ne sont pas indiqu es dans les formulaires de pr sentation arabe Dans l alphabet ASU les trois lettres 43 ont les formes diff rentes suivantes voir aussi annexe 10 Voir http www unicode org charts ARABIC LETTER FARSI YEH formes initiales et m dianes de cette lettre ont des points 13 ARABIC LETTER ALEF MAKSURA repr sente une lettre en forme de YEH sans points dans aucune position ARABIC LETTER AE Ouighour Kazakh Kirghiz S ARABIC LETTER HEH ARABIC LETTER HEH DOACHASHMEE Urdu 17 ARABIC LETTER YEH WITH HAMZA ABOVE 61 isol e finale m diane Initiale isol e finale m diane initiale o 4 amp 4 z a Te A le 4 5 gt D D gt Table 7 Formes diff rentes de 45 dans l alphabet ouighour les positions primes marqu es d une apostrophe indiquent les positions o la voyelle e n est pas pr c d e de la marque d arr t glottal Etant donn que les technologies d Open Type permettent aux d veloppeurs d int grer
9. e eee ee ee eee e eee e eee EE EE see see see 218 Chapitre 1 Introduction Avant d aller plus loin nous citons Mohamed Hatem HADDAD D s l invention des ordinateurs les hommes sont la recherche d une mani re efficace de g rer de stocker de diffuser et de rechercher l information Plusieurs m thodes et techniques de gestion et de traitement d information ont t d velopp es Aujourd hui nous pouvons estimer que nous sommes un haut niveau d informatisation gr ce au d veloppement et la ma trise de la technologie soit celle des mat riels soit celle de la communication soit celle de la construction des logiciels ou soit celle de la gestion et du traitement de l information dont l Internet est un exemple flagrant M H HADDAD 2002 Or bien que nous assistions cette volution remarquable dans les domaines de l informatique de la communication et de l information nous nous rendons compte qu il faut encore beaucoup progresser dans le domaine du traitement de l information ouighoure C est l notre souci Le domaine de l information est tr s vaste Les probl mes que nous allons poser et tudier dans cette recherche concernent traitement automatique de la langue ouighoure Analyse linguistique est une des m thodes la plus utilis s pour le traitement automatique des langues Notre objectif est d tudier cette m thode et de l appliquer dans le d veloppement d un moteur de recherche et correcteur orthograp
10. axun grade de th ologien musulman bien duqu iranien Axund utilis comme suffixe il indique le respect 125 Suffixes li s aux signification Exemples kar ker gar ger noms noms propres agent bina architecture kar binakar architecte soda commerce ger sodiger commer ant kesh noms agent pochta poste kesh pochtakesh vaguemestre kira loyer kesh kirakesh loueur dar noms agent emel position dar emeldar fonctionnaire XOF noms celui qui consomme para arget xor parixor corrompu qan sang xor qanxor tueur ghem soucis xor ghemxor quelqu un qui fait de soucis men noms d action celui qui est impliqu zog profit men zoqmen amateur k ch immigrer men k chmen immigrant shunas pez wen noms noms sp cialiste agent Til langue shunas tilshunas linguiste tarix histoire shunash tarixshunas historien ash nuriture pez ashpez cuisinier derwaza wen derwaziwen gardien de porte xana noms Pi ce endroit ash xana ashxana cuisine chay xana chayxana maison du th dan noms Ce qui contient sham bougie dan shamdan bougeoir k l cendre dan ktildan cendrier 126 zb kistan Turkistan gewristan
11. 31 Il faut noter que les orthographes du nom de l ethnie et de la langue sont tr s vari es Rien que pour l orthographe de la langue ou ghour on peut trouver des variantes comme ouighour ouigour ouighour uigur en fran ais et comme Uyghur Uighur Uygur Uigur Wighor weiwuer en anglais Dans cette tude nous utilisons la norme la plus fr quemment utilis e depuis des ann es 90 savoir ouighour en fran ais et Uyghur en anglais Le nom du groupe de l ethnie et de la langue est prononc yjvyr et est s crit 38335 en ouighour L utilisation de gh pour des noms propres qui ont le son v r comme roi est courante en francais Par exemple Afghan Gharb Maghreb L ouighour est une langue relativement facile apprendre pour les turcophones Il est difficile de donner un pourcentage exact des mots qui se ressemblent entre les langues turques sans faire une statistique de mani re rigoureuse Mais on peut dire que les ouighours n ont pas du tout de probl me de compr hension de l ouzbek et ils arrivent comprendre assez bien le sujet principale d un discours en kazakh kirghiz En revanche les ouighours ont des fois besoin d un interpr te pour comprendre la langue de leur cousin g ographiquement loign le turc Le vocabulaire ouighour comporte 60 97 pourcent de mots co existant dans les autres langues turques ainsi que des emprunts arabes persans russes chinois
12. 38 Christine Michel Evaluation de syst mes de recherche d information comportant une fonctionnalit de filtrage par des mesures endog nes th se doctorat de l Universit Lumi re Lyon II 1999 http www recodoc univ lyonl fr theseCMichel pdf 39 Marie Calberg Traitement de la morphologie du finnois par transducteur nombre fini d tats Batz sur Mer R CITAL 2003 http www cavi univ paris3 fr ilpga ED activites RJC2003 actes calberg pdf 40 Christof Monz amp Maarten de Rijke Introduction to Information Retrieval Amsterdam 2002 une pr sentation pour l enseignement 231 pages http remote science uva nl christof courses ir transparencies w 01 prst pdf 41 Kemal Oflazer amp G khan T r amp Dilek Hakkani T r A statistical information extraction system for Turkish Ankara 2001 http www research att com dtur pubs NLE03 pdf 171 42 Kemal Oflazer amp lker Kuru z A Tool for Tagging Turkish Text Ankara 1994 http www cs bilkent edu tr tech reports 1994 BU CEIS 94 1 6 ps z 43 G khan T r amp D Z Hakkani T r amp Kemal Oflazer Statistical Modeling of Turkish for Automatic Topic Segmentation Ankara 2000 http www cs bilkent edu tr tech reports 2000 BU CE 0001 ps gz 44 S bastien Paumier Unitex Manuel d Utilisation Paris 2002 http www igm univ mlv fr unitex 45 Kemal Altintas amp Ilyas Cicekli A Morphological Analyser for Crimea
13. FontLab et Fontographer Un groupe de recherche national sur la haute technologie financ par le gouvernement de la RPC La filiale XJU est sp cialis e dans le d veloppement de logiciels multilingues Voir http www microsoft com typography OpenType 20Dev arabic intro mspx pour plus d informations sur le d veloppement de polices Open Type pour l alphabet arabe Voir http www ukij org fonts 24 Voir http www high logic com fontcreator html 3 Voir http www fontlab com 26 http www fontlab com Font tools Fontographer 64 d FontLab 4 EK File Edit View Glyph Tools Window Help 900 1200 1500 1800 tes 5 2 MMS init lookupflag RightT oLeft medi fina 2 liga class1 afii62956 afiiB2959 afi52305 30052355 afiiB2831 5052757 3052751 30052755 afii62768 5052771 300527 2 class4 afii57534 5057505 5057507 3007508 30507557 50070093 afii57555 50002400 afi57411 205 412 4 a E T il gt 7 Use left mouse button to select one or more characters NIT Z Figure 1 vue d une lettre 010181101016 lors de la cr ation de police sur l outil Font Lab L int gration des fonctionnalit s de substitution est une des tapes cl s du d veloppement d une police Si celle ci est absente de la police l affichage des lettres se fait incorrectement Par exemple 1
14. V SUF A a ant rieur i ant rieur o u a par exemple altmAK gt almaq b siq mAK gt b siqmaq qil mA gt qilma toy KA gt toygha ot KA gt qa 2 Harmonie a quatre sens une voyelle non arrondie fait appel 4 une voyelle non arrondie et une voyelle arrondie fait appel a voyelle arrondie Va SUF Hg fe ant rieur i ant rieur _ i ant rieur par exemple kel Dim gt keldim t rik Di gt t rikti tik Kin gt tikkin SUF Hg a post rieur i post rieur i post rieur 96 par exemple al Dim gt aldim tiq Dim gt tiqtim 06110 im gt b liqim Vas SUF Hg 6 0 __ 0 par exemple k t Dim gt k tt m 61 Diim 2 ld m k6r Kiim k rg m __ SUF H o u Su par exemple tut Dum tuttum bol Dum gt boldum ot um gt otum 3 Harmonie a deux sens dans les suffixes en voyelle basse arrondie une voyelle ant rieure fait appel une voyelle basse ant rieure arrondie une voyelle post rieure fait appel un voyelle basse post rieure arrondie u TV __ SUF H e ant rieur i ant rieur 6 par exemple k r K ch gt k rg ch kir K gt kirg k t K gt k tk soy K gt s yg V _ SUF H a post rieur i post rieur o u u par exemple al Ku 2 alghu 06010 Ku 2 b qin ghu tut Ku gt tut
15. lt td colspan 3 class UyghurDictionaryOrg Copyright Note www uyghurdictionary org lt td gt lt tr gt lt tr gt lt td width 54 gt lt input type submit name UyghurDictionaryOrgSubmit class UyghurDictionaryOrgSubmit value josp gt lt td gt lt td gt lt span class UyghurDictionaryLanguageOptions gt lt select name so id so gt lt option value ex selected gt Jos lt option gt lt option value sw gt pb lt option gt lt option value ew gt 6G lt option gt lt option value in gt b lt option gt lt select gt lt span gt lt td gt lt td width 206 gt lt input name q type text id UyghurDictionaryOrg maxlength 80 onKeyPress addchar this event UyghurDictionaryOrgStart dir rtl onMouseOver this focus gt lt td gt lt tr gt lt tr gt lt td colspan 3 height 19 class UyghurDictionaryLanguageOptions align center gt lt label for Input_UEY gt lt input name lang type radio id Input UEY value UEY checked onChange return oc ue gt ag m lt label gt label for Input ULY input name lang type radio value ULY id Input ULY onChange return oc eu gt Uyghurche lt label gt lt label for Input_USY gt lt input type radio name lang value USY id Input USY onChange return oc eu gt Yurypue lt label gt lt label for Input EN gt lt input type radio name lang
16. pour chaque lettre 2 4 Lettres ne posant pas de probl me particulier Parmi la vari t des transcriptions en utilisation il tait possible d identifier les dix huit lettres suivantes qui taient employ es par tous pour les m mes phonemes Puisqu elles correspondaient aux principes ci dessus elles ont t accept es sans probl me dans l alphabet LSU par le comit de la conf rence Je a b d f g I 1 m jo lo lB fe n o ip r js T ju y z Table 1 Lettres ne posant pas de probl me particulier 2 5 Lettres problematiques et d cisions Pour les autres lettres il existait les choix suivants bas es sur les syst mes de transcription vari s 18 17 16 15 1411311211 10 9 8 7 6 5 4 3 2 1 qchiq Q q OQ le e eec ch ch ch ch ch ch 3 ae Vale JE 3 eee J e Je le el 4 E e E e E e e je e Je Je Je el Je 1 gh Vg Ww V g 8 8 gh gh gh gh gh gh gh h v Vh wh Hf h h ih h hhh h h hih h h jzh j J j J j dj fi cclj ji Jj jj je j Ng ng Ng nh Nfn n n j f ng ng ng ng ng ng ng o oe Vo joe Oi o l lo 6 0 6 o K kh Vk k C q q q k 4 9 q q 9 9 a q xsh x X X 8
17. premi re syllabe de s reste des syllabes apr s soustraction de la premi re syllabe de s Code source en C de l algorithme 3 La syllabisation est un proc d in vitable pour les logiciels de synth se vocale Avec l approche syllabique la mise au point d un outil g n rique de synth se de la parole partir du texte text to speech est envisageable car il y a beaucoup plus mots que des syllabes Pour cela il faut cr er une base de repr sentation phon tique de chaque syllabe ouighoure et r crire chaque syllabe du texte original en utilisant sa repr sentation dans la base de donn es vocales Cependant comme la synth se vocale ne fait pas l objet de notre tude nous ne la mentionnons ici qu titre de r f rence 8 5 V rification d orthographe Un mot est correctement crit pel si 1 il se trouve dans le dictionnaire de base 2 il est dans la liste des racines primitives ou 3 sa racine se trouve dans la liste des racines 161 primitives et sa partie suffixe est dans la liste des suffixes Nous avons tudi dans les paragraphes pr c dents la premi re partie du troisi me cas Une fois la racine d termin e il faut v rifier la partie suffixe pour voir si elle se conforme aux r gles de suffixation afin d tre s r que l orthographe du mot entier est correcte Notre analyseur lexical voir 5 9 4 permet non seulement de v rifier la pr sence de fautes d orthogr
18. Victor Hugo est n Un article qui parle de la date de naissance de Victor Hugo rep rage de texte e Carte de la France Une carte de la France rep rage d image e Elle est a toi cette chanson Une chanson de Georges Brassens rep rage de son music e Les Guignols de l Info Un mission de Canal rep rage de vid o Il s agit d extraire de l information sp cifique texte image son vid o et pertinente d un ensemble de donn es collect es afin de fournir une information labor e et synth tique Reste d terminer comment et par quel moyen on pourra r cup rer d un texte une phrase qui traite d un sujet donn Un SRI est un syst me compos d une part d un module charg du traitement de l indexation et du stockage de l information Ce module construit partir du traitement de l information une structure de donn es organis es de mani re permettre l acc s rapide l information D autre part il est compos par un module appel interface qui sert 20 interagir avec les usagers dot e des m canismes de s lection d information orient s par les requ tes formul es par les usagers Nous distinguerons donc ce qu est un SRI et ce qu est un syst me d extraction d information Mohamed Hatem HADDAD 2002 1 1 5 Rappel et Pr cision Un syst me de recherche d informations est valu en observant ses r ponses par rapport ce que l utilisateur souhaite retrouver L
19. ana m re 185 jan anajan ma petite maman bota chameau laq botilaq petit chameau 186 de 4Y gu im um um m noms propres affectif Tursun nom propre masculin ay Tursunay nom propre f minin Rizwang l nom propre f minin Waris nom propre masculin im Warisim nom propre masculin mon Waris 188 Xan axun 189 noms propres respectueuse Anar nom propre f minin xan Anarxan nom propre f minin respectueux Nur nom propre masculin axun Nuraxun nom propre masculin respectueux Tableau 10 Minimisations formes affectives et respectueuses 5 suffixes persans Les suffixes d origine persane se joignent des mots ou ghours et aussi des mots emprunt s de l arabe et du persan ou d autres langues Ils cr ent des noms concrets En raison de l irr gularit de l utilisation des voyelles de suffixes persans les r gles de 1 Arbre 1811087 ne peuvent s appliquer sur le cot gauche 85 86 ay la lune g l fleur 88 cc Pierrot pour le nom Pierre en frangais jan est une forme de minimalisation respectueuse et amicale Il se joint aussi aux noms propres un peu comme xan est une application directe du mot xan roi comme un suffixe Dans certains cas on appelle 065 65 Xan par respect si on ne conna t pas le pr nom 89
20. des syllabes ouighoures par rajout de voyelle dans la plupart des cas i ou la modification d une voyelle Elision insertion ou changement d une ou plusieurs lettres dans le cas des erreurs dues l influence dialectale sont aussi prendre en compte Mots non trouv s sont analys s par un proc d de 83 suggestion dans lequel les cas mentionn s ci avant sont pris en compte afin de sugg rer des mots correctement orthographi s Certaines erreurs sont dues a une mauvaise maitrise de la disposition du clavier norme r gionale L utilisateur ne regarde pas l cran quand il saisit mais se concentre sur le clavier Ex Sympt me incorrect correct Cause L utilisateur r fl chit en Pinyin et appuie Mauvaise ma trise de i one 0 sur les touches marqu es k a n d a k la disposition du ca exe n a q q a en esp rant pouvoir crire clavier SS Oubli ou non je eS 4 4 n cessitent la combinaison fonctionnement de la de shift avec les touches k j h g f d ec dE touche shift pau moment de la saisie pour ne pas tre r alis s en a s e d co Probl me de touches 354 En raison de la configuration courte du SELIG d lai de r p tition
21. et aid dans la poursuite de mes tudes universitaires Il ne m a jamais dit non m me lorsque je lui ai envoy des textes corriger la derni re minute Je ne pourrai jamais assez le remercier Mes remerciements s adressent aussi aux Professeurs Khaldoun Zreik Mohamed Quafafou et Docteur Jean Rahman Duval pour leur participation en tant que membres de jury et aux Professeurs Mohamed Hassoun et Said Tazi pour avoir accept d tre rapporteur de cette th se Tous mes remerciements vont aussi l quipe Hypertexte Dynamique du Laboratoire Paragraphe qui m a accueilli en son sein J aimerais remercier galement messieurs Scott Wade Bernhard Rieder Nasreddine Bouhai et Everardo Reyes Garc a pour leur amiti et leurs encouragements J aimerais exprimer mon affectueuse gratitude ma m re G lnisa Musa et toute la famille Janbaz pour son soutien ininterrompu malgr les milliers de kilom tres qui nous s parent Enfin un grand merci Dilnur Kahar mon pouse qui a donn naissance mon fils Oyghan pour son soutien et sa patience pendant les moments dramatiques de la guerre de nerfs que peut devenir la r daction d une th se Resume Cette tude pr sente les caract ristiques les critures et la structure de la langue ouighoure en faisant une tude linguistique et en proposant de nouveaux mod les exp rimentaux qui faciliteront le d veloppement des outils informatiques et le traitement automatique de la l
22. l poque de l empire ouighour 745 840 Exemple d criture extrait de Le Sutra des causes et des effets du bien et du mal Dunhuang VIe IXe si cle Manuscrit sogdien encre sur papier H 700 cm L 26 cm Mission Pelliot 1906 1909 Ming Oy Paris Biblioth que Nationale de France 30 Oasis perdues des Routes de la Soie Serge Viallet UNESCO Beta System R M N Paris 1995 Format CDROM 22 l criture turco runique VI DT aussi connue sous le nom d criture turque ancienne ou criture Orkhon Y nisei Les exemples les plus connus de cette criture ont t d couverts dans la vall e de la rivi re Orkhon en Mongolie au XIX me si cle LE ge E Co e x LT Fi P 702 7 fe Ts 8 c oix 1 Exemple d inscription sur roche PRIM SRN ES XD EVAL YM gt HO 33448 A IUT 91 SH Alphabet Turco Runique criture ouighoure ancienne X XVIII crite de haut en bas et de gauche droite Cette criture a t utilis e plus de 800 ans non seulement par les Ouighours mais aussi par les autres peuples turcs Apr s que les Ouighours ont t conquis par les Mongols Gengis Khan a d cid de cr er une criture mongole sur la base de l criture ouighoure en 1204 C est cette criture toujours en usage chez les Mongols de Mongolie int rieure qui a t adopt e par les Mandchous et qui ce titre se trouve toujours sur les inscriptions de la Cit
23. l attitude passive en vigueur parmi les chercheurs parrain s par l Etat et les autorit s gouvernementales vis vis du d veloppement de toute technologie ayant trait la langue ouighoure beaucoup de chercheurs individuels se sont lanc s dans la cr ation de logiciels et de sites web en ouighour utilisant le LSU ou l ASU Pour cr er leurs sites web les webmasters ont surtout utilis l ASU en format image Lorsqu il a fallu passer au format texte chaque site web a d fournir sa propre police 77 les propri taires des sites web ont ainsi cr et nomm des polices que les utilisateurs devaient t l charger en fonction des diff rents sites sur lesquels ils se rendaient M me si les glyphes essentiels s y trouvaient d j les d veloppeurs de logiciels et de polices ne suivaient pas le standard Unicode en raison de difficult s sur lesquelles nous reviendrons en d tail dans les sections qui suivent Aucun webmaster n tait pr t accepter les noms de police ni les r gles d encodage des autres ce qui allait l encontre du besoin de standard commun La cr ation des polices se faisait par le remplacement de caract res ASCII ou des caract res arabes situ s dans la zone 0x600 Ox6FF de l Unicode par des caract res ouighours sans que ces remplacements ne suivent de logique particuli re tant donn que le nombre des lettres arabes dans le code de gamme 0x600 0x6FF est plus important que celui des lettres ASU chacun faisait un cho
24. liptu kep lt k lip qip lt qilip bop lt bolup Cette lision se produit essentiellement dans la langue parl e mais devient de plus en plus commune dans la langue crite 2 Les verbes monosyllabiques comportant un a dans la racine subissent un affaiblissement vocalique a gt seulement lorsqu ils sont directement suivis d une voyelle euphonique et restent 111011811865 dans les autres cas par exemple al gt l i p l i sh l i n mais al i men al i dighan al ar Par contre l affaiblissement vocalique se produit d s qu un verbe monosyllabique comportant un e dans la racine e gt est directement suivi 15 Les racines verbales peuvent tre sujets des adoucissements ou d formations par exemple kel gt k l ke 101 d une voyelle qelle qu en soit la nature par exemple kel k l i p k l er k l i men k l i dighan k le 3 La voyelle affaiblie transmet la valeur ant rieure ou post rieure de la voyelle originelle de la racine par exemple k l i shke l i shqa 4 Devant n importe quel groupe CV le a ou le e de la derni re syllabe d un verbe plurisyllabique s affaiblit en un i qui transmet l harmonie vocalique par exemple s zle mek gt s zlimek qatnash ishKA qatnishishqa 5 Les verbes plurisyllabiques comportant une voyelle arrondie ou un i dans la derni re syllabe de leur racine se transforment comme les verbes monosyllabiques comportant une voyelle arrondie dans l
25. y plus de mot a traiter in de liste racine trouv e traitement du prochain mot r cup rer un mot de la liste lt suffixe trouv N dans dict de hace dans racine soulignage du mot en tant que erron inexistant nrimitive fin Figure 8 4 v rification d orthographe Dans cette figure les lignes pointill es indiquent que cette tape est facultative et son application exige une intervention humaine pour s lectionner un des mots sugg r s ou corriger manuellement L tape de suggestion des mots candidats pour des mots erron s est expliqu e dans le chapitre 4 9 5 163 Chapitre 9 Conclusion et travaux futures Dans cette tude notre objectif a t de pr senter aux lecteurs les caract ristiques de la langue et des critures ouighoures et d offrir aux utilisateurs des outils informatiques qui permettent de contribuer l informatisation et la sauvegarde de cette langue menac e l ouighour Au cours de la premi re ann e de notre tude nous nous tions orient s vers le d veloppement d un moteur de recherche trans lingue ouighour anglais et multi criture C est cette orientation originale qui est l origine des tudes pr paratoires figurant dans les chapitres 2 et 7 La visualisation du r sultat d analyse et d extraction des entit s nomm es a t r alis e sur l Unitex avec utilisation d automates et de tra
26. 70 Voir http www ukij org teshwig UKY Heqgide htm pour plus de d tails 7 A l origine appel en ouighour Uyghur Kompyut r Y ziqi UKY criture ouighour en informatique puis Uyghur Latin Y ziqi ULY criture ouighoure latine Voir www ukij org teshwig UKY Heqgide KonaY eziq htm 7 Qui a initi toutes ces conf rences et pr par des propositions d tude et de recherche qui sont devenues des documents de travail de base pour l unification de l LSU 40 l Association Informatique Ouighoure Uyghur Kompyut r Ilimi Jem iyiti UKIJ trois ans plus tard pour devenir Uyghur Latin Y ziqi ULY criture ouighoure latine ou Latin Script Uyghur LSU puisque en ouighour criture informatique tait mal percu et pouvait tre confondu avec le binaire 1 et 0 Le projet LSU a t couvert par les m dias officiels de la RAOX ainsi que sur l internet afin d aviser le public Les m dias en particuliers taient tr s attentifs ne pas donner l impression d un d but de r forme de l criture N emp che que m me aujourd hui certains h sitent utiliser le terme ULY LSU puisqu ils craignent l association potentielle une tentative de r forme de l alphabet commun Pour beaucoup il est important qu il y ait une correspondance lettre pour lettre ou une norme entre LSU et ASU Certains estiment aussi que l ouighour devrait l instar du turc de l azerbaidjanais et de l ouzbek adopter exclusivem
27. Annexes Tableau des alphabets ASU LSU CSU f ehl 88 8 Ih 2 1 OR peti j tp be a LSU oir AIR 3 100 8 le ee 1 31 6 o eed e REE EO 31 ar k x CSU Lettres cyrilliques additionnelles BI 1 9 10 2 177 Carte des groupes ethniques de l Asie Centrale Alphabet turco runic VI IX Alphabet ouighour ancien Oe XVI 179 noms des suffixes ouighours K R i L F i M R u N R u reflexive O n P n passive Q R Euphonic S i T i U V u collective W sh X sh factitive Y dur Z t r AA dur AB tur euphonic AC i AD i AE AF u passive AG I AH aspectual auxiliary Al wet AJ w t AK wer AL w r AM wal AN w l euphonic AO i AP i AQ AR u 2 collective AS sh AT sh Eupho Con AU y AV y potential AW ele AX eli AY el AZ ala BA ali BB al negative BC me BD mi BE ma BF mi repetitive BG e BH a connective Bl p BJ y BK w purpositive BL gili BM kili BN ghili BO dili simultaneative BP gech BQ kech 180 BR ghach 85 17 aspectual auxiliary BT wat negative BU ma interrogative BV em BW m BX am BY m Tense infinitive BZ mek CA mik CB maq CC miq declinable infinitive substantiative CD sh CE sh desiderative CF gut CG k CH ghu Cl qu participial past CJ gen CK ken CL ghan CM qan CN gin CO kin CP ghin CQ ain adverbiative CR s ri desiderative CS gey CT key CU ghay
28. Bu bir k nl k c est un parapluie Bu bir k nl k tamaq c est la nourriture pour un jour 2 lish prendre b rish donner lish b rish relations qara noir y z face qara y z adj Et n perfide Ici on a g n r de nouveaux mots en mettant deux mots ensemble On remarque l existence du trait d union en ouighour 3 T z adj Rapide t z adj Rapide t z t z adv Rapidement On peut cr er aussi des nouveaux mots en r p tant un mot et en ins rant un trait d union au milieu 4 Nan n pain pan nan pan n qqch comme du pain chay n th pay chay pay n qqch comme du th Nan pan yig ng barmu veux tu manger quelque chose comme du pain Chay pay ichk ng barmu veux tu boire du th ou une autre boisson de ce genre On peut reproduire galement des nouveaux mots en rajoutant un mot qui n a pas de sens mais qui a presque le m me son que le mot auquel il est postpos avec un trait d union La partie apr s le trait d union est une constante D s qu on voit la premi re partie suivie du trait d union on peut trouver tout de suit la deuxi me partie Ainsi apr s nan on ne peut trouver que pan Ce genre de mots dans plupart des cas a le sens de quelque chose 119 comme xxx ou quelque chose du m me groupe que xxx Dans les deux exemples pr c dents Nan pan y g ng barmu ne veut pas forcement dire veux tu manger quelque cho
29. CHAPITRE 2 LA GESTION DU SAVOIR creen mns 17 2 1 D finition et enjeux eee eee e ee ee ee ee ee ee eese eese ee EE EE EE sse sse sese esee es esee eoe osese ER EE esse ssec sscesesesscesscess 17 2 T T Lar cherchie 0e toc es E br vasa aeo eoo ge ever os Tees Davus eoe eo A IE Pb ent AVE e Ode 17 2 1 4 D finition d un Syst me de Recherche d Information eese eene nennen nennen nennen 20 271 3 1520061661166180 M 21 Steet ds dentiste SR 22 2 2 Particularit s de l ouighour sseessoessoossoossoossoossosssoossosseosseoosesoseoosesssesosesssesssesseesseosseossesssoossosssosssosse 23 2 21 EU TEE od a a ake i Sain Re Coane dens 23 2 2 2 Caract ristiques techniques de l criture sss SAK cbs ree ade aea cade deed 28 2 2 2 1 Nombre de Signes 55 oe te ee arr t dere de erri elder derbi e dete PER PP ete 28 2 2 2 2 Type d critures ue ERE Aoi een eraut a e E I Ede N ee nt 29 22 23 Direction 0616611106 ege Ae iets eee pH es ES 29 2 2 24 Caract res de ponctuations et des chiffres ss 29 2 2 2 5 La sp cificit de l criture ouighoure ss 29 2 2 2 6 Identification de la langue ouighour sise 30 2 2 2 7 M thodes d entr e de l ou ghour ss 30 2 2 2 6 Stockage et bases d donn es ciet ate uen aile AE EA eebe 3
30. POS RLC PLR CLC CDA CAB CAC i y dighan dighin ar er r Sa Se Si chi ch lik liq luq l k siz di ti du tu d t m ng ngiz i si miz k q nglar liri im ing ingiz imiz inglar diki tiki lar ler lir de te di ti da ta gha qa ge ke ghi qi gi ki din tin ni genitive relative genitive declarative present future tense vowel neutral enclitic suppositional past enclitic suppositional past enclitic subjective enclitic hearsay enclitic dubitative equative CGN CGP DEC TPF EDI ETU ETI ESU EHS DUB EQU ning ningki dur tur du di ti ken mish imish ghu qu du tu dek 187 adverb of manner limitative particle Interrogative 1 Interrogative 2 Interrogative 3 exclamative final second set personal pronouns AMN LIM PP2 che la mu mikin mish men sen siz la le li miz siler sizler Lettres ouighoures et leurs valeurs Unicode conventionn es A 1 1 EE Eee 225 le 17 d cembre 2004 par l UCSA voir http ukij org fonts 188 189 Arbre des langues turciques Langues turciques 7 Oghou Oghouz Kiptchak Ouighourique Sib rien r sroupe sud occidental groupe nord occidental groupe sud oriental groupe nord oriental Turc Gagaouze Az ri Les langues turciques une trentaine de langues
31. le tatar le turc et le yap p 8 La premi re police ouighoure qui utilise Unicode a t cr e par Waris Abdukerim Janbaz en Juin 2002 Voir la dissertation pour obtenir le grade de M Sc chinois quivalent Bac 8 fran ais publi e en 2002 en chinois disponible la demande Par Waris Abdukerim Janbaz t l chargeable l adresse suivante http www oyghan com Uyghur Kompyut r Y ziqi ou criture informatique ouighoure qui utilise l alphabet latin Nous consacrons un chapitre pour expliquer qu est ce UKY Dictionnaire bidirectionnel chinois ouighour voir www uighursoft com 2 Par le Groupe National 863 3 Logiciel de reconnaissance optique des caract res ouighours par l Universit du Xinjiang avec la coordination de l Universit de Qinghua en ao t 2004 Par Waris Abdukerim Janbaz avril 2003 t l chargeable l adresse suivante http www oyghan com 5 Par Gheyret Toxti Kenji et Muhammad Abla t l chargeable l adresses suivantes http uyghuredit oyghan com et http www bilik cn ce 0 6 Un bug concernant le code de la lettre a t d couvert apr s l annonce de Windows Vista Correction est pr vu pour la future version 7 Langue appartenant au groupe sud ouest ou Oghuz des langues turques et tr s proche du turc parl en Turquie Elle est parl e par environ 10 millions de locuteurs r partis de part et d autre de la fronti re entre l
32. n ralement un territoire vierge De multiples recherches acad miques faites en Turquie sur NLP turc depuis les ann es 90 notamment par A Solak et K Oflazer ne sont pas directement applicables l ouighour en raison des d fis sp cifiques que celui ci pr sente L ouighour partage un nombre de caract ristiques avec les autres langues turques autant en termes de structure agglutination que de phon tique harmonie vocalique 143 Ex seweb kitab mais mektep et kutupxana tous en relation avec la racine arabe K T B zawut russe zavod meqset arabe meqsed but dad persan dad 144 Ex l adoucissement dans la langue parl e de quelques consonnes finales k gt g q gt gh b p gt w devant les suffixes commengant par un I par exemple mektep gt mektiwi n est plus refl t sauf dans quelques formes verbales ou l adoucissement a t depuis longtemps avalis par l usage par exemple k tip idim gt k tiwidim is Voir http www uyghurdictionary org 146 Voir http scholar ilib cn Abstract aspx A zwxxxb200505011 47 Voir Ay in Solak Kemal Oflazer 1993 Design and Implementation of a spelling checker for Turkish Kemal Oflazer 1994 Two level Description of Turkish Morphology et C neyd Tantug et Esref Adali et Kemal Oflazer 2006 Computer Analysis of the Turkmen Language Morphology 90 L exemple suivant d montre la nature agglutinante de la formation des mots en ouighour Le mot
33. ouighours est que l affaiblissement de voyelle entraine la transformation d una oue en dans des mots monosyllabiques par exemple al gt li kel gt k li et en i dans des mots plurisyllabiques ainsi que dans la plupart des suffixes par exemple terep 2 teripi bala gt balisi kel se gt kelsimu Notre analyse nous a permis de raffiner cette r gle g n rale dans des noms communs seuls a long et e long ci apr s et chappent l affaiblissement par exemple kitaP gt kit bi weq gt weg si les radicaux verbaux monosyllabiques en a sont affect s par l affaiblissement uniquement lorsqu ils sont suivis d un i euphonique voir paragraphe 6 2 et aucunement dans d autres cas par exemple lip lish but alar alimen alidighan Dans certains mots deux syllabes la deuxi me voyelle en g n ral une voyelle aig e i ou u n est rien de plus qu un soutien euphonique entre deux consonnes et dispara t lorsqu un suffixe commengant par une voyelle est ajout e au mot par exemple burun i gt burni singil i gt singlim isim i gt ismi Cette voyelle elliptique sera appel ci apr s V par exemple bur un Parfois la pr sence d une voyelle elliptique causera l affaiblissement de la voyelle dans la syllabe pr c dente par exemple aghzi i gt ghiz compliquant ainsi la recherche du radical d un mot 5 4 L harmonie des consonnes 157 Certains suffixes commencent par une dentale D d
34. s s s x sh sh sh sh sh sh amp U ue Vu ue 01 0 w 17 0 10 ju w y ul 9 W w W iv Wiwiv iv v jvjvjwiw Viv Ww vj 3 78 Voir http www ukij org teshwig UKY Heqgide htm pour plus de d tails 44 A H h H h H x x x x hhh kh x xx x x Z zj Vz zh 274 7 3 Z ili jz 70 7 70 zx j Table 2 Lettres probl matiques et leurs quivalences latines propos es er Il y a fallu faire des choix selon les principes de base Les discussions suivent tf Le principe C a limin c et et le principe D a enlev c et q Ch a t choisi car il respectait toutes les r gles m me s il avait l inconv nient d tre la combinaison de deux lettres Il se lit tf dans la plupart des alphabets bas s sur le latin dans le monde l oppos du PNSU gq turc slave ou plus simplement c propos dans quelques alphabets et a t choisi pour le m me phon me dans l ouzbek latin Il est facilement lisible pour les ouighours duqu s en PNSU puisqu il tait utilis dans cet alphabet pour le phon me tf dans les mots d origine chinoise ex gungchandang parti communiste 45 le principe B a limin a et le principe D a limin va Les lettres combin es ae avaient le d savantage de rallonger des mots inutilement comme 45 est une voyelle fr quemment utilis e ex maektaep
35. thode d entr e Unicode pour Windows en 2004 R cemment Microsoft a annonc le projet d ajouter une m thode d entr e ouighour la nouvelle version du Windows Vista 7 45 Par l auteur Waris Abdukerim Janbaz disponible gratuitement l adresse suivant http www oyghan com 28 1 2 2 8 Stockage et bases de donn es Le stockage de l information multilingue et des caract res ouighours pose de nombreux probl mes Pour les n cessit s du traitement recherche de cha ne de caract res tri indexation etc le texte cod en m moire doit tre constitu d une suite de lettres abstraites stock es suivant des adresses croissantes dans l ordre de lecture c est le cas pour tous les textes Nous nous sommes donc trouv s dans l obligation pour ce document de transgresser provisoirement les normes en stockant les fragments de texte dans l ordre visuel et en codant les formes de pr sentation formes li es La base de donn es doit tre capable d pargner correctement les caract res Unicode pour impl menter l algorithme bidirectionnel appliqu aux critures s crites de droite gauche ex arabe h breu de l Unicode sur les navigateurs Heureusement la plupart des logiciels version 2000 ou sup rieure de base de donn es supportent l Unicode 1 2 3 Extension territoriale et langues not es Comme l criture ouighoure est tir e de l criture arabe elle devrait appartenir au grand domaine d
36. value EN id Input EN onChange return oc eu gt English lt label gt td lt tr gt lt form gt lt table gt lt div gt lt div id UyghurDictionaryOrgResult dir rtl gt lt div gt 87 Lorsque l utilisateur clic sur un des mots sugg r il est renvoy vers le site de dictionnaire pour voir le r sultat de recherche Ci dessous est un rapport du nombre de visiteur depuis la cr ation du dictionnaire ouighour anglais Quarterly Report 500 000 400 000 300 000 f 200 000 gt Number of requests 100 000 gt Quarter Figure 24 trafic trimestriel du site du dictionnaire image pr sent e par l outil de statistique Report Magic fourni par l h bergeur sous forme d un outil interne du site 88 Chapitre 5 Suffixes verbaux du ouighour Ce chapitre explique la d finition des r gles de suffixation de l ouighour moderne une langue turque agglutinante marqu e par une forte harmonie tant vocalique que consonantique Ce chapitre commente les variations qui en d coulent et s attache galement la correspondance entre le niveau de surface et le niveau lexical avant de se concentrer sur la morphologie et l ordre de succession des suffixes verbaux Des r gles y sont d velopp es pour permettre l extraction de donn es informatiques sur les verbes ou ghours et cr er une base pour le d veloppement d un syst me complet qui couvrirait toutes les entit
37. vide des variables positions de la 1 et 2 voyelle longueur de la chaine de caract res syllabiser premi re syllabe reste des syllabes 1 et 2 voyelle stockage du r sultat SI la longueur des voyelles de l entr e est inf rieure ou gale un ALORS retourner la chaine de caract res syllabiser telle quelle cela indique qu il n y a qu une seule ou pas de voyelle SINON r cup ration de la premiere voyelle r cup ration de la seconde voyelle r cup ration de position de la premi re voyelle r cup ration de position de la seconde voyelle SI la position de la 1 voyelle est gale la position de la lettre qui pr c de la 2 eee 11 _ Algorithme 3 Syllabisation des 1110185 5 160 Uyghur Syllablizer c 2007 Waris A Janbaz oyghan gmail com s la cha ne de caract res syllabiser v tous les voyelles de s public string UyghurSyllablizer string s string v initialisations int 1 s Length idx1 0 idx2 0 string fv sv 810 Istr rstr if v Length lt 1 s il n y a qu une seule ou pas de voyelle dans s else fv v Substring 0 1 premi re voyelle sv v Substring 1 1 seconde voyelle idx1 s IndexOf fv idx1 position de la premi re voyelle idx2 s IndexOf sv idx1 1 position de la deux me voyelle if idx1 idx2 1 idx2 viter des syllables non ouighoures Istr s Substring 0 idx2 1
38. 2 8 HIS Sisto SH Exemple de substitution des formes La ligne 2 repr sente le m me texte que la ligne 1 tel qu il s affiche en l absence de fonctionnalit de substitution dans la police On peut voir clairement que les lettres n y 65 sont pas connect es ce qui est incorrect Les substitutions de glyphes recherches de positionnement fonctions de formation et les tables Open Type de polices arabes peuvent aussi tre ajout es grace a des logiciels tel Microsoft VOLT et FontLab C WINDOWS Fonts UyTuzUni ttf Microsoft VOLT mE Project oe Bae m abc 68 e Open Save Edit Glyphs Edit Lookup Edit Group Explore Compile Proofing Tool Scripts Languages Features feference Lookups Glyph Groups Arabic lt arab gt Name Details Name Default lt dflt gt 8 d init UEM1 gt UEM2 5 Initial Forms lt init gt 8 0 fina UEM1 gt UEM4 Medial Forms lt medi gt UL2 U d lt ULAT Required Ligatures rlic ES Terminal Forms fina init x Sort By Add Comment 5 Subs gle itutio Process Marks NONE Process Base Glyphs From Glyphs gt To Glyphs UG1 lt UG2 x UNG1 gt UNG2 ULI gt UL2 UMI gt UM2 UN1 gt UN2 Context Before Context After Add Script Add Language Add Feature Add Positioning Add Substitution Add Glyph Group Remove Remove Language Feature l Ki Remo
39. Figure 9 Suffixation ke 203 Voir Taitement de la morphologie du finnois par transducteur 4 nombre fini d tat Marie Calberg 2003 142 Marie CALBERG 2003 a propos selon l analyse de Cl menceau 1996 ce mod le permet de modifier dynamiquement les cas de mise en relation de racines avec des suffixes Nous le pr sentons avec un peu de modification pour adapter a la morphologie de l ou ghour esst St Graphe A Graphe B Figure 10 Harmonie Vocalique Le graphe B doit tre appliqu apr s le graphe A afin de s lectionner un suffixe ad quat Les deux graphes indiquent le fait que la variable A doit tre r alis e par ke si et seulement si elle est pr c d e par un suffixe de voyelle m diane ik par ge si et seulement si elle est pr c d e par un suffixe de voyelle m diane ik suivi d un suffixe de voyelle ant rieure Le lt L gt correspond n importe quelle lettre de l alphabet Nous pouvons g n rer facilement les graphes correspondants aux suffixes des voyelles m dianes post rieures selon cette base nous ne les pr senterons pas dans cette tude 7 5 3 Algorithme Nous avons dit que le mod le ci dessus peut r soudre partiellement le probl me de filtrage des suffixes puisqu il n est pas applicable pour filtrer tous les suffixes Ainsi il n est pas possible de trouver toutes les formes lexicales valides en utilisant les r gles d harmonie vocalique Afin d avoir un r sultat satisfa
40. ancienne URSS et l Iran Langue turque parl e par les Kazakhs peuple turco tatar habitant la R publique du Kazakhstan et galement en R gion autonome ou ghour du Xinjiang au nord ouest de la Chine 13 turkm ne La langue la plus proche de l ouighour est l ouzbek et celle qui est la plus avanc e dans le domaine du TALN est le turc Certains mod les propos s par l Universit de Sabanci et l Universit Bilkent ont donn de bons r sultats pour le turc Grace la similarit de la grammaire et la ressemblance de la structure morphologique de l ouighour et du turc nous pouvons b n ficier de l exp rience de nos pr d cesseurs Les m thodes utilis es pour la segmentation l annotation et l extraction d information du turc permettent cependant de se rapprocher au traitement de la morphologie de l ouighour 1 3 Probl matique de la recherche L arriv e du World Wide Web dans les oasis du Takla makan et la grande utilisation d Internet ont t accompagn es d une augmentation en corollaire de la demande de nombreux syst mes d informatisations L analyse de la morphologie de l ouighour est une source de renseignements indispensable au d veloppement de nouveaux logiciels qui sont enregistr s au sein de tous le syst mes du TALN Depuis des ann es 2000 la demande d tude sur les domaines suivants se multipli s D veloppement des polices bas es sur l Unicode Langue turque du groupe nord oue
41. anglais et d autres langues Afin de mieux comprendre la morphologie des langues turques nous ferons une petite analyse en donnant des exemples Une tude parall le de toutes les langues turques est une tache qui prend beaucoup de temps Ainsi nous pr senterons que 8 langues turques afin de faire une mini comparaison des critures et de la prononciation de certains mots choisis de mani re al atoire Az ri Dun din engyp ld r MyhyM m h m Kei g y y4 oe MaHBISAbI Yu Kazakh DiH din entip ltir KOK k k mangizdi sh 5 Selon les estimations incertaines 52 Voir l annexe 4 32 AH MaaHunyy Yu Kirghiz enryp lt r KOK k k din maanil ch Tatar lH din yrep ter mehum m him 30Hrap zonggor eu c Turc Din ld r nemli g k Turkm ne AH din engyp ld r MexyM m x m rek g k yu Ouighour din lt r 1 k k Och Ouzbek IH din Yaqup o ldir MyhuM muhim KJK ko k vu uch n bleu et ou le Francais Religion tuer important iel Trois cie Tableau 1 Une comparaison de noms verbe adjectif et de chiffre Translitt rations en criture latine apparaissent apr s l criture officielle dans les parenth ses Jla Io 8 o ja j Az ri da do 8 o ya j Ia De
42. arri re mais ces deux s ries de voyelles impartissent ou transmettent un caract re ant rieur ou post rieur suivant le cas aux suffixent qui les suivent Dans cette tude nous avons tabli de mani re artificielle une diff rence entre une valeur d avant ou d arri re de ces deux voyelles On devrait aussi noter que les deux lettres peuvent tre pr sentes dans la forme lexicale d origine d un mot ou suffixe par exemple kiyim uniw rsit t t l fon t z ou r sulter d un ph nom ne connu sous le nom d affaiblissement vocalique balilar bala lar k lidu lt kel i du L affaiblissement vocalique affecte les voyelles a et e dans la syllabe finale des mots plurisyllabiques ou dans la syllabe unique d un mot ou suffixe monosyllabique lorsqu elle est suivie d une voyelle dont elles ne sont s par es que par une seule consonne Dans ce cas ce sont des allomorphes affaiblies de a Vy et e Vs Par exemple kel k ling al 153 Certains linguistes d crivent i et comme des voyelles m dianes du fait qu elles peuvent tre aussi bien ant rieures que post rieures 154 Les diff rences de prononciation sp cialement dans le cas de i sont dues l environnement de la consonne et non la valeur post rieure ou ant rieure du mot dans lequel elles se trouvent voir Spoken Ouighour Reinhard F Hahn 1991 93 gt ling s zle gt 50711810 atla gt atlighin La r gle g n rale tablie par les grammairiens
43. cas pour toutes les autres langues oubli es dans d autres plateformes L exigence de l installation de police cause des difficult s aupr s de ceux qui n ont pas beaucoup d exp rience technique et peut d courager d autres de tenter de lire le texte 72 Ces difficult s peuvent tre surmont es par 1 111011051011 des polices dans les pages web Quand une page est charg e dans un navigateur via le protocole de transfert hypertexte les polices int gr es dans la page sont galement t l charg es sans qu il soit n cessaire pour l utilisateur d intervenir Avec WEFT il est possible de transformer une police TrueType ou OpenType en police incorpor e qui peut par la suite tre int gr e dans des pages web sous forme d un objet Les tapes suivantes permettent aux d veloppeurs de cr er des pages Web qui peuvent afficher des lettres ou ghoures correctement sans intervention de l utilisateur pour installer des polices utilis es dans des pages e Pr parer les pages web en utilisant n importe quelle police install e sur la plateforme e Cr er des polices incorpor es pour chacune des polices utilis es dans les pages web en utilisant Microsoft WEFT A la fin de la proc dure de transformation des polices TrueType ou OpenType en polices incorpor es WEFT g n re un fichier avec une extension EOT Ce fichier doit tre int gr sous forme d un objet dans des pages web e Int grer les polices incorpor e
44. compte en ouighour crit RAD V K SUF K V gt RAD V K SUF K RAD V K k __ SUF K k V RAD V K q V par exemple teg gt tekken bagh 2 baqqa tugh gt tuqqan 5 5 Harmonie vocalique Dans leur ensemble les suffixes respectent l harmonie vocalique lorsqu ils sont attach s une racine M me dans des cas o ils ne sont pas affect s de mani re morphologique ils transmettent la valeur vocalique de la syllabe pr c dente La derni re voyelle dans une racine fait appel en g n ral un suffixe qui appartient la m me classe vocalique Certains suffixes sont aussi affect s par une harmonie quatre sens Il y a par contre quelques suffixes forts qui changent la valeur d avant ou d arri re de la chaine de suffixes qui les suivent en fonction de leur propre valeur d avant ou d arri re Finalement quelques suffixes que nous qualifierons de vocaliquement neutres ne sont pas affect s par l harmonie vocalique et n en transmettent aucune Ils se trouvent g n ralement retrouv s en position finale ou devant un auxiliaire Les r gles ci dessous s appliquent lors de la s lection des suffixes 1 Harmonie deux sens une voyelle d avant fait appel une voyelle d avant et une voyelle d arri re fait appel une voyelle d arri re Vo SUF A e ant rieur i ant rieur 6 e Par exemple k l Ar gt k ler kel mAK gt kelmek kel KAn gt kelgen y lAr yler
45. e sortie de localiser la disposition des touches du clavier et de remplacer des glyphes de polices arabes afin d impl menter des traitements multi critures e D veloppement des logiciels d application et r seaux 1999 aujourd hui L avancement dans plusieurs disciplines a apport des r sultats favorables la croissance des technologies de traitement de l information ouighour Les innovations les plus appr ci es de cette poque ont t une multitude de m thodes d entr e pour Win 98 2000 NT XP Vista de logiciels d enseignement assist par ordinateur de logiciels S 1 i s 8 d iS ASS orient s par objet de sites internet de polices Unicode de convertisseurs d criture 3 Le Groupe National 863 est sp cialis dans le domaine de la recherche scientifique de la haute technologie sorte de CNRS chinois qui n utilisent malheureusement pas un standard de codage de glyphes dans la police cause de la difficult d affichage correct des formes initiale m diale finale et isol des 3 caract res ouighours et manque de support des caract res ouighours sous Windows 95 98 etc En plus il tait plus facile de remplacer des glyphes arabes dans la police avec des glyphes ouighours et de contr ler la disposition de la m thode d entr e existante que les inventer partir de z ro Comme il n y avait pas d accord commun pour le remplacement des glyphes arabes avec des glyphes ouighours chacun a d velopp
46. en ouighour 5 Alfred Morer Grammaire de la Langue Turque th orique et pratique 8 dition 1986 6 Office qu b cois de la langue frangaise Revue d Am nagement Linguistique Num ro 106 t 2003 Saint Laurent Canada ISSN 1706 3515 7 Serge Viallet Oasis perdues des Routes de la Soie CD ROM Paris 1995 R union des Mus es Nationaux code bar 3 336725 000122 8 Jean Paul Roux Histoire des Turcs 1991 France Fayard ISBN 2 213 01491 4 35 65 7268 0512 9 Haji Nurhaji Qedimki Uyghurlar we Qaraxaniylar r mchi 2001 Shinjang Xelq Neshiryati ISBN 7 228 06389 9 K 927 en ouighour 10 Reinhard F Hahn Spoken Uyghur Washington 1991 the University of Washington Press ISBN 0 295 97015 4 11 Abdush k r Muhemmetimin Qedimki Merkiziy Asiya r mchi 2002 Shinjang Xelq Neshiryati ISBN 7 228 06737 1 en ouighour 12 Rehmetjan Imin Uyghur tili r mchi 2001 1 qisim Shinjang Xelq Neshiryati ISBN 7 5370 3521 0 en ouighour 13 Abdul tip Tashpolat Uyghur tili r mchi 2001 2 qisim Shinjang Xelq Neshiryati ISBN 7 5370 3520 2 en ouighour 169 14 Abdul tip Tashpolat Uyghur tili r mchi 2001 3 qisim Shinjang Xelq Neshiryati ISBN 7 5370 3517 2 en ou ghour 15 Christian Baylon amp Paul Fabre Initiation la linguistique Paris 1990 dition Fernard Nathan ISBN 2 09 190765 9 16 Sh U A R Tilkom Hazirqi zaman Uyghur edemiy tilining
47. en compte toutes les wey HMA voyelles 5 5 35 35 95 45 6 en utilisant des d riv s des lettres arabes 49 exemple et a t affaibli au point d tre rien de plus qu une pause En g n ral il apparait dans des mots d origine arabe et remplace un ain ou un hamza dans la position m diane ou finale ex de l arabe de l arabe de l arabe Ji 53333 de l arabe Le hamza au dessus d une dent utilis dans un tel contexte de mani re traditionnelle n est pas vu comme tant une lettre diff rente mais comme tant une orthographe sp ciale dans les positions m dianes et finales Dans la plupart des transcriptions latines la pr sence d une pause et donc d un hamza par dessus une dent dans un mot est indiqu e par l usage d une apostrophe Le XSLC a choisi de suivre la m me tradition pour ses r gles d orthographe En m me temps il a t jug non n cessaire d en faire ainsi dans les cas o il y a deux voyelles s quentielles ex qaide aile saet L apostrophe marquant une pause est donc r serv dans LSU aux cas ou 1 une voyelle est s par e d une consonne par une pause ex qet i Qur an 2 Les deux lettres n et g doivent tre lues s par ment et non comme n dans Jn gliz anglais baslan ghuch Hin gan 3 Les deux lettres s et h doivent tre lues s par ment Is haq Isaac 4 Les deux lettres ng
48. issues du tuc ancien et encore parl es par plus de deux cent millions de locuteurs naturels et divis es en cinq familles principales Oghour Oghouz Kiptchak Ouighourique et Sib rien Apr s le cinq famille toutes ces langues partagent Turkm ne Turc du Khorasan Afshar Qashqai Aynallu Koumyk oues nord Tatar de Kazan Karatchai Balkar Michar Tatar de Crim e Bachkir Tatar de Sib rie occidentale Urum Krymtchak Karaim Kazakh Karakalpak Kirghiz Kiptchak ouzb que Noghai oues Ouighour Ouighour jaune Salar Tuvinien Tofa Khakasse Fuy Girgis Shor Choulym Oirot altai Tuba Cumanda Qu Teleut Telengit nord Yakoute s akha Dolgane les m me caract ristiques d agglutination et l exception de l ouzb que d harmonie vocalique Cet arbre est inspir de la classification pr sent e par Lars Johanson 1998 voir http en wikipedia org wiki Turkic languages 190 Liste des verbes primitives e 3 1 3 1 1 3 ETE TCC ECT ET 0 3 e EC s Ug ee ae dan M H 5 2 5 2 R 5 5 2 2 E Ly SE ia S EM X X h h 3 4 3 Q t 8 MA 3y 1 4 4 4 4 A d 1 y 3 3 j 5333 329 7 329379951 3 7 2 5 DE 8 1322533531 mu 33 G uU 2 oU 39 3
49. les applications de conversion multi criture et les m thodes d entr es a deux niveaux au niveau du syst me d exploitation et au niveau de l explorateur Les commentaires des utilisateurs semblent indiquer que cette premi re recherche sur le traitement de l ouighour a eu des r sultats satisfaisants Les polices int gr es pour le web g n r es par un logiciel tiers WEFT sont uniquement compatibles avec Internet Explorer Nous attendons donc avec une certaine impatience que l industrie informatique fasse les efforts n cessaires une plus grande compatibilit Nous esp rons pouvoir am liorer le module de pr traitement de l outil de conversion afin de le rendre plus convivial Nous avons d velopp un dictionnaire en ligne afin mettre en valeur les r sultats de nos tudes sur l impl mentation des solutions pour du traitement de la langue ouighoure sur le web Les commentaires des utilisateurs du dictionnaire et le nombre des visiteurs du site sont tr s encourageants Cependant un probl me reli la suggestion des mots cl s lorsque le mot cl saisi par l utilisateur n a pas t retrouv est le fait qu il s agit d une langue agglutinante un obstacle majeur dans le d veloppement d une fonctionnalit de correcteur orthographique et qui est rendu plus complexe par le foisonnement de suffixes le ph nom ne unique l ouighour des changements orthographiques pouvant affecter les racines de mots en pr sence de suff
50. morphologique Dans les langues agglutinantes les mots comportent plusieurs unit s ensemble et ils sont en g n ral complexes car ils se composent d une s rie de morph mes concat n s sans s par es par un espace comme un chapelet Traditionnellement la segmentation prototype a t r alis e l aide des espaces et des marques de ponctuation Par exemple 136 B D T da Uyghurlarning wekili Segmentation yoq Il n y pas de repr sentant des ouighours l ONU Figure 3 Un exemple de segmentation Dans cet exemple nous mentionnons que l analyseur ne prend pas en compte la r gle de l abr viation ouighoure Autrement dit le B D T ne devrait pas traiter comme trois mots s par s malgr l existence d espaces entre les lettres De plus tant donn les dispositions des langues agglutinantes l ouighour exige un autre niveau de segmentation plus avanc pour repr senter un ensemble d tiquettes repr sentant le comportement morphologique du mot Par exemple le mot Uyghurlarning peut tre encore d couper en trois unit s pour montrer la racine Uyghur le nombre lar et le g nitif ning Ainsi le r sultat d analyse morphologique du mot e Uyghurlarning est N PL CAS Afin de r soudre ce probl me de segmentation et de proposer un analyseur morphologique qu
51. place d un g n rateur lexical bas sur les r gles morphologiques de suffixation de l ouighour e D veloppement d un analyseur et explorateur de suffixes e D monstration d extraction de l information e Impl mentation d un parseur et un correcteur d orthographe Mots cl s Langue agglutinante suffixe analyseur criture Unicode police encodage m thode d entr e extraction parseur correcteur d orthographe dictionnaire en ligne convertisseur Abstract This study presents the characteristics writing systems and structure of Uyghur language by doing a linguistic study Our approach will consist of new trial models that facilitate the development and realization of Uyghur software tools and contribute to the Uyghur information technology More precisely our study consists of four phases Firstly we are going to present the main issues of the study characteristics of the language and its writing systems especially the unification procedure of the Latin Script Uyghur Secondly we briefly introduce some basic notions for the retrieval of information and we will do a demonstration of named entities retrieval using an extraction tool in order to test concepts and theories that we are proposing Then we will discuss linguistic issues mainly on the agglutinative aspect and morphological suffixation rules which are applied during the implementation of prototype tools proposed in this study Finally we underline problem
52. pour mektep cole Le m me a t dit de l utilisation de l apostrophe apr s un a qui a t propos afin de suivre l exemple de l ouzbek latinis afin d indiquer une lecture variante des lettres latines g et o cole devrait alors s crire ma kta p D ailleurs l utilisation de l apostrophe aurait pu aboutir des ambig it s comme nous allons le voir apr s Un certain nombre de personnes tait en faveur d utiliser la lettre e Mais comme est l une des trois voyelles ant rieures de l ouighour beaucoup pensaient qu il serait mieux d utiliser d pour le transcrire afin d avoir une opposition visuelle syst matique entre les voyelles post rieures a o u et les voyelles ant rieures 0 0 0 comme dans les cas du hongrois et du finnois Ils pensaient que e devrait tre utilis pour A d j transcrit comme e en PNSU Ce sont des consid rations de fr quence qui ont men l adoption finale de la solution du turc e D apr s Alim Ahat de la compagnie Uighursoft www uighursoft com appara t 67 121 fois 4 06596 dans un corps de dictionnaire de 1 651 130 lettres alors que y apparait 13 037 fois 0 790 45 e Puisque e n tait plus disponible voir ci dessus le choix devait se faire entre i et Le principe A a limin 7 En fin de compte a t choisi puisque l accent tait d une utilisation plus ais e que le tr ma une seule marque diacritique au
53. que les fonctionnalit s de chaque module doivent tre clarifi es Pre traitement une tape tr s importante dans la conversion Elle inclut pr server des l ments qui devraient rester inchang s apr s la conversion Par exemple lors que nous convertissons le texte LSU Men Photoshopni yaxshi k rimen J aime Photoshop en ASU nous devrions obtenir Photoshop et vice versa Mappage des H caract res cr e une matrice du style B devient va matrice pour chaque combinaison d critures Un total de trois matrices sera cr LSU lt gt ASU CSU ASU CSU 7 LSU Conversion de caract res utilise les trois matrices afin de convertir entre les trois alphabets D sambiguisation Ce module est n cessaire lors de la conversion de LSU ASU et ou CSU cause des fautes d orthographe ou cause de probl mes dus la difficult de taper les diacritiques du LSU sur certains claviers Fr quemment les lettres O U E 6 et sont remplac es par O U E o u et e Ceci peut causer des erreurs fatales Par example lt r sh tuer olturush s asseoir faire la f te terim yer terre fertile terim yer qui mange ma transpiration y tim orphelin yetim faute d orthographe 134 C est le cas pour les liens hypertext les tags HTML et les noms propres 76 D ailleurs les fautes d orthographe caus s par le non respect des r gles du LSU
54. s lexicales de la langue ouighoure L objectif final de cette recherche en cours est de proposer une approche linguistique plut t qu une approche traditionnelle par laboration de corpus corpusing pour le traitement automatique de la langue ouighoure TALO Celle ci pourra son tour tre appliqu e la mise au point d un logiciel de correcteur orthographique qui utiliserait un corpus lexical minimal compl t par des r gles compl tes de suffixation pour usage dans le traitement de texte et la reconnaissance optique de textes en ouighour Ce logiciel pourrait tre adapt plus tard pour des langues similaires telles que l ouzbek le kazakh ou le kirghiz 5 1 Introduction L ouighour moderne crit varie du ouighour parl puisqu il est une repr sentation phon mique plut t que phon tique de la langue parl e standard La distance qui existe entre la forme crite et la prononciation r elle de la langue ainsi que l existence de dialectes causent de fr quents probl mes d orthographe Plusieurs r formes de l alphabet et de l orthographe ont t tent es au cours de la deuxi me moiti du vingti me si cle mais le plus souvent plut t que r soudre le probl me elles l ont aggrav Un certain nombre 140 Pour une description d taill e de la prononciation et de ses complexit s voir R F Hahn Spoken Uyghur 14 par exemple aptobus g n ralement prononc awtowuz Voir J R Duval Modern Uyghur a Historical Pe
55. sen etc n apparaissent qu une fois ils sont regroup s vers l arri re du tableau Le suffixe di ti du tu dur pr c dant le pronom personnel final dans certains cas ex forme interrogative personnelle em am di men forme honorifique di e la etc semblent tre une survivance du chaghatay dur et ne sont pas un l ment interne du pronom personnel final Ils sont donc not s dans des colonnes s par es k l i 0 men mais k l i du 0 k l i 0 men mais k l em di men 132 Chapitre 7 Extraction de l information ouighoure 7 1 Les outils d extraction Ces derni res ann es de nombreux logiciels sur le traitement automatique de la morphologie des langues naturelles ont t d velopp s Ils permettent de comprendre ou de constituer des composants linguistiques tels que les analyseurs morpho syntaxiques et les syst mes de d sambiguisation lexicale s mantique Nous souhaitons mentionner quelques outils existants INTEX Laboratoire LASELDI un analyseur de corpus bas sur l utilisation de ressources lexicales tr s large couverture Il comprend plusieurs dictionnaires lectroniques et des grammaires repr sent es par des graphes tats finis Les utilisateurs peuvent ajouter leurs propres ressources au syst me Ces outils sont utilis s sur des textes pour localiser des structures lexicales et syntaxiques et galement pour lever l ambigu t et l tiqueter des mots simples ou compos s Max SILBER
56. sont un probl me assez fr quent Il est donc souvent imp ratif de passer par une tape de 1 1 correction d orthographe Cette fonctionnalit de l outil de conversion multilingue que nous avons publi sur internent est encore en cours de d veloppement Nous avons impl ment deux outils de conversion bas s sur la structure d crite dans e 1 3 la figure 9 un barre d outil pour Word et un outil en ligne Les images suivantes aideront mieux comprendre les fonctionnalit s de ces outils Oyghan com Toolbox for Word v 1 0 T 5 ASU LJ Lsu FA UzNU g Keyboard Layout amp LSU Table C2 Oyghan com 24 v DI en sai amp 9 E Gloss Figure 10 Vue du convertisseur multi criture sur Microsoft Word Pour convertir d une criture vers l autre il suffit de cliquer sur le bouton qui appelle le proc d de conversion Oyghan com Toolbox for Word v 1 0 TX 5 asu U LSU Ea U2NU S3 Keyboard Layout g LSU Table C2 Oyghan com EE Figure 11 vue avant conversion du texte s lectionn de l ASU vers la LSU 135 Version demo disponible en ligne http www uyghurdictionary org tools asp version hors ligne sous forme de logiciel plug in pour Microsoft Word http oyghan com OTB index html 136 Cet outil a t mis en ouvre ave
57. suivie d une s rie de suffixes Un parseur ou ghour doit pouvoir identifier la racine k ch et chacun des suffixes qui la suivent avec leur repr sentations morpho syntactiques Les suffixes devront tre d coup s en le n dirt el mey wat qan lirtingtlart ning ki din mu le signe indique la fronti re entre deux suffixes Voir le chapitre 6 pour plus de d tails sur les informations s mantiques et les r glements linguistiques Dans les paragraphes suivants nous expliquons les sp cificit s d un parseur ouighour 8 3 Pr traitement La premi re op ration qu un parseur effectue sur l objet de traitement est sa fragmentation en entit s distinctes Un objet de traitement est une cha ne de caract res initiaux qui peut tre par ordre de volum trie d croissante un texte un paragraphe une phrase ou une entit Une entit est une unit de taille sup rieure celle d un mot simple Elle peut tre un mot compos ou une expression compos e de plusieurs mots Nous consid rons comme mots les entit s qu un programme est capable d identifier Avant d entrer dans la proc dure d identification des entit s distinctes il est important de faire un nettoyage afin de diminuer la charge de traitement Nous tudions ce pr traitement en trois tapes 8 3 1 La segmentation en mots Dans une phrase on trouve des mots des espaces des chiffres et des signes de ponctuation Au sens strict on peut dir
58. tude nous donnons la d finition suivante l information est la partie profitable dont les utilisateurs ont besoin en priorit et en particulier dans un document archiv 7 http www olats org schoffer definfo htm 18 1 1 3 D finition d extraction d information Depuis que les ordinateurs sont apparus des milliards d informations y ont t enregistr es dans plusieurs bases de donn es dans divers domaines de connaissances et sous diverses formes textes images son vid o etc Etant donn que les ressources informationnelles sont de plus en plus accessibles aux utilisateurs personnels le principal probl me aujourd hui est de savoir comment acc der a l information dont on a besoin L extraction d information consiste remplir automatiquement des formulaires ou une banque de donn es partir de textes crits en langue naturelle Elle s oppose classiquement la recherche documentaire qui vise retrouver dans une base de documents un ensemble de documents pertinents au regard d une question L extraction met en oeuvre une analyse du texte pour interpr ter et construire une repr sentation formelle qui permettra d apporter automatiquement des r ponses pr cises l utilisateur Ph Bessi re amp A Nazarenko amp C N dellec 2002 Lorsque l analyse est automatique la machine extrait l information pertinente contenue dans un objet en s appuyant sur les l ments textuels de l objet La t che
59. voyelle et une consonne VC At cheval on dix y maison al ma pomme 3 Une consonne suivie d une voyelle CV Bu ce cho ka baguette m we fruit pel to manteau 4 Consonne voyelle consonne CVC Mek tep cole lesh ker soldat tam gha tampon mis kin triste 5 Une voyelle suivie de 2 consonnes VCC Eyt v dire ast sous st sus erz p tition 6 Une consonne et une voyelle suivies de 2 consonnes CVCC Xelq peuple dost ami e ders le on Les 6 types de structures ci dessus sont les formes les plus courantes et r guli res de la construction des syllabes ouighoures Il y a aussi 5 autres formes qui sont utilis es plut t pour les mots d emprunt r cents A savoir CCV CCVC CCVCC CVV CVVC Ils ne suivent pas le r glement g n ral de segmentation des mots en syllabes Par exemple 115 pla n r r nnaH p planeur gram ma ti ka r TPaMMaTuka grammaire stansiye r cranna gare tran sport transport front front jung xua ch zh nghu Chine sh yiien ch Zb xu yuan coll ge Notons en passant que dans la langue parl e ces mots sont transform s pour se soumettre aux formes syllabiques et aux r gles de prononciation traditionnelles en pitlatner 8171811111118 1 117 163 is tan sitye ti ra nis port pitront jung xa sh yen Cette notion de la syllabisation est tr s utile au TAL ou ghour plus particuli rement po
60. 1 It has 70 000 entries and is still growing but remember only Allah is perfect Internet Figure 13 Convertisseur multi criture en ligne entre ASU lt gt LSU gt CSU ASU non Unicode Les convertisseurs multi critures pr sent s ci dessus ne sont pas de nature linguistique Il ne faut pas les confondre avec des outils de traduction automatique Ils sont donc des outils de translitt ration con us pour une langue comme l ouighour qui utilise trois syst mes d critures et ils se contentent de convertir un texte crit dans un alphabet 78 vers un autre Cependant cette m thode peut tre appliqu e 3 n importe quelle langue turque qui pr sente la m me caract ristique de polygraphie que l ou ghour 3 9 Evaluation et d veloppement d un dictionnaire en ligne Afin de mettre en pratique l ensemble de technique pr sent e dans ce chapitre nous avons mis en ouvre un dictionnaire ouighour anglais en ligne en utilisant 70 120 entr es pr liminaires du dictionnaire ouighoure anglais compil es depuis 22 ans par Dr Jean R Duval Nous exposons en les points importants dans les sections suivantes 3 9 1 Affichage des lettres ouighoures Les lettres ouighoures sont affich es en utilisant une des polices Unicode les plus utilis es parmi les internautes ouighours UKIJ Tuz Tom Prenant en compte des utilisateurs qui ne savent pas comment installer des polices nous avons appli
61. 1 2 2 3 Extension territoriale et langues not es EE 31 2 3 La sp cificit de l ouighour 32 2 4 Un regard sur les langues turques eessen ee eee e eee eee EE EE EE eee eoe KEE sos e sse sese se soe sese esee EE KEE KEE KEE KEE ve eeee 33 CHAPITRE 3 UNE INTRODUCTION A L ECRITURE OUIGHOURE LATINE 38 A 3 1 1100 00 0 0001 E SC 3 2 UE Or UE ENTE EER E 10 3 3 Principes de base utilis s dans la cr ation du LSU 1 ecce ee eee eee ee ee eese ee eese osse sese ee ssec sesso sscccesse 44 3 4 3 5 3 6 3 7 Lettres ne posant pas de probl me particulier e eee eee ee ee ee ee eee eee eee e ene e esee sess ee sscceesseeseseeesscceess 47 Lettres probl matiques et d cisions e eee ee ee e ee eee e eee e ee eese eoe e sess 7 R gles d orthographe du LSU 4 ee ee ee eee eee ee ee eee e ee eese see osos e soe e sess ee KREE sse esso ee sscesesseesssseesseesess 53 Statut actuel et perspectives futures ees eee eee ee ee ee eee e eee ee EE EE KEE 55 CHAPITRE 4 TRAITEMENT DE LA LANGUE OU GHOURE 57 4 1 4 2 44 4 5 4 6 4 7 4 8 4 9 Introduction XY X 1 11156011006 e 57 Autres sources de probl mes eee e ee ee ee eee e eee ee ee
62. 35948 995545 c s TT TITTY 3 s 2 2 su e 3 a 5 TT 2 DE Aa 3 3 191 2 v D 3 gt d 3 D Ae d Ar Ar WG KL a 5 3 Je 1 PM a 3 3 3G X Y 3 3 d D a d 3 a a EI 30 9 Ce bs a Ye T ble ME D A A ve D 192 t Ee Fey FFF 182 193 ae 6 G G 6 6 6 LA lt uU E LA Ka Z iC Ka D LF D c E lt D E D lt 3 D c lt H 54 D D H G H e C D D D H E 5 4 D 1 1 F 4 D F D t E D p e f C i Qe
63. CV qay polite imperative CW gin CX kin CY ghin CZ qin imperative DA sun DB ey DC y DD ay DE y habitual past DF et DG yt DH at DI yt future DJ i DK y future participle DL dighan DM dighin positive speculative future DN er DO r DP ar DQ r negative speculative future DR s DS s conditional DT se DU si DV sa DW si deverbal agent noun adjective former DX chi DY chi DZ ch EA ch privative EB siz substantive adjective former EC lik ED l k EE liq EF luq pre past tense auxiliary interrogative particle EG m neutral auxiliary used for past tense formation EH i perfective past El di EJ ti EK d EL t EM du EN tu euphonic EO i EP i EQ ER u personal possessive 181 ES m ET m EU ng EV ng EW ngiz EX ngiz EY i EZ si FA i FB si FC miz FD miz FE k FF q FG nglar FH liri FI liri relative locative FJ diki FK tiki FL diki FM tiki plural FN ler FO lir FP lar FQ lir person possessive after plural FR im FS im FT ing FU ing FV ingiz FW ingiz FX i FY i FZ imiz GA imiz GB inglar locative GC de GD di GE te GF ti GG da GH di Gl ta GJ ti dative GK ge GL gi GM ke GN ki GO gha GP ghi GQ qa GR qi ablative GS din GT tin accusative GU ni genitive GV ning pronominal genitive GW ningki declarative GX dur tur kelmektur yoqtur present future tense GY du neutral enclitic GZ di suppositional
64. Des travaux sur les racines nominales et les r gles de d rivation doivent encore tre effectu s avant de pouvoir parvenir la mise au point de logiciels pour l ensemble du lexique ou ghour e Parseur et correcteur d orthographe Apr s une br ve analyse des correcteurs d orthographe ou ghours existants nous avons expliqu pourquoi une nouvelle approche tait n cessaire pour couvrir tous les mots th oriquement possibles dans des outils de traitement automatique de la langue ou ghoure plus particuli rement dans un outil de correcteur d orthographe Ensuite nous avons tudi le fonctionnement d un parseur et des op rations qu il effectue sur les objets de traitement 167 pendant le processus de pr traitement Nous avons adapt les deux types de recherche classique progressive et d gressive l identification de la racine Nous avons r ussi r utiliser les r gles de suffixation d finies pour notre g n rateur de lexique voir chapitre 5 9 3 pendant l tape de d suffixation afin de trouver facilement la racine des mots hautement suffix s Nous avons cr un algorithme qui permet de syllabiser des mots ouighours selon les r gles lexicales Enfin dans une phase d exp rimentation les m thodes mentionn es ont t impl ment es dans un outil prototype de v rification d orthographe des d riv s verbaux des fins de v rification pratique L outil complet n a pas encore pu tre m
65. Interdite de P kin http the_uighurs tripod com Scrpt htm http www omniglot com writing orkhon htm voir annexe 2 33 Voir annexe 2 23 Extrait de Lettre officielle en ouighour Khotan ca 948 Manuscrit encre sur papier H 28 cm L 37 cm Mission Pelliot 1906 1908 Ming Oy Paris Biblioth que Nationale de France l criture arabo persane XI aujourd hui Apr s l introduction de l Islam les Ouighours ont adopt l criture arabe qui a cohabit avec l criture ouighoure ancienne jusqu au XVII me si cle Le Grand dictionnaire des langues turques T rkiy Tillar Diwani de Mahmud Kashgari a t crit au XI me si cle en criture arabe S adaptant progressivement la r alit phon tique des langues turques cet alphabet a volu pour donner naissance un syst me d criture arabo persane capable de transcrire tous les l ments tymologiquement fort diff rent de la grande langue litt raire commune tous les peuple d Asie centrale jusqu au d but du XX me si cle appel e tchaghatai Depuis le d but du XX me si cle une s rie de r formes successives visant rendre l criture plus proche de la phon tique de l ouighour et a lui faire refl ter plus fid lement les sons de la langue parl e a abouti la mise au point progressive de l criture actuellement en usage parmi les Ouighours hors du territoire de la Communaut des tats Ind pendant ex Union sov
66. K chlend relmeywatqanliringlarningkidinmu Correspond une phrase fran aise compl te Sont ils parmi ceux que tu es incapable de renforcer La racine dans ce mot est k ch force pouvoir qui contient une voyelle ant rieure arrondie La suite de suffixes ajout s la racine se pr sente comme le n di r el mey wat gan lir ing lar ning ki din mu le symbole marque une fronti re de suffixe Chaque suffixe modifie l information s mantique de la racine Pour tre plus pr cis e cr e une forme verbale d harmonie vocalique post rieure n donne un verbe r fl chi diir g n re la forme factitive d une racine d harmonie vocalique ant rieure apr s une consonne sonore e est la forme du potentiel des verbes d harmonie vocalique ant rieure et est suivie du suffixe n gatif d harmonie vocalique ant rieure mey wat est un marqueur aspectuel temps continu qui joue un r le de 148 transformateur vers l harmonie vocalique post rieure il est suivi du marqueur de participe pass de participe pass de voyelle post rieure gan dont la consone initiale sourde correspond la consonne finale sourde du marqueur pr c dent ir est la marque du pluriel de voyelle ant rieur affaiblie suivie de ing la seconde personne singulier de voyelle post rieure ar est la marque du pluriel de voyelle post rieure ning est la marque vocaliquement neutre du g nitif ki est un relatif voca
67. La recherche d gressive n est pas la proc dure optimale pour trouver la racine des mots hautement suffix s parce que 1 8180111111116 de recherche utilise beaucoup plus de temps que dans la recherche progressive pour arriver jusqu a la racine 8 4 3 Analyse de s quences modifi es Deux ph nom nes de transformation doivent tre pris en compte 1 affaiblissement vocalique 2 lision de consonne Le premier qui se manifeste par la r duction des voyelles a et e eni ou en e dans certains contextes peut affecter la racine aussi bien que les suffixes Le second n affecte que les verbes primitifs se terminant par la consonne lorsqu ils sont suivis du suffixe ip up lui m me r duit un simple p Lorsque la consonne lid e est r tablie la fin du verbe primitif la r gle d affaiblissement vocalique s applique de nouveau et conform ment celle ci le a ou le e qui la pr c de est affaibli en ce qui donne avec le suffixe ip la m me forme ip dans les deux cas Ils peuvent tre d tect s gr ce aux algorithmes suivants 223 Voir 5 3 Voyelles et 5 8 R gles de suffixation et cas sp ciaux pour les d tails 157 D but extraire les voyelles de l entr e initialisation vide des deux formes affaiblies possibles SI le nombre des voyelles n est pas z ro ALORS r cup rer la derni re voyelle SI la derni re voyelle est i ALORS r cup rer l index de la derni re voyelle dans
68. Saoudite voir figure 3 sans raison particuli re puisque nous aurions aussi bien pu le faire avec n importe quel autre IME arabe sans que cela ait de s cons quences particuli res Une fois l IME ouighour install nous pouvons saisir des lettres ouighoures dans n importe quel endroit qui permette de saisir du texte en choisissant une des deux dispositions du clavier propos es Si epar PF E v BAIS GFP FIG AED ei d 3 07 a mA 13 Figure 6 IME ouighour sur la barre de langues Windows Nous pr sentons ci dessous le proc d de contr le qui capture et modifie les v nements de clavier d entr e les caract res ouighours BI aussi appel s param tres r gionaux Ce sont un ensemble de d finitions qui permettent au logiciel d afficher les donn es selon les attentes culturelles et linguistiques propres la langue et au pays de l utilisateur savoir le type d criture le type de virgule la repr sentation des chiffres le format de la date et de l heure les unit s mon taires l encodage par d faut l ordre alphab tique des lettres qui peut diff rer selon les r gions voir http fr wikipedia org wiki Locales 71 D but Initialisation du proc d de contr le des v nements du clavier SI la m thode d entr e ou ghoure est s lectionn e ALORS Capturer l v nement keypress keyup keydown du clavier TANT QUE la touche frapp e correspond des lettres ou signes de ponctuation ou gho
69. Sh Am rika Qoshma Shtatliri les Etats Unis d Am rique Sh U A R Shinjang Uyghur Aptonom Rayoni 5 Les unit s de mesure et autres abr viations internationales ou marques d pos es sont crites telles que dans la langue d origine m me si cela implique l utilisation de lettres qui ne sont pas dans la liste des lettres du LSU Exemple cm kg kv VCD MTV Microsoft Linux 6 Comme discut ci dessus l apostrophe indique une division en syllabes lorsque celle ci n est pas apparente c est dire lorsqu une voyelle ne forme pas une syllabe avec la consonne pr c dente L apostrophe est aussi utilis afin de diff rencier la lettre ng du groupe de consonne n g et la lettre sh du groupe de consonne s h Finalement on utilise aussi l apostrophe afin d indiquer une pr sence tymologique d un arr t glottal final dans quelques mots classiques A la diff rence du hamza en ASU il n est pas utilis entre les voyelles afin d indiquer une division entre les syllabes puisqu il ne peut y avoir qu une voyelle dans une syllabe Il faut noter que dans des mots directement import s du chinois et comportant les groupements phon tiques en comme dans la devise chinoise Y en OU sh y en institut et and gowuy en conseil d tat et hua comme Jungxua chinois le ASU n a pas de hamza intervocalique transformant ainsi ij et u en semi consonnes Le traitement LSU de
70. Structure syllabique 4 e eee e ee ee eee e eee e ee e ee e ee see ose ones ones soe e so se so se sese sese is sensro Geese eee eases 117 6 3 1 Composition syllabique sisi reete a OS E tie e RT 117 6 3 2 R glement de segmentation sellabtoue ses 119 6 4 Structure morphologique enee eee e eee e ee e e ee EE EE eee see soe KEE onse EEEEEEEEEEEEEEEEEE EE KEE EE KEE KEE Keeser ene 120 6 4 1 L aspect agglutinant des Langues 120 64 2 Type des l ments ageT tinants oie eee eerte eet ecinan 122 6 4 3 Composition des mots ouighours isosceles ius 125 6 5 Constitution des noms ce eee eee eee eee ee ee esee EE EE EE es 127 6 5 T Suffixes d nvauts de noms ie teri tore eee d e ee ree ve ve ean dee Ee ve dv ea eu de 127 6 5 2 Suffixes syntactiques de MOM s n ei ves entro eet eck thas oe och eaves ou ede de Mace vad bind EENS ceeded Vases oe 131 6 5 2 Berl 131 6 5 2 2 La 000001 E dte irre ta eee ate eso aoa 122 60 5 2 3 EE 133 6 5 2 4 L ordre des suffixes de nombre de possession et des cas 134 6 6 Radical sn ee aS 134 CHAPITRE 7 EXTRACTION DE L INFORMATION OU GHOURE 137 7 1 Les outils d extraction Lees eee e eee eee eene eee eee eese ense ee ose ss eese soe s sos s esses sess esos se soseso osse sss sesscsessseesssesess 137 7 2 Deux types d extraction eee ee ee ee ee eee e eee eee EE EE eee see ons
71. T Temps V Verbe VMI Imp ratif VIP Imparfait 185 Groups des suffixes verbaux Name euphonic vowels euphonic consonant reflexive first passive second passive aspectual auxiliary first collective second collective factitive potential negative repetitive connective purpositive simultaneative interrogative infinitive substantiative desiderative participial past adverbiative polite imperative imperative habitual past Abr EuV EuC REF PAI PA2 VAA CO1 CO2 FAC POT NEG REP CON PUR SIM IN IN SU d d D DES PPA ADV IMI IMP PHA Suffixes 1 u y S wet w t wer w r wal wel wat sh sh d r t r dur tur ele eli el ala ali al me ma mi e a p yY W gili kili ghili qili gech kech ghach qach em am m mek mik maq miq sh ghu qu g k ghay qay gey key ghan qan gen ken gin kin ghin qin s ri ghay qay gey key sun ey ay y et at yt 186 future future participle positive speculative future negative speculative future conditional deverbal n adj former deverbal substantive former privative Pre past tense interrogative particle vowel neutral auxiliary perfective past possessive relative locative plural locative dative ablative accusative FUT PFU SFP SFN CND DVN DVS PRV INP VAT TPP
72. Ta Te Fa re Ka Ke Kazakh da de ta te gha ge qa ke Ja He 0 1 Ta Te TO TO Ta re rO rO Ka Ke KO KO Kirghiz da de do d ta te to t ga ge go 96 ka ke ko k jla Ja Ta TO Ta T9 Ka K Tatar da do ta to ga go ka k Turc da de ta te a e ya ye J ge a 3 Turkm ne da de ra 43 GL 02 do Le WER EA AER 45 Ouighour da de ta te gha ge qa ke qe ka 33 ga ra Ouzbek da ga Fran ais dans prep prep Tableau 2 Une comparaison des pr positions Les translitt rations ou quivalences en criture latine apparaissent dans la 2 ligne A partir de cette base nous pouvons former des nouveaux mots en rattachant des morph mes Par exemple Kazakh turc ou ghour traduction dans la Dun xa din da din da din da religion N LOC Turc ouighour ouzbek traduction bleu au g k e 4St k6k ke ko k ga ciel N DAT Tableau 3 Formation d un nouveau mot en plusieurs langues On remarque que dans le premier exemple que les trois langues utilisent le m me suffixe da Par contre dans le deuxi me exemple chacune des langues utilisent des suffixes vari s Cette variation naturellement multiplie la diff rence de la prononc
73. UNIVERSITE DE PARIS VIII VINCENNES SAINT DENIS U F R Langage Informatique Technologie N attribu par la biblioth que TH SE pour obtenir le grade de DOCTEUR DE L UNIVERSITE PARIS VIII Discipline Sciences de l information et de la communication Pr sent e et soutenue publiquement par Jean BAUDOIN Waris Abdukerim JANBAZ Waresijiang ABUDUKELIMU Octobre 2009 Titre Recherches sur le traitement informatique d une langue turcique agglutinante l ouighour Directeur de recherche Imad Saleh Universit Paris VIII Jury Mohamed Hassoun Prof ENSSIB Said Tazi MCF HDR Universit des Sciences Sociales Toulouse 1 Khaldoun Zreik Prof Universit de Paris VIII Mohamed Quafafou Prof Universit de la M diterran e Jean Rahman Duval Dr Expert linguistique OCDE Imad Saleh Prof Dir Universit de Paris VIII A mon people et ma langue menac s Remerciements Ma plus grande gratitude va a Monsieur Imad Saleh directeur du D partement Hyperm dia de l Universit Paris VIII qui m a accord sa confiance en acceptant d tre mon directeur de th se et m a accueilli au sein du laboratoire Paragraphe pour son soutien constant son attention sa disponibilit et ses pr cieux conseils Ce travail n aurait pu tre men a son terme sans ses nombreux encouragements Je le remercie profond ment et de tout mon coeur Je tiens 3 remercier monsieur Jean Rahman Duval qui m a beaucoup encourag
74. Z H et O sont des cr ations de la RPC Pour les lettres q et x et la lettre j il est int ressant de constater qu elles ne transcrivent pas en PSNU les m mes phon mes qu en pinyin o elles correspondent respectivement tc e et tc et non tf f et dz Pour les Ouighour non sinophones il n y a aucune diff rence de prononciation entre ces phon mes Voir http en wikipedia org wiki Pinyin Beaucoup de nouveaux mots surtout de nature politique ont t import s directement du chinois au ouighour durant cette poque qui correspond a la Grande R volution Culturelle Prol tarienne et 4 une s rie de campagnes contre le nationalisme ouighour La plupart de ces mots ont disparu seulement pour tre remplac s par des termes natifs lorsque l alphabet arabe a t r int gr voir J R Duval op cit note 67 ci haute 38 z PEPE 6 rendu beaucoup plus simple d utilisation pour une langue non arabe r duisant ainsi la n cessit de le remplacer Puisque des millions d ouighours de la RAOX ont t duqu s pendant presque vingt ans entre 1965 et 1982 en PSNU et non en ASU ils sont devenus analphab tes lorsque l ASU est r apparu en tant qu alphabet officiel En m me temps le CSU tait et est toujours l unique alphabet utilis par les ouighours sovi tiques Cette situation chaotique a cr e des obstacles pour les Ouighours qui ne pouvaient communiquer par c
75. ZTEIN Outils pour le TAL http www atala org INTEX 2002 TERMIUM une des plus grande base de donn es translinguistique plus de 3 5 millions de termes trilingue du Bureau de la Traduction du Gouvernement Canadien qui permet de rep rer un terme en espagnol en anglais ou en fran ais l aide d une requ te dans l une des trois langues FASTER Christian Jacquemin un outil de reconnaissance de termes et de variantes pour l anglais et le frangais Il permet d indexer des documents partir d un th saurus ou d une liste de termes r cup r s d une mani re de l indexation contr l e LEXTER Didier Bourigault un analyseur syntaxique fran ais d di l extraction de syntagmes nominaux et adjectivaux partir de corpus sp cialis s dans une perspective d acquisition terminologique 191 Max SILBERZTEIN Outils pour le TAL Web http www atala org INTEX 2002 1 http www termium com 193 http www limsi fr Individu jacquemi 133 XFST LEXC TWLOC 5 XRCE Xerox outils d analyse morphologique multilingue permettent de faire une tude des suffixe de d rivation par transducteurs nombre fini d tats Disponible en 14 langues La version turque est d velopp e par Kemal Oflazer 6 TTAT un outil d annotation bas sur la morphologie du turc avec la fonctionnalit de d sambiguisation morpho syntactique 11 permet a l annotateur l utilisateur de s lectionn
76. a en position m diane ou finale ex eJ de l arabe ele de l arabe de l arabe ots de l arabe Js En position initiale ce m me symbole est consid r comme faisant partie de la forme initiale d une voyelle et n a aucune valeur phon tique Dans l Unicode les marques d arr t glottal correspondent aux formes initiale et m diane de la lettre arabe 0626 is Ces glyphes arabes ne sont pas consid r s comme tant des formes diff rentes d une quelconque lettre de l alphabet ouighour cf annexe 10 Puisque un glyphe de chacune des deux lettres A and A en gris fonc dans la table 1 manque toujours dans l Unicode nous pouvons utiliser une s quence d un des glyphes 5 ou suivis des formes finale isol e m diane ou finale des voyelles A et A Par cons quent toutes autres formes compos es des voyelles cf table 6 peuvent tre obtenues en joignant une forme repr sentative d une voyelle la lettre arabe 0626 is 119 Formes initiales et m dianes de 0626 is 120 On dit que la d cision des linguistes ouighours d ajouter ce symbole la forme initiale des voyelles est un lien avec l ancien syst me d criture ouighour dans lequel toutes les voyelles initiales taient pr c d es d une dent 63 Malgr les limitations mentionn es ci dessus deux glyphes au lieu d un glyphe compos pour A et J les conventions mentionn es ci hautes ont t bien acce
77. a sueur sez g sensation k l ge au lac s tim eco int r t croissance idare ler bureaux san lar chiffres Il n y pas de suffixe comportant et 0 Il y a un seul suffixe qui comporte la voyelle o Il s agit du suffixe persan xor qui peut comme dans sa langue d origine s attacher n importe quelle syllabe sans transformation Tr s peu de mots sont d riv en utilisant xor et plupart ont des sens n gatif Par exemple gosh viande xor g shxor mangeur de viande para argent sale xor parixor corrompu qan sang xor qanxor vampire miras h ritage xor mirasxor h ritier coureur d h ritages 2 Les mots monosyllabiques contenant 1 ainsi que les mots polysyllabiques dont la derni re syllabe contient un i prennent des suffixes comportant des voyelles ant rieures e i 0 8 115 contiennent galement g ou Kk le suffixe relationnel ki s inscrit galement dans ce cas de figure sinon ils prennent des suffixes comportant des voyelles post rieures a u o par exemple Tik ken tikken plant kigiz ler kigizler feutres til lar les langues din gha dingha la religion yiraq tit ki ler ceux qui sont loin exceptions biz siz tiz iz chish ich jiddiy ilmek crochet bil 3 Sila syllabe pr c dant un nouveau suffixe contient i ce suffixe conservera l harmonie vocalique avec la derni re sylla
78. acine de l entr e partir d une partie des caract res les plus gauche en appliquant des r gles de grammaire Les verbes primitifs les plus courts se composent g n ralement de trois caract res dans l criture UEY Le point de d part est donc les trois caract res initiaux c est dire situ s le plus gauche marqu s A sur la figure ci dessous Si A est retrouv dans le dictionnaire le reste des caract res est consid r comme un suffixe ou une suite de suffixes sinon A est analys pour d terminer s il s agit d une racine modifi e par affaiblissement vocalique ou 61151011 de consonne Si la racine n est pas retrouv e A est remplac par une suite de caract res de longueur A 1 soit A A B C D E Z avec r p tition de cette proc dure jusqu l identification de la racine Si la racine n est toujours pas identifi e lorsque A B Z correspond la longueur de l entr e la structure de l entr e mot en traitement est consid r e comme incorrecte Certains verbes primitifs avec voyelle initiale al at ur uch etc ne pr sentent que deux caract res en ULY et en USY mais l ajout obligatoire de la 33 lettre devant toute voyelle initiale en UEY les rend trilit res dans le dictionnaire de ce syst me bas sur le syst me UEY Les trois seules exceptions la r gle sont les 3 verbes en deux lettres de dire ye manger et yu laver qui l exception du dernier ne n cessitent d
79. ais es Fransiyeliklerning des frangais es Fransiyeliklerningki des frangais es REL Fransiyeliklerningkige aux fran ais es Fransiyem ma France Fransiyemge ma France Fransiyelikim mon ma frangais es Fransiyeliklirim mes fran ais es Fransiyelikimge mon ma fran ais es Fransiyeliklirimge mes frangais es Fransiyelikimning de mon ma fran ais es Fransiyeliklirimning de mes fran ais es n REL RL CED UYNOUN gha zt i CAS2 e RESULTAT Racince UYNOUN SufDev SuffD evt POS POS PL PL CAS1 CAS1 REL REL CAS2 CAS82 Figure 8 Un exemple d automate pour l extraction des noms ou ghoures Dans ce graphe nous remarquons que la d composition de morph mes lexicaux en unit s de base permet de leur associer une information s mantique Apr s l avoir appliqu nous obtenons le r sultat d analyse compositionnelle en format ci dessous 202 Nous avons appliqu en mode a Merge with input text sur Grammare outputs de l Unitex 1 0 141 Fransiyeliklerningkige RESULTAT Racince Fransiye SuffDer lik POS PL ler CAS1 ning REL ki CAS2 ge Il indique que les valeur des unit s s mantiques SUYNOUN SuffDer POS PL CAS1 REL CAS2 dans le dernier n ud du graphe sont obtenus des autres n ud du graphe Elles correspondent respectivement aux racines suffixes d rivatifs possessifs pluriels le nombre cas et relatifs S il n y a rien entre les si
80. ajouter e ni pour former ce cas Par exemple Bu g llerni men ekelgen J avais amen ces fleurs S lelocatif Le locatif est le cas qui localise l endroit ou l action a lieu Le suffixe da de ta te est le signe du locatif Par exemple Men Janbazda tughulghan Je suis n Janbaz 6 l ablatif Il marque l origine de l action Se mettent l ablatif les noms qui d signent le point de d part d une action le lieu par lequel on passe d o on s loigne et d o on revient Le suffixe de l ablatif est din tin Par exemple Biz Qeshqerdin qaytip kelduq nous sommes revenus de Qeshqer 6 5 2 4 L ordre des suffixes de nombre de possession et des cas En ouighour le nombre des l ments agglutinants est infini Leur ordre de base est PL POS cas INT TEMPS dans tous les cas avec la possibilit d absence de l un ou l autre des quatre types de suffixe et aussi l effet que peut entrainer l insertion du relationnel KI apr s un cas locatif ou g nitif qui permet d ajouter un nouveau chapelet Nous ne donnons qu un aper u des multiples possibilit s Racine Suffixes D rivatifs PL SG POS CAS REL PL SG POS CAS REL INT TEMPS Alghiningiz mektep tit kit ler ning kit din mu Ce que vous avez pris est de ces qui sont dans notre cole Mot CAS REL PL CAS REL CAS INT 6 6 Radical Le radical verbal peut prendre jusqu a quatre formes 1 Radical origi
81. angue afin de contribuer a l informatisation de la langue ouighoure Plus pr cis ment notre tude consiste en quatre parties la premi re partie pr sente les probl matiques d tude les caract ristiques de la langue et des critures notamment le processus d unification de l criture ou ghoure latine la deuxi me partie expose les notions de base d extraction d information et d montre la possibilit d extraction d entit s nomm es en utilisant un outil d extraction afin d exp rimenter les conceptions et les th ories propos es la troisi me partie est consacr l tude linguistique notamment sur l aspect agglutinant de la langue et les r gles morphologiques de suffixation qui seront appliqu es pendant la r alisation des outils prototypes propos s dans cette th se enfin la quatri me partie mettre en vidence les probl matiques de traitement de la langue ou ghoure dans une situation o les syst mes d exploitation ne supporte pas la langue ouighoure Dans cette partie nous d crivons les difficult s existantes et nous proposerons des solutions innovantes afin de les r soudre dans les domaines suivants e Unification des polices et cr ation d une police ouighoure bas e sur Unicode e Impl mentation des m thodes d entr es au niveau syst me et au niveau navigateur e Cr ation des convertisseurs multi criture e R alisation d un dictionnaire ouighour anglais en ligne e Mise en
82. aphe mais aussi d indiquer leur nature exacte savoir la graphie fautive et le num ro de la syllabe dans laquelle elle apparait Dans notre outil prototype prenant en consid ration le fait que une grande majorit des utilisateurs ne s int resse pas savoir dans laquelle partie de la chaine de suffixes l erreur est survenue nous avons trait la partie suffixe comme une entit ce qui nous permet de ne pas ralentir la proc dure de traitement Nous avons construit l aide du g n rateur de lexique voir 5 9 3 huit listes typologiques de suffixes qui couvrent la quasi totalit des combinaisons possible Lors de la v rification la partie suffixe du mot sera recherch e dans une des huit listes selon les caract ristiques phon tiques de la racine Par exemple pour le mot asmanglar n accrochez pas une fois sa racine as identifi e sa partie suffixe manglar ne sera recherch e que dans la liste BUH suffixes des racines qui contiennent des voyelles arri res non arrondies et termin es par une consonne dure La figure 8 4 ci dessous donne une vue sch matique de l ensemble de la proc dure de v rification d orthographe 22 A savoir FRH FRS FUH FUS BRH BRS BUH BUS F voyelle d avant B voyelle d arri re R voyelle arrondie U voyelle non arrondie H consonne dur S consonne douce Voir 5 2 consonnes et 5 3 voyelles du chapitre 5 162 liste des mots a il RS il n
83. appliquent notre projet de recherche en cours sur la d finition des r gles de suffixation de l ouighour 5 2 Consonnes Les consonnes ouighoures sont th oriquement divis s en consonnes sourdes ou dures Ci ch f hk p q s sh t x et en consonnes sonores ou douces C b d g gh j 1 m n ng r w y Z zh Mais en position finale dans les radicaux les lettres 0 d et g sont respectivement trait s comme p t et k dans beaucoup de contextes Ils seront nomm s ci apr s B labiales b ou p D dentales d ou t et K laryngo v laires g gh k ou q afin de prendre en compte ces fluctuations et le fait qu au niveau lexical un certain nombre de suffixes commence par une consonne qui d apr s le contexte phon tique peut tre r alis comme dit ou g k gh q Le changement de consonne passe dans plusieurs contextes 1 lorsqu un 7 ou un suffixe commengant par i est ajout un p final dans certains mots la valeur phon tique refl t e par l orthographe devient b3 B 0 gt b p par exemple kitap B i gt bi par exemple kitabi 2 g et gh finaux s endurcissent c est dire qu ils sont prononc s comme leurs quivalents non prononc s et 4 lorsque suivis d un suffixe commengant pas K m me si ce changement ne se refl te pas dans l criture L initiale du suffixe s endurcit aussi et ceci se refl te dans son orthographe par exemple tugh ghan gt tughqan pron tuqqan teg ge
84. ar 6 Suffixes vocaliquement meutres V SUF Vneut par exemple men sen miz ghu qu dubitatif i auxiliaire du pass p mu mikin la limitatif mish dur tur tu ils peuvent se retrouver dans n importe contexte vocalique et ne transmettent aucune valeur vocalique Ils se trouvent g n ralement en position finale ou devant d autres suffixes de voyelle neutre Par exemple alghanmen kelgenmen senghu ughu k liw i di m qalghin i di m k ler mikin kelme p tu alar mikin k li p la kel di mu 5 6 R gles euphoniques dans la suffixation 1 Afin d viter les hiatus une voyelle finale doit tre s par e d une voyelle initiale par une consonne Cg qui transmet la valeur vocale de la voyelle pr c dente Dans le cas des verbes cette consonne euphonique est un y Ve Cg 0 V c 5067 6 lt 856711 y el gt sdzliyel VptCet 0 V qara gt qari y al gt qariyal Pour les noms communs cette consonne euphonique est g n ralement s mais aussi parfois y ou r Vy Cgt0 V bala gt bali s i K AO balisigha bala s i K A gt balasigha bah H m bah yim ou parfois bah rim 159 Cette deuxi me forme r est g n ralement consid r e comme parl e et la langue standard n accepte que la forme y 98 160 caeci 2 Les suffixes composes d une seule consonne n l sh p w m ng n cessitent 8 161 une voyelle euphonique lo
85. as les sons ouighours assez clairement pour les non ouighourophones La lettre v choisie par certains pour sa similitude avec la partie de haut de la lettre ASU 3 a t limin e sur la base du principe D La lettre PNSU e a t limin e sur la base du principe B Etant donn le besoin de le diff rencier avec o il a t d cid d utiliser la lettre 6 qui malgr l inconv nient d un signe diacritique est utilis e commun ment dans d autres langues afin de transcrire un son similaire ou proche de ce son en ouighour 46 q Les principes B et D ont limin k et x Le principe D a enlev vk et c La lettre k tait d j utilis e pour 4 et la lettre compos e kh correspond a un phoneme diff rent dans tous les syst mes internationaux La lettre g a t choisie comme elle est la transcription commune utilis e pour la m me lettre dans les alphabets bas s sur l arabe ex al Qaida Mohammed Iqbal Iraq Qatar C est aussi la lettre utilis e pour le m me son dans l ouzbek latin et le tatar et pour un son connexe en az ri Les principes B et D ont limin s et Le principe D a limin x qui est utilis dans seulement quelques syst mes graphiques majoritairement pinyin portugais et vietnamien afin de transcrire ce phon me L usage international ainsi que l ouzbek et l az ri latinis s ont dict la d cision de choisir sh Cette d cision a t renforc e par le fait que part le x
86. aux polices de l information sur la substitution des formes s lection automatique des formes les d cisions suivantes ont t prises par les participants de la conf rence mentionn e ci dessus et respect es lors de l impl mentation des polices dans la RAOX depuis fin 2004 D 2 Lettre ouighoure i comme dans ishik porte Elle a huit formes diff rentes comme d crit dans la table 8 ci dessus Pour les formes initiale m diane finale et isol e nous utilisons les quatre formes correspondantes voir table 8 de la lettre arabe 0649 e Les formes finale et isol e ne devraient pas tre confondues avec les formes finales et isol es de la lettre Farsi TET 06CC Les formes conjointes devraient tre exprim es comme la combinaison des formes initiale et m diane de la lettre arabe YEY 0626 5 suivies des formes m diane et finale de la lettre arabe 0649 e Par exemple Pengin de formation des positions de police Open Type Open Type font shaping engine une technologie l int rieur de la police qui aide s lectionner les formes correspondantes initiale m diane finale et isol e devrait combiner FEFO avec 5 FE8B afin d obtenir A 45 Lettre 010181001016 e comme dans eyneklerde dans les miroirs Cette lettre utilise les formes finales et initiales 4 de la lettre arabe 0647 119 a tout comme le perse Cela cause un probl me sp cial puisque les gl
87. avances faites gr ce LSU Plus d efforts sont n cessaires afin de d velopper des instruments ad quats pour le traitement de l information en langue ouighoure Les fautes d orthographe dues une mauvaise saisie du LSU ainsi que les r gles d orthographe en ASU sont des probl mes importants pour l impl mentation de correcteurs d orthographe et d outils de conversion des critures Comme le bas taux d alphab tisation et la prolif ration de r formes orthographiques ont eu pour cons quence une situation chaotique au niveau de l orthographe dans la population la r vision des programmes de conversion inter alphabet et la cr ation d un outil complet de correction orthographique sont de t ches de toute premi re priorit Le LSU s est cr une niche sp ciale dans la communaut internationale Une masse critique se forme autour de lui Il n a pas remplac l ASU mais il joue un r le compl mentaire par rapport ce dernier Il a permis la langue ou ghoure d tre pr sente sur le web et dans les publications de mani re lisible Esp rons qu il remplacera les vieilles translitt rations et les versions sinis es des noms propres et g ographiques ou ghours dans la presse et la litt rature internationales e Traitement de la langue ouighoure 165 Notre travail dans ce domaine a surtout eu pour but le design et la r solution des probl mes de mise en uvre dans le cadre de la cr ation des polices ouighoures ainsi que
88. ay th pay chay pay boisson du type th 2 mots qui riment mais dont l un n a pas de sens individuel opur topur opur topur pr cipitemment et en d sordre deux mots qui n ont pas de sens individuel abr viations Il y a deux mani res de produire des abr viations en ou ghour 1 crire la premi re lettre de chaque mot suivie d un espace 2 coller ensemble la premi re syllabe de chaque mot la mani re des communistes sovi tiques Par exemple Ouighour Ouighour UKY Francaise 4543 BDT Birleshken D letler ONU Organisation Teshkilati des Nations Unies ER ee EE RAOX R gion ShUAR Shinjang NEEN Autonome Ou ghoure Uyghur Aptonum Rayuni du Xinjiang RENTE Raykom Rayunluq Comit R gional Komit t Tableau 6 L abr viation Pour les noms de personnes on peut abr ger le pr nom voire le second pr nom en en gardant la premi re lettre que l on fait alors suivre d un point Par 122 exemple pour les deux noms de personnes Waris Abdukerim Janbaz et Attila Oghuz les abr viations ci dessous peuvent tre utilis es Waris A Janbaz W A Janbaz A Oghuz 6 5 Constitution des noms Le nom est un l ment de base de la morphologie ouighoure Nous pr sentons les r g
89. be donnant une indication sur l articulation vocalique Par exemple 112 tilliri leurs langues da tillirida dans leurs langues yaghachchi celui qui travaille le bois menuisier gha yaghachchigha au menuisier g li sa fleur ge a giilige a sa fleur g li de g lide dans sa fleur 4 L affaiblissement vocalique cause une ambigu t particuli rement dans les mots a racine monosyllabique puisque une lettre remplace aussi bien un a affaibli qu un e affaibli Les suffixes quant eux maintiennent l harmonie vocalique comme si les voyelles n avaient pas t affaiblies Par exemple bar V 0 aller b rishqa pour aller MEN TUE X E b rish NV qa ber V 0 ish aller donner ke b rishke pour a donner donner at V 0 tirer tsh NV qa 60850028 pour tirer tis et V 0 faire tirer faire ke tishke pour faire 5 Si la derni re syllabe est che un suffixe diminutif ou qui indique la mani re et par extension la langue la r gle 1 s applique la syllabe qui pr c de le che Par exemple Kitab che livret gha kitabchigha au livret qelem che bouture ge qelemchige la bouture uyghur che la langue ouighoure gha uyghurchigha en ouighour ereb che la langue arabe ge erebchige en arabe 6 2 4 Les consonnes La langue ouighoure comprend 24 consonnes Nous les pr sen
90. c Visual Basic sous forme d un Macro 77 Oyghan com Toolbox for Word v 1 0 vx EN Aasu LJ Gu U2NU Keyboard Layout amp LSU Table G2 Oyghan com ishletkiningizge k p rexmet Figure 12 vue apr s la conversion de l ASU vers la LSU La version en ligne de cet outil permet aux internautes de a saisir les lettres ouighoures en utilisant la m thode d entr e au niveau du navigateur int gr e dans l outil b convertir des textes entre LSU ASU et CSU c normaliser en Unicode des textes crits en utilisant les polices non Unicode du Groupe de Recherche 863 de l Universit du Xinjiang 6 The Uyghur English Dictionary Project Multiscript Converting Tools Microsoft Internet Explorer BEE File Edit View Favorites Tools Help ay La 5 a Le yo Search she Favorites B Address Bi http uyghurdictionary org tools asp 5 Go Links Dictionary mass Lughet Nyrer Multiscript Converter Sal BF pS Unicode a gt 335 wa Unicode gt Cyrillic Unicode gt UKY Unicode gt NON Unicode uyghurche Unicode asas qilin ghan t kist gi Lu Ls Unicode 1 kirg z sh ramkisi 1 D I Seen pee 2 eg aD RS UKY NON Unicode gt Unicode yizypua Unicode acac KIIMHFAH TeRMCT KMprysyw 0504164
91. cation d orthographe e eee eee ee ee eee e eee ee eee EE ER eoe e osse 5 CHAPITRE 9 CONCLUSION ET TRAVAUX FUTURES 168 CHAPITRE 10 BIBLIOGRAPHIE 5 55555 59575 5o aua FR rax EF Udx F SES sss 170 CHAPITRE 11 ANNEXES eegene eege EENEG 179 Annexe 1 Carte des groupes ethniques de l Asie Centrale 180 Annexe 2 Alphabet turco runique VI me IX me ee eee e ee eee e eee e ee eese sooo sooo se ISI Annexe 3 Alphabet ouighour ancien X me XVIII me e eee eee ee eese eee eese ee sooo sese 183 Annexe 4 Table des alphabets de langues turciques e eee eee ee ee eee e eee e eee e eee ose RER EEEEEE EE EE EK ee ve eeee 184 Annexe 5 Abr viations ee ee ecce ee ee eee eee ee eese e ese snos ese sense sesso sese soos ese ss osse sess osse sess cose ee LBD Annexe 6 Suffixes ouighours eee eee e eee e eee e eee e eese eese sese sees sess eese 187 Annexe 7 Lettres ouighoures et leurs valeurs Unicode conventionn es e eee eee ee eee eee 207 Annexe 8 Groups des suffixes verbaux seess eee e eese eee e eee e ee ee ee esee see esee KEREN soe 209 Annexe 9 Liste des verbes primitive eee e eee ee ee ee ee eee e ee ee ee eo ee EE esee see see 211 Annexe 10 Tableau des alphabets ASU LSU CSU ecce eee e eee eee eee eee eee ense so se 6 Annexe 11 Arbre des langues turciques
92. ce modifiant la voyelle du ou des suffixe s pour l assimiler au moins partiellement la voyelle radicale Si celle ci est d avant e 6 ti les voyelles figurant dans les diff rents affixes seront aussi n cessairement des voyelles frontales et de m me pour les voyelles d arri re a o u Par exemple hongrois hazban dans la maison est form l aide de la racine haz et du suffixe locatif ban turc evde dans la maison est form l aide de la racine ev et du suffixe locatif de turc yde dans la maison est form l aide de la racine y et du suffixe locatif de L ouighour partage les caract ristiques des langues ouralo altaiques qui se distinguent des langues indo europ ennes A savoir e harmonie vocalique e absence de genre pas de masculin f minin e agglutination voir 3 5 1 adjectif pith te toujours avant le nom e sujet toujours avant le pr dicat e verbe toujours en finale e pas de verbe avoir e chaque lettre correspond un seul son 47 Voir Huns peuple d origine de langue altaique venue en Europe aux IV et V si cle apr s J C sous la conduite d Attila 48 Voir http www ciep fr publications genetique genetique33 php 30 Voir le site http www ciep fr publications genetique genetique33 php L ouighour est une langue tr s ancienne qui a une structure complexe aussi bien sur le plan phon tique que morphologique ou syntaxique Elle poss de galement un v
93. ce sujet a recommand de supplanter ces deux glyphes dans toute version future de l Unicode 3 4 Autres sources de probl mes Microsoft Office vient avec une police internationale nomm e Arial Unicode MS Elle inclut la quasi totalit des formes c est dire part les deux qui sont indiqu es ci dessus des lettres ouighoures mais ne contient pas la substitution de glyphes ni les caract ristiques de position des caract res Nous pouvons dire la m me chose pour certaines autres polices telles Times New Roman et Traditional Arabic qui utilisent des s quences de substitution qui ont un affichage incorrect Ex 1 85 09 2 Sire I 3 Tous les tres humains du monde ne sont pas mal fiques Les phrases un et deux contiennent des combinaisons de caract res ill gales s ils utilisent les polices Arial Unicode MS et Times New Roman car les formes utilis es pour 45 s ne sont pas correctes d apr s les r gles de formation de lettres de l alphabet ASU voir annexe 10 Seule la phrase num ro 3 est correcte car elle utilise une police cr e sp cialement pour ASU UKIJ Tuz Tom Afin de cr er les formes jointes correctes pour l ou ghour il est n cessaire de prendre des mesures sp ciaux de traitement de glyphes pou
94. ces mots r tablit la prononciation x ve 6 sa S 86 de fait des Ouighours pour lesquels les semi consonnes initiales et u n existent pas 6 Les Ouighours non sinophones ont tendance prononcer ces mots yen shdyen gowuyen et jungxuwa 51 7 Des signes diacritiques doivent tre utilis s lorsque requis puisqu ils aident rendre les sons plus exacts et viter les malentendus o turush s assoir r union f te Olttirtish tuer tuerie meurtre 2 7 Statut actuel et perspectives futures La version finale de l alphabet LSU voir table 3 a t rendue publique le 3 juillet 2001 M me si le LSU a t d velopp initialement pour un usage exclusivement informatique il a rapidement t accept par les Ouighours duqu s et les ouighourologues pour l internet ainsi que comme syst me de transcription dans les manuels et autres publications o il a plus ou moins remplac tout autre syst me de transcription Plus de sept ans d exp rimentation montrent une grande acceptation aupr s des Ouighours de la RAOX les communaut s ouighoures l tranger et la plupart des ouighourologues Certains sites web ouighours afin d attirer le plus de lecteurs possible utilisent les trois transcriptions ASU CSU et LSU Les outils de conversion des critures ouighoures ASU CSU LSU se sont rapidement d velopp s afin de permettre le partage d information Suite cette volution les internautes ouigho
95. d extraction automatique sont des pr alables 086 1 automatique Deux approches d extraction automatique linguistique et statistique nous permettent de faire des traitements automatiques aux niveaux morphologique et s mantique Glossaire du d partement documentation de l UQAM http www bibliotheques uqam ca bibliotheques serv_techniques analyse politiques POL_glossaire HTML 21 Dans notre tude nous pr senterons l approche linguistique d extraction automatique du niveau de combinaison des mots c est a dire au niveau morphologique 1 2 Particularit s de l ou ghour 1 2 1 critures ouighoures L criture ou ghoure est tr s ancienne Tr s t t les ou ghours semblent avoir dispos s de structures administratives complexes Qurban Weli 1986 il est donc naturel qu on y ait d velopp toute une s rie de moyens servant conserver la m moire des faits et des id es et de ce point de vue l criture ne repr sente qu une des techniques exp riment es dans le monde ou ghour Les Ou ghours ont utilis diff rentes critures diff rentes poques Les plus importantes sont me l criture sogdienne V STE d rive de l criture syriaque au d but du V me si cle Ses plus anciennes traces ont t d couvertes dans les r gions de Khotan Turfan Kucha Qumul Qarasheher et Dunhuang On peut aussi trouver cette criture dans les inscriptions de la r gion de l Orkhon qui appartiennent
96. dans la communaut internationale et en limitant au minimum le recours des signes diacritiques Il vise ainsi r soudre les probl mes d entr e de l ouighour crit dans les alphabets actuellement en usage arabo persan pinyin cyrillique ou m me turc sans pour autant ajouter la difficult d apprentissage d un syst me de transcription trop complexe Il faut pr ciser ici que jusqu l apparition du UKY les Ouighours se trouvaient contraints d avoir recours au chinois ou de cr er leurs propres transcriptions souvent peu syst matiques pour utiliser l ordinateur ou communiquer sur le web Ainsi la lettre q pouvait souvent transcrire le son tch aussi bien que le son q et la lettre x repr sentait le plus souvent le son ch Les autorit s de la R gion autonome ouighoure ont d cid de permettre l utilisation du UKY titre exp rimental ce qui lui a permis de prendre un essor rapide Aujourd hui certains sites Internet ouighours et quelques livres ouighours en ligne utilisent cette transcription Il existe plusieurs logiciels pour convertir entre l UKY le cyrillique ouighour et l criture arabo persane Soulignons que l introduction de l UKY ne vise pas mettre fin l existence de l criture arabo persane En effet il existe de plus en plus de programmes informatiques en 37 H r 9 Voir annexe IV critures ouighoure 38 s 6 9 do pein cn e ENEE E S E Voir annexe IV critures ouighoure Un extrait de ce
97. de claviers sp cifiquement congus pour le LSU il faut une double manceuvre afin d entrer les lettres accentu es ex avec le clavier international US tr ma accent lettre Ce probl me est en cours de r solution grace au bon exemple donn dans les grands sites internationaux utilisant le LSU Un autre probl me est que l utilisation n a pas totalement r solu le dilemme de j par rapport z dans le cas de la lettre ASU 5 m me si la plupart des ouighourologues ont d j opt pour l usage de zh 23 Chapitre 3 Traitement de la langue ouighoure Ce chapitre se concentre sur le traitement de texte et l accessibilit de 1 01018110101 sur le web Il d crit le concept de base du d veloppement d une police ouighoure bas e sur l Unicode la m thode d affichage et de saisie dans un environnement ne supportant pas l ouighour On y souligne aussi les probl mes caus s par l absence de deux caract res ouighours dans l Unicode Standard ainsi que les solutions propos es afin de surmonter ces lacunes 3 1 Introduction Officiellement les Ouighours de la RAOX utilisent l alphabet arabe modifi ci apr s ASU pour crire leur langue alors que l ouighour crit en alphabet cyrillique modifi ci apr s CSU est toujours utilis par les ouighours de l ex Union sovi tique La translitt ration r cemment introduite l ouighour en alphabet latin a t reconnue et accept e par les ouighours et ouighourologu
98. du clavier ouighour bas e sur le LSU Cette disposition du clavier est relativement facile a retenir du fait de la ressemblance phon tique entre les lettres latines sur les touches du clavier QWERTY et les 70 lettres 0101810010165 en ASU Dans cette disposition il faut frapper sur la touche a pour saisir la 0 gt quivalant en LSU f pour saisir f e pour saisir e e elc 3 s 0 sont plac es sur les touches O U E leurs quivalant en LSU sans les diacritiques sh gh ng sont plac es sur S G N leurs quivalant en LSU en cas absence des deuxi mes lettres h h g deux possibilit s pour 5 J Z comme c tait le cas dans l alphabet LSU deux possibilit s galement pour w v car W et v sont prononc s de la m me fa on en ouighour m me si v n est pas dans l alphabet LSU Cette disposition est pr conis e par des nouveaux apprentis mais contest e par des gens qui sont contre l utilisation de la LSU car cela acc l re l apprentissage de l alphabet LSU ce qui repr sente un danger pour la survie de la ASU M me en l absence de l ouighour dans la d finition des locales dans Windows XP et les versions plus anciennes l ajout d un IME ouighour ne se heurte aucun obstacle tant qu il est reli un IME permettant d crire des lettres arabes Nous avons choisi de relier notre IME au IME de l Arabie
99. e EK ee soe sess ee sese 03 D veloppement des polices ouighoures et une m thode d entr e au niveau du syst me d exploitation 67 Incorporation des polices et l affichage des lettres ouighoures eee ee ee eene eee e eese eese eee ee esesseceses 75 Cr ation d une m thode d entr e virtuelle au niveau des navigateurs ee ee ee eee e eee 77 Conversion multi criture ene ee eee eee eee eene ee eee ee sn eese sesso e esso osos ese sooo sees A see ssso ese 79 Evaluation et d veloppement d un dictionnaire en ligne ee ee e eee ee eee e eese 2 4 9 1 Affichage des lettres 0101810010168 cee eee ree eene lera tene 82 Eu EE ER 4 9 3 Saisie des mots 316610616061 wis eere dean Seve seh de a dee 83 4 9 4 Recherche et pr sentation du r sultat ANNER 84 4 9 5 Correction d orthographe usos e ere eee ee atender sep eene e avete ea de cra ve e eee dads erased rea T ds 85 4 9 6 Outil de recherche pour les webmasters enne ENEE 88 CHAPITRE 5 SUFFIXES VERBAUX DU OU GHOUR 02 5 1 52 5 3 5 4 5 5 5 6 5 7 5 8 5 9 Introduction enee enee enee enee ee EE KEE A EREEEREEEEEEEEEEEE EE EE EE EE KEE E cenete H Consonnes eessen SoS EE EE EE SOD OOS ASSES DD MOI C DO L harmonie des Consonn
100. e de direction tels dir rtl align right s JR e OYurypya OUyghurche OEnglish 1 inen OY rypue Uyghurche English O nen gl een Yirypy2 OUyghurche OEnglish O w Contain horse OY rypae OUyghurche CEnglish Oasis 9 4 Figure 15 Interface de recherche 3 9 3 Saisie des mots rechercher La saisie des lettres en ASU est assur e par la m thode d entr e au niveau de navigateur mentionn e dans la section 4 7 de ce chapitre Cette m thode d entr e se d clanche lorsque l utilisateur choisit l option de recherche par l ASU et elle c de le contr le de saisie la m thode d entr e ouighoure au niveau syst me si l utilisateur en est quip A partir du moment o il y a deux ou plus de deux lettres saisies dans la boite de texte de recherche le moteur de recherche interne enclenche un proc d et propose en temps r el les mots candidats en ASU LSU ou CSU selon l criture de saisie qui commencent par les lettres saisies L utilisateur peut ensuite choisir l un des mots propos s l aide la souris ou l aide des touches fl ch es du clavier 80 OY rypue
101. e des fautes d orthographe et soumis a la proc dure de suggestion USY il utilise 38 lettres cyrilliques et entre dans le m me cas que PULY quand il s agit de reconnaissance automatique des mots ouighours dans un texte crit en cyrillique autre les mots crits dans une criture autre qu UEY ULY et USY ne font pas l objet de traitement suppl mentaire pour la v rification d orthographe On remarque que dans un texte multilingue ou multi criture en criture latine ou cyrillique tous les mots passent par une proc dure de v rification d criture quelle que soit la langue dans laquelle ils sont crits Comme la proc dure de v rification d orthographe 219 se fait sur la base de l criture UEY une translit ration vers ce syst me de tous les mots retenus en ULY et USY est n cessaire La figure 1 ci dessous pr sente un r sum sch matique de l ensemble de l tape du pr traitement 218 Annexe 10 Qui contient galement les 6 lettres BI 11 3 ro s utilis es uniquement dans les mots d emprunt r cent au russe Voir 21 Ce module sera pr sent en d tail dans les sections suivantes 153 texte originale segmentation v rification de l criture du mot lt gt lt gt M d orthographe Figure 8 1 Proc dure de pr traitement 8 4 Identification de la racine Un parseur doit pouvoir d terminer si le mot en cours d analyse est d riv d un au
102. e l criture arabe La pr dominance de la langue crite sur les langues parl es d Asie Centrale a en effet rendu cela possible jusqu au d but du XX si cle Mais la cr ation de langues ethniques turques ouighour ouzb k kazakh kirghiz Karakalpak tatar etc bas es sur la langue parl e partir du milieu des ann es 20 du XX si cle suivi d un mouvement incessant de r formes d criture avec la cr ation de lettres propres chacune de ces langues a mis fin cet tat de fait Actuellement l criture ouighoure est utilis e en r gion autonome ouighoure du Xinjiang ou Turkestan Chinois par les Ouighours ainsi que par les Ouzb ks et les Tadjiks du Xinjiang 6 Voir annexe 1 groupe d ethnie majeur de l Asie Centrale 29 1 3 La sp cificit de l ouighour L ouighour est une langue appartenant au sous groupe Huns Haji Nurhaji 0 Uyghurlar we Qaraxaniylar Page 121 2001 du groupe Sud est des langues turques de la famille des langues altaiques En repartant de l Europe on trouve le groupe des langues finno ougriennes incluant d une part finnois estonien live tch r misse et de l autre hongrois ostiak Si l on y adjoint d un c t le lapon et sur le Y niss i les langues samoy des on obtient une famille plus vaste celle des langues ouraliennes Ces langues sont agglutinantes et offrent des traits tels que la position finale du verbe et l harmonie vocalique sorte d assimilation distan
103. e langue est l criture officielle puis le nombre d utilisateur 3 Abr viations des alphabets Ar arabe Cy Cyrillique La latin Pinyin et UKY voir 2 2 1 Abr viations utilis es A gt B results in B A B B is the realisation at the surface level of A the lexical level A is preceded by another letter A is followed by another letter A B A is followed by B A B Ais the left context of B and B is the right context of A gt becomes C consonant Ch unvoiced consonant hard consonant C voiced consonant soft consonant D lexical dental consonant realized as d or t at the suface level K lexical laryngo velar consonant realized at the surface level as g k gh or q 17 vowel Ve front vowel Vp back vowel V rounded vowel Va un rounded high vowel A high vowel a e Aw weakened vowel I high vowel i u ms monosyllabic Rad radical Suf suffix Dub dubitative Code Signification 1 2 3 1 20 3 personne ABL Ablative ABS Abstract ACC Accusative ADJ Adjective ADV Adverbe DAT Dative DET D terminant DIR Directif F F minin FRM Formel GEN G nitif 184 IFRM Informel INT Interrogatif LOC Locative M Masculin N Nom PAST Pass Compos PL Pluriel POS Possessif PREF Pr fixe PREP Pr position PRO Pronom REL Relatif S Sujet SG Singulier SUFF Suffixe SuffDer Suffixe d rivatif
104. e logiciel Open Source Apr s plusieurs modifications une version Javascipt a t mise en uvre par d autres d veloppeurs afin de la rendre compatible avec d autres navigateurs qu Internet Explorer Cette m thode est test e sur des navigateurs diff rents commun ment utilis s dans certains sites web ouighours Nous pr sentons son utilisation dans la section valuation de ce chapitre 3 8 Conversion multi criture Puisque la langue ouighoure utilise trois syst mes d criture alphabets arabe ASU cyrillique CSU et latin LSU nous avons fait des recherches visant cr er un outil de conversion permettant d effectuer la conversion entre les trois critures dans le but de faciliter les changes d information Le fait qu il y ait une correspondance entre les lettres de ces trois syst mes d criture est certainement un facteur positif Afin de mieux comprendre prenons l exemple du proverbe ouighour travailler pour rien est mieux que de ne rien faire dans les trois alphabets itypruuo 0180 6 611810 bikar y rgiche bikar ishle Le sch ma suivant explique le processus de la conversion de base 133 Voir www ukij org www biliwal com www oyghan com www uyghurdictionary org etc 75 Fin de conversion 0 ia R sultat dans script destination Figure 9 structure du convertisseur multi criture Il se peut
105. e nous permet pas de d composer dynamiquement des entr es pour produire une analyse morphologique Il ne peut pas non plus r soudre les probl mes d affaiblissement des voyelles que nous avons pr sent dans le paragraphe 3 2 2 car le ph nom ne s effectue dans la racine et aussi dans le suffixe Nous envisageons aussi d appliquer cette m thode d autres domaines et de r fl chir comment l information linguistique n cessaire pour mener bien cette tache peut tre acquise de mani re partiellement automatique afin de minimiser le temps de d veloppement d un nouvel outil pour le traitement de l ouighour 145 Chapitre 8 Parseur et correcteur d orthographe morphologique 8 1 Bref tat des recherches De nombreux projets de recherches ont t men s l Universit du Xinjiang dans le cadre du correcteur d orthographe ouighour notamment par M Ablimit K Ubul G Adongbieke Plusieurs logiciels de correcteur d orthographe ont t d velopp s par des entreprises priv s et des chercheurs ind pendants savoir Kenji Correcteur Yulghun Editor Udmish Correcteur Uighursoft Correcteur Irpan Correcteur Les deux premiers sont les logiciels libres les plus utilis s parmi les internautes ouighours UyghurEdit G T Kenji 2008 et Yulghun Editor M Abdullah 2006 recensent 632 000 et 247 847 entr es respectivement Tous les logiciels de correcteur d orthographe mentionn s ci dessus utilisent une approche ba
106. e pour taper des caract res en alphabet arabe Etude sur les probl matiques de multi criture D veloppement des polices pour le codage et l affichage des caract res arabe Impl mentation d un convertisseur multidirectionnel Pr paration d un dictionnaire Etude linguistique Etude sur la nature agglutinante une langue agglutinante dans laquelle les mots sont longs et complexes car ils se composent d une s rie de morph mes concat n s comme un chapelet E g K chlend relmeywatqanliringlarningkidinmu racine k ch 14 suffixes Un g n rateur lexical bas sur les r gles morphologiques de suffixation de l ouighour Un analyseur morphologique qui permet d expliquer les caract ristiques d agglutination des mots suffix s 16 Chapitre 1 La gestion du savoir L objectif de ce chapitre est d abord de d finir les concepts concern s pendant l extraction de l information ensuite de d crire les caract ristiques de la langue afin de comprendre les probl matiques et enfin de comparer la morphologie des langues turques 1 4 D finition et enjeux 1 1 1 La recherche Nous annexons ici la d finition de Christine MICHEL Les questions usuelles que les exp rimentateurs se posent pour valuer la qualit de la recherche d information sont Quelle est la quantit d information minimale que l utilisateur est en droit de demander suite une question Quelle est la quantit d information conten
107. e que la segmentation est une proc dure de d coupage en mots d une phrase La segmentation peut tre r alis e l aide de s parateurs ponctuation espace tabulation retour chariot point virgule deux points point 0 interrogation point d exclamation parenth ses chiffres trait d union tiret cadratin et des guillemets caract res sp ciaux symboles et lettres qui n existent pas en ULY UEY et USY 149 suffixes pr c d s d un mot emprunt crit en langue d origine Ex 1 2 Microsoft Word Internet Les deux phrases ci dessus sont consid r es comme correctes malgr le fait que dans la premi re les termes Microsoft Word et Internet sont transcrits lettre par lettre en UEY et dans la deuxi me ils sont crits en leur langue d origine En ouighour comme il n y a pas de stricte obligation de transcrire les noms propres emprunt s des langues trang res ce genre d utilisation est tol r 1998
108. e so se so se so se so sese so 138 7 3 Affichage des caract res 1eee eee ee eene eee e ee eee e eee ee see KEE EE esso 139 74 Segmentation et traitement linguistique 140 7 5 Extraction des entit s nomm es ee eee e eee e eee eee eee e ee eese ene esos ee KEE 143 7 5 1 Un mod le pour traiter l ouighour Koa aR Raa 144 7 5 2 Probl mes d harmonie vocalique et de l affaiblissement des voyelles eene 146 FRI Algorithme PEPERIT ILL PI DII UID III ITI 147 7 0 1008108110 ccciccsccccceccecesccncscsecaccescsaccsscccceesesessovedececsesesessecsecccceess BOSSE LAS CHAPITRE 8 PARSEUR ET CORRECTEUR D ORTHOGRAPHE MORPHOLOGIQUE mmn E E 8 1 Bref tat des recherches 150 8 2 Qu est ce qu un parseur 152 8 3 Pr traitement ccce eee ee ee ee eee eee eee e ee eese eoe sess ee sese se sse soo se soos sess ee sees esses sese esas dss 153 8 3 1 1178 668110611811010 en Hertges deeg Eeer DRS deed 153 8 3 2 Reconnaissance des critures ULY UEY USY sisi 155 8 4 Identification de la racine cc ee eee eee ee ee ee eee eee ee eese eese esses sese es eses sese eseeesesseseecesessecescesescecessss 158 8 4 T Recherche Progressive inner eet eee es esee dees IS evtl pedes deg PAPER IN Ve SER eve ae eese DEN eee Ra 159 8 42 Recherche desressiveisss cihs ET 160 8 4 3 Analyse de s quences modifi es asc SENTRA ROTORS 161 8 5 V rifi
109. e traitement particulier au niveau du dictionnaire 155 N Figure 8 2 Recherche progressive Par exemple dans le mot ceux qui sont en train de venir les trois premiers caract res A Je forme affaiblie du verbe primitif L algorithme peut consid rer A comme la racine puisque quand il arrive la deuxi me condition est ce une racine modifi e la r ponse est oui Nous verrons la proc dure de v rification de racine modifi e dans la section suivante 8 4 2 Recherche d gressive C est l inverse de la recherche progressive Un premier caract re est enlev la droite de la chaine de caract res de l entr e avant le d but d une nouvelle recherche dans le dictionnaire Si cette recherche n est pas fructueuse l analyse se poursuit pour d terminer s il s agit d une racine modifi e Si ces deux recherches ne permettent toujours pas de retrouver la racine un deuxi me caract re est enlev droite et la m me proc dure se r p te jusqu l identification de la racine Une fois la racine identifi e les caract res enlev s sa droite sont trait s comme un suffixe ou une suite de suffixes Si la racine n est toujours pas identifi e lorsque le nombre des caract res de la s quence envoy e la recherche atteint trois soit A la structure de l entr e est consid r e comme incorrecte 9 156 N Figure 8 3 Recherche d gressive
110. emps Groupe verbal Les verbes comme les noms communs peuvent avoir une racine simple primitive et une racine tendue Celle ci est obtenue par l affixation d un nombre de suffixes d rivatifs qui ajoutent un sens factitif passif potentiel pluratif ou coop ratif n gatif ou interrogatif la racine d origine kel kel 4 ke e Figure 5 1 d formation de racine vue sur l explorateur de suffixes Ce sont l ablatif l accusatif le datif le g nitif et le locatif Voir annexe 8 pour plus de d tails 163 Les suffixes relatifs cr ent une boucle th oriquement infini mais le nombre de boucles n exc de pas deux dans l usage quotidien Par exemple aili di ki ler ning ki din parmi ceux qui appartiennent ceux de la famille o ki est le suffixe relatif 164 Variantes de l interrogatif voir annexe 8 165 Les marqueurs de temps sont limit s aux variantes de l ancien verbe er tre Par exemple baliken bala iken yaxshidim yaxshitidim Ils sont rajout s la suite des suffixes nominaux le r sultat de contractions qui sont communes dans la langue parl e et de plus en plus dans la langue crite 166 S T P Les suffixes actuels des niveaux diff rents sont list s dans l annexe 6 100 Par l ajout de marques syntactiques plusieurs chemins diff rents peuvent tre choisis qui m nent plusieurs produits finaux des verbes conjugu s des formes de compl ments circo
111. ent l alphabet latin des plans similaires ont t faits mais toujours pas impl ment s dans d autres r publiques turques tels le Kazakhstan le Kirghizstan et le Turkm nistan mais cela va l encontre des politiques officielles d tat Un rapport a t envoy aux autorit s gouvernementales de la RAOX au printemps 2001 et en guise de r ponse le comit du peuple RAOX a organis une audition qui a reconnu la valeur du projet et recommand que des tests grande chelle soient effectu s afin d valuer sa faisabilit 2 3 Principes de base utilis s dans la cr ation du LSU Apr s multiples r formes l alphabet ASU avait volu de mani re signifiante Il transcrit maintenant lettre par lettre tous les phon mes de la langue ouighoure m me si ce n est pas une transcription phon tique exacte puisqu il refl te les sons th or tiques de base et non les changements multiples qui se produisent dans la langue ou ghoure 0811667 Depuis 2001 un certain nombre de r gles d orthographe ont t promulgu es par la XLSC afin de 73 Une association but non lucratif fond e en janvier 2004 par l auteur de cette th se Site web http www ukij org 74 Telle la prononciation dans la plupart des dialectes de n comme m devant les labiales l adoucissement de q x devant une autre consonne de j 5 devant une autre consonne l adoucissement des lettres finales de racine j gt 3 k gt g p A b w
112. entr e au niveau de l explorateur est repr sent e dans la figure ci dessous Initialisation atachement du code aux v nements du clavier Saisir en ouighour oui Capturer v n du clavier Mappage code lettre Repartition des v n Changer langue Rel cher v n du clavier Figure 8 Sch ma de travail de la m thode d entr e au niveau des navigateurs Comme nous pouvons le constater par le sch ma ci dessus la structure g n rale de cette m thode ressemble celui de la m thode d entr e au niveau du syst me mentionn e dans la figure 7 Une fois que l utilisateur choisit l option entr e ouighour le module 74 Capturer v nements du clavier cr e un crochet afin de surveiller les activit s du clavier telles que keypress keydown keyup Le module mappage code lettre cr e une matrice de keycode vers unicode afin d obtenir la lettre ou ghour correspondant au code de la touche ex U 006D 2 el selon la disposition du clavier choisie Le module R partition des v nements envoie les lettres ouighours au champ d entr e de texte sur une page web Ce processus se r p te jusqu ce que le module rel cher v nements du clavier lib re le crochet imm diatement apr s que l utilisateur a choisi de passer de la m thode d entr e ouighoure une autre Cette m thode avait t impl ment e en utilisant VBScript en 2002 puis distribu e sur l internet sous forme d
113. er manuellement la proposition ad quate s il y a des ambiguit s Unitex TE S bastien Paumier Universit de Marne la Vall e un ensemble de logiciels Open Source permettant de traiter des textes en langues naturelles en utilisant des ressources linguistiques Il int gre des dictionnaires lectroniques et diff rents composants n cessaires l analyse morphologique et syntaxique des textes du corpus 7 2 Deux types d extraction Nous remarquons que les chercheurs ont deux grands types d approches diff rentes pour le syst me d extraction Le point de vue statistique concerne la distribution des termes dans les documents Il se base sur l hypoth se que l emploi de la co occurrence sugg re une relation s mantique entre les termes Ce point de vue a montr des limites dues essentiellement l ignorance du contexte linguistique Mohamed Hatem HADDAD 2002 Oflazer amp T r 2001 pr cisent que l approche statistique donne un bon r sultat pour le syst me d extraction de l information turc Ils utilisent l information lexique et 1 didier bourigault univ tlse2 fr 19 http www xrce xerox com competencies content analysis fst 196 http www nlp cs bilkent edu tr cgi bin tmanew le site de r f rence n est plus accessible 197 Turkish Treebank Annotation Tool Kemal Oflazer amp Bilge Say amp Dilek Zeynep amp G khan T r http www research att com gtur pubs ttbank book pdf IP Logiciel g
114. es concat n s comme un chapelet Le type agglutinant se caract rise par trois propri t s 183 Voir http sophistikatedkids com turkic 40 20Language Lingo Ethnical 20TreeEn htm pour la famille de la langue altaique 184 http www wordiq com definition Agglutinative language 117 1 Une m me unit lexicale peut avoir plusieurs formes selon les valeurs des l ments agglutinants qui lui sont associ es Ces variations de forme se font l aide de deux proc d s l affixation suffixation pr fixation infixation les alternances internes vocaliques ou consonantiques 2 Les signifiants correspondant aux diff rentes valeurs grammaticales ne sont pas autonomes les uns par rapport aux autres ils sont fusionn s ou amalgam s voire m me aussi fusionn s avec le signifiant de l unit lexicale 3 Les segments repr sentant les valeurs grammaticales correspondent plusieurs valeurs distincts Jacques Poitou 2009 http poitou free fr pro html gen typologie html Exemple ouighour y site pluriel 6y lir im maison y ning maison g nitif y ler maison maison pluriel possessif 1 personne mon ma mes 6y lir im ning maison pluriel possessif g nitif L ouighour est une langue agglutinante Exemples de langues agglutinantes finnois hongrois inuktituk japonais cor en grec toutes les langues turques ex az ri kazakh kirg
115. es sees eee eee e eee e eee e eene eese sese sese EE EE ee soos KEE osse soe KEE so ee so EREEEEEEEEEEEE EE EE EK ee eeen 7 Harmonie vocalique eessen seen eseou eee e eee e eee e eoe e eese sese sese sess ee esee EE see see KEE onse EE ER so ee sese sese se eoseeoecesecesecsss DO R gles euphoniques dans la suffixation eessen ee ee ee e eee eee eee e ee eese eoe e osse esso LOL Morphologie a LOZ R gles de suffixation et cas sp ciaux 104 Les exp riences et les r sultats ee e ecce eee e ee eee e eee e ee eee e eee ee see KEE ER soe 105 5 9 1 Dictionnaire des racines ease daan geheien KEEN AERE RIS S a SORS eA ent BART C 106 3 92 Banque d Berl AL 107 5 913 G n rateur EE 108 SE EE EE ek ET 109 CHAPITRE 6 MORPHOLOGIE DE L OUIGHOUR 111 6 1 Compr hension et connaissance 111 6 2 Structure phon tique eee e e eee ee eee e eee e ee eee e eee sess ee esee esses esso ee soe sess ee sese sesso esos ee sscceesseeseseeessceeess 113 6 21 TES voyelles i ceo o a E Cen EEN arose aee sue Led ee Tae adeo vea ave ete Tene e due Le 113 6 2 2 Lzatfaiblissement des voyelles 5 4 ee NN ENN eee eee e Saee eot a eae dul Eee eer eee ES e ES Tre gu ENEE pese 113 6 2 3 L harmonie 706810006 serre a cas tee Te CAN Wada wad ENNER 114 6 2 4 LOS CONSONNES s c O 116 6 3
116. es Cet alphabet latin est maintenant devenu un standard de translitt ration pour l ASU et le CSU Modifi afin de prendre en compte les caract ristiques phon tiques et grammaticales de la langue ouighoure l alphabet arabe a t r introduit chez les ouighours de la RAOX en 1983 apr s une interruption de vingt ans Dans ce chapitre nous attirons l attention sur quelques questions essentielles reli es au traitement de texte bas sur l Unicode dans Windows en utilisant l ouighour crit en alphabet arabe 3 2 Historique Au d but des ann es 90 les d veloppeurs de logiciels ouighours ont mis au point une mani re de faire des entr es de lettres ASU sous DOS Puis la fin des ann es 90 Microsoft Windows s est r pandu dans la soci t ouighoure et beaucoup de logiciels compl mentaires logiciels p ug in ou ajoutciels ont fait leur apparition sur le march afin de r pondre aux besoins du march local L absence de m thode d entr e pour l ouighour et de police supportant tous les glyphes de l alphabet ASU dans les plateformes Voir annexe 2 On appelle translitt ration l utilisation d un alphabet pour en repr senter un autre 9 Voir annexe 10 7 Voir chapitre 3 54 existantes causait d immenses probl mes dans l affichage du texte et des caract res ouighours dans diff rentes applications Les d veloppeurs locaux n ont pas reconnu l importance d un standard commun pour tous les logiciels Face
117. es initiale et m diane de la lettre ont toujours le m me code U062A dans le mot Mais elles auront deux codes diff rents FE97 FE98 en cas d utilisation de la m thode tendue qui ne d pend pas du 67 processeur multilingue Uniscribe USP dil Le seul avantage de la m thode tendue est qu une fois les lettres saisies elles peuvent tre affich s correctement m me dans des logiciels qui ne supportent pas l Unicode C est pour cela que la m thode tendue tait populaire sous Windows 95 98 Cependant les difficult s persistent lors de l insertion et du tri en raison de la pr sence des formes physique Windows 2000 et les versions ult rieures contient un processeur multilingue the Uniscribe Unicode Script Processor USP10 DLL qui permet de manipuler correctement les positionnements des formes diff rentes des lettres des critures complexes aussi bien au niveau de l application qu celui du syst me D ailleurs le soutien multilingue pour les langues crites de droite gauche pr sent dans Windows 2000 et ses versions ult rieures favorise le traitement de texte en ouighour bas sur l Unicode Une combinaison de ces deux l ments peut tre tr s utile dans le d veloppement d une m thode d entr e traditionnelle qui fonctionne au niveau de l application et du syst me 1 471 ou des versions plus r centes de USPIO DLL avec un moteur de positionnement qui app
118. es lettres ouighoures qui n apparaissent pas dans la table suivante sont les m mes que celles des lettres arabes et qu aucune substitution n est n cessaire dans leur cas 14 Lettres arabes vale Jol e ls i le E ot remplac es 14 Lettres C A vt Le b E SS es us 6 G ouighoures rempla antes Table 4 Une m thode transitionnelle lettres arabes remplac es et ses rempla antes ou ghoures Pourquoi avoir eu recours cette m thode transitionnelle Plusieurs facteurs peuvent tre invoqu s 1 m connaissance de la norme internationale Unicode 2 complexit des t ches de d veloppement des polices bas es sur 1 Unicode 3 probl mes d indentification et d ambiguit des lettres ouighoures dans la table de 1 Unicode nous reviendront sur ce point dans la section 4 3 4 recherche d un exp dient pratique en attendant une solution durable 5 ambition de monopolisation du march ou autres motivations personnelles inconnues Il faut admettre que le d veloppement d une police ouighoure par cette m thode pr sente aussi des avantages a la modification d une police pr te remplacer ne n cessite pas autant de travail qu une cr ation Ex nihilo b Windows 95 98 vient avec une version ant rieure 1 47 du processeur multilingue the Uniscribe Unicode Script Processor USP10 DLL qui est con ue pour le traite
119. es mesures g n ralement utilis es cet effet sont les mesures de rappel et de pr cision comprises dans l intervalle 0 1 Support de cours du CRIM INALCO 2003 2004 l extraction d information par Thierry Poibeau Page 10 1 1 6 Indexation Selon l approche documentaire AFNOR NF 747 102 p 512 1996 l indexation est l op ration qui consiste d crire et caract riser un document l aide de repr sentations des concepts contenus dans ce document c est dire transcrire en langage documentaire les concepts apr s les avoir extraits du document par une analyse L indexation constitue selon WALTER 1999 l une des tapes de l analyse documentaire au m me titre que la lecture ou le r sum L indexation automatique est bas e sur l indexation contr l e de l approche documentaire Ainsi l indexation est un processus destin repr senter par les l ments d un langage documentaire ou naturel des donn es r sultant de l analyse du contenu d un document ou d une question Elle repr sente le contenu intellectuel d un document par des mots cl s mots ou expressions jug s significatifs de ce contenu par analyseur Leur collecte manuelle ou automatis e donne lieu l tablissement d une liste d indices de classification qui permet une recherche efficace des informations contenues dans un fonds de document et d indiquer rapidement sous former concise le contenu d un document Les proc dures
120. es o il n est pas exprim Par exemple Soalim yoq je n ai pas de question quivaut m ning soalim yoq 6 5 2 3 Les cas Les suffixes de cas indiquent la fonction des noms dans les phrases Les noms subissent diverses modifications qui sont repr sent s par les suffixes de cas selon le systeme de d clinaison ouighour qui comprend les six cas suivants 1 le cas z ro Il ne pr sente aucun suffixe de cas Il indique g n ralement le sujet de la phrase par exemple Bu qiz keldi cette fille est arriv e Il peut galement indiquer un compl ment d objet non d fini Par exemple Men kitab aldim j ai achet UN livre DES livres par opposition Men kitabni aldim j ai achet le livre en question 2 le g nitif Le signe du g nitif est le suffixe ning Il indique la possession Par exemple T rkistan ottura Asiyaning bir qismi Le Turk stan est une partie de l Asie centrale 3 le datif directif Le suffixe gha qa ge ke est le signe du datif Le datif indique la destination de l action Par exemple Men mektepke barmaymen deslep sahilgha andin yge barimen axirida chimliqqa chiqimen Je ne vais pas l cole je vais d abord la plage puis la maison enfin sur la pelouse Bu g llerni qiz dostumgha aldim J ai achet ces fleurs pour ma copine 4 l accusatif 129 Il sert d signer la personne ou la chose d finie qui re oit l action marqu e par le verbe Il suffit d
121. es qui ne sont suivis que par des suffixes finaux invariables comme les pronoms personnels men sen siz ou les marqueurs modaux tiken diken mish Il s agit surtout du suffixe du pass simple de ermek imek i e di peut tre aussi de celui du pr sent 1 y Les suffixes phonologiquements actifs c est dire qui imposent une qualit vocalique aux suffixes suivants comme dighan inglar sont aussi enregistr s une seule fois Les suffixes phonologiquement transparents c est a dire qui transmettent aux suffixes suivants la qualit vocalique des mots qui les pr c dent sont inscrits sous aux moins deux colonnes une vf et une vb ex im vf ex im ge et im vb ex im gha Tous les suffixes sont inscrits sous les diverses formes qu ils prennent en fonction de leur environnement phon tique ex gen gin ken kin ghan ghin qan qin m vf im vf m vf m vb im vb um vb 131 L ordre des suffixes dans le tableau doit suivre leur ordre d insertion logique dans le mot Le m me suffixe peut apparaitre plusieurs fois 00 la formation de verbes compos s par l utilisation de verbes auxiliaires incorpor s au verbe Ainsi le suiixe p w peut tre utilis pour la formation d un verbe compos la fin du radical et la fin de l auxiliaire ex k liw tiwidim Comme les suffixes marquant le temps i y se sa di du ti tu etc ou la personne du verbe conjugu men
122. espace entre chaque lettre Ce qui indique que la substitution s est faite pendant l affichage et que dans la m moire il n y que les formes repr sentatives des lettres saisie Voir table 10 pour les lettres repr sentatives et leurs codes B M thode tendue cette m thode envoie des codes situ s dans la zone d extension Arabic presentation forms A amp B soit des valeurs FE70 FEFF et FB50 FDFF de l Unicode Les lettres passent par un processus d entr e qui s lectionne la bonne forme parmi les formes possibles pour chacune des lettres avant de l afficher l cran Si cette m thode est utilis e le mot devient a a 3 te 33 L 5 lorsqu on met un espace entre chaque lettre Ce qui indique que la substitution se fait avant l affichage et dans la m moire il y a un code pour chacune des formes phasiques L utilisation des formes phasiques comparativement aux formes repr sentatives complique la tache de contr le des formes dans la m moire Voir table 10 pour les formes physiques et leurs codes M thode lettres i 5 P 3 is trad codes 0643 06CC 062A 0627 0645 0648 062A 067 0627 0626 M thode formes D 3 t D P x 2 t 5 tendue Code FEDA FBE7 FE97 FESE FEE3 FEEE FESS FB58 FESE 8 Table 8 deux types de m thode d entr e Dans la m thode traditionnelle les form
123. est difficile car la cible langage naturel est complexe et ambigu A un probl me d j un nonc textuel s ajoute le probl me de la reconnaissance linguistique automatique du texte Les linguistes ont t nombreux travailler sur la r solution des probl mes de traitement plus ou moins automatique du texte dans le cadre du traitement linguistique informatis A travers les probl mes linguistiques les linguistes veulent comprendre comment se fait la connaissance du sens L extraction d information consiste donc identifier de l information bien pr cise d un texte en langue naturelle mais aussi pouvoir la repr senter sous forme structur e L extraction d information peut tre une partie d un syst me de recherche d information dor navant SRI charg e de recevoir une requ te de la traiter de d terminer la similitude entre la demande d information contenue dans la requ te et les items d information de la base de donn es http www leibniz imag fr SICLAD Caderige Articles Cide caderige pdf 19 Analyse morpho MEE Pr traitement MN Documents Documents syntactique Figure 1 Processus d extraction d information L extraction d information est donc une tache qui consiste extraire de l information structur e partir d un document textuel 1 1 4 D finition d un Syst me de Recherche d Information Donnons un exemple d abord dans un ensemble de donn es nous cherchons e
124. et en question Il divise l objet d analyse en petite unit fonctionnelle et il peut expliquer les relations morpho syntactiques entre les unit s individuelles Quand l objet d analyse est un mot dans langue naturelle un parseur doit pouvoir trouver la racine et les suffixes qui le suivent et il doit pouvoir analyser les ambiguit s structurelles potentelles tout en respectant les r gles de la grammaire de la langue dans laquelle le mot est crit Prenons deux exemples 1 0033148064684 un num ro de t l phone 2 K chlend relmeywatqanliringlarningkidinmu Sont ils parmis ceux que vous tes incapable de renforcer Pour le premier un parseur doit tre capable de dire que a 0033 est un code identifiant de pays la France sachant qu il est aussi possible d utiliser 33 b le cinquieme chiffre 1 est quivalent du 01 utilis lorsque le num ro est compos en France c est dire sans le pr fixe international et constitue le code de la r gion Ile de France c le 48 est d di au quartier ou l arrondissement X Le parseur doit pouvoir 212 Parsing Techniques A Practical Guide England 1990 ISBN 0 13 651431 6 148 galement traiter en tant que cas sp ciaux les chiffres 5608165 par un ou plusieurs traits d union ou regroup s par des parenth ses comme dans 613 555 1234 Le deuxi me correspond a une phrase exprim e en ou ghour par une seule racine lexicale
125. et h doivent tre lues s par ment Chong haji et 5 la pause repr sente une ou finale dans des mots litt raires d origine arabe ex toghra sceau royal de l arabe ak wuqu ph nom ne de l arabe r Cet usage de l apostrophe sauf dans le dernier cas ne respecte pas les r gles actuelles d orthographe de l ASU mais au moins ne cause pas d ambig it s 2 6 Regles d orthographe du LSU 1 La premi re lettre d une phrase et d un nom propre s crit en majuscule Exemple Alim Kanada Uyghur r mchi 2 L orthographe des noms propres suit les r gles de l orthographe ouighoure comme si transcrit directement de ASU mais l orthographe originale peut tre mis entre parenth ses 84 L arr t glottal en position finale n est g n ralement pas prononc dans la langue moderne et n appara t que dans des textes classiques ou religieux 35 L existence d une seule lettre pour 5 en ASU 4 diff rencie ce son clairement du son n g crit avec deux lettres 50 si n cessaire Exemple Nyuyork New York Shenshi Kk OD jeh n x1 Skot W yd Scott Wade 3 Les abr viations sont en majuscules et les lettres s par s peuvent tre suivies d un point Exemple B D T Birleshken D letler Teshkilati les Nations unies TDMP Teywen D mokratik Musteqqilliq Partiyisi le Parti de l Ind pendance D mocratique de Taiwan 4 Seule le premier l ment d une lettre compos e est en majuscule Exemple AQ
126. eur racine puisque ni les voyelles arrondies ni i sont affect s par l affaiblissement vocalique 6 Les verbes se terminant en une voyelle suivie d un n se comportent comme les verbes dans la forme r fl chie dans le sens o ils n assument ni la forme r flexive ni la forme passive Le verbe min monter cheval bord semble tre l unique verbe de ce type qui puisse tre utilis la forme passive 7 Les verbes se terminant avec une double consonne ne sont pas affect s par l affaiblissement ex yirt avec uni post rieur 8 Les deux verbes monosyllabiques de et ye ajoutent un y euphonique devant les suffixes sh nom verbal et pluratif qui doivent alors tre pr c d s d une voyelle euphonique i 9 Le verbe monosyllabique yu ajoute un y euphonique devant les suffixes n sh sh p et w eux m mes pr c d s de la voyelle euphonique u ex yuyun yuyul yuyush yuyush yuyup yuyuw Il ajoute aussi un y devant le marqueur du temps du pr sent i ex yuyidu yuyidighan Il est souvent retrouv dans la forme infinitive yuymaq bien que l orthographe officielle soit yumaq 5 9 Les exp riences et les r sultats Afin d analyser les fonctions morpho syntactiques du ouighour nous avons effectu l exp rience d crite ci dessous Notre approche prend en compte l information de la structure du langage et les op rations de traitement de langue Pour commencer nous avons co
127. f rents alphabets influenc s par le pays dans lequel ils vivaient ou de la langue trang re parl e Il est facile de d tecter parmi les dix huit alphabets des influences turques allemandes russes anglaises et chinoises ainsi que divers l ments cr atifs impos s sur les alphabets Entre novembre 2000 et juillet 2001 cinq conf rences se sont tenues l Universit du Xinjiang r mchi afin d introduire un alphabet ouighour unifi ci apr s LSU utilisant les caract res latins Parmi ceux qui assistaient la conf rence il y avait des linguistes ou ghours tels Ibrahim Mutihi Mirsultan Osman Muhebbet Qasim Imin Tursun Abliz Yaqup Xemit Zakir Arslan Abdulla ainsi que des experts en informatiques tels Hoshur Islam T rg n Ibrahim l auteur de cette th se et des jeunes tudiants Pour des raisons politiques et culturelles videntes les conf rences ont fortement insist sur le fait que l alphabet propos ne devrait pas remplacer l ASU et son introduction ne devra pas repr senter une r forme de l alphabet actuel Son utilisation sera uniquement dans les domaines de l informatique comme syst me d criture accessoire Afin d att nuer les craintes d encore une nouvelle r forme de l alphabet et souligner la port e limit e du projet il a t d cid d appeler ce syst me de romanisation Uyghur Kompyut r Y ziqi UKY ou criture ouighoure informatique Ce nom a t chang par
128. financ par National Natural Science Foundation of China no 69963002 Nous n avons pas pu tester l outil propose en raison de sa non disponibilit sur le march 205 Voir http kenjisoft homelinux com uyghuredit pour la derni re actualit sur la mise a jour de la liste des mots 206 Voir http www yulghun com news editor16 html 207 Voir http udmishkorrektor googlepages com index html 208 Voir http www uighursoft com uighur ProductShow asp id 8 Voir http www irpan com Web Forum FTopicView aspx TID 58 210 Le fait d ajouter toutes les formes des mots dans un corpus appel dictionnaire de formes 146
129. ghour a t adopt pour des raisons pratiques dans les changes informatiques Les lettres des 0015 65 alphab tiques en usage pour l ou ghour arabe cyrillique et latin se correspondent entre elles et les r gles d orthographe dans l ensemble ne varient pas de l un l autre 164 Indiff remment du succ s du LSU certains restent prudents son gard par peur qu il ne finisse par se substituer l ASU bas sur l Arabe et h ritier d une tradition multicentenaire Ils estiment que le progr s dans le traitement informatique de syst mes d criture non latines particuli rement gr ce l av nement de l Unicode a limin le besoin d une transcription latine Au vingti me si cle les Ou ghours ont eu plus que leur part de changements d alphabets ce qui a entra n une coupure d avec leur h ritage culturel et la cr ation de nouveaux obstacles l acquisition de connaissances La multiplication artificielle des syst mes d criture a de plus creus les fronti res g opolitiques et le foss interg n rationnel En tant que syst me de transcription simple logique et clair le LSU a renforc les activit s d change et le traitement d information en langue ouighoure Il donne ainsi la chance aux Ouighours de rattraper le monde dans leur propre langue au lieu d avoir passer par l interm diaire d une autre Le progr s du traitement d information et des changes en ASU ne peut que b n ficier des
130. ghur uyghur klassik edebiyati uyghur tili uyghur uyushmisi uyghurchilap uyghurchilashturmaq uyghurshunas uyghurshunasliq Figure 21 Recherch par LSU www uyghurdictionary org O ome O uyy ryH yMFyH KorMaK yuryHnawmak yuryHnyk yuryp yuryp 018664 0 yuryp tunn yMryp YAYLUMUCHU yArypaunan yurypunnawtypmak yurypwyHac WrypulyHacnMWk rM www uyghurdictionary org Figure 22 Recherche par CSU Figure 23 Mode simple e Ajouter le code ci dessous entre les balises lt head gt lt head gt lt link type text css href UyghurDictionaryOrgSearch css rel stylesheet gt lt script src UyghurDictionaryOrgSearch js script lt script src YulghunCombedit js gt lt script gt e Ajouter le code ci dessous la place de la balise lt body gt lt body onload document getElementById UyghurDictionaryOrg focus onClick UyghurDictionaryOrgHide gt Ajouter le code ci dessous l ou on veut placer le gadget du dictionnaire ouighour anglais 86 lt div id UyghurDictionaryOrgMain gt lt table width 323 id UyghurDictionaryMainTable cellpadding 0 ellspacing 0 gt lt form name UyghurDictionaryOrgSearchForm method get action http www uyghurdictionary org ug arab default aspx target _blank gt lt input type hidden name dictype id dictype value ue gt lt tr gt
131. gne s et il indique qu il n y a pas d unit s s mantique Nous mentionnons aussi que l ordre des suffixes de nombre de possession et des cas respecte l ordre que nous avons pr sent dans le paragraphe 3 6 2 4 A savoir Fransiyeliklerningkige Fransiye lik ler ning ki ge Racine SuffDer PL CAS REL CAS 7 5 2 Probl mes d harmonie vocalique et de l affaiblissement des voyelles Dans le chapitre 6 nous avons pr sent deux ph nom nes particuliers de la langue ouighour harmonie vocalique et affaiblissement des voyelles Ceux ci existent galement dans les autres langues agglutinantes comme le turc et le finnois Marie CALBERG CALBERG 2003 pr sente un mod le pour traiter la morphologie du finnois et elle arrive contr ler les ph nom nes d assimilation de voyelles Nous appliquons un des ses graphes pour r soudre partiellement le probl me de filtrage des suffixes cas s par le ph nom ne d harmonie vocalique Dans le paragraphe pr c dent nous avons vu que le mot Fransiye doit choisir ses propres suffixes pour construire Fransiye lik ler ning ki ge C est dire en respectant les r gles d harmonie vocalique de consonnes et de voyelles voir paragraphe 3 2 3 et 3 2 4 l analyseur doit tre capable de choisir les suffixes compos s des voyelles ant rieures du tableau suivant i gha F lar ws Fransiye 1 qa ler pews sl 1 ge
132. hine L chec essuy en fin de compte par cette tentative de romaniser l criture ouighoure ainsi que d autres syst mes d criture de la RAOX peut tre attribu aux facteurs suivants La r sistance culturelle L alphabet arabe repr sentait le lien avec la tradition religieuse l Islam et le pass culturel pour la grande majorit des Ouighours attach s leur identit et ils rejetaient la r forme impos e par les autorit s comme un pas de plus vers l assimilation et la perte de leur autonomie linguistique et culturelle 6l Voir w iwti r xin w nzi fang n c o n document de travail pour la nouvelle criture ouighoure pr liminaire HEAR PAE GER and h s k xin w nzi fang an c o n document de travail pour la nouvelle criture kazakh pr liminaire BF MIX FIK FE novembre1959 http www xjyw gov cn han wenzi gai htm Voir http www omniglot com writing uyghur htm Sur la r forme d criture et de langue voir J R Duval Modern Uyghur A Historical Perspective dans Culture Contact History and Ethnicity in Inner Asia Ne 2 Michael Gervers and Wayne Schlepp eds Toronto Joint Center for Asia Pacific Studies 1996 pp 132 67 37 Un sentiment d loignement des autres peuples turcs Les r formes de l criture en Turquie et dans les autres communaut s turcophones qui avaient cr de multiples transcriptions latines et cyrilliques pour des
133. hique pour l ouighoure Avant d entrer aux d tails nous commengons par expliquer le mot cl ouighour 1 1 Les r volutions de l informatisation ouighoure 1 1 1 Qu est que l ouighour L ouighour est une langue appartenant au groupe des langues turques de la famille des langues altaiques Les Ouighours constituent aujourd hui la plus importante officiellement 8 677 400 e 19 860 000 3 non officiel des minorit s nationales reconnues de la r gion autonome que la Un extrait de ce texte avait t ajout sur Wikip dia et diffus sur internet par l auteur voir http fr wikipedia org wiki Ou C3 AFghour ou rechercher sur internet Le 5 me recensement de population 2 avril 2001 3 Ismail Cengiz Dogu T rkistan in 949 984 arasindaki n fus degisimi II Dogu T rkistan in Sesi c IV sa 31 Istanbul 1991 s 13 14 10 Chine populaire appelle le Xinjiang Nouveau Territoire depuis 1949 et que les Ouighours appellent le Turkestan Oriental UAA Les Ouighours peuple de langue turque dont le nom signifierait alliance unit habitent traditionnellement en Asie centrale dans les oasis du Takla makan les bassins de Turfan et de la Djoungarie et dans une partie du Ferghana L empire Ouighour de Mongolie et les royaumes qui lui ont succ d en Asie centrale Abdush k r Muhemmetimin 2002 ont connu une brillante civilisation jusqu leur absorption dans l empire Mongol au XII me si cle A
134. hiz ouzbek tatar turc et turkm ne allemand n erlandais esp ranto Pour de plus amples information voir le site http poitou free fr pro html gen typologie html L objectif de notre tude n est pas d analyser des langues par famille nous allons pr senter dans ce paragraphe les caract ristiques et la structure de la langue ouighoure 6 4 2 Type des l ments agglutinants En ouighour comme en toutes les langues turques la cr ation de nouveaux mots de mots compos s ou la composition de phrase entrainent de nombreux changements dans les mots La liste des l ments agglutinants plus particuli rement des morph mes qui 118 s attachent aux racines se compose de deux cat gories principales qui se distinguent selon leurs fonctions Morph mes d rivationnels ils cr ent de nouvelles unit s lexicales sur la base des unit s pr existantes Cette proc dure de d rivation lexicale peut grandement augmenter le lexique de la langue Il y a plusieurs m thodes pour produire des nouveaux mots Par exemple 1 G l n fleur k g ll k n jardin adj fleuri k n n soleil jour lik k nl k n parapluie adj Par jour Ici on a cr 2 nouveaux mots en ajoutant un suffixe l k qui a ont Chacun des mots a un sens comme un nom et un autre sens comme un adjective selon le contexte A savoir Bu bir g ll k c est un jardin Bu bir g ll k k ynek c est une chemise fleurs
135. hoix final est donc tomb sur x une lettre commun ment utilis dans des transcriptions caract re scientifique et adopt e par l azerbaidjanais et l ouzbek latinis s Cette solution du moindre mal ne correspond pas totalement au crit re D Ainsi le nom Xoten d une ville importante du sud du Tarim pouvant tre prononc zouten par les anglophones et ksoten ou gzoten par des francophones semble moins logique que Khoten Parmi les Ouighours m me certains maintiennent que l utilisation de la lettre x complique les choses pour les habitants de la RAOX qui doivent apprendre sa prononciation pinyin et une deuxi me prononciation dans le cadre du LSU Par contre pour les ouighours de l ex Union sovi tique cet usage rejoint celui du CSU et ne pr sente donc aucune difficult j 5 Parmi les 11 propositions pour ce son aucune n a totalement satisfait les exigences de tous les crt res Ici aussi il y a eu un d bat 00 au fait que ce son n existe dans les mots origine purement turque que comme une variante parl e de en position d origine p t turque q te parl e de g posit pr consonnantique ex ta3liq qui porte une couronne venant de tad couronne 82 S 2 S S d 500 1 La discussion a parfois pris un tournant amusant Un exemple est la discussion autour de l ambig it d un mot pel haya lorsqu on utilise la lettre A indistinctement ce mot pourrait donc transcrire et bls haja timidit e
136. i tique o les Ouighours utilisent toujours un alphabet d riv du cyrillique L alphabet cyrillique ouighour cr pour des raisons politiques au cours des ann es 40 pour les Ouighours de l ex Union Sovi tique qui avaient utilis un syst me romanis 34 Oasis perdues des Routes de la Soie Serge Viallet UNESCO Beta System R M N Paris 1995 Format CDROM 35 Voir annexe IV critures ouighoure 36 RS 79 Voir annexe IV critures ouighoure 24 pendant pr s d une vingtaine d ann es auparavant il comporte aussi des lettres uniques pour les sons propres au ou ghour le Pinyin Y ngi Y ziq ou nouvelle criture impos pour des raisons politiques par les autorit s de P kin pour remplacer l alphabet arabo persan alors rebaptis Kona Y ziq ou ancienne criture il a d c der de nouveau la place celui ci en 1982 Il utilise l alphabet latin avec les valeurs phon tiques qu il repr sente pour la transcription du chinois et un certain nombre de lettres uniques cr es sp cialement pour transcrire des sons ouighours Ces nouvelles lettres repr sentent un obstacle l informatisation de l ouighour le UKY Uyghur Kompyut r Y ziqi ou criture latine ouighour a cr par un comit d utilisateurs d informaticiens et de linguistes en 2001 comme forme unique de romanisation dans le contexte informatique il utilise l alphabet latin avec la valeur des lettres la plus commune
137. i applique les r gles de segmentation de l ou ghour nous recommandons de suivre une des deux approches suivantes 1 L utilisation des technologies de l automate Un automate est un ensemble d tats reli s par des arcs qui repr sentent les transitions entre tats Un automate qui encode plus d informations et qui produit des sorties est appel un transducteur Ces automates peuvent tre repr sent s par des expressions r guli res et sont utilis s pour construire des r gles d crivant le langage naturel depuis l analyse morphologique des mots jusqu l analyse de la phrase Cette approche peut s appliquer comme un suppl ment dans les outils existants 137 2 D veloppement de nouvel outil Si le r sultat de la 0161111616 approche n est pas satisfaisant on peut choisir de construire des nouveaux outils Afin de fournir une bonne qualit de r sultat l outil devrait tre capable de faire la segmentation et d identifier les l ments agglutinants Nous proposons un algorithme en tenant compte des r gles de segmentation et des formes fl chies Cet algorithme a t impl ment dans un premier temps en utilisant des scripts Perl Pour tout les caract res dans la phrase D couper les composant de la phrase l aide d espace stocker dans un tableau Pour tout les l ments dans le tableau S il y a encore des l ments traiter alors Si l l ment courant est une partie d abr viation alors T
138. i signifie g ographie mais dont l criture fait appel des lettres qui sont communes l alphabet arabe classique et au syst me UEY 215 Le premier le mot arabe l g animal utilise une lettre le C absente de UEY Dans le second qui est la graphie arabe du nom de Dieu Allah la voyelle initiale l n est pas pr c d e du is demand par les r gles de PUEY et des signes de notation vocalique et de redoublement consonantiques purement arabes sont utilis s Le troisi me 42 l arabe utilise deux lettres arabes absentes de UEY Quant au quatri me il introduit le caract re latin x 716 La lettre v n est pas utilis e et la lettre c n apparait que dans la combinaison ch 217 Traduction je ne sais que dire how do you do en anglais 152 des mots ouighours peut contribuer l identification Notre objectif ultime n est pas de d velopper un outil de reconnaissance automatique des langues mais d tudier la possibilit de faire un correcteur d orthographe en utilisant une approche linguistique Nous consid rons donc tous les mots qui ne contiennent que des lettres de l alphabet ULY comme des mots ou ghours et les envoyons a la proc dure de v rification d orthographe Les mots comme can jack virus B nke seront donc limin s au stade de la reconnaissance des critures mais tel ne sera pas le cas pour how do you et do qui seront trait s comm
139. iation Etant aussi des langues agglutinantes et les autres langues turques partagent les caract ristiques de la langue ouighoure que nous avons mentionn es dans le paragraphe 2 2 5 Mais il existe bien des diff rences entre chaque langue en raison de la diversit de l criture des sons et de l inflexion des affixes Par cons quent la probl matique de la morphologie demande une tude particuli re pour toutes les langues Dans le prochain chapitre nous ferons une tude plus approfondie de la morphologie de 1 01018110101 34 Chapitre 2 Une introduction a l criture ouighoure latine Dans ce chapitre nous r visons l historique de l chec de la r forme visant substituer l criture ouighoure bas e sur l alphabet arabe par un alphabet latin inspir par le Pinyin et nous pr sentons les tudes men es dans le cadre de proposition d un nouveau standard de transcription l criture latine 010181101016 LSU Nous exposons les r gles d orthographe qui s y appliquent le cadre actuel de son utilisation et ses perspectives d avenir 2 1 Introduction Les documents historiques nous montrent que les Ou ghours ont utilis divers alphabets parfois en concurrence les uns avec les autres durant diff rentes poques au cours des derni res 2000 ann es Les plus importants sont les alphabets soghdien 5 10 si cle puis 15 16 si cle Orkhon Y nisei aussi connu sous le nom d alphabet turco ru
140. ic Code Page 1256 e Unicode e Unicode Big Endian e Unicode UTF 8 L exemple ci dessous correspond aux codages des caract res ouighours Afin d afficher correctement des caract res ouighour on peut inclure une des options suivantes dans la balise lt head gt d un document HTML Par exemple meta http equiv Content Type content text html charset iso 8859 6 gt 135 lt meta http equiv Content Type content text html charset windows 1256 gt lt meta http equiv Content Type content text html charset unicode gt lt meta http equiv Content Type content text html charset unicodeFFFE gt lt meta http equiv Content Type content text html charset utf 8 gt On peut galement afficher un caract re ou ghour ind pendamment du codage de document HTML en donnant la valeur qui correspond la table Unicode A savoir amp XVALEUR UNICODE EN HEXADECIMAL ou amp VALEUR UNICODE EN DECIMAL Par exemple amp x0628 ou amp 1576 correspond la lettre Dans l Unitex 1 0 1 1 il est impossible d afficher 6 lettres Unicode 3 3 co lt 3 s qui n existe pas dans l alphabet arabe Ainsi nous pr sentons l extraction des entit s nomm es ouighoures en utilisant l alphabet latin 7 4 Segmentation et traitement linguistique La segmentation est un processus de d coupage de texte en phrases de phrases en s quence d unit s lexicales qui peuvent correspondre aux l ments de base
141. iels 3 3 Les lettres ouighoures probl mes d identification et de caract res L ASU est une criture complexe contenant 8 voyelles et 24 consonnes voir annexe 10 soit emprunt es ou adapt es de l alphabet arabe Comme l arabe il s crit de droite gauche et chaque lettre peut se former de deux huit fa ons diff rents selon sa position dans un mot les lettres ASU ont des formes initiales m dianes finales et isol es certaines ont des formes conjointes Au total l alphabet ASU a 126 glyphes diff rents 99 Connue en ouighoure sous le nom UKIJ Uyghur Kompyut r Ilimi Jem iyiti en Uyghur est une association but non lucrative fond par l auteur de cette th se en Janvier 2004 Site web http www ukij org Voir l histoire de l unification des polices ouighoures http www ukij org fonts 101 Voir http www ukij org fonts pour plus de d tails Fait r f rence aux syst mes d criture n cessitant un degr de r organisation et ou traitement de glyphes afin de s afficher s imprimer ou s diter Voir www microsoft com typography Glyph 20Processing intro mspx pour plus de d tails 103 T alphabet arabe utilise 3 lettres pour indiquer les voyelles longues ou dans le premier cas utilis comme soutien de voyelle 59 Les voyelles courtes ne sont pas prises en compte dans l criture normale Etant donn ses IS H caract ristiques phon tiques le ouighou
142. if silencieux initial traditionnel de l alphabet arabe Parmi les cr ations de nouvelles lettres notons celle d une 45 e initiale la sp cialisation progressive de premi rement avec 95 o 6 puis 5 u et plus tard avec 94 o 6 35 u et et la cr ation de la lettre A i pour marquer le i par opposition au s plus tard suppl ment par afin de transcrire les sons de voyelles absents de l alphabet traditionnel A travers ces modifications ASU est devenu un alphabet phon mique avec une lettre pour chaque son distinct En m me temps il est devenu un alphabet ind pendant qui ne suivait plus les r gles traditionnelles de 1 alphabet arabe 85 http www omniglot com writing uyghur htm Voir annexe 10 39 vu que ce dernier comportait des caract res qui sont absents de la plupart des syst mes informatiques D un autre c t cela a caus la multiplication de syst mes romanis s mutuellement incompatibles sur les plateformes d information En 2002 d apr s un sondage r alis par l auteur il y avait au moins dix huit syst mes de romanisation activement utilis s pour l ouighour Ce nombre n inclut pas les translitt rations non syst matiques qui apparaissaient ici et l en raison de l absence d un syst me commun Certains ont un nom Angel Kiboon Makanim ML Hashim PBLSU UIY criture ouighoure surl internet Zaman et certains n en ont pas Des rudits ont propos dif
143. iff rentes phrases nous mettons en ceuvre des connaissances s mantiques qui ne font pas l objet de notre recherche L exemple ci dessus illustre le fait que la compr hension d une phrase f t elle tr s simple met en jeu un ensemble de connaissance qui rel vent du domaine connaissances linguistiques Ce sont les connaissances dont nous venons de parler qui sont directement li es la langue elle m me son mat riau phonique ou crit sa structure ainsi qu ses fonctions de r f rence la r alit connaissances phon tiques phonologiques et morphologiques 179 C est la version ouighour modifi e de l exemple donn par Richard Sproat pour le ture Morphology and Computation page 44 The MIT Press 1992 109 Gil l k lir ingiz di ki ler din mi di de droite gauche Fleur DER PL 2SG POS LOC REL PL ABL INT VT Sont ce celles de vos jardins Dor navant comme la plupart de nos lecteurs ne sont pas ouighourophones afin de simplifier la lisibilit des mots ouighour nous n crirons que la translitt ration standardis e en criture latine UKY Voir l annexe 4 pour l quivalence des lettres ou ghour 6 2 Structure phon tique 6 2 1 Les voyelles La langue ou ghour comporte 8 voyelles Nous les pr sentons ici sous forme d un tableau qui indiq
144. imi Alma ata 1966 Hazirqi Zaman Uyghur Tili 2 gisim Morfologiye we Sintaksis Shinjang Xelq Neshiryati 1985 M9098 37 in Uyghur 64 Sh U A R Tilkom 1985 Hazirqi zaman Uyghur edebiy tilining imla lughiti r mchi Shinjang Xelq Neshiryati M9098 42 in Uyghur 65 zem T m r 1987 Hazirqi zaman Uyghur tili grammatikisi morphologiye Beijing Milletler Neshiryati M9049 4 11 in Uyghur 66 Sh U A R Tilkom 1999 Uyghur tilining izahliq lughiti r mchi Shinjang Xelq Neshiryati ISBN 7 228 05448 2 H 146 in Uyghur 67 Amine Ghappar Mirsultan Osmanov etc Hazirgi zaman Uyghur adebiy tilining teleppuz lughiti 1988 r mchi Milletler neshriyati ISBN 7 105 00529 7 h 28 in Uyghur 68 Richard Sproat 1992 Morphology and Computation USA MIT press ISBN 0 262 19314 0 173 69 C neyd Tantug and Esref Adal and Kemal Oflazer 2006 Computer Analysis of the Turkmen Language Morphology FinTAL Lecture Notes in Computer Science Vol 4139 pp 186 193 Springer 70 Waris A Janbaz Online Uyghur Unicode processing technique and its implementation publication in Chinese Xinjiang University Press China 2002 71 Abdurehim Waris A Janbaz Orthographic rules of the Latin Script Uyghur in Uyghur 2004 http www ukij org teshwiq UKY Heqgide KonaYeziq htm 72 The Unicode Consortium The Unicode Standard Version 4 0 Addison Wesley Professional ISBN 0321185781 USA 2003 73 Xinjiang Univers
145. imla lughiti r mchi 1985 Shinjang Xelq Neshiryati M9098 42 en ouighour 17 Xemit T m r Hazirqi zaman Uyghur tili grammatikisi morphologiye B yjing 1987 Milletler Neshiryati M9049 4 11 en ou ghour 18 Sh U A R Tilkom Uyghur tilining izahliq lughiti Uriimchi 1999 Shinjang Xelq Neshiryati ISBN 7 228 05448 2 H 146 en ouighour 19 Qurban Weli Bizning Tarixiy Y ziqlirimiz Uriimchi Xinjiang Youth s Press 1986 en ouighour 20 Amine Ghappar Mirsultan Osmanov etc Hazirqi zaman Uyghur adebiy tilining teleppuz lughiti r mchi 1988 Milletler neshiryati ISBN 7 105 00529 7 h 28 en ouighour 21 Kurtulus Oztopcu amp Zhoumagaly Abouov amp Nasir Kambarov amp Youssef Azemoun Dictionary of the Turkic Langages Azerbaijani Kazakh Kirghiz Tatar Turkish Turkmen Uyghur Uzbek New York reprinted 1999 Routledge ISBN 0 415 14198 2 hbk ISBN 0 415 16047 2 pbk 22 Zhao Xiang Ru amp Zhu Zhi Ning wei wu er yu jian zhi P kin 1985 Min zu chu ban she BN 9049 40 en chinois 23 Geng Shi Min amp Li Zeng Xiang ha sa ke yu jian zhi P kin 1985 Min zu chu ban she BN 9049 51 en chinois 24 Dao Bu meng gu yu jian zhi P kin 1985 Min zu chu ban she BN 9049 29 en chinois 25 Chen Zong Zhen amp Yi Li Qian ta ta er yu jian zhi P kin 1985 Min zu chu ban she BN 9049 75 en chinois 26 Chen Shi Liang amp Abdurahman wu zi bie ke yu jian zhi P kin 1985 Mi
146. isant et de r soudre d finitivement les probl mes d harmonie vocalique d affaiblissement des voyelles et de filtrage des suffixes nous proposons l algorithme ci dessous Il sert la d sambiguisation et l identification des formes lexicales pendant le processus de l extraction de l information 143 pour chacun des mots dans le sac de noms segmenter en syllabe r cup rer la voyelle et la derni re consonne de la derni re syllabe si la voyelle est une voyelle affaiblie alors trouver la voyelle originale autrement si la derni re voyelle est une voyelle m diane alors r cup rer la voyelle pr c dente fin tant que il y a des suffixes associer filtrer les suffixes en utilisant l arbre Janbaz choisir les suffixes ad quats associer des suffixes au mot et cr er des nouveaux mots modifier la forme surface fin de tant que Fin Figure 11 Algorithme de g n ration des entit s nomm es et de d sambigu sation Dans cet algorithme le sac de noms indique un ensemble d entit s nomm es non suffix es Cet algorithme permet de produire des nouveaux mots valides en choisissant le format ad quat parmi 247 suffixes d rivatifs et plus de 320 suffixes syntactiques partir du sac de noms il peut g n rer la forme surface et la stocker dans un fichier afin de visualiser le r sultat du traitement morphologique 7 6 Evaluation Cette valuation a t effectu e sur un document de 5330 m
147. ise en place il s agissait pour nous d tablir une m thodologie satisfaisante pour la cat gorie lexicale la plus complexe de la langue ou ghoure les verbes en raison de la multiplicit des possibilit s de d rivation qu ils offrent L application de cette m thodologie aux autres cat gories lexicales sujettes d rivation et suffixation savoir les noms et les adjectifs ne devrait pas poser de probl me particulier puisque les m mes principes s appliquent dans leur cas mais avec un nombre de suffixes grandement r duit Comme nous pouvons le constater la strat gie de recherche pour d velopper un outil complet de correcteur orthographique a d j t mise en place Nous esp rons pouvoir les d velopper dans des recherches futures 168 Chapitre 10 Bibliographie 1 Dr R dvan ZT RK Yeni Uygur T rkcesi Grameri ANKARA Semih Ofset Matbaac l k ve Ambalaj Sayayi Ltd 1994 ISBN 975 16 0586 5 en turc 2 Dr Sultan Mehmut Ka garl Modern Uygur T rk esi Grameri Istanbul 1992 Karde ler Matbaasi ISBN 975 7740 12 8 en turc 3 Qazaq SSR Penler Akad miyisi Uyghurshunasliq 130111111 Hazirqi Zaman Uyghur Tili 1 qisim L ksika we Fon tika Alma ata dition 1966 Shinjang Xelq Neshiryati 1985 M9098 40 en ouighour 4 Qazaq SSR Penler Akad miyisi Uyghurshunasliq 130111111 Hazirqi Zaman Uyghur Tili 2 qisim Morfologiye we Sintaksis Alma ata 1966 Shinjang Xelq Neshiryati 1985 M9098 37
148. istan noms endroit cimeti re g listan jardin fleuri Tableau 11 Suffixes iraniens 6 5 2 Suffixes syntactiques de noms Nous pr sentons les suffixes syntactiques par trois aspects diff rents le nombre la possession et les cas 6 5 2 1 Le nombre En ouighour les suffixes lar ou ler expriment le pluriel Les formes plurielles sont g n ralement form es l aide de ces deux suffixes Par exemple Singulier Pluriel sheher ville sheherler villes kitab livre kitablar livres er homme erler hommes ayal femme ayallar femmes Tableau 12 le nombre Dans certains cas la singularit ou la pluralit ne sont pas exprim es et seul le contexte peut aider faire dispara tre cette ambigu t Par exemple Mende kitab bar J ai un des livre s Uning chishi yoq il elle n a pas de dent s Afin d viter des ambigu t s on peut ajouter bir pour le singulier et indiquer le nombre exact de noms d nombrables pour le pluriel mais les noms ne prennent alors pas la marque du pluriel Par exemple Men on at we bir t ge aldim J ai achet dix chevaux et un chameau Et non Men on atlar we bir t ge aldim qui serait une faute grave Dans une num ration il suffit d ajouter Jor ler seulement au dernier nom afin d exprimer le pluriel Par exemple Mende alma badam we anarlar bar Fai des pommes des amandes et des grenade
149. it s nomm es ouighoures Nous voyons cinq boites dans cet automate Chacune des boites repr sente un graphe ind pendant qui permet d appeler dynamiquement les graphes lexicaux pour r cup rer des entit s nomm es UY PER UY LOC UY DATE et UY NOUN correspondent respectivement aux racines lexicales de noms personnels locations dates et noms UY SUFF correspond aux suffixes nous savons bien qu en ouighour les suffixes peuvent s associer avec n importe quelle type d l ment lexique comme nom verbe adjectif La s quence UY XXX gt UY SUFF correspond donc aux entit s nomm es suffix es Par exemple Warislar Waris etc Fransiyelikler les fran ais 1 d kabirdin du 1 d cembre g ll klerdin des jardins voir Kemal Oflazer amp MM T r 2001 A statistical information extraction system for Turkish page 17 200 Name Tag Model 201 Les bo tes grises renvoient aux sous graphes dont elles portent les noms 140 Le graphe suivant montre une partie des l ments qui se trouvent dans la boite UY SUFF Il permet de r cup rer une s quence valide pour l extraction des noms dans ce graphe pour le possessif nous avons appliqu P1 du Tableau 13 et nous n avons pas appliqu tous les suffixes Si la boite UY NOUN envoie un nom Fransiye dans ce cas le grave ci dessous est capable de trouver Fransiye France Fransiyege la France Fransiyede en France Fransiyelik fran ais Fransiyelikler fran
150. itement automatique de la langue ouighoure dans une situation o les syst mes d exploitation ne supporte pas la langue ouighoure 1 4 Plan de these Dans cette tude nous d crirons comment concevoir des algorithmes de traitement automatique de langue adapt s pour d autres langues que les langues courantes et plus pr cis ment pour l ouighour Tout d abord nous faisons une comparaison de vocabulaire entre 8 langues turques en pr sentant la particularit de l ouighour Ensuite nous pr senterons les caract ristiques 15 et la structure morphologique de la langue ouighour en faisant une tude des suffixes de d rivation Enfin nous d crirons les tapes afin d impl menter des outils informatiques en tenant compte notamment des probl mes techniques et linguistiques pos s au traitement de l ouighour Notre approche montrera qu partir d un outil et de telles techniques il est possible d utiliser une approche purement linguistique pour faire de recherche de l information d analyse morphologique et de correction orthographique La partie valuation de notre recherche montre quelle source de donn es a t choisie pour extraire les donn es sur les interactions Nous proposerons des algorithmes qui seront utiles pour la syllabisation le parseur et pour la suggestion orthographique Notre tude se d veloppera dans deux grandes tapes Probl mes trait s au niveau de pr paration Cr ation d une m thode d entr
151. ity Proceedings 2000 International Conference on Multilingual Information Processing r mchi publication in Chinese China 2000 74 The Unicode Consortium Website http www unicode org 75 Reinhard F Hahn Spoken Uyghur Washington the University of Washington Press ISBN 0 295 97015 4 USA 1991 76 Mohamed Hatem HADDAD Extraction et Impact des connaissances sur les performances des Syst mes de Recherche d Information 2002 http hal archives ouvertes fr docs 00 04 60 54 PDF tel 00004459 pdf 77 Claude de Loupy L apport de connaissances linguistiques en recherchedocumentaire 2001 http www syllabs com perso loupy cv papers LOUO a pdf 78 Christine Michel Evaluation de syst mes de recherche d information comportant une fonctionnalit de filtrage par des mesures endog nes th se 1999 http www recodoc univ lyon1 fr theseCMichel pdf 174 Chapitre 11 Annexes Annexe 1 Annexe 2 Annexe 3 Annexe 4 Annexe 5 Annexe 6 Annexe 7 Annexe 8 Annexe 9 Annexe 10 Annexe 11 Carte des groupes ethniques de l Asie Centrale Alphabet turco runique Vl me IX me Alphabet ouighour ancien X me XVIlleme Table des alphabets de langues turciques Abr viations Suffixes ouighours Lettres ouighoures et leurs valeurs Unicode conventionn es Groups des suffixes verbaux Liste des verbes primitive Tableau des alphabets ASU LSU CSU Arbre des langues turciques 175 176 Chapitre 11
152. iv il a t d cid de l utiliser l essai et de laisser l usage d cider 4 v v ele gt lwli L p B e a f gh sh s j zhiz r d x chj j si4 a BBS elo le yji j w ujo hin ml ng G k q Table 3 Correspondance des lettres ASU et LSU La table ci dessus n inclut pas le hamza au dessus de la dent 3 ou 4 qui n a pas t discut au cours des conf rences Cette lettre n est jamais list e s par ment dans l ASU d au fait qu elle est consid r e comme faisant partie int grale de la forme initiale des voyelles Mais en fait elle sert galement marquer en cours ou fin de mot un arr t glottal L arr t glottal n est pas prononc aussi fortement qu en arabe ou en ouzbek par 83 II se dit que la d cision des linguistes ouighours d ajouter ce symbole comme faisant partie de la forme initiale des lettres est un lien l ancien syst me d criture ouighour dans lequel toutes les voyelles initiales taient pr c d es d une dent L alphabet arabe a trois lettres 5 and qui peuvent indiquer les voyelles longues Les voyelles courtes peuvent tre indiqu es par l utilisation de marques au dessus ou en dessous des consonnes mais qui ne s utilisent pas dans l criture courante Etant donn ses caract ristiques phon tiques le ouighour prend
153. ix histoire namaz pri re dijurn de service mots d riv ce sont des mots qui sont form s en rajoutant des suffixes de d rivation aux stems Par exemples ish travail chi ishchi travailleur k ch la force l k k chl k fort Dans certains mots emprunt s d origine iranienne de nouveaux mots sont g n r s l aide de pr fixes par exemple bi chare solution bichare mis rable na timid espoir na mid sans espoir et de suffixes tels que xana xor shunas et che aussi utilis s en ouighour sur des racines d origine non persane mots compos s ce sont tout d abord des mots compos s de deux racines s mantiques accol es Il ne s agit plus de deux mots mais d un mot compos 121 fixe comme l indique la graphie apposition sans signe de subordination comme dans tam le mur g zit journal tam g zit journal mural trait d union comme dans mal bien m l k possessions mal m l k patrimoine ou incorporation en un seul mot comme dans ash nourriture qazan casserole ashqazan estomac ou t ge chameau qush oiseau togiqush autruche mots doubl s Ce sont des mots form s de deux portions partageant certaines relations lexicales ou phon tiques et li es l aide d un trait d union Par exemple gish hiver yaz t gish yaz toute l ann e 2 mots du m me domaine lexical bas bas foule r p tition du m me mot ch
154. ix diff rent lors de la substitution d un caract re ASU sp cifique un caract re arabe Chaque informaticien essayait de r pondre sa fa on aux probl mes importants pos s par l utilisation de polices non standardis es Ainsi un certain nombre de polices transitionnelles sans lien avec le standard Unicode ont t propos es pour contourner la difficult Comme le nombre potentiels des lettres arabes rempla ables c est dire qui ne sont pas utilis es dans l ASU pr sentes dans des polices au moment de l installation du syst me d exploitation est sup rieur celui des lettres ouighoures absentes de l alphabet arabe traditionnel chacun proposait un accord de remplacement distinct qui substituait la m me lettre ouighoure une lettre arabe remplacable diff rente contribuant ainsi au 93 Ci apr s le terme police ouighoure fait r f rence une police bas e sur l ASU 94 Voir http www unicode org charts PDF U0600 pdf http www unicode org charts PDF UFB50 pdf http www unicode org charts PDF UFE70 pdf Arabe U0600 U06FF Formes de pr sentation arabe A amp B 55 d sordre qui r gnait au niveau de la comptabilit D apr s un sondage effectu par l auteur en d cembre 2003 il y avait quelque 400 logiciels de traitement ASU en utilisation avec pas moins de 300 codages de police Voici un exemple de remplacement possible de lettres arabes Notons que les formes et les codes d
155. ixes Nous estimons pouvoir balayer les obstacles avec l application des r gles et des m thodes pr sent es dans le chapitre 5 et 8 R soudre ce probl me sera le but de notre travail dans la prochaine tape du d veloppement Nous avons insist sur l historique du d veloppement des logiciels en ouighour et des questions de mise en ceuvre li es aux polices ouighoures Unicode et IME Les efforts investis au cours de plus de trois ans dans l unification des polices ouighoures en utilisant le standard Unicode ont t fructueux Beaucoup d applications et de sites web ont t cr s afin de d velopper la technologie d information ouighoure Il serait n cessaire que les autorit s gouvernementales de la R gion Autonome soutiennent plus efficacement ce travail en appliquant v ritablement la loi de langue et d criture de la RAOX afin de satisfaire la demande croissante de logiciels et sites web en ouighour En m me temps les compagnies informatiques devraient davantage s efforcer d offrir des produits plus compatibles Il y aussi d autres probl mes techniques r soudre afin de pouvoir ajouter des d finitions de 166 locales ouighoures 4 Windows XP ainsi qu aux versions plus anciennes Nous faisons appel aux compagnies de logiciels pour qu elles n omettent plus la langue ouighoure dans la liste des langues support es e R gles morphologiques de suffixation Nous avons pr sent une vue d ensemble des r gles de suffixa
156. l entr e SI le nombre des voyelles est sup rieur un ALORS remplacement de la derni re voyelle par a et e et alimentation des deux formes originales non affaiblies possibles Algorithme 1 Affaiblissement des voyelles ouighoures D but extraire les voyelles de l entr e initialisation vide des deux formes modifi es possibles initialisation des suffixes qui r sultent de l lision SE gt SE ap ep ip op SI le nombre des voyelles est gal un et SE existe dans l entr e ALORS remplacement de p par Jet alimentation de la premi re forme restitution des formes originales en rempla ant ap ep ip op par lip lip ilip olup respectivement et alimentation de la deuxi me forme retourner deux formes modifi es possibles suite a l lision SINON ne rien faire et de retourner deux formes vide Fin Algorithme 2 Elision de consonne ou ghoure Lors de l identification de la racine la recherche est faite soit a en concat nant s quentiellement la racine trilit re tir e de la liste avec le premier caract re situ sa droite approche progressive soit b en abandonnant chaque fois le dernier caract re de la racine hypoth tique approche d gressive Dans le deuxi me cas la recherche de racine est plus lourde pour des mots compos s de plusieurs suffixes Par exemple 158 k liwatganlarningmu est ce ceux q
157. le i des suffixes ir di comme un ph nom ne d affaiblissement de la voyelle e vers i Les connaissances que nous mettons ici en ceuvre sont des connaissances phon tiques et phonologiques Il faut galement relier ces unit s des mots de l ouighour Cela suppose en premier lieu que nous sachions reconnaitre dans chaque unit une forme d un mot de r f rence ou lemme que l on pourrait retrouver dans un dictionnaire Ainsi nous reconnaissons dans AUS g ll k la racine Jh g l fleur partir de laquelle on a cr le mot g ll k jardin avec l aide d un suffixe l k lieu o quelque chose abonde Nous savons aussi que le suffixe A ler est ajout pour le pluriel g ll kler jardins Nous reviendrons plus en d tail sur les explications des suffixes dans les paragraphes suivants Si nous cherchons dans un dictionnaire l entr e Jj g l nous verrons qu il s agit d un nom fleur Nous trouverons dans la m me page des mots compos s ou des mots qui sont form s en rattachant des morph mes Par exemple g ll k jardin g ldeste bouquet de fleurs Mais nous ne trouverons pas toutes les formes fl chies car elles peuvent tre tr s nombreuses Nous avons donc utilis ici des connaissances morphologiques Arriv s ce niveau de compr hension nous avons les l ments principaux de la morphologie Si nous continuons d analyser les sens d un mot dans d
158. le PNSU propose aussi sh pour des mots d origine chinoise telle gungshe commune 5 y Les principes C et D ont limin u vu ue et ui et le principe A a limin y un choix attractif car c est le symbole IPA pour la voyelle haute ant rieure arrondie puisqu elle tait d j utilis e pour s et u qui repr sente 3 La lettre ii a finalement t choisie puisqu elle utilise la m me m thode de diff rentiation avec son quivalence vocalique post rieure u 81 Ze 28 1 que 6 vis vis de 0 et est fr quemment utilis e dans le monde pour repr senter un son similaire ou proche du son ou ghour 5 w Cette lettre est utilis e afin de rendre une consonne qui alterne entre la bilabiale w et la fricative labio dentale v un son consonantique qui rappelle la lettre n erlandaise w quelque par entre w et v en d but de syllabe ex w t n patrie waezir vizir qolwaq chaloupe ainsi qu une semi consonne bilabiale l che o en fin de syllabe ou apr s une voyelle ex al law lip Etant donn e cette double valeur En pinyin la lettre compos e sh repr sente la fricative post alv olaire sourde J tandis que la lettre x repr sente la fricative alv olo palatale sourde c En ouighour seul le premier de ces deux sons existe Dans l ASU le sh et x du PNSU sont transcrits par la lettre ci 8 I faut noter qu en PNSU les voyelles p
159. les de la formation des noms en analysant les principes de deux grands l ments agglutinants suffixes d rivatifs et suffixes syntactiques 6 5 1 Suffixes d rivatifs de noms Le suffixe est un instrument de formation des mots La construction des noms a l aide des suffixes 061178015 est une m thode efficace largement utilis e Dans ce paragraphe nous pr sentons en forme de tableau les suffixes les plus couramment utilis s en donnant des exemples et la signification des mots cr s Voir annexe 6 pour la liste complete des suffixes 1 suffixes de noms personnels Suffixes 1165 aux signification Exemples Giilchi fleuriste usul danse chi agent chi noms usulchi danseur s t lait chi professionnel s tchi laitier yataq dortoir dash yataqdash dash noms la m me chose isimdash qui a le m me nom homonyme celui qui partage colocataire isim nom dash ghuchi quchi verbes agent vendeur k t v servir k chi g chi k chi k tk chi serveur M Fransiye lik Fransiyelik liq lik luq nationalit noms propres 0 fran ais Lyon luq 0 l k origine lyonnais Sat v vendre quchi satquchi Tableau 7 D rivation des noms personnels 123 2 suffixes de choses et de noms concrets Suffixes 1165 aux signification Exemples pich v coupe ag pichaq q k aq ek ve
160. lieu de deux De toute facon le son est plus proche du son du frangais que du albanais H v Les principes B C et D ont limin g g v vg w er O7 et la lettre g tait d j occup e par La lettre double gh a t choisie par opposition au o ouzb que puisqu elle est d usage commun dans la repr sentation du dans les mots venant de langues o existe le son v ex Afghanistan Maghreb Agha Khan a h Les principes B C et D ont limin v h vh wh et hf La lettre h a t choisie comme tant la solution la plus simple sans marque diacritique et aussi parce que dans la plupart des langues elle repr sente un son tr s proche du son ouighour dz Le principe B a limin ds le principe D a limin c et zh La lettre c est prononc e ds en turque et az ri Pour ce son PNSU offrait deux choix j dans les mots natifs et zh dans les mots d origine chinoise ex Fangzhen ce dernier tant utilis afin de repr senter ce son uniquement dans le pinyin chinois J a t choisi comme tant plus proche de l usage international n Le principe B a limin et n et le principe D a limin nh et nf Le choix a naturellement fini par tre la lettre compos e ng qui est utilis commun ment dans beaucoup de langues afin de repr senter le son 1 5 Les options vo oe et oi ont t limin es puisqu elles allongeaient inutilement les mots ou ne rendaient p
161. liquement neutre din est la marque vocaliquement neutre de l ablatif apr s une voyelle ou une consonne sonore et finalement mu est la marque vocaliquement neutre de l interrogatif Dans des langues agglutinantes telles que l ouighour et d autres langues turques plusieurs suffixes peuvent tre fix s une racine et les fronti res morph miques d pendent du contexte morphologique et phonologique Mais l ouighour poss de aussi des fonctions morphologiques complexes uniques que nous allons voir dans les prochains paragraphes Les traits communs toutes Is langues turques aussi bien que les traits sp cifiques de l ouighour demandent une attention particuli re lors de l identification et la mise en ordre de ses nombreux suffixes et dans la d termination des interconnexions Cette complexit fait que le TALO est tr s difficile impl menter particuli rement lors de l analyse linguistique Des erreurs dans l harmonie des consonnes et des voyelles ainsi qu un ordre incorrect des suffixes causent des fautes d orthographe Il est vident que collecter toutes 148 Voir 5 5 91 les formes suffix es possibles des racines dans un corpus serait quasi impossible et pourrait causer d importantes et inutiles redondances d information Afin de clarifier le processus de suffixation dans l ouighour crit il faut d abord d finir les r gles phon tiques qui l affectent Dans les sections suivantes nous allons les d crire telles qu elles s
162. lisant des alphabets diff rents en vitant l obstacle potentiel de nouvelles r gles de transcription orthographe B Absence d ambig it et viter au plus possible de doubler les lettres Ce principe tait afin d encourage la cr ation dun syst me de transcription translitt ration claire et logique qui permettrait une lecture facile qui emp cherait des ambig it s possibles particuli rement dans le cas des voyelles combin es qui cr ent un seul son et d viter l allongement inutile des mots variantes peut tre retrouv dans les documents crits de la RAOX Dans le cas du CSU l orthographe est g n ralement bas e sur les dialectes ouighours du nord essentiellement caract ris s par une substitution fr quente du son 3 en position initiale pour y et a tendance a suivre la vraie prononciation par exemple en abandonnant le final non prononc apr s s ou sh mais en le r ins rant lorsqu un suffixe exige sa prononciation 76 Ex Trois mots venant de la m me racine trilit re arabe k t b kitab livre kutupxana biblioth que et mektep cole Sen S A igtisad conomie prononc ixtisat de arabe igtisad versus LA maqsad Voir Hazirqi zaman Uyghur edebiy tilining teleppuz meqset but prononc mexset de l arabe lughiti Dictionnaire de la Prononciation de l Ouighour Moderne Nationa
163. lities Publishing House Beijing 1988 77 Pour les lettres CSU la correspondance une une ne peut tre garantie que dans des textes suivant l orthographe de la RAOX 42 C Utilisation minime de signes diacritiques lesquels devraient tre restreints aux plus communs A cette poque la plupart des claviers pr sents dans la RAOX taient du type QWERTY nord am ricain et peu d utilisateurs taient susceptibles d installer des logiciels sp cifiques pour LSU les ordinateurs tant programm s par d faut pour l entr e de donn es en anglais ou en chinois D Une correspondance approximative des lettres latines choisies avec leur valeur phon tique internationale Ce principe avait pour but d assurer que les lettres puissent tres utilis es 06 6 consistante avec la prononciation internationale commune et ce en partie afin d viter la confusion parmi les non ouighourophones qui tenteraient de lire par exemple un pr nom ou nom g ographique en ouighour quel lecteur de langue anglaise frangaise allemande ou espagnole saurait comment prononcer approximativement r mchi si celle ci tait crite r mqi ou Vurvumqi ou Shemshi crite Xomxi Les principes num r s ci dessus ont t appliqu s de mani re hi rarchique avec la priorit accord e au premier d entre eux tout en tenant compte de l importance des principes qui suivent L alphabet PNSU des ann es soixante et soixante dix n a pu passer le test d auc
164. lt r ou kelgtiz au lieu de la forme attendue keldiir ou chiqar au lieu de chiqtur n ont pas t inclus puisqu ils seront tudi s plus tard dans notre recherche dans le cadre des regles de d rivation Il doit tre pris en compte que ces deux cat gories de formes de verbes m me si elles sont exclues du dictionnaire des racines suivent le m me sch ma de suffixation que les racines verbales primitives dans leur conjugaison Toute entr e dans le dictionnaire inclut la racine le marquer l ant riorit ou de post riorit vocalique et ou l information sur le type de mot Exemple 68 Microsoft Excel pour des raisons pratiques 69 Kemal Oflazer 1994 Two level Description of Turkish Morphology Literary and Linguistic Computing Vol 9 No 2 Ceci est mis en ceuvre en VBA 7 Cet outil est mis en uvre en C utilisant la composante TreeGX de devcomponents com Pour des raisons de droit d auteur il n est pas encore disponible en ligne mais une version prototype sera disponible lors de la pr sentation 77 A ce stade nous avons identifi 639 racines verbales primitives 73 Voir chapitre 9 pour plus de d tails 103 b gin til ich kel gt gt lt lt sat Dans la plupart des cas la valeur d ant riorit ou de post riorit vocalique peut tre v rifi e partir de la derni re voyelle de la racine Pour certaines racines qui ne contiennent que l une des voyelles non arrondies et i e
165. lyser la morphologie de l ouighour Prenons une suite de sons en ouighour que nous repr senterons par Gyllyklirinizdikilaerdinmidi Translitt ration en Alphabet phon tique international Nous comprenons qu il s agit d un nonc complet en ouighour Nous pouvons en donner une version crite G ll kliringizdikilerdinmidi translitt ration en LSU voir annexe 4 Pourquoi peut on dire qu on comprend cet nonc Quel est le processus suivi pour ce faire Tout d abord il est n cessaire de connaitre l ouighour Cela implique que nous puissions mettre en uvre tout un ensemble de connaissances li es la compr hension d une langue En particulier Nous savons associer la suite de sons 178 gylt lyk litri niz di ki ler din mi di une suite de racines et de suffixes Jis gilt liktlert ingiz de kit lert din mitdi Pour cela il faut tre capable de d couper et ventuellement regrouper la suite de sons en unit s distinctes qui sont ici g l l k ler ingiz de ki ler din mi et di et qui sont form es de ce que nous savons tre des sons de l ouighour Par exemple g y n 5 Le signe est ici utilis pour s parer les unit s lexicales les unes des autres 108 r etc Dans cet exemple nous savons en outre interpr ter
166. m Janbaz September 2006 An Introduction to Latin Script Uyghur 2006 Middle East amp Central Asia Conference University of Utah Salt Lake City USA 172 55 Jean Rahman Duval Waris Abduk rim Janbaz July 2005 The Uyghur English Dictionary http www uyghurdictionary org 56 Jean Rahman Duval 1996 Modern Uyghur A Historical Perspective in Cultural Contact History and Ethnicity in Inner Asia edited by Michael Gevers and Wayne Schlepp Joint Centre for Asia Pacific Studies Toronto ISBN 1 895296 22 6 57 Reinhard F Hahn 1991 Spoken Uyghur University of Washington ISBN 0 295 97015 4 58 Aysin Solak Kemal Oflazer 1993 Design and Implementation of a spelling checker for Turkish Literary and linguistic computing Vol 8 No 3 Oxford University Press 59 Kemal Oflazer 1994 Two level Description of Turkish Morphology Literary and Linguistic Computing Vol 9 No 2 60 Dr R dvan ZT RK 1994 Yeni Uygur T rk esi Grameri ANKARA Semih Ofset Matbaacilik ve Ambalaj Sayayi Ltd ISBN 975 16 0586 5 in Turkish 61 Dr Sultan Mehmut Ka garl Modern Uygur T rk esi Grameri Istanbul 1992 Karde ler Matbaasi ISBN 975 7740 12 8 in Turkish 62 Qazaq SSR Penler Akad miyisi Uyghurshunasliq B limi Alma ata 1966 Hazirqi Zaman Uyghur Tili 1 gisim L ksika we Fon tika Shinjang Xelq Neshiryati 1985 M9098 40 in Uyghur 63 Qazaq SSR Penler Akad miyisi Uyghurshunasliq B l
167. ma geqi anma KEK dried apple pieces C ti alma giyami anma KHfaMM T LIU alma murabbasi anma MypaDDacM T 60 0 alma uruqdishi anma YPYKAMLUM amp Be 8 UU alma urugi reng anma ypykM Dan C almas pargiragliqi anMac napkupaknuKn SUB almash Figure 18 pr sentation du r sultat de recherche option de recherche commence par Le r sultat de recherche est vide si a le mot cl recherch n existe pas dans le dictionnaire b l utilisateur atteint le nombre maximum de mots autoris s la consultation quotidienne c le mot cl n est pas saisi correctement Dans le premier cas le mot non retrouv est ajout automatiquement la liste des futures entr es potentielles dans le deuxi me cas l utilisateur re oit un message d alerte et dans le dernier cas le moteur de recherche fait une suggestion de correction d orthographe Nous pr sentons les d tails de cette fonctionnalit dans la section suivante 3 9 5 Correction d orthographe Apr s avoir tudi les mots recens s dans la liste des mots non trouv s pendant le premier trimestre apr s le lancement du dictionnaire en ligne nous avons constat que la grande majorit des fautes r side dans les probl mes suivants par ordre de fr quence e Influence de la langue parl e en raison des dialectes de la consonance trang re des mots emprunt s ou des multiples
168. ment de l criture arabe Les r gles de substitution d finies dans ce processeur ne sont pas directement applicables l ouighour et de ce fait ne sont pas compatible avec l ouighour Mais le remplacement de certaines lettres arabes par des lettres ouighoures permet d utiliser sans besoin de re cr ation les fonctionnalit s de substitution des lettres arabes qui Voir Une proposition pour l Unification des polices ouighoures http www ukij org fonts history Teklip pdf 2 C est dire J a D 6 6 3 Ta Ese D d Les r ponses de quelques uns de ces d veloppeurs des polices non standardis es ou la m thode transitionnelle que nous avons contact s taient similaires c est une solution temporaire Comme dit le dicton At tapquche shek min avant de trouver un cheval chevauche un ne 56 g rent l affichage des formes diff rentes des lettres pour l ou ghour selon les sp cificit s de l criture ouighoure L inconv nient de ce syst me est que la cr ation d une m thode d entr e par contr le des v nements keypress keyup keydown du clavier reste obligatoire pour effectuer des traitements afficher diter etc de texte ouighour comme c est le cas pour l arabe ou d autre langues graphie non latine sur les anciennes versions des syst mes d exploitation Les d savantages consid rables de cette m thode sont a non conformit avec la norme i
169. mes au langage Unicode contrairement aux anciennes m thodes qui ne l taient pas ou qui l taient seulement partiellement Une campagne de lancement et de diffusion de cette police a ensuite t men e Les mots cl s les plus utilis s au d but des noms de police sont Uyghur XXX Uighur XXX le pr nom des d veloppeurs ex Memet Asliya Semet Tuz et le nom des entreprises ex Almas XXX Alkatip XXX UKK XXX 57 En 2004 sous la direction des fondateurs de l Association Informatique Ou ghoure quatre conf rences ont eu lieu sur le net pour introduire le codage unifi de la police ouighoure L auteur de cette th se tait charg de l organisation des v nements et de la pr paration des propositions initiales tudi es discut es dans ces conf rences Parmi les participants il y avait des experts en informatique travaillant pour des compagnies priv es des organisations de recherche parrain es par le gouvernement ainsi que des d veloppeurs de logiciels ind pendants savoir Alim Ehed Erkin Batur Gheyret Toxti Kenji Muhemmed Abdulla Yasin Imin Le but des conf rences tait de parvenir une solution et un commun accord sur les probl mes caus s par certains glyphes ambigus de l ouighour Dans les sections suivantes nous d crivons et soulignons les tapes essentielles suivre lors de l utilisation de l ou ghour en Unicode pour le traitement de texte et le d veloppement de logic
170. mpil une liste de 9265 verbes sur la base de laquelle nous avons tabli un dictionnaire de 102 racines qui r pertorie des entr es uniques non suffix es ou racines de verbes primitives Puis nous avons cr une banque de r gles qui r pertorie tous les suffixes verbaux dans leur ordre naturel d apparence Les suffixes ont t isol s bas s sur l approche de deux niveaux appliqu s aux caract ristiques sp cifiques de l ouighour et les marqueurs fonctionnels marqueurs syntactiques diff renci s des lettres euphoniques Par la suite nous avons mis en place un g n rateur lexical qui donne toutes les formes de surface th oriquement correctes de chaque verbe Finalement nous avons d velopp un explorateur de suffixes afin de visualiser afficher la structure de chaque forme suffix e d un verbe La section suivante d crit chaque module en d tail 5 9 1 Dictionnaire des racines Comme mentionn ci dessus le dictionnaire des racines ne contient que des racines verbales primitives Le parsing parsage des verbes d riv s de racines nominales existantes qui repr sente la majorit des verbes r pertori s dans la liste de verbes d origine ex g llenmek s panouir prosp rer ajizlashmaq 5 affaiblir chouer diminuer montre bien qu il s agit de formes suffix es d nominatives de noms communs ex g l fleur ou d adjectifs ex ajiz affaibli Les verbes en forme factitive irr guli re ex ke
171. n gt tegken pron tekken tagh gha gt taghqa pron taqqan La lettre h en position finale est souvent abandonn e dans la langue parl e laissant la voyelle pr c dente dans une position finale par exemple aramgah pel aramgahqa au datif mais souvent adouci en aramg gha dans la langue parl e Ce ph nom ne a amen certains phon ticiens ouighours consid rer tort h comme une consonne douce 150 N est pas respect dans le dictionnaire de prononciation de 1988 op cit 151 Souvent prononc comme un w Cet adoucissement n arrive jamais dans des mots o un p final est d riv d un f tymologique tels terep teref ou sinip sinif 152 A noter que la prononciation h site entre b et w 92 5 3 65 La diff renciation des voyelles se fait sur la base de la position de leur mission dans la bouche voyelles d avant ou ant rieures par opposition a voyelles d arri re ou post rieures le degr d ouverture des 167165 voyelles 8110110165 par opposition a voyelles non arrondies et la hauteur de la langue voyelles hautes par opposition a voyelles basses lors de leur production Non arrondie Vu arrondie V ant rieure post rieure ant rieure V post rieure V V Vy Haute 1 i 6 O Basse e a U Table 5 voyelles L ouighour crit et l ouighour parl ne diff rencient pas entre l et 1 i d avant et l et Pi d
172. n Tatar http www ics uci edu kemal publications ct morphology altintas cicekli ps 46 Claude de Loupy amp Patrice Bellot Evaluation of Document Retrieval Systems and Query Difficulty Avignon http www lia univ avignon fr fich art 146 lreceval pdf 47 Claude de Loupy L apport de connaissances linguistiques en recherche documentaire Ivry sur Seine TALN 2001 http www sinequa com sq lab doc SL 2001 007 TALN2001 pdf 48 Alim Ahat Frequency analyses of the Uyghur letters Jan 2004 http www uighursoft com uighur soft biliwal htm 49 Waris A Janbaz Kompyut r saheside Latin y ziqi asasidiki Uyghur y ziqi ni tesis qilish toghrisida teshebbusname 29 page document distributed during the first conference Nov 2000 50 Uyghur Computer Science Association Uyghur kompyut r y zigi toghrisida http www ukij org teshwig UK Y Heggide htm May 2004 31 UKY Arxipliri discussion archives on internet 200 2001 www biliwal com modules php name UKY_Arxipi also available at www voy com 37018 52 Website of the XUAR Working Committee of Minorities Language and Writing w nzig ig writing reforms http www xjyw gov cn han wenzi_gai htm 2001 53 J R Duval Modern Uyghur A Historical Perspective In Culture Contact History and Ethnicity in Inner Asia Ne 2 Michael Gervers and Wayne Schlepp eds Toronto Joint Center for Asia Pacific Studies 1996 pp 132 67 54 Jean Rahman Duval Waris Abduk ri
173. n zu chu ban she BN 9049 77 en chinois 27 Hu Zhen Hua ke er ke zi jian zhi P kin 1985 Min zu chu ban she BN 9049 64 en chinois 28 Richard Sproat Morphology and Computation USA 1992 MIT press ISBN 0 262 19314 0 170 29 AFNOR Principes g n raux pour l indexation des documents tome 1 Paris la D fense 1996 AFNOR NF Z 47 102 30 Suzanne Walter L analyse documentaire Paris 1999 ADBS ISBN 2 84365 030 5 31 Chen Multilingual Information Retrieval Using English and Chinese Queries Proceedings of CLEF 2001 Sophia Antiplolis ERCIM EEIG 2001 32 G rard Sabah L intelligence artificielle et le langage volume 1 Paris 1988 Herm s ISBN 2 86601 134 1 33 Fr d rique Segond etc Multilinguisme et traitement de l information Paris 2002 LAVOISIER ISBN 2 7462 0523 8 34 Frangois Rastier amp Marc Cavazza amp Anne Abeill S mantique pour l analyse de la linguistique l informatique Paris 1994 MASSON ISBN 2 225 84537 9 35 Thierry Poibeau Extraction automatique d information Paris 2003 Herm s ISBN 2 7462 0610 2 36 Thierry Poibeau Extraction d information dans les bases de donn es textuelles en g nomique au moyen de transducteurs nombre fini d tats Conf rence Frangaise de Traitement Automatique de la Langue TALN 2001 37 http www li univ tours fr taIn recital 2001 Actes tomel PDF partie2 p30 322 art27 p293 302 pdf
174. nal kel s zle al k r qoy etc 130 2 Radical modifi par la pr sence d une voyelle le suivant imm diatement valable seulement pour les radicaux en e ou a qui se terminent pas une consonne kel gt k l y al gt l v ber gt b r v ou d un groupe c v valable uniquement pour les radicaux qui se terminent un e ou a s zle gt s zli cv qara gt qari cv ou par la pr sence d un groupe c v le suivant imm diatement valable uniquement pour les verbes termin s par une voyelle e ou a s zle gt s zlidi qara gt qaridi 3 Radical tendu par l ajout d une voyelle euphonique vE devant certains suffixes commen ant par une consonne ce qui se combine pour les verbes en e a avec la modification du radical cf 2 valable seulement pour les radicaux se terminant par une consonne kel gt k li sh p w al gt li sh p w k r k r sh p w qoy gt qoyu sh p w Les verbes monosyllabiques ouverts sans consonne finale ajoutent un y euphonique avant la voyelle euphonique la voyelle du radical si elle est un e a se modifie cf2 de 7d y ye gt yey yu gt yuyu 4 Radical modifi par l lision du final valable uniquement pour les radicaux monosyllabiques se terminant en k lip gt kep lip gt ap bolup gt bop Les suffixes qui sont phonologiquement neutres c est dire qui ne transmettent pas la qualit avant ou arri re des mots sont enregistr s une seule fois Il s agit de suffix
175. nes limine qan parce que d est une consonne dure cf section 5 4 4 b 3 l harmonie quatre 105 sens limine luq l k et lik cf 5 4 6 5 1 118111101116 consonantique de D initiale limine tin puisque la lettre finale du suffixe pr c dent est une consonne dure qui fait appel a une consonne dure cf 5 4 4 a Finalement le g n rateur obtient barghanliqtin une forme correcte en ouighour B RACINE C finale CONNECT C initial bar I p 1 La consonne de fin de racine et le suffixe qui comporte une consonne initiale exigent un I euphonique 2 Le I euphonique est un i post rieur d apr s l harmonie quatre sens 3 La pr sence d une voyelle euphonique affaiblit la voyelle arrondie dans la racine Finalement le g n rateur obtient b rip une forme correcte en ouighour 5 9 4 Explorateur de suffixes Nous avons d velopp un explorateur de suffixes afin de pr senter et d analyser la structure de suffixation de l ou ghour Les suffixes sont classifi s en 60 cat gories selon leurs caract res morpho syntactiques voir annexe 3 La forme de surface et fronti re de suffixe de chacun est obtenu par la sortie du g n rateur lexical des mots nouveaux et distincts Dans le diagramme arbre les suffixes ayant un m me r le ne sont repr sent s qu une fois Etant donn e la complexit des sch mas de suffixation la structure enti re est devenu un tr s grand image 1727 x 459381 pixel
176. nicode UyghurUnicodeIME htm Comme la grande majorit des ouighours utilise la version chinoise de Windows nous avons utilis des copies d cran chinois dans le manuel 69 La disposition ci dessus avait t con ue la fin des ann es 80s l intention des professionnels de la capture texte plut t que pour le grand public Afin d augmenter la vitesse de frappe les lettres les plus fr quentes sont plac s l o il y a le minimum de mouvement des doigts une fois les deux index sur les touches F et J et les autres doigts sur DS A et K L Il y a deux lettres sur chacune des touches entre D et L inclues Avec cette disposition il faut frapper sur la touche a pour saisir Ka h 2 quivalant en LSU f pour saisir I a g pour saisir e e Au total 9 lettres dont la prononciation n a rien avoir avec les lettres marqu es sur les touches Les autres touches avaient t s lectionn es par rapprochement autant que possible avec la prononciation en Pinyin des lettres figurant sur les touches Naturellement ceci n est gu re encourageant les analphab te de l informatique Aussi nous avons propos pour la premi re fois une autre disposition du clavier appel e Uyghur Unicode Xelq ara gt Internationale dont la conception est inspir e de l criture latine ouighoure LSU j Return Shift Control CE DIT Control Alt Control Figure 5 disposition
177. nique 6 9 si cle ouighour ancien 10 18 si cle puis apr s l adoption progressive de l Islam partir de 934 de notre re l alphabet arabe modifi 10 si cle aujourd hui Modifi afin de prendre en compte les caract ristiques phon tiques et grammaticales des langues turques l alphabet arabe parfois appel l alphabet Chaghatay a t utilis continuellement par les Ouighours et les autres peuples turcophones d Asie centrale jusqu aux ann es 20 Plusieurs tentatives de r forme ont ensuite t lanc es Les changements d orthographe visant rationaliser la graphie des mots d origine turque et assimiler les mots d origine arabe et persane ont petit petit men diverses tentatives de passage aux alphabets latin et cyrillique Beaucoup de ces projets avaient une motivation autre que linguistique pour la plupart ils taient directement li es la politique des nationalit s de Staline tablie par les d cisions du premier Congr s International de 53 Haji Nurhaji Qedimki Uyghurlar we Qaraxaniylar Ouighours anciens et Qarakhanides Xinjiang People s Press 2001 p 122 34 Abdur him Rahman amp Omerjan Shinjang Tarix Mat riyalliri Documents Historiques sur le Xinjiang volume 40 Xinjiang People s Press 1980 9 33 On croit que l alphabet Orkhon est un d riv d un alphabet soghdien non cursif Il a t utilis lors de l empire Orkhon ouighour 744 840 mais aussi par d a
178. nsducteurs Ces tudes effectu es dans une phase exp rimentale nous ont fait comprendre l importance et la n cessit d une analyse linguistique pour la mise en place des outils de traitement automatique moteur de recherche compris pour l ouighour C est dans ce but que nous avons approfondi nos recherches sur une approche linguistique visant tablir une m thodologie d extraction d information appliqu e l analyse linguistique Dans le chapitre 6 nous avons fait l analyse de la morphologie de l ouighour en tenant compte de probl matiques comme l harmonie vocalique et l affaiblissement de voyelles dans leurs rapports avec le traitement automatique de la langue Compte tenu de la complexit des r gles de suffixation nous avons consacr le chapitre 5 une description d taill e de ce ph nom ne fondamental Tous les efforts que nous avons faits n ont pas comme nous l aurions souhait dans un premier temps abouti l laboration de produits concrets mais ils nous ont permis de d blayer un certain nombre d obstacles et d ouvrir ainsi des pistes fiables pour des recherches pratiques ult rieures destin es la r alisation de ces produits C est donc avec un m lange d humilit mais aussi d espoir face aux t ches qui restent accomplir que nous r sumons ci dessous le nouvel tat des lieux du sujet l issue de nos recherches e Ecriture ouighoure latine Au cours des derni res ann es le LSU alphabet latin de d oui
179. nstanciels ou des formes nominales Racine tendue racine verbale O factitif O reflexif passif O factitif O pluratif O factitif O passif O pluratif 0 auxiliaire aspectuel O factitif 0 pluratif O factitif O passif 0 n gatif O potentiel O interrogatif marqueurs syntactiques 0 auxiliaire 0 temps 0 marqueur modal 0 marqueur de personne O interrogatif O marqueur modal O interrogatif 0 marqueur modal ou participe 0 auxiliaire de temps 0 temps 0 marqueur de personne 0 interrogatif 0 marqueur modal 0 marqueur de personne O interrogatif ou participe 0 d verbatif fin nominal ou connectif 0 interrogatif O auxiliaire 0 temps 0 marqueur de personne O interrogatif ou d verbatif fin nominale ou adverbiatif O auxiliaire temps O marqueur modal O marqueur de personne O interrogatif 5 8 R gles de suffixation et cas sp ciaux Dans le cadre de cette tude pr liminaire nous nous sommes concentr s sur les formes verbales car elles incluent aussi les suffixes utilis s pour les noms communs comme on l a vu dans les analyse de structure ci dessus L observation empirique nous a permis de d finir les r gles suivantes 1 Seules les racines verbales monosyllabiques se terminant en et contenant un a e i post rieur ou o peuvent tre sujettes une lision de consonne dans la forme connective et ses d riv s par exemple aptu lt
180. nternationale Unicode et de ce fait b impossibilit de coexistence de l ouighour et de l arabe dans le m me texte en cas d utilisation de la m me police puisqu elle implique le remplacement de plus de 40 glyphes de 14 lettres arabes c en l absence d accord de remplacement on ne peut pas dissuader les d veloppeurs de remplacer les lettres arabes de fa on al atoire La multiplication des noms des polices les polices non standardis es bas es sur la solution de contournement d crite ci dessus et les m thodes d entr es non compatibles entre elles semaient la confusion parmi les utilisateurs qui taient en droit de se demander ce que faisaient leurs informaticiens Plus encore cette situation tait nuisible la diffusion de l informatique et des instruments internet dans la population ouighoure un moment de grande progression de la sinisation de leur environnement Finalement il est devenu clair qu il fallait imp rativement mettre fin cette situation extr mement confuse en imposant un standard Unicode ou non pour le traitement de la langue ouighoure En juin 2002 nous avons donc d velopp la premi re police ouighoure bas e sur l Unicode et impl ment une m thode d entr e ouighoure pour Windows fonctionnant autant pour les syst mes d op ration que pour les navigateurs Cette tape a t consid r e comme r volutionnaire puisque cette nouvelle m thode permettait aux applications d tre totalement confor
181. ocabulaire riche de 70 000 a 100 000 mots L ouighour est compos de mots que des suffixes en grand nombre vont permettre de d cliner et de conjuguer afin de construire la g me phrase et lui donner toute sa signification Dans le chapitre nous pr sentons les caract ristiques de l ouighour en faisant une tude plus profonde de sa morphologie 1 4 Un regard sur les langues turques Les ouighours ne repr sentent qu un seul des peuples turcs mais il en existe bien d autres La classification de langues turques est tr s vari e Il y a au moins une dizaine de classifications et la plupart d entre elles font l objet de conflits int rieurs et manquent de coh rence taxinomique Le site d Internet www ethnologue com donne une liste de 40 langues turques Par ailleurs certains turcologues con oivent que ce nombre peut tre sup rieur 50 Parmi les classifications il y a des classifications selon la g ographie le nom du groupe de l ethnie la caract ristique lingo g n tique Pour des r ponses plus pr cises consultez des ouvrages de G Ramsted V V Radlov A N Samoilovich N A Baskakov V A Bogoroditskiy M T Diachok Mirsultan Osmanov Le site d Internet www ethnologue com nous donne la classification de langues 50 turques 49 Voir http www ethnologue com show family asp name Altaic Attention la source des documents informatique sur la Toile change tr s souvent d adresse et sont parfois insatisfaisants
182. on sovi tique en 1947 afin de remplacer l alphabet romanis d origine d cid en 1928 36 l ouighour ci apr s PNSU qui a t adopt pour l ouighour et le kazakh la premi re Conf rence Linguistique et Orthographique Nationale de la RAOX et approuv par le Congr s du Peuple de la RAOX la m me ann e Entre 1960 et 1964 le PNSU a t mis en ceuvre titre de projet pilote puis promulgu dans l ensemble de la RAOX Cet alphabet est alors devenu l unique alphabet autoris pour l ouighour et le kazakh jusqu ce que l alphabet arabe ci apr s ASU soit officiellement r autoris en septembre 1982 document n XH 1982 283 du gouvernement de la RAOX apr s avoir subi de nouvelles modifications de d tail M me apr s le retour en gr ce de l ASU et sa r adoption enthousiaste par la population le PNSU a conserv un statut d option officielle autoris e 2 2 Historique La cr ation et la promulgation de PNSU doivent aussi tre examin es en relation avec l environnement linguistique g n ral de la RPC cet poque Dans un effort de lutte g n rale contre l analphab tisme le pouvoir de P kin avait d cid que les caract res chinois devraient tre remplac s terme par l alphabet latin Hanyu pinyin ou pinyin simplement et la r forme de l criture des langues ethniques minoritaires devait s int grer dans un plan g n ral qui pr voyait un alphabet commun pour tous les groupes ethniques de la C
183. onsonnes sonores b et d qui deviennent respectivement les sourdes p et t en fin de mot Elle affecte galement en position finale les sourdes k q et parfois p qui deviennent respectivement les sonores g gh et b ou m me parfois w lorsqu on leur ajoute un suffixe commen ant pas un i 6 3 Structure syllabique 6 3 1 Composition syllabique La structure syllabique des mots ouighours est tr s vari e Il y a des mots qui se composent d une seule syllabe et il y a des mots qui en contiennent plusieurs En ouighour contemporain une syllabe peut suivre d une des formes syllabiques suivantes 114 Notes C consonne V voyelle Les signes sont utilis s pour s parer les diff rentes syllabes 1 Une seule voyelle V u lui a ta p re ga i de r gulation e te demain Notons dans ce cas et le cas suivant que la graphie arabo persane de l ouighour fait pr c der toute voyelle initiale d un glyphe particulier un hamze qui dans le corps d un mot indique un hiatus entre deux voyelles comme c est le cas dans qaide ci dessus Ce hamze initial qui correspond la dent pr c dant toute voyelle initiale dans la vieille criture ouighoure voir annexe 4 est il une sorte de consonne z ro On peut se le demander dans le cas de mots compos s comme tinalghu magn tophone o le hamze initial du a de a prendre est conserv et permet de segmenter le mot ainsi n tal ghu 2 Une
184. ormes verbales traditionnelles tel le marqueur poli du pluriel Wty A Sek e um D autres suffixes verbaux seront ajout s en liaison avec le travail sur la d riv des noms communs 104 5 9 3 G n rateur lexical Le g n rateur lexical utilise le dictionnaire des racines afin de produire des nouvelles formes verbales en associant les racines avec ses suffixes possibles voir fig 5 2 La liste contenant ces suffixes a t cr e bas e sur la banque de r gles en diss quant colonne par colonne les suites de suffixes correctes La combinaison de suffixe correcte est obtenue en appliquant les r gles de suffixation Les cas sp ciaux cf section 8 sont pris en compte 1 1 1 pr paration 4 suffixes dictionnaire des racines Selections des suffixes Plus de suffixe Figure 5 2 le g n rateur lexical Afin d obtenir les combinaisons de suffixes correctes lors de l affixation un m lange d harmonies a deux sens et quatre sens est appliqu ainsi que des fonctions de douceur duret de consonne Les suffixes transformateurs et de voyelles neutres sont aussi pris en compte et les r gles euphoniques appliqu es lorsque c est n cessaire Les exemples suivants d montrent des proc dures de suffixation simples A RACINE PARTICIPEPASSE DENOM I I K bar ghan qan gen ken liq lik luq liik din tin 1 L harmonie vocalique deux sens limine gen et ken 2 l harmonie des conson
185. orrect D Keyword is not yet in the dictionary or misspelled in the dictionary Suggestion If you are looking for a verb enter its unconjugated form Ex input stay or instead of conjugated forms like sway or Select the keyword from the autosuggest box Try other search options Start With End With Contain Note The keyword is added to not found list It will soon become a part of the dictionary if its spelling is correct Did you mean Figure 19 Suggestion de correction d orthographe 3 9 6 Outil de recherche pour les webmasters Afin de pr coniser ce dictionnaire en ligne et d attirer des internautes sur notre site nous avons d velopp un outil qui peut tre int grer dans les sites web des internautes II est possible de l int grer dans un des modes mode complet mode simple mode en LSU ASU CSU en suivant des tapes ci dessous www uyghurdictionary org www uyghurdictionary org O as uyuyghun Figure 20 Recherch par ASU 85 uyghun kelmek uyghunlashmaq uyghunluq uy
186. ost rieures et ant rieures ne sont pas diff renci es de mani re syst matique aux voyelles post rieures a o et u correspondent dans le registre des voyelles ant rieures une nouvelle lettre a une lettre avec une marque diacritique int rieure o et une lettre avec une marque diacritique ext rieure ii 47 phon tique beaucoup de pensaient utiliser la lettre v en position initiale et w en position finale Ceci allait bien s r contre le principe A au niveau de la correspondance entre LSU ASU et CSU et il a t d cid de ne choisir qu une seule lettre La d cision finale a favoris w en partie puisqu elle se lit mieux en position finale que v x Il tait difficile de trouver une lettre latine id ale afin de repr senter Beaucoup habitu s au PNSU croyaient que la lettre h serait le meilleur choix puisqu elle correspondait l usage du pinyin chinois Un autre argument en sa faveur tait qu elle viterait un recours une autre lettre compos e kh commun ment utilis en Occident pour la transcription de langues bas es sur l arabe ou le cyrillique Mais A tait utilis par une autre lettre a et dans la plupart des langues n est pas utilis afin de repr senter le son e Certains insistaient qu en l absence d une solution satisfaisante la lettre A devrait tre utilis e pour les deux sons et que le contexte aiderait les diff rencier Selon le principe A cela tait inacceptable Le c
187. ots que nous avons labor pour tester les automates Nous avons manuellement fait la segmentation et nous avons appliqu la m thode propos e dans ce chapitre pour souligner des entit s nomm es les dates les noms personnels et les noms des pays Nous avons r ussi r cup rer les formes surfaces racine suffixe de d rivation possessif cas etc des mots existant dans le corpus 144 Concordance file C LocalUnitex Lyghur Corpus NewsUKY_snticoncord html 8 matches 81 11400101110 Fransuzlar dek zbeklerge Fransiye lik ler ning ki qe RESULTAT Racince Fransiye 5uftfDer Lik P05 PL ler CA51 ning REL ki CAS2 ES hur lar ning b d t da wekili yoq biraq Fransiye lik ler ning RESULTAT Racince Fransiye SuffD er lik P05 PL ler CA51 ning REL CAs2 li yoq biraq Fransiye lik ler ning hem zb kistan liq lar ning RESULTAT Racince zh kistan S uffDer liq P0S PL lar CASl ning REL CAS2 qatarliq mesililer stide s hbetleshti Uyghur qha RESULTAT Racince Uyghur SuffDer qhat P05 P L qha CA51 qha REL sodatCaAS2 qha Uyghur lar ning RESULTAT Racince Uyghur SuffDer P05 PL lar CAS1 ning REL CAS2 hanliq k rsitidighanliqini bild r shti Uyghur lar ning RESULTAT Racince Uyghur SuffDer lar P 4 E race SE Figure 12 R sultat d analyse L analyse statistique pour tester la pr cision et le rappel n a pas t faite en raison de l absence d un large corpus d valuation L Unitex n
188. ots redoubl s ou compos s avec ou sans trait d union qui demandent un traitement sp cifique dans l algorithme 6 4 Structure morphologique Les principes de la morphologie de l ou ghour contemporain sont largement similaires aux autres langues turques Par cons quent ils sont aussi similaires aux autres langues agglutinantes de la famille altaique par exemple mongol japonais finnois Le principe fondamental de la structure morphologique de l ou ghour est de relier les s quences de suffixes rarement de pr fixes puisque ceux ci sont exclusivement emprunt s au persan la racine d un mot en cr ant des nouvelles formes lexicales Ce principe est dit agglutinant Le r sultat du processus d agglutination d pend de l apport syntactique de chacun des l ments qui y est incorpor 6 4 1 L aspect agglutinant des langues Une langue agglutinante est une langue dans laquelle les mots sont form s en rattachant des morph mes ensemble Propos e par le linguiste allemand Wilhelm Humboldt en 1836 et reprise par son compatriote August Schleicher en 1861 Cette classification est encore largement utilis e pour classer les langues d un point de vue morphologique Les langues agglutinantes sont la forme la plus commune des langues synth tiques et elles sont habituellement hautement fl chies Dans une langue agglutinante les mots en g n ral sont longs et complexes car ils se composent d une s rie de morph m
189. past HA tu HB ti neutral subjective ending HC ken neutral hearsay HD imish HE mish dubitative HF ghu HG qu 2 du tu vowel neutral marker HH dek vowel neutral adverb forming suffix Hl che interrogative HJ mu Nonamed 182 HK men HL sen HM siz HN la HO le HP li HQ miz HR siler HS sizler interrogative HT mu HU mikin dubitative HV ghu HW qu hearsay HX imish HY mish limitative particle HZ la final post mish interrogative lA mu exclamative final IB e IC a Table des alphabets de langues turques 1 Pinyin o C s W V ng UK gh ng Quighour 3 60 BI 5 ka Ar bI Cy Fur Turkmen e H 3 Gy La bI Tatani La d Kirghiz 3 Gy Ar BI 4 gj gt e Kazakh 3 Gy Ar BI Ar Y ER cs OA M Azeri Cy BI 10 1 183 Notes 0 Cette table permet de pr senter de mani re synth tique les prononciations similaires de lettres et de comparer des caract res utilis s par le 8 diff rentes langues turques 1 L ordre alphab tique est soumis au tri informatique de l az ri 11 ne repr sente pas l ordre alphab tique des langues existantes 2 L ordre de priorit des l alphabets de chaqu
190. pt es par l Association Informatique Ou ghoure et par la filiale de l Universit du Xinjiang du Groupe de Recherche 863 L annexe 7 donne plus de d tails sur les formes repr sentatives et les codes de glyphes pour la formation des lettres lors de la substitution et du positionnement 3 5 D veloppement des polices ouighoures et une m thode d entr e au niveau du syst me d exploitation Apr s avoir ma tris les sp cifications des lettres probl matiques d crites ci dessus il est possible de cr er des polices en utilisant les valeurs conventionnelles des lettres ouighoures voir annexe 7 avec des logiciels existants de cr ation de police L inclusion des marqueurs sans espaces tels ZWJ zero width joiner 200C ZWNJ zero width non joiner 200D LTR marqueur de gauche droite 200E et RTL marqueur de droite gauche 200F est recommand dans les polices ouighoures Le reste de la t che r p titive du d veloppement de police ressemble tout fait aux t ches de la cr ation de polices arabes L auteur a cr la premi re police ouighoure bas e sur l Unicode en 2002 et l a distribu e gratuitement sur l internet afin de contribuer la standardisation des changes d information en langue ouighoure De ce fait quelques polices ouighoures bas es sur les conventions mentionn es ci dessus sont disponibles gratuitement sur le site web de UCSA Nos outils de cr ation de police recommand s sont Font Creator
191. q CO y et gt d devant un suffixe commen ant par une voyelle l abandon fr quent des lettres r et et dans une position post vocalique ou le changement de en m devant un m 75 L orthographe officielle est tablie par XLSC Etant donn le nombre de r formes partielles qu a subies l orthographe officielle au cours des derni res ann es et l impact des prononciations dialectales un grand nombre de 41 codifier son utilisation Malgr des r formes successives les r gles d orthographe contiennent toujours un nombre d incoh rences surtout avec les lettres finales b p et d t dans des mots d origine trang re g n ralement arabe et persane mais aussi russe lorsque l orthographe officielle h site entre l tymologie et la vraie prononciation Le LSU est une transcription de la langue officielle des Ou ghours de la RAOX et suit les m mes r gles d orthographe que l ASU Dans cette partie bas e sur la participation de l auteur aux travaux du comit et sur la documentation de ses d bats et d cisions nous d crivons les quatre principes de base qui ont guid le travail du XLSC et qui ont donc donn lieu aux d cisions prises afin de cr er le LSU A Correspondance une a une entre les lettres de LSU et les phon mes de la langue crite qui donne donc au mieux possible une coh rence entre les caract res de LSU ASU et CSU L objectif tait de faciliter l apprentissage du LSU pour des personnes uti
192. qu la m thode d incorporation des polices voir 4 6 Le t l chargement de la police indiqu ci dessous est toutefois conseill comme car 1 les polices incorpor es ne sont compatible qu avec le navigateur Internet Explorer 2 l installation des polices peut acc l rer l ouverture des pages web puisque les navigateurs n ont plus besoin de t l charger des polices incorpor es Welcome eiS4445 L n Essalamu Eleykum eccanaMy If you encounter problems with displaying the following amp rabic Script Uyghur letters you may have to install an Uyghur Unicode font UKIJ Tuz Tom and or you may have to replace your system s Uniscribe file uspi0 dll To do so click HERE You can also get the Unicode font from here if you know how to install a font into your fonts directory Ex C NWindawsNFonts If you like it as it is keep reading the following and then input a keyword into the text field and click on the Search button Since the Uyghur English Dictionary is still in progress it is possible that we have misspelled the word you are looking for or that it has been omitted in the compilation If so DO LET US KNOW by leaving a message on forum
193. qu yoq Ku gt yoqqu 4 Harmonie a deux sens dans les suffixes en voyelle haute non arrondie une voyelle d avant fait appel une voyelle d avant haute non arrondie 1 et une voyelle d arri re fait appel une voyelle d arri re haute non arrondie i TV SUF H e ant rieure i ant rieure 0 i ant rieur par exemple k t rg chi kelmek chi rit Kin gt ritkin k r Kin k rgin Vy SUF H fa post rieur i post rieur o u i post rieur par exemple ach liq bordaqchi liq al Kin gt alghin uch Di gt uchti 5 Les suffixes transformateurs changent la valeur vocalique des suffixes qui les suivent V SUF V SUF V V voyelle ant rieure transformatrice wer wet i ken ki ger V SUN SUF V par exemple al gt l i wer K A n gt liwergen qala qali wet m A K gt qaliwetmek yol D A ki I A r gt yoldikiler soda gt sodi ger 1 A r gt sodigerler buz u p D u tu gt ti ken d A7 gt buzuptikende 97 Voyelle post rieure transformatrice wal wat i y dighan nglar dar kar zar V SUF V amp 4 SUF GN par exemple kel gt kel i wal K A n7 k liwalghan ch sh i wat K A n2 ch shiwatqan k6r i dighan I A r gt k ridighanlar z m zar l A r gt z mzarlar emel dar l A r gt emeldarl
194. qu un mot ouighour peut tre tr s long en raison de sa structure complexe La langue ouighoure repose sur un syst me de suffixes qui s ajoutent aux noms 120 pronoms adjectifs adverbes et verbes qui permettent d exprimer un grand nombre de notions en peu de mots C est pour cela qu un mot ou ghour devient plusieurs mots quand on traduit vers une autre langue 6 4 3 Composition des mots ouighours Les mots ouighours sont form s par les l ments constitutifs L l ment qui se trouve en t te du mot est forcements la racine Il s ensuit que la forme traditionnelle d un mot ouighour est RACINE UN ou PLUSIEURS SUFFIXES Il n existe que trois pr fixes na bi bet Ils sont d origine persane et sont employ s dans la langue recherch e pour des mots d origine arabo persane ou plus rarement pour des mots emprunt s d autres langues Ils signifient sans in et sont remplacables dans la langue courante par le suffixe siz Par exemple Na ilaj solution nailaj insoluble gt 1101512 na timid espoir na mid sans espoir d sesp r gt timidsiz bi hajet n cessaire bihajet inutile gt hejetsiz bi normal binormal pas normal anormal gt normalsiz Selon le lexique ou ghour les mots sont constitu s des quatre grands types suivants Racine ou stem Ce type de mots n a qu un seul morph me Par exemple tagh montagne yer terre su eau tar
195. qui repr sente 24 294 nouveaux mots d riv s de la racine kel 106 as rett su N2ima POS nizi Qmd EE DUE tu IN mai Figure 5 4 explorateur de suffixes branches de keldi Figure 5 3 explorateur de suffixes niveau 1 Le premier niveau de la structure de suffixation des mots ouighours est d montr dans la figure 3 Un symbole du c t gauche ou droit indique que plus de suffixes peuvent tre ajout s au morph me pr c dent Nous avons d termin que 13 est le nombre maximum de rameaux possible La figure 4 d montre tous les rameaux commengant par la branche di partir de laquelle nous pouvons obtenir les mots suivants keldi keldim keldimmu keldimmikin kelding keldingmu keldingiz keldingizmu keldinglar keldinglarmu keldile keldilimu keldighu keldimu 107 Chapitre 6 Morphologie de l ouighour Dans ce chapitre nous pr senterons la structure phon tique syllabique et morphologique de la langue ouighoure Nous proposerons une m thode de s lection des suffixes afin de g n rer des noms conformes aux r gles phon tiques de la langue Par ailleurs afin d appliquer les notions de la structure morphologique de l ouighour au traitement informatique nous analyserons les l ments agglutinants qui cr ent des noms partir de la racine 6 1 Comprehension et connaissance Avant d entrer dans la description d taill e prenons un exemple pour ana
196. r les lettres probl mes 45 a ainsi que les deux marques d arr t glottal 5 Ces probl mes peuvent tre r solus en ajoutant toute l information qui contr le la substitution et le positionnement des glyphes ou ghours durant le d veloppement des polices notamment en utilisant les fonctions d Open Type Layout de la technologie Open Type 110 Voir http www unicode org charts PDF UFB50 pdf 60 Comme nous pouvons le constater les lettres ou ghoures n apparaissent dans l ordre alphab tique ASU ni dans la table de code de caract res arabes ni dans la liste de noms de 1 4 11 e Ea caract res du standard Unicode Cela n cessite des traitements sp ciaux lors de l op ration de tri par ordre alphab tique Les positions des lettres 43 a 5 sont ambigu s et les deux panneaux d arr t gutturaux 3 repr sentent la forme initiale et m diane de la lettre arabe is qui n existe pas sous ses formes isol e et finale dans l alphabet ASU Nous les pr sentons dans la table ci dessous avec le d tail de leur position Formes L b A L repr sentatives codes 06cc 06493 06D5 0647 O6BE 0626 formes isol e FBFC FEEF FEE9 FBAA 8 FE89 finale FBFD amp FEFO FEEA FBAB a FESA gt initiale FBFE FBES FEEB FBAC a FE8B m diane FBFF s FBE9 FEEC
197. r formes d orthographe les gens ont tendance crire comme ils prononcent Ex Correct Incorrect Incorrect Correct Incorrect Correct emprunt dialecte Fontan Pontan Radio radiyo Yiltiz Zhiltiz 138 Afin de lutter contre la piraterie nous avons limit le nombre de consultations partir de la m me adresse IP 100 par jour 82 piransiye kompitur fransiye pransiye Kompyut r kompitor Qir Qizh firansiye kompiyotir paje faje Pajie Shtat shitat ishtat gosh Gosh fajie Kitab Kitap Print r pirintir xoraz Ghoraz dirama kirmek Chirmek ljad 101 Drama diramma kiring chiring daramma chachka G l Gul Chashka deptuq Dept k chechke Me Ordek Jornal qarimaq Qaylimaq Ordek Zhurnal Odek jurnal gara gala qayla Qoshqa Ereb Erep Stolba Istolba qochqar qochqa Janbaz Jambaz Awwal awal chipta Chupta Tilpun K lin Kilin T l fon toxu Toxuy toxa tilipun Lughet Loghet Layihe laye lahiye t nchliq Chizhliq girammatika qilmaq qimmaq grammatika d yelmeymen Delemeymen girammatka pissiye musht Mush p nsiye ch miich Ch mche pinsiye Table 9 Exemple des fautes d orthographe Les exemples ci dessus couvrent des fautes telles que la confusion p f ap at et ab ad ed le changement de voyelles 6 u o i le remplacement de n l par m 17 assimilation de syllabes trang res
198. r est ug et la trois lettres code 3 letter code est uig Grace ces identifiants la langue ouighour peut se distinguer des autres langues pendant le traitement textuel en informatique Dans les balises HTML XML le param tre de l attribut ang permet d indiquer la langue l attribut dir peut aligner la direction d affichage des caract res Par exemple p dir rtl lang ug gt 13 lt gt dir rtl indique la direction d affichage de droite gauche lang ug indique la langue du contenu du paragraphe ouighour 1 2 2 7 M thodes d entr e de l ouighour Il faut noter qu aucun syst me d exploitation ne contient de m thode d entr e pour l ouighour De ce fait nombreux chercheurs ind pendants ont r ussi r aliser des m thodes d entr es diff rentes L criture ouighoure utilise les m thodes suivantes sur Windows e Entr e directe par syllabes e Entr e directe alphab tique e M thode Copier Coller Pour ceux qui ne connaissent pas l alphabet ouighour on peut proposer e M thode de conversion latin ouighour Il est possible d crire l ouighour avec les lettres latines voir UKY Ainsi par exemple on peut crire Uyghur qui est l quivalent de 533535 Comme on l a mentionn dans le premier chapitre voir paragraphe 1 1 2 malgr la multiplication des m thodes d entr es la compatibilit reste toujours un probl me r soudre jusqu la cr ation de la premi re m
199. r prend en compte toutes les voyelles A A 85 35 1 35 45 utilisant des 0611765 de lettres arabes traditionnelles 104 La forme initiale et sous certaines circonstances la forme m diane de toutes les voyelles sont pr c d es d un panneau d arr t guttural 5 ous hamza soutenu avec lequel elles forment une lettre commune trait e en ouighour comme tant une lettre commune voir annexe 10 58 Comme en arabe la combinaison de I apr s J n cessite deux glyphes de plus selon sa position 9 et Y Les 108 glyphes de base des lettres ASU ont t accept es par l ISO Consortium Unicode En 1998 18 glyphes ont t rajout s en plus pour les formes conjointes des voyelles voir ci dessous table 6 Puisque les 20 glyphes compos s peuvent aussi tre exprim s sous forme de deux glyphes d j existants dans l Unicode les participants de la conf rence mentionn e ci haut ont sugg r de ne pas ajouter les 18 glyphes marqu s en gris ci dessous dans la gamme de codage FBEA FBEB L utilisation de ces 18 glyphes peut causer des probl mes tels la r duction de la rapidit de l dition de texte l augmentation de la redondance de donn es stock es et compliquer les op rations de tri et recherche de donn es isol e finale m dian e initiale isol e finale m diane initiale L Le G D A aa 45 E 3 5 3 3 E Ai
200. ratuit sous licence GPL disponible l adresse suivant http www igm univ mlv fr unitex download html 134 morphologique pendant la segmentation des phrases topiques et entit s nomm es Dans cette m thode d sambiguisation s effectue selon l analyse statistique Le point de vue linguistique concerne les combinaisons des l ments textuels au niveau du discours C est un niveau proche de la syntaxe qui prend en consid ration les rapports syntagmatiques entre les l ments textuels C est une approche li e plusieurs niveaux d analyse linguistique niveau lexique syntaxique et s mantique Mohamed Hatem HADDAD 2002 Le d veloppement d un outil complet demande norm ment de travail Ainsi nous donnons trois algorithmes qui seront utiles pendant le traitement de l ouighour pour toutes les deux approches ci dessus Nous proposons notre choix technique pour mettre en ceuvre ce mod le particuli rement dans le cadre de l extraction automatique des entit s nomm es 7 3 Affichage des caract res Les lettres ouighoures ont t plac es dans la r gion principale des lettres arabes 0600 06FF dans la formule de la pr sentation arabe A FB50 FDFF et dans la formule de la pr sentation arabe B FE70 FEFF de la table de l ISO 10646 Unicode Les codages actuellement utilisables sur les syst mes d exploitations Windows Linux pour l ouighour sont e ISO 8859 6 Latin Arabic e MS Arab
201. rbes objet endroit couteau yat v couche aq iq ik uq l dortoir chal v joue ghu chalghu qa ke gha e verbes objet instrument de musique as v ge qu ghu crocher qu asqu crochet bas v imprime guch basquch ghuch g ch verbes objet imprimante chtir v efface quch k ch g ch ch rg ch gomme G l zar g lzar jardin z m raisin zar z mzar zar shen noms place vignoble g l shen g lshen jardin 3 suffixes de noms abstraits Tableau 8 D rivation des noms concrets Suffixes 1165 aux signification Exemples igiz haut lik igizlik hauteur lig lik luq Ee yash jeune lig yashliq l k chiliq adjectifs tat DE jeunesse qiyin difficile chiliq chilik qiyinchiliq difficult k ch force l k k chl k fort lig lik luq e noms qualit ch l d sert l k cholliik d sertique sh ish ush oqu n lire sh oqush lire verbes nom d action sh lecture Tableau 9 D rivation des noms abstraits 4 suffixe de minimisations formes affectives et respectueuses 124 Suffixes li s aux signification Exemples Chag chuq ch k laq chek chiq che jan noms noms propres minimalisation d tat Tay cheval chaq 0 poulain yangag noix che yangaqche noisette
202. repeat delay ou de la dur e excessive de la pression sur les touches insertion d une ou plusieurs lettres non souhait es apparition successive de quatre t et de trois q n importe quoi pas de L utilisateur joue avec les touches du clavier 255 5 correction et fait des fautes volontaires en tapant des mots du genre djsfjdsklaf ruiewoqrewoq Parmi les mots non trouv s il figure aussi des mots suffix s qui ne font pas partie du dictionnaire Ceci n est pas pris en compte par le proc d de suggestion d orthographe mais nous consid rons qu il pourra tre trait en utilisant les m thodes mentionn es dans le Si l utilisateur utilise la disposition du clavier r gional bas e sur le Pinyin En cas d utilisation de la disposition du clavier bas e sur LSU ca pourrait tre jljga touches h o r a z au lieu de 5 se touches x o r a Z si l utilisateur ne se souvient pas que x est prononc comme son quivalant en LSU e 84 chapitre 6 et 8 Mots non trouv s sont pr sent s dans la forme suivante avec des mots sugg r s qui existent dans le dictionnaire Utilisateur peut ensuite cliquer sur un des mots sugg r s pour obtenir son explication v Exact OYurypas OUyghurche OEnglish Sorry eS isn t in the dictionary The possible reasons are Your spelling is inc
203. rit entre eux du fait de l existence de fronti res g opolitiques mais aussi interg n rationnelles L arriv e de nouvelles technologies de communication a malheureusement amplifi le probl me au lieu de le r soudre Au cours des deux derni res d cennies les ordinateurs et l quipement de technologie moderne ont fait naitre de nouveaux espoirs dans le domaine du traitement d information et de la communication Malheureusement un manque d unification des alphabets et l existence d une vari t de caract res uniques en PNSU CSU et ASU ont ralenti l arriv e du progr s des technologies d information Le manque de standards complets pour ASU CSU et PNSU autant dans l ASCII que dans l Unicode ont forc les utilisateurs ouighours de recourir une grande vari t de translitt rations non normalis s afin de pouvoir partager et traiter l information dans leur langue native ou d autres langues chinois russe et anglais majoritairement D un c t cela a permis aux internautes ouighours de se familiariser avec l alphabet latin et a acc l r la mort du PNSU 57 Les lettres arabes utilis es purement pour des phon mes arabes oa ua b A ont t abandonn es petit petit partir des ann es 20 tandis que d autres notamment e et on t investies d un nouveau r le celui d indiquer des voyelles avec en position initiale l adjonction du hamza sur une dent afin de remplacer le al
204. rmatisation et langue ouighoure Depuis la premi re utilisation de l informatique dans une maison d dition au Xinjiang en 1984 la phase d tude de faisabilit de logiciels pour le traitement des langues des minorit s a commenc avoir du succ s On peut diviser ces p riodes de r volution technologique en trois poques distinctes http www uyghuramerican org 11 e Traitement de texte ouighour et d veloppement de logiciel de logiciel de publication sous DOS 1984 1994 La mission principale dans cette tape tait d analyser et de comprendre la structure informatique Des logiciels de m thode d entr e de caract res ouighours et de syst mes de publication multi criture pour le gouvernement et les maisons d dition ont t d velopp s durant cette poque L int r t de ces logiciels est qu ils permettent de saisir des caract res issus de diff rents alphabets qui seront reconnus par l ordinateur Les r sultats obtenus repr sentent maintenant une base pour les projets de traitement des logiciels multi critures e Etudes sur la plate forme Windows 1994 1999 Le Groupe National 863 de l Universit du Xinjiang a commenc de faire des recherches sur Windows en 1994 et a r ussi d velopper une version localis e en ouighour de Windows 3 2 en juillet 1996 Le point de vue technique de cette innovation tait d adapter la version arabe de Windows 3 1 en faisant des changements de fonctions de contr leur d entr
205. rouver la fin d abr viation et constituer le mot entier fin Autrement si l l ment courant fait une partie des mots doubl alors Trouver la deuxi me partie et constituer le mot entier fin Autrement si l l ment courant fait une partie des mots compos s alors Trouver la deuxi me partie et constituer le mot entier fin Autrement fin Tant Que l l ment courant n est pas la racine ou d composable faire d composer les l ments agglutinants suffixes syntactiques et d rivatifs Fin de tant que Autrement fin Fin Figure 4 Algorithme de segmentation de phrase Apr s ce traitement nous obtenons s par ment toutes les formes des mots voir figure 6 l ments agglutinants et des marques de ponctuations Afin d afficher le r sultat d analyse morphologique et d associer les formes surfaces aux formes lexicales nous proposons l algorithme ci dessous 138 Pour chaque l ment d compos dans le tableau Associer la forme surface S il y a d ambiguit d sambiguisation Autrement fin Affichage de r sultat Fin Figure 5 Algorithme d association des formes surfaces aux formes lexicales A la fin de ces deux processus le syst me doit tre capable de donner le r sultat d analyse morphologique Par exemple BDT N da CAS Uyghurlarning N PL CAS wekili N 3POS Yoq ADJ Figure 6 Analyse morphologique d une phrase Il est probable qu un mot peut avoir de
206. rspective 89 d incoh rences affectant particuli rement les lettres b et d en position finale est aussi une source de mauvais orthographe Aussi arbitraires et incoh rentes soient elles les r gles d orthographe de 1 0101811011 moderne simplifient la t che du correcteur orthographique dans le sens o elles offrent une alternative syst matis e aux variantes parl es et permettent de traiter de mani re assez efficace les changements multiples qui affectent consonnes et voyelles dans les divers environnements phon tiques de la langue parl e Dans cette tude nous avons choisi de suivre l orthographe de l ouighour moderne telle que d crite dans le Hazirgi Zaman Uyghur Edebiy Tilining Teleppuz Lughiti Dictionnaire de prononciation de la langue litt raire ou ghoure moderne de 1988 comme nous l avons fait dans notre dictionnaire ouighour anglais en ligne plut t que celle du guide officiel d orthographe de 1985 Hazirqi Zaman Uyghur Edebiy Tilining Imla Lughiti Dictionnaire d orthographe de la langue litt raire ouighoure moderne qui n est pas jour Les variances d orthographe historiques et dialectales devront tre prises en compte plus tard lorsque des correcteurs orthographiques seront d velopp s pour la reconnaissance optique de textes non contemporains Malgr un nombre de projets rapidement abandonn s qui ont t lanc s dans le cadre 146 de recherche de traduction chinois ouighour dans la RAOX TALO reste g
207. rsqu ils suivent une consonne Cette voyelle euphonique I 1 1 u suit et transmet l harmonie vocalique Vat C CO Va CH a kOl 4 m gt k l m Vy C I C gt Vy CH put 1 ng gt putung Va C HC9 Vg Cla kel k l p gt fk lip Notez que I joue le r le normal d affaiblissement sur la voyelle pr c dente 3 Les suffixes verbaux comportant une voyelle haute D H 1 H K subissent les m mes changements que I l exception du suffixe pass D H K de la premiere personne du pluriel qui est toujours duq tuq et de la 3e personne et forme polie de la 2e personne du singulier du pass D H qui est toujours di ti quel que soit le contexte vocalique par exemple k r D H m 2 k rd m mais k r D H gt k rdi k6r D H K gt k rduq k6r D H ngiz gt k rdingiz 5 7 Morphologie En ouighour plusieurs sortes d affixes peuvent tre ajout es une racine Dans certains mots on trouve des pr fixes qui sont d origine perse ou arabe ex bithajet nim jan na ilaj kem eqil Mais les suffixes sont pr dominants et omnipr sents Il y a deux sortes de suffixes en ou ghour 1 les suffixes de d rivation lexicale qui modifient le sens ou parfois la cat gorie de la racine et de cr ent de nouvelles unit s lexicales ex g l fleur giil lik gt gu ll k jardin et 2 suffixes syntactiques qui expliquent les relations syntaxiques o
208. s 127 mais pas Mende almalar badamlar we anarlar bar Les deux suffixe Jor ler ajouter aussi d autres sens que pluriel quand on les ajoute a diff rents noms A savoir 1 noms propres Adillar keldi Adil et autres sont venus B yjinglerge bardug Nous sommes all s P kin et quelques autres villes 2 nom non d nombrables qushlar diff rents types d oiseaux G ller diff rents types de fleurs Derexler diff rents types d arbres 6 5 2 2 La possession Les suffixes de possession sont vari s et ils s accordent avec la derni re lettre de l unit qui repr sente ce qui est poss d L arbre Janbaz peut s lectionner les suffixes correspondant aux mots Nous les pr sentons sous forme de tableau avec des exemples Derni re lettre Consonne Voyelle e Informel nglar ngizlar Personne pluriel ing ung inglar unglar nglar ung joo gizler ingiz Jm ingizlar ingizler liri ngiz liri liri Tableau 13 la possession 190 2 me personne formelle de la forme parl e formelle Ex 6zlirining akiliri qandaqraq Ayallirichu Comment va votre fr re et votre femme 128 aka fr re akam akimiz akang akanglar akingiz akingizlar akisi y maison y m 07111117 y ng 0710118181 07111817 07111817161 Les suffixes possessifs nous aident identifier le sujet dans les phras
209. s e sur la notion de corpusage Ils consid rent tous les mots qui ne sont pas dans leurs listes comme des fautes d orthographe Voici un extrait de la liste des mots d riv s de la forme affaiblie HS du verbe primitif Js venir propos e dans Yulghun Editor 204 Voir http www ilib cn A xtgcllysj200305021 html Research on Uighur Corrector System in Multilingual Environment Mt Ablimit amp Kurban Ubul 2003 http www ilib cn A zwxxxb200406009 html Research on Uighur Word Segmentation Gulila Adongbieke Mijit Ablimit 2004 projet
210. s D d t C D Ci t geptDe gt gepte chaq Di gt chaqti CtD PC d teg Di gt tegdi biz De gt bizde V D2 V d al Di gt aldi qur Da gt qurda b les consonnes laryngo v laires K g k gh q VC R VF Cyt k ket K in gt ketkin VVFCEK 9 V C q tap K in gt tapqin ViFCAK D VEC g kel K in gt kelgen Vp CtK 9 V C gh qal K in gt qalghin VAtK Vet g s zle K in sozligin VptK 9 Vet gh J qara K in gt qarighin 5 les consonnes laryngo v laires K dans le suffixe dubitatif K u qu ghu Etant donn que la voyelle est invariable la consonne initiale de la particule finale dubitative est toujours K q gh VACi K u gt VF Cnt qu ketsek K u gt ketsekqu Vp C K u gt Vy C t qu alsaq K u gt alsaqqu VieFCA K u gt VC ghu kelgen K u gt kelgenghu V Ct K u gt V C gh qalghan K u gt qalghanghu VHK u gt Ve gh keldi K u2 keldighu Vy K u Vet gh aldi K u gt aldighu 6 K terminant un suffixe en SUF I I K Va C 0O I K 9 Va C 0 lik par exemple r mchilik Vy C 0 1 I K Vy C 07 lig par exemple Turpan liq Vg C O I K Vg C 0 lik par exemple k nl k Vy C 0 I K V C 0 luq par exemple Atushluq 95 7 K en fin de suffixe de premi re personne pluriel SUF K Vit K Ve k Par exemple kelsek V K gt V q alsaq kelduq 8 assimilation de consonnes laryngo velar n est pas pris en
211. s dans les pages web WEFT g n re galement un code sous la forme suivanet qui permet d int grer les polices incorpor es le fichier avec l extension EOT dans les pages web Il suffit de le mettre entre les balises lt body gt lt body gt dans le code HTML E lt STYLE type text css gt font face font family UKIJ Tuz src url UKIJTUZO eot lt STYLE gt L inconv nient des polices incorpor es g n r es par WEFT est que les polices sont compatibles uniquement avec Internet Explorer Nous sugg rons fortement d investir plus d efforts afin de fournir une compatibilit inter plateforme pour ce genre de logiciel ius Logiciel gratuit de Microsoft disponible sur http www microsoft com typography web embedding default htm 73 3 7 Cr ation d une m thode d entr e virtuelle au niveau des navigateurs Comme nous l avons mentionn dans l introduction les plateformes existantes ne fournissent aucune m thode d entr e pour la langue ouighoure au niveau du syst me Bien que nous ayons d velopp un IME au niveau syst me nous ne pouvons pas dire que tous les internautes ouighours sont quip s de cet outil Donc la m thode d entr e au niveau du navigateur est encore tr s en demande puisqu elle permet d ins rer n importe quel caract re en ouighour dans les champs textes d un site web sans avoir installer un IME ouighour au niveau du syst me La structure de base de cet outil d
212. s in natural language processing NLP created by Uyghur language and non Uyghur supporting environments We will discuss the existing difficulties and we will suggest innovative solutions to resolve such problems with the following fields e Standardization of Uyghur fonts and creation of a Unicode based Uyghur font e Implementation of system level and browser level input methods and e Creation of multi script converting tools e Realization of an online Uyghur English dictionary e Implementation of a lexical generator based on the morphological suffixation rules of Uyghur e Design and creation of a suffix analyzer and an explorer e Demonstration of Uyghur information retrieval e Implementation of a parser and spell checker Keywords Agglutinative language suffix analyzer writing system Unicode font encoding input method extraction parser spell checker online dictionary converter CHAPITRE 1 INTRODUCTION 10 1 1 Les r volutions de l informatisation ouighoure ccccccccccccccccccccccsccccscccccccccscccceccccccccccscscsccccsccces 10 1 2 Bref tat des recherches esseesseesseoosecosocosoosooossoossoossosssosssooseooseosseooseosseosseossesseesseesseesseessesssesssosssoe 1 3 1 3 Probl matique de la recherche 14 lt 1 4 Plan de these ccscccccccoccssccecsscsecocescsescsccssccsoestsccecsccsccoccsscscestessececsssteceesccdccveccscecesssssccscdessecscsccsesesecs 15
213. s sens diff rents selon le contexte de son utilisation mais un seul sens est valide lorsque le mot est dans son contexte Ce probl me exige certainement du traitement de la d sambiguisation Dans ce cas nous pouvons utiliser une des deux m thodes d sambigu sation s mantique ou d sambiguisation statistique Nous traitons seulement l ambiguit concernant l extraction d entit s nomm es dans le paragraphe suivant 7 5 Extraction des entit s nomm es L extraction des entit s nomm es est un processus de marquage et normalisation des noms propres personnes locations amorces et organisations et des expressions structur s valeur p cuniaire v nements dates et temps partir d un document textuel Kemal Oflazer Oflazer 2001 pr sente une approche bas e sur n gram language models in 139 hidden Markov models et propose 4 mod les lexicale contextuel morphologique insigne nominatif pour l extraction des entit s nomm es turques Dans cette tude nous utilisons la m me approche pour l ouighour en submergeant les deux derniers mod les 7 5 1 Un mod le pour traiter l ouighour Dans le chapitre 3 nous avons pr sent la constitution des noms noms personnels l ordre des suffixes de nombre de possession et des cas Maintenant nous les appliquons T 201 pour capturer des entit s nomm es dans le graphe suivant im uv DATE Figure 7 Un automate d extraction des ent
214. sa propre m thode Par cons quent il y a eu un probl me d incompatibilit des nombreuses polices cr es par diff rentes personnes Ainsi les m thodes d entr e et les logiciels doivent porter leur propre police Il me semble que l autorit r gionale pour la standardisation aurait d jouer un r le important pour r soudre ce probl me 7 Purpose oriented software 12 ouighoure vers UKY de dictionnaires bilingues de logiciels de correction orthographique UOCR la seule m thode d entr e pour Win 98 2000 NT XP 2003 qui utilise Unicode et un diteur de texte Unicode Une m thode d entr e pour le ouighour est disponible dans Windows Vista Mais le traitement automatique de la langue ouighoure n a pas encore commenc 1 2 Bref tat des recherches Les r sultats obtenus jusqu nos jours pour le traitement de l ouighour sont loin d tre satisfaisants ou bien ils sont tr s limit s dans un cadre d application pour la publication Il n y a pas d outil qui peut faire l analyse linguistique de l ouighour ni de m thodes th oriques disponibles pour l tude de la morphologie et de la syntaxe Pour obtenir des pr dictions profitables pour la langue ouighoure le meilleur moyen est de trouver d adapter et d appliquer les ressources des langues proches Parmi toutes les langues agglutinantes de la m me famille altaique que l ouighour il a par exemple l az ri le kazakh le kirghiz l ouzbek
215. se comme du pain mais plut t puis je vous servir quelque chose puisque dans la tradition ou ghoure on sert toujours le pain accompagn de th Parmi les quatre m thodes de production des morph mes d riv s l utilisation du suffixe est la plus fr quente Morph mes syntactiques ils expliquent les relations syntactiques et des fonctions vari es d un mot dans une phrase Ils ne participent pas a la cr ation lexicale ils ne changent pas le sens principal d un mot ils ajoutent des sens grammaticaux En ou ghour les suffixes indiquant le nombre les cas la possession et l interrogation appartiennent cette cat gorie Dans les formes nominales l ordre de base des morph mes syntactiques est le nombre singulier ou pluriel le possessif les cas Analysons l exemple du paragraphe 4 2 1 St cot St G l l k lir ingiz di ki ler din mi di de droite gauche Fleur SUFF PL 2P POS LOC REL PL ABL INT IMP Sont ce celles de vos jardins 1 G l racine 2 l k suffixe d rivatif 3 lir pluriel Forme affaiblie de er 4 ingiz deuxi me personne possessif formel 5 di locatif Forme affaiblie de de 6 ki relatif 7 ler pluriel 8 din ablatif 9 mi interrogatif Forme affaiblie de mu 10 di imparfait Ici on remarque
216. sons similaires La Chine dans son effort de romanisation tait all un pas plus loin en introduisant des nouvelles lettres uniques O Ol oz K er H qui isolait l ouighour des autres langues turques romanis es L utilisation adopt e du pinyin chinois des lettres g et x pour les phon mes tf et f ne faisaient que renforcer ce sentiment La peur de l assimilation linguistique L introduction des groupes de lettres ch sh et zh utilis s afin de transcrire des phon mes purement chinois ont rendu possible l importation de mots chinois directement dans la langue ouighoure Ceci a t vu comme une autre mani re d acc l rer le processus de sinisation de la langue Ce qui est int ressant est que PNSU n allait pas jusqu au bout en imposant l orthographe chinoise pinyin puisque les mots chinois import s en ouighour devaient quand m me subir certains changements telle la substitution du y au i du pinyin dans les diphtongues ai et ei et du a au e ou a du pinyin dans certains environnements phon tiques sapant ainsi le but de l unification linguistique La fatigue des r formes En tr s peu de temps l ouighour a subi toute une s rie de r formes alphab tiques des modifications apport es l arabe au changement total au cyrillique puis l alphabet latin Entre temps l ASU a aussi subi des modifications qui l ont Chaque 6 9 a t emprunt de l alphabet cyrillique et modifi pour les langues d Asie centrale
217. st parl e par les Kirghiz groupe nomade vivant en Kirghizistan en Ouzb kistan et dans les montagnes du Badakhshan en R publique du Tadjikistan Communaut des tats ind pendants galement en R gion autonome ouighour du Xinjiang au nord ouest de la Chine Langue turque parl e par les Ouzbek peuple vivant en R publique d Ouzb kistan et en R gion autonome ouighour du Xinjiang au nord ouest de la Chine Cette langue est class e avec l ouighour dans le groupe sud est des langues turques descendant direct du Tchaghatai Langue turque parl e en r publique autonome des Tatars Tatarija Tatarie F d ration de Russie et galement en Roumanie Bulgarie Turquie et en R gion autonome ouighour du Xinjiang au nord ouest de la Chine Les dialectes tatars sont nombreux et comprennent notamment le tatar de Crim e le tatar de la Volga le tatar de Kazan et le tatar de Lituanie Langue turque parl e principalement au Turkm nistan ainsi que dans l ouest de l Ouzb kistan le sud du Kazakhstan le nord de l Iran et de l Afghanistan Le turkm ne appartient au groupe Oghuz des langues turques et est tr s proche de l az ri et du turc de Turquie Traitement automatis du langage naturel Human Language and Speech Technologies Laboratory Faculty of Engineering and Natural Sciences www sabanciuniv edu Department of Computer Engineering and Information Science Ankara 06533 Turkey www bilkent edu tr 14 M
218. stade qu ils sont des mots sans fautes d orthographe Par contre Au dl cai seront limin s parce 215 Dans cette qu ils contiennent des lettres qui ne figurent pas dans l UEY situation ils seront trait s comme des fautes d orthographe et passeront directement la proc dure de suggestion ULY il utilise 25 lettres de l alphabet latin trois lettres diacritiques 6 6 et lapostrophe La reconnaissance automatique des mots ouighours crits en ULY pr sente une difficult particuli re dans un texte multilingue crit en alphabet latin Par exemple Men In glizche how do you do din bashga gep bilmeymen je anglais how do you do part mot nesais pas L identification de la langue et de l criture de chaque mot de cette phrase est une proc dure lente et d licate Comment peut on savoir que men din sont des mots ouighours et non pas en anglais Ou vice versa Faut il chercher ces mots d abord dans un dictionnaire ouighour puis dans un autre dictionnaire anglais Faut il utiliser les guillemets comme indice Comment faire en cas d absence de tels marqueurs Est ce que la structure syllabique 214 Les premier et troisi me mots y ngi nouveau et mubarek b ni sont ouighours le second jilingiz votre ann e est une forme dialectale de yilingiz dans laquelle n apparait aucune lettre h t rog ne UEY le quatri me mot est un mot arabe qu
219. t ou une laryngo v laire K g k gh q Les r gles suivantes s appliquent au choix de la consonne initiale dans un suffixe bas e sur la lettre finale du mot tel qu il est attach 1 une consonne finale dure fait appel une consonne dure Cj Ci par exemple kitaB Din gt kitaBDin kitabtin tok Ka gt tokKa tokqa 5 Voir Ka garl 1992 Modern Uygur T rk es Gramert Qazaq Penler Akad miyisi 1966 Hazirqi Zaman Ouighour Tili 2 gisim Morfologiye we Sintaksis et T m r 1987 Hazirqi zaman Ouighour tili grammatikisi morphologiye Les suffixes verbaux 6701068 de verbes wet yet wer ber wal al suivent la r gle qui s applique aux racines verbales d une syllabe par exemple k liw tip k t w rish soruw lish 5 Les formes de surface sont not es avec des accolades La lettre majuscule A repr sente tant a que e K repr sente g k gh q 58 et A s Pour plus de d tails propos des abr viations voir annexe 5 94 2 une consonne finale douce fait appel une consonne douce C C par exemple pul Din gt pulDin puldin nur Ka nurKa nurgha 3 une voyelle finale fait appel une consonne douce V C par exemple ana Din aniDin anidin j me Ke j meKe j mege y le Di y liDi y lidi 4 dans une position initale de suffixe deux s ries de consonnes lexicales sont sujettes au changement a les consonnes dentale
220. t L amp xaja un mot plut t cru pour d signer le p nis 48 et est donc couvert par la lettre j L utilisation ind pendante de ce phoneme est limit e quelques mots d origine russe ou perse Certains ont m me estim que l utilisation de la seule lettre 7 pourrait rendre le LSU plus proche visuellement de l usage international puisqu on la trouve dans des mots communs a beaucoup de langues ex jandarma gendarme fran ais jurnal journal fran ais et anglais inj n r engineer ing nieur anglais woltaj voltage Mais ceci allait l encontre du principe A De plus cela privat le LSU d un instrument pour transcrire des formes de langue non standard dans la RAOX tel l ou ghour parl dans URSS ainsi que les dialectes de Ghulja et Qeshqer Il a donc t d cid de laisser entrer une double lettre partiellement satisfaisante zh choisie pour son utilisation dans les transcriptions occidentales de mots russes Famili re aux anglophones cette forme est plus difficile lire pour ceux qui parlent d autres langues dans le monde En plus d tre une lettre double zh peut aussi pr ter confusion pour les Ouighours de la RAOX puisque c est aussi la forme pinyin utilis en parall le avec j dans le PNSU pour les mots d origine chinoise ex fangzhen directive Les partisans de j n ont pas t capables de convaincre ceux de zh et puisque ce phon me ne se produit que rarement dans un contexte non d r
221. t aucune indication de la valeur d ant riorit ou de post riorit de la racine nous avons rajout un pour l ant riorit et pour la post riorit La lettre V suivie d un caract re tabulation indique que la racine appartient au groupe verbal Dans une prochaine tape les racines nominales seront ajout es et identifi es par la lettre N suivie d un caract re tabulation 5 9 2 Banque de r gles La banque de r gles interpr te la structure morphologique de chaque mot et est donc le r sultat d analyse linguistique Elle est bas e sur une harmonie vocalique quatre sens cf section 5 harmonie vocalique et les r gles morpho phonologiques du ouighour Elle est totalement ind pendante du g n rateur lexical La banque de r gles consiste en 236 colonnes et 24 294 lignes Les trois premi res colonnes indiquent les changements affectant la racine tandis que les colonnes suivantes repr sentent un suffixe chacune Tout suffixe syntaxique probable a t inclus ainsi qu un certain nombre de suffixes 1 d verbaux communs 7 Chaque colonne correspond un suffixe Le nombre de lignes indique le nombre de nouveaux mots th oriquement possibles qui peuvent ou non tre utilis s dans la langue parl e Voir aussi figure 5 1 La racine peut changer selon le contexte vocalique Ex ker a deux autres formes k k lemdu et ke keptu 7 Incluent des suffixes verbaux qui sont absents des tables de f
222. tat l information est une nouvelle un renseignement que l on communique ou que l on obtient Le crit re Connaissance l information est un ensemble de connaissances acquises sur quelqu un ou sur quelque chose Le crit re Contenu l information est le contenu proprement dit des messages transmis Le crit re Contenant l information est un signal par lequel un syst me donne connaissance de sa position un autre Mohamed Hatem HADDAD 2002 Selon un autre crit re L information est mission r ception cr ation retransmission de signaux group s oraux ou crits sonores visuels ou audiovisuels en vue de la diffusion et de la communication d id es de faits de connaissances d analyses de concepts de plans d objets de projets d effets de toute sorte dans tous les domaines par un individu par des groupes d individus ou par un ou plusieurs organismes agissant ou r troagissant ainsi sur leur environnement imm diat proche ou lointain et dont le but est de d clencher ventuellement des processus dialectiques plus ou moins amples alimentant l change base naturelle et indispensable de l animation de la vie sociale Lorsqu on a trop d information il est difficile de rep rer les l ments importants parmi la masse de documents existants Par cons quent on a besoin d un syst me ou d outils d extraction afin de trouver le point culminant de l information qui nous int resse De ce fait dans cette
223. texte avait t ajout sur Wikip dia et diffus sur internet par l auteur voir http fr wikipedia org wiki Ou C3 AF ghour 39 Voir site personnel de l auteur http www oyghan com 23 criture arabo persane mais les r alit s socio conomiques des r gions ouighoures se combinent aux difficult s techniques pour en limiter la port e 1 2 2 Caract ristiques techniques de l criture Aujourd hui seule l criture arabo persane modifi e voir annexe IV et ci dessus est l criture officielle de la r gion autonome ouighoure de Chine Elle se compose de 24 consonnes et 8 voyelles qui permettent de transcrire tous les sons de la langue ouighoure Pour ce faire il a t n cessaire de cr er un certain nombre de lettres qui n existent pas dans l alphabet arabe ou persan ni dans aucun de leurs alphabets d riv s ce qui occasionne des probl mes au niveau de l informatisation de l ouighour 1 2 2 1 Nombre de signes L criture ouighoure se compose de 24 consonnes et 8 voyelles Chaque une des lettres a de 2 8 glyphes diff rents initiale m diane finale isol e Certaines formes des voyelles ouighoures se forment de deux glyphes Apr s la derni re reforme en 1983 l alphabet ouighour est constitu de 106 glyphes 20 ligatures 40 Un glyphe est une image utilis e pour repr senter les diff rentes formes des lettres Dans une police chacune des formes des lettres est appel e des glyphes Une ligat
224. thodes d entr es Logiciel de correction orthographique de 1 ouighour Moteur de recherche ouighour Logiciel de traduction automatique Logiciel de traduction assist e par ordinateur Systeme d extraction d information monolingue multilingue Banque de donn es terminologiques monolingue multilingue Analyseur d archives documentaires Etc Une d marche d tude linguistique est in vitable dans toutes les proc dures de r alisation des logiciels ci dessus Notre tude s int resse a la conception d analyse morphologique de l ouighour quelles que soient les applications auxquelles elles sont destin es Plus particuli rement comment cr er des polices ouighoures Comment entrer et afficher des lettres ouighoures comment faire l extraction d information Quelles sont les probl matiques morphologiques concerner Quelles sont les particularit s de la langue ouighoure Comment r soudre les probl mes techniques rencontr s Il existe bien des difficult s surmonter pour cr er un syst me de RD efficace rapidit de l indexation et de la recherche taille de l index robustesse fiabilit efficacit etc Mais les probl mes les plus difficiles ne correspondent pas de la technique pure Ils sont li s aux propri t s m me des langues Claude de Loupy 2001 Nous voquerons du point de vue de la linguistique et de l informatique certaines des difficult s les plus importantes li es au tra
225. tient autour de 50 000 entr es ou lemmes Pour une langue agglutinante comme l ouighour tablir une liste compl te des mots et de toutes leurs variantes possibles apparait donc comme une t che pratiquement infaisable Dans ce chapitre nous tudions une m thode qui peut r duire la masse de donn es dans le corpus tout en couvrant un maximum de possibilit s lexicales 211 Nous avons recens 623 verbes primitifs ou racines verbales non d riv es en 2007 Ce chiffre initial pourrait augmenter 147 8 2 Qu est ce qu un parseur La d finition de parseur que nous utilisons est celle de Dick Grune et Ceriel J H 212 Jacobs qui ont fait un r sum global qui couvre un large assortiment de textes Parsing is the process of structuring a linear representation in accordance with a given grammar This definition has been kept abstract on purpose to allow as wide an interpretation as possible The linear representation may be a sentence a computer program a knitting pattern a sequence of geological strata a piece of music actions in ritual behaviour in short any linear sequence in which the preceding elements in some way restrict the next element Grune et Jacobs 1990 p 13 Au sens linguistique un parseur est donc un outil informatique qui permet de faire une analyse syntaxique d un texte d une entit groupe de mots d un mot ou d une chaine de caract res pour obtenir une repr sentation lin aire de l obj
226. tion et d un analyseur morphologique du ouighour en utilisant des verbes en tant qu chantillon repr sentatif Cette approche n a jamais t utilis e et a t jusqu pr sent ignor e dans le traitement de la langue ou ghoure Nous croyons que cette m thodologie peut tre appliqu e un logiciel TAL particuli rement 1 dans les moteurs de recherche lors de l indexation et l analyse des requ tes de recherche 2 dans les correcteurs orthographiques ou logiciels OCR afin de v rifier sugg rer les orthographes correctes possibles 3 dans les m thodes d entr e afin d acc l rer la rapidit d entr e 4 dans les dictionnaires afin de r duire les entr es de surfaces r p titives Comme nous pouvons le constater dans le chapitre 5 en utilisant cette m thode linguistique nous pouvons obtenir jusqu 24 294 formes d riv es diff rentes pour une seule racine verbale En cons quence de quoi cette approche aide r duire le nombre de formes d riv es de verbes dans un corpus Puisque la banque de r gles couvre toutes les suites de suffixes pour tous les verbes certaines des formes verbales obtenues sont th oriquement possibles mais ne sont pas utilis es M me si le g n rateur lexical est capable de cr er de nouveaux mots et que l explorateur de suffixes peut expliquer les modifications de radical les fronti res de suffixes et l ordre de suffixation ils ne constituent pas encore un logiciel directement utilisable
227. tons ici sous forme d un tableau en montrant leur position et leurs points d articulation 13 Ce probl me d ambiguit au niveau de la graphie dans toutes les critures ouighoures ne refl te pas exactement la r alit phon tiqe de la langue parl e qui r alise diff remment le suivant qu il a t form partir d une voyelle ant rieure ou post rieure Il est l origine de beaucoup d h sitations entre les graphies 6 et i et a m me fait l objet de quelques r formes orthographiques partielles dans les ann es 60 cf Amine p 24 182 Ce tableau est un r sum des tableaux rep r s de trois livres publi s par Reinhard F Hahn amp A Ibrahim 1991 tats Unis A Qaydarov amp Gh Sedwaqasov amp T Talipov Almati 1963 R Imin 2000 r mchi 113 position l alv o labiale alv o V laire articulation palatale uvulaires laryngales 8 dentales 8 vocales 8 sonores wb od Seg EE occlusives sourdes vi D sonores Zj affriqu es sourdes amp ch j zh sonores gw jZ gh ah spirantes sourdes f ws sh x nasales sonores 1 on ng lat rale sonores J vibrantes sourdes 34 Tableau 5 Les consonnes Certaines de ces consonnes sont soumises des r gles d harmonie ou d assimilation phon tiques L assimilation phon tique qui n est pas toujours repr sent e dans la graphie affecte les c
228. tre mot et si c est le cas comment ce mot est d riv Afin r pondre la premiere question il faut trouver la racine Pour ce faire le parseur doit utiliser une liste des mots le dictionnaire qui ne contient que des mots correctement orthographi s Cette liste ne Hen PER Eo cp ess 1030 contient que des racines primitives et les formes particuli res des mots irr guliers Nous 617 verbes dans notre liste pr liminaire et ils sont stock s par ordre 22 avons recens alphab tique afin d acc l rer la recherche La racine du mot est recherch e dans le dictionnaire en utilisant un algorithme d appariement maximal Dans cet algorithme on g pp g 220 La langue ou ghoure ne comprend que tr s peu d exceptions Dont la plus notable est le mot su eau qui devient s y la forme d finie avec changement de la voyelle arri re u du radical en une voyelle d avant Les autres exceptions sont toutes des racines verbales primitives affect es par le ph nom ne de r duction vocalique 221 Voir chapitre 5 pour savoir comment ils ont t s lectionn s 154 recherche d abord le mot entier dans le dictionnaire si le mot s y trouve il est consid r comme un mot sans suffixe donc qu il n est pas n cessaire de parser davantage ex Jas viens Sinon l une des deux m thodes de recherche suivantes sera appliqu e 8 4 1 Recherche progressive La recherche progressive consiste trouver la r
229. ture ouighoure comme la plupart des critures s mitiques s crit de droite gauche 1 2 2 4 Caract res de ponctuations et des chiffres L ouighour utilise les chiffres arabes 0123456789 comme le frangais et plupart des langues du monde Mais le point d interrogation virgule point virgule sont diff rents savoir f 1 2 2 5 La sp cificit de l criture ouighoure 1110 a pas de majuscule L criture ouighoure est cursive Les voyelles peuvent s attacher la lettre d avant ou rester sans se joindre Toutes les consonnes et seulement deux voyelles 4 55 se lient la lettre suivante sauf quatre consonnes savoir j A Cette ligature a donn lieu la cr ation d une belle calligraphie Les lettres ouighoures peuvent th oriquement avoir quatre formes diff rentes l initiale au milieu la fin du mot et en position isol e Contrairement de l arabe il est toujours n cessaire d crire les voyelles Forme initiale de la lettre arabe Yeh avec Hamza dessus voir www unicode org Forme finale de la lettre arabe alef voir www unicode org Famille chamito s mitique afro asiatique comprenant l akkadien l arabe l aram en l thiopien le h breu et le ph nicien et parl e au nord de l Afrique et en Asie moyen orientale 27 1 2 2 6 Identification de la langue ouighour La deux lettres code 2 letter code attribu e par l ISO pour l ouighou
230. u cours de cette histoire les Ouighours ont adopt le Chamanisme le Manich isme le Bouddhisme et le Nestorianisme pour finalement se convertir l Islam sunnite partir du moment o les conqu rants arabes battirent les Chinois en 751 ouvrant la voie l islamisation de l Asie centrale Sous l influence de ces religions les Ou ghours ont utilis successivement et parfois de mani re concurrentielle un grand nombre de syst mes d criture turco runique brahmi tokharien soghdien avant de d velopper sur la base de l un des alphabets soghdiens leur propre syst me graphique appel depuis criture ouighoure ancienne L arriv e de l Islam et l absorption des r gions de peuplement ouighour dans l empire turco mongol musulman des descendants de Gengis Khan empire Tchaghatai ont amen le remplacement progressif de cette criture par un alphabet arabo persan Aujourd hui les Ouighours de la r gion autonome ouighoure de Chine apr s 20 ans de romanisation sur base d un syst me inspir du Pinyin chinois utilisent de nouveau l alphabet arabo persan dor navant criture ouighoure mais sous une forme modifi e La derni re r forme de l alphabet ouighour a t r alis e en 1983 Aujourd hui l Arabe modifi est l criture officielle de la r gion autonome Ouighoure de Chine qui se compose de 24 consonnes et 8 voyelles Elle comporte 27 lettres arabes modifi es et 5 lettres persanes 1 1 2 Info
231. u fonctions vari es du mot dans un contexte donn Le suffixe nglar est en r alit un suffixe compos 0 C ng lar suffixe transformateur post rieur pluriel Il suit donc la m me r gle que ng boldunglar k linglar linglar k r nglar 161 Dans ce syst me nous avons choisi de traiter les suffixes commen ant par une voyelle ou r duits une seule consonne apr s une voyelle finale comme la combinaison d une voyelle euphonique facultative et d une consonne 99 Les racines ou ghoures peuvent tre classifi es en deux groupes majeurs racines nominales et racines verbales Le groupe nominal inclut les noms communs les pronoms les adjectifs et les nombres tandis que le groupe verbale inclut les verbes qui ont la structure la plus complexe de suffixation Les suffixes d verbaux changent les suites verbales ie racines verbales ou racines verbales tendues en noms communs et les suffixes d nominaux changent les noms communs en verbes L ordre de suffixation pour les groupes nominaux et verbaux peut tre pr sent comme suit Groupe nominal L analyse de structure suivante refl te le cas le plus simple c est dire le cas o il n y a aucun suffixe d nominal qui change le nom commun d origine en un verbe Racine tendue racine 0 suffixe de d rivation 0 pluriel O marqueur possessive 0 085 marqueur relatif 0 PLR POS CASE 0 REL O interrogatif 165 marque de t
232. ue dans l ensemble des r ponses propos es ou dans un texte particulier en fonction du probl me soulev Comment mesurer l information manquante Les tests usuels d valuation des bases de donn es sont bas s sur des collections tests et mesurent le rappel et la pr cision de la r ponse en r f rence un ensemble de r ponses pertinentes La notion de document pertinent peut varier Il peut tre d fini comme un document proche de la question ou bien utile pour l utilisateur Tout comme le concept de qualit informationnelle le concept de pertinence varie suivant l tude men e le 1 T Ge 26 probl me soulev et l utilisateur lui m me 1 1 2 L information L information est une ressource strat gique tout le monde le r p te et on ne manque pas de donn es de nos jours qui le confirment D un point de vue scientifique l information appara t comme un sujet vague et incoh rent Le mot information a des d finitions multiples et ambigu s La d finition du Larousse est tout fait significative Elle se d compose en plusieurs sous d finitions selon les crit res suivants 6 Christine Michel Evaluation de syst mes de recherche d information comportant une fonctionnalit de filtrage par des mesures endog nes http www recodoc univ lyonl fr theseCMichel pdf 17 Le crit re Action l information est l action d informer de se mettre au courant d v nements Le crit re E
233. ue la langue ouighoure utilise trois syst mes d criture voir 3 pour plus de d tails il faut reconnaitre le syst me d criture utilis avant d entrer dans la proc dure de v rification et ne retenir pour l tape parsing que les mots segment s qui ne contiennent pas de caract res h t rog nes ce syst me e UEY l alphabet UEY est compos de 32 lettres Les voyelles en forme voyelle conjointe sont pr c d es par une 33 lettre wen utilis e uniquement dans ce contexte voir annexe 7 pour les lettres et leurs codes La notation de toutes les voyelles et la r gle d utilisation de cette 33 lettre sont avec l absence de certaines lettres figurant dans l alphabet arabe classique deux caract ristiques qui permettent de distinguer les mots ouighours des mots d autres langues crites dans un syst me graphique bas sur l arabe Si la valeur Unicode de chacune des lettres d un mot se trouve parmi les valeurs des 33 lettres UEY on consid re que c est une chaine de lettres ouighoures l gales qui peut tre envoy e la proc dure de v rification d orthographe Dans le cas contraire le mot est trait comme une faute d orthographe Par 213 ARABIC LETTER YEH WITH HAMZA ABOVE 151 mots dans lesquels toutes les lettres exemple figurent dans l alphabet UEY sont fort susceptible d tre des mots ouighours mais ceci ne veut pas dire ce
234. ue leur position et la forme des l vres correspondante Forme pas arrondie Arrondie Position ant rieure m dian post rieure ant rieure post rieure Haute si yi Su m diane s 50 50 Basse 4e Ga Tableau 4 les voyelles 6 2 2 L affaiblissement des voyelles Quand on ajoute un suffixe un mot monosyllabique la premi re syllabe devient une syllabe ouverte et l accent tonique se d place pour tomber sur la deuxi me syllabe Si la voyelle du mot est un a ou un e elle s affaiblit alors et devient un Par exemple at n cheval i 3p POS ti son cheval en lageur i ni sa largeur Quand on ajoute un suffixe un mot polysyllabique la derni re syllabe perd son accent tonique et si elle contient un a ou un e celui ci s affaiblit et devient un i Par exemple 110 ata p re si 3p POS atisi son leur p re yasa fabriquer faire ghan 3p pass compos yasighan fabriqu fait s zle parler dire gen TEMPS P2 s zligen il a parl dit Ce ph nom ne ne se produit pas dans les mots d origine arabe et persane ou le a ou le e de la 061101616 syllabe est long soit de nature soit en raison de la pr sence d un hamze ou d un ain disparu de la graphie ou ghoure moderne Par exemple imza a signature si imzasi sa signature binakar p L t architecte i binakari
235. ues et des Ecritures de la RAOX Shinjang Uyghur Aptonom Rayonluq Til Y ziq Komit ti ci apr s XLSC ont lanc une campagne de courte dur e afin d imposer l alphabet cyrillique aux Ouighours Kazakhs et Kirghiz tous les trois turcophones mais aussi aux Mongols et Sibes xib qui vivaient sur son territoire Lorsque ses relations avec l URSS sont entr es dans une p riode de forte tension la Chine a d cid de rebrousser chemin sur les politiques linguistiques qui cr aient trop de liens entre les Ouighours et autres peuples turcophones d Asie Centrale qui vivaient de part et d autre de la fronti re sino sovi tique En novembre 1959 la Chine a promulgu un projet de proposition d un alphabet latin bas sur le Hanyu Lading hua Pinyin latinisation du Chinois appel en ouighour y ngi y ziq ou nouvelle criture pour Voir Kamal Talibzade Learning to Read All Over Again Alphabet Changes in Azerbaijan Throughout the Century An Eyewitness Account Azerbaijan International 2000 8 1 http www azer com aiweb categories magazine 81 folder 81 articles 81 talibzade html 7 Une filiale gouvernementale cr e avec le but de a promouvoir le d veloppement des langues minoritaires chinois non Han et syst mes d criture dans la RAOX R gion Autonome Ouighoure du Xinjiang 60 Cet alphabet modifi du cyrillique tait pour le ouighour emprunt directement par celui qui avait t impos aux ouighours de l uni
236. ui sont en train de venir est compos de 18 caract res dont la racine modifi e est k l kel suivie de 15 caract res i w a t q a n l a r n i n g m u Avec la m thode b l algorithme doit ex cuter la boucle voir figure 9 2 15 fois pour trouver la racine L approche syllabique propose une solution plus rapide que l approche d crite ci dessus l entr e est maintenant compos e des 7 syllabes k li wat gan lar ning mu Si la racine n est pas trouv e au lieu de traiter une cha ne de caract res de longueur R 1 ou R 1 pour une recherche progressive elle prend en compte R S caract res comme indiqu ci dessous 1 1 YR R S recherche progressive R racine S i me syllabe 1 nombre de syllabe 1 dernier i l syllabe 1 2 DR R S recherche d gressive R racine S 1 me syllabe i nombre de syllabe 1 dernier i l syllabe Les r gles de syllabisation sont assez complexes voir chapitre 6 pour plus de d tails Sur la base de plusieurs tests nous avons mis au point de facon empirique un algorithme de syllabisation dont nous estimons qu il donne les r sultats les plus rapides et les plus fiables dans son ex cution Pour qu il soit pr t tester pour les amateurs de traitement automatique de la langue ouighoure nous le pr sentons galement en code C 159 D but r cup rer les voyelles de l entr e et la cha ne de caract res syllabiser initialisation
237. uie sans r serve l ouighour Fin 2003 nous avons d velopp la premi re m thode d entr e bas e sur l Unicode et nous l avons distribu gratuitement sur l internet Six mois plus tard la filiale du Groupe de Recherche 863 l Universit du Xinjiang et quelques chercheurs isol s se sont joints la campagne de la popularisation de l Unicode ouighour en distribuant leurs IME commerciaux Aujourd hui notre IME est devenue un des IME gratuits les plus utilis s dans la communaut internaute ouighoure Voici quelques copies d cran qui peuvent aider mieux voir comment s est faite l int gration au syst me 128 Voir note 106 criture complexe 129 Disponible sur http www ukij org oyghan unicode UyghurUnicodeIME htm 68 RT RE mU BARAS E L Uyghur Unicode Sh U A B Unicode Aelg ara n QU cs HEE Nm SEI PI K nT ett P SEIN ED Figure 3 Vue de la fen tre des services de texte et langues d entr es apr s l installation de notre IME Nous avons fourni deux dispositions du clavier ouighour La premi re Uyghur Unicode Sh U A R sur la figure 3 correspond la norme r gionale du RAOX pour le clavier QWERTY Figure 4 disposition du clavier ouighour norme r gionale 130 Extrait d une image du manuel d installation de notre IME Plus d images disponibles dans le manuel en ligne http www ukij org oyghan u
238. un de ces principes il y avait plus de lettres et de groupes de lettres que dans l ASU il tait ambigu puisqu il proposait deux transcriptions pour certains sons q et ch x et sh j et zh il utilisait des signes diacritiques et des lettres absents de l alphabet latin commun rendant les mots ouighours illisibles pour tous ceux qui n taient pas familiers avec le PNSU imposant donc un recours d autres types de transcription des pr noms et noms g ographiques l ext rieur de la RAOX Sur les cartes romanis es de Chine la plupart des noms de villes et de lieux ouighours apparaissent avec leur nom pinyin Yining pour Ghulja et Kashi pour Qeshqer Les noms et pr noms ouighours apparaissent sur les documents d identit avec la transcription pinyin de leur translit ration en caract res chinois Waresijiang Abudukelimu au lieu de Warisjan Abduk rim 11 a cependant t difficile pour ceux qui avaient appris le systeme PNSU d apprendre une nouvelle transcription et une nouvelle valeur phon tique Le statut semi officiel retenu par le PNSU aurait pu d courager l apprentissage du LSU mais l exemple d autres nations turcophones d Asie centrale qui 43 adoptaient l poque 1 81011806 latin a aid a faire progresser rapidement le projet Sur la base des principes num r s ci dessus une norme provisoire a finalement t adopt e par les participants de la conf rence Plus bas nous d crivons les d tails des d cisions prises
239. ur des logiciels de correction orthographique ROC outil de dictionnaire traduction a l aide d ordinateur analyseur de la morphologie moteur de recherche extraction d information 6 3 2 R glement de segmentation syllabique Les r gles de segmentation syllabique nous aident pendant l identification des unit s morphologique des mots ou ghours Les r gles ci dessous sont applicables seulement pour les mots ouighours excluant certains mots d emprunt A savoir 1 S il y a une consonne entre deux voyelles la consonne s associe la deuxi me voyelle pour composer une syllabe Par exemple ata p re a ta b rek rognon b rek melike princesse me li ke 2 S il y a deux consonnes entre deux voyelles les deux consonnes se s parent en s associant chacune la voyelle la plus proche Par exemple mektep cole mek tep saylam lection say lam oyman basin oy man 3 S il y a trois consonnes entre deux voyelles les deux premi res consonnes s accolent la premi re voyelle la troisi me consonne s accole la deuxi me voyelle Par exemple dostluq amiti dost luq xelqning du peuple xelq ning 116 Toutes ces r gles seront utilis es pour la d rivation des nouvelles entit s lexicales a partir des racines et dans le respect de l harmonie vocalique Il est aussi important de factoriser les complexit s introduites par la richesse de l ou ghour en m
240. ure est une composition de deux ou plusieurs glyphes des lettres Dans le cadre de l criture arabe deux ou plusieurs glyphes des lettres s associent pour former une ligature Dans plupart des cas les ligatures sont disponibles seulement dans l extension du jeu de caract res des polices Par exemple Arabic Presentation Forms A FCBO FDFF41 En arabe plusieurs glyphes de plusieurs lettres forment une ligature Par exemple la forme isol s de la lettre a ef la forme initiale de la lettre Jam J la forme m diane de la lettre Jam J la forme finale de la lettre heh e Une des plus courantes ligatures ouighoure est Quand la lettre 0627 s interpose avec la lettre 0626 ils deviennent 6 FBEA en associant ses deux 40 voir http www oyghan com unicode Unicode FAQ fichiers image005 gif 4l e valeur Unicode en hexad cimale 26 glyphs 5 ARABIC LETTER YEH WITH HAMZA ABOVE INITIAL FORM FB8B et t ARABIC LETTER ALEF FINAL FORM FESE Les voyelles 35 35 a5 5 a5 5 Les consonnes V J ENEE TERTE d us D I 0699 1 2 2 2 Type d criture Les critures ou ghoures cit es plus haut poss dent au moins une caract ristique essentielle commune ce sont des critures alphab tiques phon tiques 1 2 2 3 Direction de l criture As ex E pecu 44 P 3 L cri
241. urs FAIRE Mappage du code original vers le code de la lettre ou signe de ponctuation ou ghour ex quand la touche a est frapp e le code original est U 0061 et il doit tre transform en U 0627 afin d afficher la lettre I en cas d utilisation de la disposition du clavier bas e sur l LSU R partition de l v nement du clavier FIN TANT QUE SINON Figure 7 Algorithme de la m thode d entr e ouighoure au niveau du syst me Plus de d tails sur l affichage des lettres le d veloppement d un IME au niveau du navigateur et les outils de conversion multilingues sont pr sent s dans les sections suivantes 3 6 Incorporation des polices et l affichage des lettres ouighoures Les sites web peuvent tre rendus sans t l charger ou installer de polices sp cifiques si 1 La police utilis e dans les pages est disponible dans l ordinateur de l utilisateur et 2 Sile navigateur fournit un soutien des langues natives et polices utilis es La deuxi me condition a d j t remplie mais malheureusement ce n est pas le cas pour la premi re puisque il n existe aucune police ouighoure disponible travers les plateformes install es dans les ordinateurs des utilisateurs Par cons quent afin de veiller ce que les polices ouighoures soient affich es correctement dans les navigateurs Web les utilisateurs doivent trouver une fa on d installer dans leurs ordinateurs les polices qui y sont utilis es Ceci est le
242. urs se sont mis utiliser le LSU non seulement dans les courriels et les forums mais aussi dans le d veloppement web la recherche scientifique et dans le d veloppement de logiciels d applications Les gens ont aussi commenc r aliser que l unification graphique fourni par LSU ne constitue pas une nouvelle r forme d criture impos e mais un instrument qui aide les Ouighour communiquer et partager de l information entre eux Ouighours de la RAOX Ouighour de l ex URSS et Ouighours install s dans d autres pays ainsi qu avec d autres locuteurs de langues turques apparent es travers le monde Outre quelques incoh rences de d part dues a des habitudes ancr es particuli rement dans le passage du x du PNSU au sh du LSU un probl me majeur dans 87 Voir biliwal com izdiyari com google com intl ug rfa org oyghan com ukij org uyghurdictionary org http www xjtsnews com normal content lading index htm site officiel du Bureau de la Propagande du gouvernement de la RAOX Version d mo disponible en ligne http www uyghurdictionary org tools asp version hors ligne ajoutciel pour Microsoft Word http oyghan com OTB index html Voir aussi www ukij org pour d autres outils 52 l utilisation de LSU a t la r ticence de certains utilisateurs d ordinateurs utiliser des diacritiques sur les voyelles 6 et ti Ceci vient surtout d une paresse du clavier puisque dans la plupart des cas faute
243. utres tribus turques de I Asie centrale occidentale Voir http www omniglot com writing orkhon htm Adopt en forme modifi e par les Mongols puis par les Mandchous 35 Turcologie qui s est tenu Bakou en 1929 et avait pour but de romaniser les langues litt raires r cemment cr es pour chacune des langues turques d Asie centrale L adoption par la R publique de Turquie de l alphabet latin entre 1927 et 1928 a contribu influencer la d cision en 1937 de l Union Sovi tique concern par une menace panturque d abandonner l alphabet latin et d imposer des alphabets bas s sur le cyrillique ses peuples turcs La Chine op vivent la majorit des Ouighours a t particuli rement active dans les r formes de langues et d alphabets apr s la victoire du parti communiste en 1949 Elle a d s lors repris son compte l approche sovi tique aux politiques linguistiques A cet poque les linguistes russes ont vivement aid la Chine r pertorier et codifier les langues des minorit s ethniques les Chinois non Han vivant sur son territoire Dans ce contexte les dialectes ouighours parl s des deux c t s de la fronti re entre l URSS et la Chine ont t s unifi s en une seule langue litt raire bas e sur les normes utilis es pour les Ouighours vivant en URSS Dans la foul e en mars 1956 le Conseil d Etat de la R publique Populaire de Chine RPC et le Comit des Lang
244. ve Script Remove Lookup Remove Glyph Group Figure 2 Exemple d int gration des fonctionnalit s de substitution Supposons maintenant que nous avons d j des polices ou ghoures d velopp es en sur la base de l Unicode et des conventions mentionn es ci dessus Puisque les syst mes d exploitation existants ne fournissent pas une m thode d entr e d sormais IME pour l ouighour nous avons encore besoin de cr er des outils permettant de saisir les lettres ouighoures Il y a deux types de m thodes d entr es 127 part Windows Vista dans lequel subsiste cependant un probl me de compatibilit de la lettre j D apr s Microsoft ce probl me sera corrig dans la prochaine version de Windows sous forme de patch 66 A M thode traditionnelle cette m thode n cessite la pr sence des instructions de substitution voir figure 1 et 2 dans la police et une version ult rieure 1 47 du processeur multilingue Uniscribe USP dil qui les interpr te d code afin de s lectionner des formes correctes parmi les formes possible initiale m diane finale isol e en suivant les r gles de l alphabet ou ghour Lors de la saisie la m thode d entr e n a besoin que de transmettre des codes situ s dans la zone de base Unicode Basic Unicode Range soit des valeurs entre 0600 06FF Si cette m thode est utilis e le mot devient d 6 1 n lorsqu on met un
245. yphes du m me caract re arabe a dans les positions initiale et m diane a correspondent ceux du ou ghour a h comme h lihem m me maintenant gunah p ch ou offense 454 qebih odieux qui a des 118 Voir aussi http www unicode org standard where Formes vari es de la lettre arabe hah 62 formes finale et isol e diff rentes a voir table 8 Afin de contourner cette incoh rence nous avons choisi d utiliser 06D5 pour la lettre 01018110101 45 et 06BE pour la lettre ouighoure a De plus la lettre ourdoue 06BE a quasiment les m mes formes que la lettre ouighoure A l int rieur des polices ouighoures les recherches de substitution de 06D5 utilisent FEE9 et FEEA dans les positions isol e et finale de 45 Les formes compos es A et 45 peuvent tre obtenues en rajoutant la forme finale de 06D5 aux formes initiale et m diane de 0626 amp comme nous le faisons pour 3 5 et marques d arr t glottal Ceci est un phon me qui n est pas marqu s par ment dans l alphabet ASU mais qui d pend quand m me de son orthographe Cet arr t guttural n est pas prononc aussi fortement en ouighour qu en ouzbek ou dans les langues s mitiques par exemple et il a t affaibli au point de ne plus tre qu une pause Marqu dans l ASU par un hamza au dessus d une dent il apparait g n ralement dans des mots d origine arabe o il remplace un ain g ou un hamz
Download Pdf Manuals
Related Search
Related Contents
INSTRUCTION MANUAL - Il Portale del Sole Samsung SGH-A551 User Manual NGS Synergy Set Pdf-Download - Schmalenberger User Manual Commander T Series 株 主 各 位 第52回定時株主総会招集ご通知 Panasonic Security Viewer NEW XEROX Software de Relatórios do Auditron da Document Centre instruction Copyright © All rights reserved.
Failed to retrieve file