Home
Analyse lexicale et morphologique de l`arabe standard
Contents
1. Status and Plans in 2001 In Actes de ACL EACL2001 Toulouse DEBILI F 2001 Traitement automatique de l arabe voyell ou non Correspondances IRMC DICHY J FARGHALY A 2003 Roots amp Patterns vs Stems plus Grammar Lexis Specifications there what basis should is multilingual lexical database centred on Arabic be built In Journ e On Machine Translation for Semitic Languages New Orleans KOULOUGHLI D E 1994 Grammaire de l arabe d aujourd hui dition Perfectionnement KOSKENNIEMI K 1983 Two level morphology a general computational model for word form recognition and publication Publication N 11 Universit de Helsinki 12 Le corpus a t t l charg en majeure partie l adresse http www mondiploar com RECITAL 2006 Leuven 10 13 avril 2006 754 SLIM MESFAR MCCARTHY J 1981 A prosodic theory of non concatenative morphology In Linguistic Inquiry 12 3 373 418 REVUZ D 1991 Dictionnaires et lexiques m thodes et algorithmes Th se de doctorat Universit Paris 7 SILBEZTEIN M 2005 NooJ s Dictionnaries In Actes de LTC 2005 Poznan TUERLINCKX L 2004 La lemmatisation de l arabe non classique In Actes des 7 Journ es internationales d Analyse statistique des Donn es Textuelles Presses universitaires de Louvain Louvain la Neuve RECITAL 2006 Leuven 10 13 avril 2006
2. le traitement automatique de l arabe doit pouvoir traiter des textes vocalis s mais aussi des textes non vocalis s Pour rem dier ces deux probl mes nous avons utilis des automates tats finis que nous avons associ s des dictionnaires de lemmes 4 NooJ et le traitement de l arabe Noof est un environnement linguistique de d veloppement qui peut analyser des corpus importants en temps r el Il inclut des outils pour construire tester et maintenir des descriptions formalis es large couverture des langues naturelles sous forme de dictionnaires et de grammaires lectroniques Les dictionnaires et les grammaires sont appliqu s aux textes afin de localiser les mod les morphologiques lexicologiques et syntaxiques enlever des ambigu t s et tiqueter des mots compos s et simples Silberztein 2005 NooJ peut construire des concordances lemmatis es de grands textes l aide de grammaires tats finis et alg briques et peut aussi effectuer des op rations de transformation sur des textes en cascade afin de les annoter ou produire des paraphrases Le module lexical de NooJ utilis tout au long de cet article se base sur des op rateurs de transformations l int rieur des formes et des graphes morphologiques d crivant des r gles grammaticales large couverture Bien que certains op rateurs de transformations soient pr d finis dans NooJ e g lt L gt touche de d placement vers la gauche
3. yukallim et enfin ins rer la voyelle finale u yukallimul Cette op ration permet de g n rer la forme suivante 4 yukallimu il parle qq un qui sera associ e aux informations flexionnelles V Tr A P 3 m s i e verbe transitif direct V Tr conjugu au masculin m singulier s troisi me personne 3 pr sent de l indicatif P et voix active A 5 2 Les noms Les noms sont d crits de trois fa ons diff rentes 1 Nous avons construit un dictionnaire qui contient environ 15 000 entr es sous forme de noms primitifs par exemple le nom is korsiyy chaise Chaque entr e est ramen e au masculin singulier La liste des verbes a t construite par Ibtihal Farawi et Slim Mesfar lors de leurs travaux de recherche sur l arabe au LASELDI 5 FLX fonctionnalit permettant la description des formes fl chies potentielles partir d un lemme Nous associons chaque forme crite en arabe d limit e par des apostrophes sa transcription en caract res latins en italique et sa traduction en fran ais 7 Le sens des d placements tient compte de l inversion de l orientation droite gauche des mots crits en arabe pour une orientation gauche droite dans les formes translitt r es 8 Un nom primitif d signe un nom qui ne peut pas tre d riv d un verbe RECITAL 2006 Leuven 10 13 avril 2006 ANALYSE LEXICALE ET MORPHOLOGIQUE DE L ARABE STANDARD 751
4. 2 Nous avons associ les verbes d crits ci dessus des descriptions morphologiques pour repr senter l ensemble des d verbaux i e des noms qui proviennent de verbes Ces noms peuvent tre un smFa l i e participe actif un ZsmMaf ul i e participe passif ou un Masdar i e forme infinitive Dichy et Farghaly 2003 3 Nous avons introduit dans le m me dictionnaire quelques mots au pluriel qui n ont pas de correspondant singulier utilis par exemple le mot 44 MakhAwif dangers p rils Des classes flexionnelles sont associ es l ensemble des noms primitifs et aux d verbaux afin de repr senter l ensemble des cas possibles nominatif accusatif et g nitif et l ensemble des formes fl chies correspondantes f minines duales et plurielles Notons ici que la d clinaison de l ensemble des noms au pluriel a n cessit le d veloppement de 65 mod les de flexionnels pour d crire les pluriels externes form s par l ajout d un suffixe au singulier sans changement de la structure du mot et les pluriels internes form s par modification de la structure interne du mot avec conservation des lettres de base 5 3 Les particules Nous avons r pertori environ 450 particules vocalis es Ces particules incluent les pr positions adverbes conjonctions interjections et les outils d exceptions de n gation etc La formalisation de la flexion des verbes des noms primitifs et des d verb
5. ensembles les verbes les noms et les particules 5 1 Les verbes Le dictionnaire des verbes contient 10 000 entr es compl tement voyell es Chaque verbe ramen la 3 personne du singulier l accompli actif est associ un mod le de flexion parmi 130 mod les d velopp s pour la totalit des verbes Abou Il Azm 2003 Par mod le de flexion nous d signons l ensemble des transformations permettant d obtenir partir d une entr e lexicale l ensemble de ses formes conjugu es Ces paradigmes flexionnels incluent le mode indicatif subjonctif apocop et imp ratif la voix active et passive le genre et le nombre ce qui donne en moyenne 122 formes fl chies par entr e lexicale Exemple 4 V Tr FLX V kallama kallama parler quelqu un p s P Parmi les 122 transformations flexionnelles qui sont int gr es dans le paradigme flexionnel V_kallama en voici une lt LW gt yu lt R4 gt lt S gt i lt R gt lt S gt u A P 3 m s Cette transformation NooJ signifie positionner le curseur initialement plac la fin du mot kallamal la t te du lemme par un d placement vers la gauche lt LW gt kallama ins rer yu yulkallama sauter quatre lettres vers la droite lt R4 gt yukalllama effacer la lettre suivante lt S gt yukall ma ins rer la voyelle i yukalli ma sauter une lettre vers la droite lt R gt yukallimja effacer la lettre suivante lt S gt
6. lt R gt touche de d placement vers la droite lt S gt Suppression du caract re courant etc nous pouvons les red finir ou en ajouter quelques uns Ces transformations fonctionnent sur une pile elles n cessitent un temps de transformation en O n Ainsi elles garantissent une correspondance entre le lemme et la forme fl chie correspondante en un temps lin aire Quant aux grammaires morphologiques elles sont construites en utilisant l diteur de graphes de NooJ et repr sent es sous forme de transducteurs tats finis FST Elles repr sentent des s quences Une forme est une suite de graph mes se trouvant entre deux blancs ou ponctuations dans un texte Le t l chargement libre et le manuel d utilisation de la plateforme linguistique NooJ sont disponibles l adresse http www nooj4nlp net RECITAL 2006 Leuven 10 13 avril 2006 750 SLIM MESFAR de lettres et associent leurs reconnaissances la production des informations lexicales correspondantes tiquette grammaticale un ensemble d informations s mantiques etc 5 Construction du lexique arabe tant donn que toute analyse linguistique doit passer par une premi re phase d analyse lexicale qui consiste tester l appartenance de chaque mot du texte au vocabulaire de la langue Revuz 1991 nous commen ons notre travail par une phase de formalisation du vocabulaire de l arabe Ce travail a commenc par la formalisation de trois
7. Analyse lexicale et morphologique de l arabe standard utilisant la plateforme linguistique NooJ Slim Mesfar Universit de Franche Comt LASELDI mesfarslim yahoo fr R sum Cet article d crit un syst me de construction du lexique et d analyse morphologique pour l arabe standard Ce syst me profite des apports des mod les tats finis au sein de l environnement linguistique de d veloppement NooJ pour traiter aussi bien les textes voyell s que les textes partiellement ou non voyell s Il se base sur une analyse morphologique faisant appel des r gles grammaticales large couverture Mots cl s TALN NooJ langue arabe analyse lexicale analyse morphologique grammaire morphologique agglutination voyellation Abstract This article describes the construction of a lexicon and a morphological description for standard Arabic This system uses finite state technology within the linguistic developmental environment NooJ to parse vowelled texts as well as partially vowelled and unvowelled ones It is based on large coverage morphological grammars covering all grammatical rules Keywords NLP NooJ arabic language lexical analysis morphological analysis morphological grammar agglutination vocalisation 1 Introduction La langue arabe quatri me langue au monde conna t un accroissement des contenus textuels surtout en ligne avec plus de 20 000 sites arabes sur le Web et plus de 300 millions utilisa
8. NPERS3 repr sentent des sous graphes RECITAL 2006 Leuven 10 13 avril 2006 ANALYSE LEXICALE ET MORPHOLOGIQUE DE L ARABE STANDARD 753 Contraintes phonologiques ces contraintes g n ralement combin es avec les contraintes ci dessus dans les grammaires morphologiques permettent de maintenir une consonance harmonieuse l int rieur des formes agglutin es Elles concernent la compatibilit de la flexion casuelle du radical avec celle du suffixe qui s y rattache 7 Conclusion r sultats et perspectives Cet article d crit une formalisation du vocabulaire de l arabe standard et une cha ne d analyse morphologique de formes cette derni re est ind pendante de l tat de vocalisation et d agglutination de celles ci Le module construit est utilis au sein de l environnement linguistique de d veloppement NooJ pour la restitution des voyelles manquantes et l analyse linguistique des crits arabes L valuation de la couverture lexicale de ce module est entreprise en effectuant l analyse lexicale du corpus du LASELDI r cup r partir d Internet Ce corpus est compos d articles journalistiques du journal Le Monde Diplomatique qui comporte environ 150 000 formes diff rentes Le r sultat de l analyse lexicale montre que le vocabulaire du corpus est reconnu 93 par nos ressources lexicales et morphologiques L ensemble des formes non reconnues contient 7 000 formes translitt r es de nom
9. aux permet de reconna tre toutes les formes fl chies correspondantes l algorithme de consultation de NooJ utilise des automates finis ce qui permet de reconna tre directement leurs formes non voyell es et partiellement voyell es De plus chaque forme reconnue est associ e par l algorithme de consultation de NooJ des informations linguistiques lemme cat gorie grammaticale genre nombre informations syntaxiques e g Transitif et distributionnelles e g Humain 6 Analyse morphologique et d finition des r gles grammaticales La langue arabe tant une langue fortement agglutinante son analyse morphologique se d roule en deux phases cf figurel Mot du texte Reconnaissance des segmentations Grammaires morphologiques Lexique formes simples fl chies Application des r gles morpho syntaxiques Informations linguistiques associ es la forme reconnue Figure 1 Cha ne d analyse morphologique d un mot Les pluriels externes sont les pluriels r guliers masculins et les pluriels r guliers f minins 10 Les pluriels internes sont les pluriels bris s et les pluriels quadrisyllabiques RECITAL 2006 Leuven 10 13 avril 2006 752 SLIM MESFAR Dans un premier lieu un syst me de d composition des formes impl ment sous forme de transducteurs finis grammaires morphologiques NooJ est appliqu chaque forme du texte pour reconna tre les segmentati
10. e du projet ALPNET utilisant des automates finis permettant uniquement la concat nation de morph mes Beesley et Buckwalter 1989 D s 1996 l quipe de recherche de Xerox a enrichi ce m me syst me par un algorithme de combinaison automatique entre racines et sch mes ces travaux se basent sur les dictionnaires du projet ALPNET qui ont t consid rablement modernis s utilisant les transducteurs tats finis de Xerox Beesley 2001 L ad quation de cette technologie au traitement automatique des langues naturelles est bien connue nous l utilisons aussi avec l environnement de d veloppement NooJ que nous d crivons ci apr s 3 Description de la langue arabe La langue arabe est une langue s mitique pr sentant deux grandes caract ristiques faisant le sujet de nombreux travaux de recherche l agglutination et la non vocalisation En effet chaque forme d un crit en arabe peut correspondre une suite d un ou plusieurs pr fixes un radical et un ou plusieurs suffixes Les radicaux sont elles m mes des formes fl chies et d riv es partir de lemmes La non vocalisation due une absence des voyelles br ves dans les textes courants entra ne un haut degr d ambigu t Si elles sont pr sentes les voyelles br ves sont repr sent es par des diacritiques qui apparaissent au dessus ou en dessous des consonnes qu elles suivent En principe seuls le Coran et les livres d enseignement sont vocalis s
11. ne du singulier Achour 1998 lt SVerbe V TrInd 3 m s gt Figure 2 Contraintes lexicales la transitivit des verbes Le graphe simplifi ci dessus montre que l acceptation d une entr e form e par l agglutination d une suite de lettres lt L gt sauvegard e dans la variable Verbe suivie par un pronom personnel PRONPERSI1 PRONPERS 2 PRONPERS3 est li e la v rification de l une des deux contraintes lexicales d une part la variable Verbe peut repr senter n importe quelle forme fl chie d un verbe transitif lt Verbe V Tr gt d autre part une forme conjugu e la 3 personne 3 du masculin m singulier s d un verbe transitif indirect Trind lt Verbe V Trind 3 m s gt Contraintes orthographiques ces contraintes prennent en compte le changement de l orthographe de certaines lettres lors d une agglutination Nous citons le cas de la lettre 9 9 t acceptant deux orthographes diff rentes et le cas des alifs poss dant cinq orthographes diff rentes e P V 3 1 La pr sence de l une ou l autre des orthographes potentielles est relative la nature de la forme et la position de la lettre dans le mot Des op rations de substitution sont alors pr vues avant la consultation du dictionnaire et l association des informations linguistiques correspondantes la forme en entr e 1l Les n uds color s PRONPERS1 PRONPERS2 PRO
12. ons potentielles en identifiant le radical et les diff rents affixes qui lui sont coll s En second lieu une phase d application de r gles morpho syntaxiques associe la reconnaissance d une forme un ensemble de contraintes lexicales permettant de travailler uniquement avec des combinaisons valides des diff rents constituants de la forme Les segmentations retenues sont valid es gr ce une consultation du lexique des formes simples fl chies pr c demment construit l int rieur des grammaires morphologiques nous avons impl ment quatre types de contraintes lexicales Contraintes morphologiques ces contraintes d coulent de l alt ration de certains radicaux par agglutination un pr fixe ou suffixe Elles permettent de r tablir la graphie initiale telle qu elle figure dans le lexique Ces contraintes tiennent compte des incompatibilit s morphologiques qui auraient tre g n r es partir d une d composition directe par le biais de transformations morphologiques ajout de lettres suppression substitution etc Contraintes sur les propri t s syntaxiques des verbes ces contraintes prennent en compte la marque Transitif des verbes du dictionnaire En effet la transitivit des verbes nous permet g n ralement de d cider l agglutination des suffixes aux verbes Une telle agglutination ne sera permise que pour les verbes transitifs directs ou transitifs indirects conjugu s la 3 person
13. s propres e g Chirac Marseille UNICEF etc ainsi que quelques d rivations e g Chiraguisme deux milliers d emprunts et environ 1 400 fautes d orthographe La majorit des formes non reconnues sont des noms propres de personnes d organisations ou de localit s il nous faudra maintenant d une part impl menter un module de reconnaissance de ces entit s nomm es et d autre part valider les formes reconnues nous utilisons pour cela des grammaires locales syntaxiques R f rences ABOU IL AZM A 2003 Tasrif Moojim il af l 10 000 verbes Dar Ittawhidi Rabat ABDELI A COWIE J SOLIMAN H 2004 Arabic Information Retrieval Perspectives In Actes de JEP TALN Analyse Automatique de l arabe crit et parl ACHOUR H 1998 Contribution l tude du probl me de la voyellation automatique de l arabe Th se de doctorat Universit Paris 7 BEESLEY K BUCKWALTER T 1989 Two level Finite State Analysis for Arabic Morphology In Actes du s minaire On Bilingual Computing in Arabic and English Cambridge BEESLEY K 1996 Arabic Finite State Morphological Analysis and Generation In Actes de COLING96 Copenhagen BEESLEY K 1998 Arabic Morphology Using Only Finite State Operations In Actes de Approches Informatiques pour le traitement des langues s mitiques Montr al BEESLEY K 2001 Arabic Finite State Morphological Analysis and Generation of Arabic at Xerox Research
14. teurs ce jour le traitement et l exploitation de ces ressources documentaires pr sentent encore un d fi pour les chercheurs dans le domaine du traitement automatique des langues naturelles Dans le cadre de nos recherches nous avons entrepris la construction d un module pour l arabe au sein de la plateforme linguistique de d veloppement NooJ notre but est d impl menter une composante d analyse automatique des textes crits en arabe standard Cette composante servira mieux comprendre la langue partant d une description de son vocabulaire et de sa syntaxe transformationnelle selon la th orie de Harris et de Chomsky 2 tat de l art Depuis le d but des ann es 60 et partir du premier essai d analyse automatique propos par David Cohen l un des premiers th oriciens du domaine du TAL des recherches sont poursuivies dans le cadre du traitement automatique de la langue arabe En 1983 partant d une analyse morphologique minimaliste bas e sur le principe que toute forme linguistique arabe se traduit en sch me et racine les recherches se sont d velopp es pour arriver la construction du premier analyseur morphologique deux niveaux de l arabe Koskenniemi Source Ethnologue 13 dition Barbara F Grimes Editor cole d t en Linguistique 1996 RECITAL 2006 Leuven 10 13 avril 2006 ANALYSE LEXICALE ET MORPHOLOGIQUE DE L ARABE STANDARD 749 1983 repris et remani dans le cadr
Download Pdf Manuals
Related Search
Related Contents
Kensington SmartFit™ Laptop Docking Station with Stand sd100s HP M276nw Warranty Mod: E65/CP7T 取扱説明書 - DXアンテナ Compact 5 HD User Guide PGC2/D - Arun Microelectronics Limited KRAM 68699 car kit Project MedTech Brochure Lifting Slings US Copyright © All rights reserved.
Failed to retrieve file