Home
version pdf
Contents
1. la vol e Extraire le contenu des balises DESCRIPTION Dans votre script utilisez la fonction rechercher sur un patron d crivant la balise vis e il est ais ensuite de r cup rer le contenu dela bahsesvssdescription Gb ops wvdesecriotiouv wu 1v dq1s conbenuscdeMla balise Le reformater un mot par ligne Plusieurs solutions possibles par exemple via rechercher remplacer remplacer les fronti res de mots par un retour la ligne s tout caract re dans un mot Nn 1Xn compl ter L tiqueter Dans votre script crire le r sultat du reformatage dans un fichier sur lequel vous lancez le freetagger puis vous r cup rez le r sultat de l tiquetage en ouvrant le fichier associ Solution 2 On peut aussi traiter globalement l tiquetage en r alisant au pr alable l extraction des zones textuelles tiqueter Int grez dans le script les processus d extraction du contenu des balises DESCRIPTION et d criture en sortie de l ensemble de ces contenus textuels Vous devrez construire en sortie un fichier structur regroupant l ensemble des traitements d tiquetage Exemple de sortie projet etiquetage 2NSORTIE etiquetage xml On pourra reprendre et modifier le code de freetagger2xml pluriTAL htp aluniv paris3 fr plurital Votre travail partie 2 partir du programme parcours arborescence fichiers pl Extraire dans un fichier les contenus des ba
2. pluriTAL TOUS ntp tal univ paris3 fr plurital Ressources pour d marrer Le programme parcours arborescence fichiers pl L arborescence des fils Lecorpus utiliser sera disponible au LABO Un r pertoire contenant le programme freetagger pour window S d zipper dans un dossier nomm freetagger par exemple projet etiquetage 2Mreetageger win32 zip contient aussi le programme projet etiquetage 2 treetagger2xml pl Vous envoyez SF par mail une archive contenant une page web avec votre nom et le contenu de votre programme et ses sorties
3. on associe des Informations morpho syntaxiques aux Ui i 1 2 3 comme par exemple Ul Jean Informations morpho syntaxiques nom propre masculin singulier U2 a mang Forme lemmatis e manger Informations morpho syntaxiques verbe pass compos indicatif 39me personne singulier constructions transitif Boite outils s rie 2 Projet encadr ex se pl LI ri TA L http tal univ paris3 fr plurital Les tiqueteur S utilis s dans ce cours Cordial Version Universit 6 00 WWW Synapse fr com Br ve pr sentation avec exercices de prise en main de Cordia 6 Universit Ireelagcer http wWww ims uni stuttgart de projekte corplex DecisionTreeTagger de html The TreeTagger is a tool for annotating text with part of speech and lemma information which has been developed within the TC project at the Institute for Computational Linguistics of the University of Stuttgart The TreeTagger has been successfully used to tag German English French Italian Greek and old French texts and is easily adaptable to other languages if a lexicon and a manually tagged training corpus are available ANOTER une version de TreeTagger online est disponible cette adresse http www cele nottingham ac uk ccztk treetagger php application en Flash permettant d tiqueter des textes de moins de 1000 mots sommaire pluriTAL http tal univ paris3 fr plurital Trav
4. troisi me argument est le nom du fichier de sortie sommaire Projet encadr 1 AZ T ri TAL P dk oni http tal univ paris3 fr plurital Le programme d tiquetage 2 Fie Edit Options Buffers Tools Help BAGDAD Exemple de traitement Fichier tiqueter R militaires americains i e le contenu d une balise DESCRIPTION d un fil RSS AFP Nb mots 200 tues el 48 Lancement du programme _ R 1 Param tre french par OUEST de E IN texte txt Bagdad et 14 texte txt E OUT CESCE 2 im For information about J the GNU Project and ir 42 goals type C h C p Options token lemma no unknown zl S lectionner cygdrive c Documents and Settings Fleury Serge Bureau FROM HOMEPC 03 COURS C Bl m hin tree tagger exe token lemma no unknoun lihbz french par texte txt al textenut txt reading parameters tagging done sommaire pluriTAL http tal univ paris3 fr plurital Le programme d tiquetage 3 R sultat du traitement emacs SFWAY Mie Fie Edit Options Buffers Tools Help sh GOAD HOM BAGDAD PUN i ALFF LER LBE ABER Puataerze QUALTOLEE militaires militaires americains americains HOM HOM AD i VEER Dpper NUM ic ard NOM heures NOM NUM PUN VER pres de VER pper Bagdad AD iacpdad et NOM B 11 HUM 1 texteout txt Text Li Taop sommaire plur
5. 2 3212 36 717310 0 html link description La France facilitera la d livrance de visas de longue dur e entr es multiples pour les entrepreneurs cadres chercheurs professeurs et artistes africains a annonc samedi Bamako le pr sident fran ais lt description link pubDate pubDate 5at 03 Dec 2005 18 41 08 GMT pubDate quid isPermaLink false http www lemonde fr web article 0 1 mz2 3212 36 717310 0 html quid item PeT title L affaire des vols secrets de la CIA en Europe s tend Le po a one title link http www Te amm 2070 html link description 5elon amp x34 Der Spiegel amp 34 plus de 430 vols secrets transportant des prisonniers soupconn s de terrorisme sont pass s par l amp z39 Allemagne o Condoleezza Rice est attendue lundi description pub Tte Dec 2005 15 03 41 GMT quid isPermaLink false ttp 0 02 3214 36 717303 0 html item Uia 3214 36 pubDate wuw lemonde fr fwelb j article f0 1 quid item title Fiscalit comment le gouvernement m ne une r forme en Er E pluriTAL ntpi tal univ paris3 fr plurital Le programme d tiquetage 1 Application avec freetagger Mode d emploi cf README tree tagger options lt parametres gt lt textein gt lt texteout gt Le premier argument est le fichier param tre ic1 french par dans le r pertoire lib Le deuxi me argument est le texte tiqueter avec un mot par ligne Le
6. 3208 1 0 0 Les fils au format XML sont stockes dans un 0 3 3210 1 0 0 19 00 01 em 0 2 3210 1 0 0 5 0 2 3214 1 0 0 e 0 2 3214 1 0 0 n 2 3224 1 0 0 ez O 2 3224 1 0 0 n 2 32286 1 0 0 F0 2 3226 1 0 0 0 2 3228 1 0 0 D 2 3228 1 0 0 0 2 3234 1 0 0 D 2 3234 1 0 0 0 2 3236 1 0 0 D 2 3236 1 0 0 0 2 3238 1 0 0 e 0 2 3238 1 0 0 a traiter n 2 3242 1 0 0 e 0 2 3242 1 0 0 Z 0 2 3244 1 0 0 m 0 2 3244 1 0 0 0 2 3246 1 0 0 ez O 2 3246 1 0 0 0 5 5260 1 0 0 ww a m dossier horodate du type 2006 Mois Jour Heure Go in TT m E E LI Jr ATTENTION seuls les DD m CE rl fils au format XML seront El zz zl t d zs T t fe t E Ji c m Rubrique du fil Balise TITLE Balise DESCRIPTION Le Monde en fil pluriTAL http tal univ paris3 fr plurital uuw w3 org 1999 02 22 rdf syntax nszx annal title Le Monde fr A la Une title inl http f Z www lemonde fr link i aute d Pau moment de la connexions description capvrightz Copyright Le Monde fr copyright Image zurl http medias lemonde fr mmpub img lgo lemondefr rss gif url title Le Monde fr tita link http www lemonde fr Image pubDate Fri 02 Dec 2005 23 00 00 GMT item title M Chirac veut favoriser l entr e en France des Africains hautement qualifies ttle link http www lemonde fr web article 0 1 0m
7. Projet encadr pl uriTAL Programmation et projet encadr Boite outils S rie 2 tiquetage Boite outils s rie 2 Projet encadr Rag pluriTAL e h ttp Ji tal univ paris3 fr plur ital Bibliographie Annotation automatique de corpus panorama et tat de la technique Jean V ronis Ing nierie des langues ch 4 J M Pierrel diteur Lavoisier Herm s 2000 mail SF pour r cup rer ce texte au format PDF Etiquetage de textes Boite outils s rie 2 Projet encadr p pl uriTAL Objectif ktiqueter un texte Automatisation sommaire Bo te outils s rie 2 Lg pluriTAL Etiquetage morpho syntaxique tant donn un ensemble de couples graphie CMS et un texte choisir pour chacun des mots graphies du texte parmi ses CMS associ es celle s qui correspond ent au contexte suppose que celle s qui correspond ent au contexte ait un sens par exemple confirm e s par un expert humain Plusieurs approches possibles bases de r gles Le tagger de Brill Probabiliste Chaine de Markov cach es HMM Bo te outils s rie 2 cssc LUS DluriTAL mm http tal univ paris3 fr plurital Principe g n ral Soit la phrase Jean a mang des pommes Etape 1 segmentation 08 Jean U2 a mang U3 des U4 pommes US point Etape 2 tiquetage morpho syntaxique
8. ail personnel s rie 2 tiquetage des contenus des fils Objectif Vous devez construire un programme qui parcourt une arborescence de fichiers et applique un traitement d tiquetage sur chacun des fichiers rencontr s au moment du parcours En sortie le programme doit construire un fichier structur XML contenant une trace du traitement r alis sur les fichiers Application Ressources fournies Une arborescence de fils RSS Les 2 transparents suivants montrent allure de l arborescence et le contenu des fils Unsquelette minimal du programme de parcours Traitement tiqueter les contenus textuels des balises DESCRIPTION et TITLE i e votre programme de filtrage construit pr c demment IMPORTANT on conservera aussi le titre de la rubrique du fil balise title sous channel cf pr sentation du corpus Projet encadr y http tal univ paris3 fr plurital Les 1 fils Ebe du journal Le Aonde sur la p riode du Z 11 2006 au 21 12 2006 Ces l fils ont t archives tous les jours 19h sur cette p riode Fils format texte Lexicos 212 3260 1 00 52 Pr sidentielle 4007 0 5 7 0 54 8525353 0 xml 0 5 0 54d 8235353 0 txt SOURCE http www lemonde fr web rss 0 48 0 1 0 0 html pluriTAL http tal univ paris3 fr plurital L arbre des fils Le Monde 1 mois dans les fils Dossiers A Mom Coco 0 2 3208 1 0 n zl Dec fx O 2
9. iTAL ce h ttp Ji tal univ paris3 fr plur ital Le programme d tiquetage 4 Raffinement un script perl transforme la sortie du freetagger au format XML EM Usage perl treetagger zxmil sortietreetagger txt gt Cr ation d un fichier en sortie qui a pour nom sortietreetagger txt xmli sommaire pluriTAL http tal univ paris3 fr plurital 9 Fichier Edition EE Favoris C Documents and SettingsiFleury 5 Y xdacument lt article element data type type gt NOM data data type lemma BAGDAD data type string BAGDAD element element data type type PUN data data type lemma data data type string data element element data type type ABR data type lemma AFP data type string AFP element element data type t pe zABR data data type lemma data data type string data element element data tvpe 2 type ABR data data tvpe lemma data data type string data element element data type type ABR data Adata ture loam mi un natnr cs E Termin sommaire pluriTAL http tal univ paris3 fr plurital Votre travail partie 1 A partir du programme parcours arborescence fichiers pl vu dans B O s rie 1 Int grez le traitement d tiquetage avec treetagger sur les contenus des balises DESCRIPTION de tous les fichiers de votre arborescence de fils Solution 1 traitement d tiquetage
10. lises TITLE et DESCRIPTION de tous les fichiers de votre arborescence de fils Etiqueter ce fichier avec Cordial pour obtenir au minimum FORME CATEGORIE LEMME cf mode d emploi par exemple celui ci Essayez de construire en sortie via un script Perl un fichier structur regroupant et reformatant l ensemble des traitements d tiquetage produit par Cordial on pourra s inspirer de celui construit dans la partie 1 pluriTAL CON http tal univ paris3 fr plurital Votre travail raffinements Construire une feuille de style XSLT pour afficher les r sultats produits au format HTML On pourra par exemple reformater l arborescence XML disponible dans les fichiers de sortie pour reconstruire les structures phrastiques initiales dans lesquelles les tiquettes sont d sormais int gr es Exemple de sortie construite partir du r sultat produit dans la partie 1 Sortie XML avec feuille XSLT reformatage en phrase concat nant l ensemble des mots de mani re suivante forme lemme cat lien vers feuille de style XSL On pourra aussi mettre en avant certaines parties du discours Exemple de sortie construite partir du r sultat produit dans la partie 1 Sortie XML avec feuille de style XSLT la cat gorie NOM est mise en rouge lien vers feuille XSLT Vous nous envoyez par mail une archive contenant une page web avec votre nom et le contenu de vos programmes et leurs sorties
Download Pdf Manuals
Related Search
Related Contents
Opale CAP Dosata Mode d`emploi - Houillères de Cruéjouls Integrated GPS Module for Workabout Pro Targus Onyx 72 Capacity CD/DVD Case N30 User Manual - ProSat Technology De l`analyse des besoins à une solution documentaire dans HOBO® U24 Leitfähigkeits PA-02 (Pasivo) Librito.cdr Copyright © All rights reserved.
Failed to retrieve file