Home

cdc - LIPN

image

Contents

1. adapte nos besoins et nos exigences On va pr sente de ce partie le diagramme de use cas y Langage de programmation Java et PHP Le langage Java est un langage de programmation orient objet open source multiplateforme vy Outils de d veloppement NetBeans est un environnement de d veloppement int gr facile utiliser plac en open source et 1l est disponible sur toutes les plates formes Linux Windows V R partition des T ches Nous d taillons ci apr s les diff rentes t ches de l quipe de d veloppement Nous rendrons compte au client r guli rement du travail effectu minimalement une fois tous les quinze jours Les t ches sont divis es sur les membres du groupe de travail selon les comp tences de chacun dans les diff rents domaines 1 R paration des t ches D Semang Senanes Semaned Semaine Semane Senaneg Semanel Senarelt Seane l2 Semrel Sem Nm wos aos os HG o 25 OU oaa MG a JU Etude de existant 100S 22015 0 R dadionducaherdechage 230115 30H ns 9 O R cup ration des Fux RSS et Ati 080245 27024 pu o Conception MNS OM T T O TestR cup ralon des FR 2700 9 TralemenlLinguisique 02 9 0 Stockage el Gestion des dom es 0802 0 Test Stockage et Gestion des 27 02 0 mt graiondes modues 00N O Testin graion des modules 11024 o Documentaton etD ploiement 170245 YOY f 01115 02 5 02 5 O TestTralementLinguistque 27021 0
2. s pour chaque nouvel Item du flux XML RSS et de les sauvegarder sur disque L algorithme sera repris du programme RSSCorpusBuilder 4 Zonage et conversion des articles HTML en format texte La quatri me t che consiste convertir les pages HTML r cup r es en format texte en utilisant la technique BoilerPlate Removal La technique de BoilerPlate Removal Une page HTML contient plusieurs informations h t rog nes styles vari s bandeaux publicit s etc Dans notre projet l objectif est de ne r cup rer que le contenu principal correspondant la partie textuelle de l article Il sera galement souhaitable de distinguer entre les diff rents types de contenu comme le corps de l article les commentaires des utilisateurs publicit s etc L objectif est donc d extraire seulement le contenu de l article et de le convertir en format texte et d exclure tous les autres composants de la page HTML Header Footer Side Bar comme le montre le sch ma suivant BoilerPlate removal Fichier texte Page HTML Figure 2 Sch ma explique la technique de BoilerPlate Removal Il existe plusieurs librairies gratuites Open Source disponible sur internet permettant l extraction du contenu principal d une page HTML 1 BoilerPipe BoilerPipe est une biblioth que Java open source crit par Christian Kohlsch tter sous la licence Apache 2 0 Elle fournit des algorithmes pour d
3. tecter et supprimer le surplus autour de l article principal d une page HTML II a t crit pour analyser les pages Web dans le but d extraire le contenu principal 2 JusText gt JusText est une API Python gratuit permettant de supprimer les liens de navigation en t tes et pieds de page de pages HTML II est con u pour pr server l article contenant des phrases compl tes et il est donc bien adapt pour la cr ation des Corpus linguistiques gt Il existe aussi des algorithmes de JusText en c permettant la r cup ration des contenus des pages HTML 3 ContentExtraction ContentExtraction comprend des algorithmes crit en c permettant la suppression des liens de navigation en t tes et pieds de page de pages HTML et la r cup ration du contenu de la page en format texte 4 NCleaner C est un package sous linux permettant la d tection des BoilerPlate et l extraction du contenu d une page web Choix de l outil Selon un article r cent More Effective Boilerplate Removal the GoldMiner Algorithm r f rence sur la comparaison des diff rents outils et quelques tests initiaux sur les diff rents outils Jus Text semble tre la plus efficace dans cette t che B Module Traitement Linguistique Les fichiers texte seront ensuite trait s linguistiquement dans ce deuxi me module Les traitements se feront partir du texte brut et partir du texte analys morpho syntaxiquement g
4. 02 15 02 15 03 15 ms B Figure 5 Diagramme de Gant R partition de t ches 2 Gestions des ressources a m LS lt S m MA proyec gt No Je H EIBZIOUI 9 INAGHNANE Etude de l exista R daction du ca Traitement Ling Documentation TestR cup rati Test Stockage e Testint gration 9 BERRICHE Etude de l exista R daction du ca Stockage et Ge Documentation e TestR cup rat TestTraitement Testint gration 9 BOUT Etude de l exista R daction du ca Stockage et Ge Documentation TestR cup rati TestTraitement Testint gi D veloppeur D veloppeur Web D veloppeur Web R le par d faut Chef de projet m 9 NOUIOUA Etude de l enista R daction du ca a Documentation a Test Stockage e a Testint gralon rO ae Etude de l enista R daction du ca R cup ration d Documentation Testint gralon TestTraiement D veloppeur Etude de l eista R dacion duca Traitement Ling Documentation a TestR cup rati a Test Stockage e a Testint gralion Figure 6 o e S don project P Nom R le par d faut 3 TEST MENT A 2015 Semaine 4 Semaine 5 Semaine 6 Semaine 7 Se
5. EE ET UNIVERSIT TEOR R cup ration et traitements linguistiques d articles de D Institut Galil e Presse partir de flux RSS Premier Ann e Master Informatique Liste des r dacteurs du cahier des charges Saber NOUIOUA Mohamed wajdi BOUTITI Achref BERRICHE Fatma MARZOUGUI R Kia INAGHNANE Salwa El BZIOUI Cahier des charges 30 01 2015 TABLE DES MATIERES OO a 4 I Obj ec fs d DOI ed nn de nano one 5 LL Modules H V lIODDER S een none 6 A Module R cup ration des Flux RSS des Articles Li s 0000nssoseesoeeese 7 1 R cup ration des fichiers XML RSS partir d une liste URL 8 2 Extraction des M ta Donn es de fichier XML et stockage dans ONE a 9 3 R cup ration des articles li s et sauvegarde sur disque 0ss0sssessee0 9 4 Zonage et conversion des articles HTML en format texte 9 B Module Traitement Linguistique 11 C Module Stockage et Gestion des Donn es ssssesesssesssessesseessesressereseeee 13 M R CENTES ne ae one an mo 15 IV Environnement de d veloppement ssissssanssnemenrnntenee 15 V R partition des taches nn eE e EEE EEEE EA 16 CONCIUSIOM sereen erek ae EEE E OEE EEE 18 TABLE DES FIGURES Fisurel Sch ma Global du Projet ssessssssasnsaunsenenanenennse 7 Figure 2 Sch ma explique la technique de BoilerPlate Removal 10 Figure 3 Index
6. HIER XML RSS 3 SAUVEGARDE DES METADONNEES DANS LA BASE DE DONNEES LUCENE gt LUCENE gt RSSCORPUSBUI LDER gt FICHIER XML RSS gt METADONNEES EN LUCENE 4 SAUVEGARDE DE gt RSSCORPUSBUI gt FICHIER XML RSS gt FICHIER HTML L ARTICLE LIE EN LDER SUR DISQUE FORMAT HTML 5 ZONAGEET gt JUSTEXT gt PAGE HTML gt FICHIER TEXTE CONVERSION DES BOERI NE NCLEANER ARTICLES HTML CONTENTEXTRA CTION EN FORMAT TEXTE 1 R cup ration des fichiers XML RSS partir d une liste URL ES La premi re t che consiste r cup rer les flux XML RSS partir d une liste d URL quotidiens journaux fran ais donn e en param tre du programme Cette t che sera programm e r guli rement deux fois par jours pour r cup rer le maximum des informations Pour ce faire nous reprendrons le programme RSSCorpusBuilder du client que nous r crirons en Java On pourra utiliser pour le lancement p riodique du programme une t che CRON sous Linux 2 Extraction des M ta Donn es de fichier XML et stockage dans LUCENE La deuxi me t che consiste extraire les M tadonn es title pubDate description de chaque nouvel Item et les sauvegarder dans la base de donn es LUCENE L algorithme sera repris du programme RSSCorpusBuilder 3 R cup ration des articles li s et sauvegarde sur disque La troisi me t che consiste r cup rer les articles li
7. Les outils disponibles Reconna tre la cat gorie morphosyntaxique d un mot dans un contexte est une t che non triviale du traitement automatique de la langue crite En effet rendre une machine capable d identifier la cat gorie d un mot exige de mettre en uvre des m thodes sophistiqu es en particulier pour les mots ambigus c est dire susceptibles d appartenir plusieurs cat gories diff rentes 1 TreeTagger Est un outil permettant l tiquetage morphosyntaxique et la lemmatisation Il a t d velopp par Helmut Schmid 1994 dans le cadre de projet TC Il a t utilis avec succ s pour de nombreuses langues anglais fran ais allemand italien n erlandais espagnol bulgare russe grec portugais chinois swahili Il est adaptable sur toutes les langues en utilisant un lexique et un corpus d apprentissage manuellement tiquet s Pour la langue fran aise Stein 2007 a entrain cet analyseur sur un corpus d apprentissage contenant 2 685 146 mots et l a valu en utilisant un corpus contenant 500 000 mots Il rapporte un taux de pr cision de 92 7 pour l tiquetage et 97 8 pour la lemmatisation TreeTagger peut en effet pr senter la lemmatisation des mots en plus des tiquettes 2 MaltParser Est un syst me pour l apprentissage d analyseurs en d pendances syntaxiques A partir d un corpus annot le syst me apprend projeter des traits syntaxiques et mor
8. a C Python il fournit une impl mentation efficace des bag of Word et skip gram pour le calcul des repr sentations vectorielles des mots Ces repr sentations peuvent ensuite tre utilis es dans de nombreuses applications de traitement du langage naturel L outil word2vec prend comme entr e un corpus de texte et produit en sortie les vecteurs de mots Le fichier de vecteur de mot r sultant peut tre utilis dans de nombreuses applications de traitement du langage naturel et d apprentissage 3 SDMC C est un outil d velopp par Thierry CHARNOIS au LIPN qui permet de calculer des s quences r p t es sur gros corpus en combinant les niveaux d analyse Cet outil est parfaitement adapt au cas de l analyse statistique sur corpus annot morpho syntaxiquement Choix de l outil L outil qui sera utilis pour le calcul statistique sur texte brut n a pas encore t choisi Une phase de test et une comparaison des r sultats sera faite gt Analyse morphosyntaxique Il s agit de l tape de projection d informations morphosyntaxiques sur les mots L analyse morphosyntaxique est l ensemble des techniques qui concourent passer d un texte brut exempt d informations linguistiques une s quence des mots tiquet s par des informations linguistiques Par exemple partir de la phrase brute il est quatre heures nous obtiendrons il il PROPERS est tre AUX quatre quatre DETNUM heures heure NC
9. an est un outil tr s souple qui permet des d veloppeurs d ajouter tr s facilement leurs applications des fonctions d indexation et de recherches 3 Sphinx Est un logiciel libre permettant d indexer diff rents types de donn es Crit res de choix du LUCENE V Lucene est une des librairies de r cup ration de donn es les plus compl tes et riches en fonctionnalit s Haute performance indexation Puissants pr cis et efficace Algorithmes de recherche De nombreux types de requ tes puissantes Recherche de proximit ss OS Recherche par les M ta Donn es title datePub description v Choix de client b Interface web pour l interrogation des donn es Il s agit de d velopper ou utiliser des interfaces web d j disponibles pour l interrogation des index et l affichage des r sultats des requ tes Envoirequ te de recherche Traitement de Envoi de r ponse la requ te lt n Based Figure 4 Interface Web Les outils disponibles 1 Luke Lucene Index Toolbox Est un outil de diagnostic et de d veloppement pratique qui acc de aux index de LUCENE d j existants et permet de montrer et modifier leur contenu de plusieurs fa ons 2 LIMO Lucene Index Monitor Donne des informations de bases sur les index utilis s par le moteur de recherche LUCENE 1 Solr Est une plateforme logicielle de recherche s appuyant sur le moteur de recherche LUCENE 2 Elast
10. ation de donn es neeeeeeesseressersserersssrrseres 14 Figure 4 Interface Webisnannsnsetnniamnnaatebatenaians 15 Figure 5 Diagramme de Gant R partition de t ches 17 Figure 6 Diagramme de Gant Gestion des ressources humaines 18 INTRODUCTION Le cahier de charges est un pr alable tout projet informatique Pour r ussir tout projet doit suivre une logique dans laquelle le cahier des charges tient un r le particulier et dont on doit bien maitriser ces aspects Etude de l existant analyse des besoins sp cifications des caract ristiques fonctionnelles cadre juridique C est partir de ce document nous pourrons commencer notre projet et qu on a eu le plaisir de pr parer sur le th me R cup ration et traitements linguistiques d articles de presse partir de flux RSS Ce document peut ainsi tre subdivis en plusieurs parties la premi re partie est une pr sentation de groupe la deuxi me partie sera consacr l objectif du projet car il est imp ratif que les objets soient bien tablis avant de commencer notre projet la troisi me partie sera d di e des modules d velopper ensuite la quatri me partie d veloppement du projet est la partie la plus importante car elle d finit les langages de programmation qu on va utiliser pour un projet r ussi enfin la r partition des t ches correspond aux dates pour r aliser les activit s identifier les jalons et atteindre les obje
11. ctifs du projet Au cours de ce cahier des charges nous allons pr senter un sch ma globale du projet qui explique les modules d velopper et chaque partie sera annot e la d marche que nous aurons suivie et les diff rents choix effectu s seront expliqu s jusqu au r sultat final de notre travail I OBJECTIF DU PROJET Un flux RSS est un fichier XML r pondant une norme contenant une suite d informations provenant de sites d actualit s ou de blogs Les fichiers RSS sont g n r s automatiquement de mani re p riodique en fonction des derni res actualit s parues sur le site Chaque fichier RSS contient pour chaque information un certain nombre de champs pr d termin s et notamment titre de l information courte description lien vers la page contenant l information compl te sous forme le plus souvent d un article de journal Les flux RSS sont majoritairement utilis s par les journaux en ligne et c est dans ce cadre que se place notre projet L objectif principal du projet est donc la mise en place d un crawler de flux RSS pour les quotidiens nationaux et r gionaux fran ais Plus pr cis ment le projet comprend trois t ches principales v R cup ration des flux RSS partir d une liste d URL fournis par le client et qui pourront tre mise jour par lui v Traitements linguistiques du corpus ainsi r cup r v Stockage et gestion du corpus dans une base de donn es interrog
12. eable 1 Trois normes sont actuellement utilis es RSS 0 91 sortie en 1999 RSS 0 90 et 1 0 sorti en 2000 RSS 2 0 sorti en 2002 I MODULES A DEVELOPPER R cup ration r guli re des fichiers XML RSS partir d une liste URLs Base de donn es LUCENE Extraction des M ta Donn es de fichier XML format HTML R cup ration des articles li s en Zonage et conversion des Articles li s en format HTML articles HTML en format texte TXT aO dd Calculs statistiques fr quence n grams Analyse morpho syntaxique TreeTagger Interrogation du corpus via interface web Index Utilisateur Figurel Sch ma Global du Projet Notre projet est d compos en trois principaux modules illustr s comme suit A Module R cup ration des Flux RSS des Articles Li s L objectif de ce module est la r cup ration du flux XML RSS partir d une liste d URL donn e en entr e l extraction des M tadonn es pour chaque l ment d information ainsi que la r cup ration de l article li en format HTML et sa conversion en format texte Ci dessous sont d taill es les diff rentes t ches li es ce module PROCESSUS OUTIL UTILISE ENTREE DU PROCESSUS SORTIE 1 RECUPERATION DES FICHIERS XML RSS gt RSSCORPUSBUIL DER gt LISTE D URL gt METADONNEES gt ARTICLE LIE EN FORMAT HTML 2 EXTRACTION DES METADONNFES A PARTIR DU FIC
13. icSearch Est un moteur de recherche libre open source bas sur LUCENE HI Recette et Livrable Pour chaque module une s rie de tests recette seront mis en place en liaison avec le client permettant d assurer une qualit de r sultats minimum et une efficacit des programmes Ces tests seront mis en place dans la premi re phase du projet en liaison avec le client D autre part le programme r pondra aux exigences du client en ce qui concerne l installation sur une machine serveur Linux Le programme sera livr sous forme d un programme ex cutable et d une APT permettant de lancer le traitement dans son entier ou seulement certains modules Ce livrable principal sera accompagn des deux l ments suivants gt Documentation Le produit sera livr avec un manuel d utilisation un manuel d installation et de d ploiement ainsi qu une fiche technique d taillant toutes les fonctionnalit s du produit et les diff rents appels du programme possibles gt Rapport de fin de projet A la fin du projet un rapport complet sera livr d taillant les programmes d velopp s les r sultats obtenus pour chaque module et les limites ventuelles IV Environnement de d veloppement v Plateforme Linux C est un choix du client y Mod lisation UML Vu l importance cruciale de la mod lisation dans le cycle de vie de n importe quelle application il fallait utiliser un langage de mod lisation qui s
14. maine 8 Semaine 9 Semaine 10 Semaine 11 Semaine 12 Semaine 13 Semaine 1 100145 2041715 020245 00025 160245 2302115 020315 nl E 23 03115 300318 r z m a NS m aa E z m n e m e m a 2015 3o Semed SemieS Sommes Senare Sewanet Senahe9 SenahetO Genaneli Semi Semi Sem 1901M 2801 15 020215 QR02 5 180245 2302 16 0203 15 D03 16 1603 18 RNS aooaa Diagramme de Gant Gestion des ressources humaines Conclusion La r alisation de ce projet a t une bonne occasion pour nous d une part d acqu rir de nouvelles connaissances et d autre part d assimiler les diff rents outils acquis durant ce semestre en mati re de d veloppement Nous avons eu l occasion d am liorer nos connaissances en conception d appliquer l UML et langage JAVA pour concevoir une grande partie de notre travail En outre de bien comprendre et mettre en uvre le d roulement d un cycle de vie d un logiciel de gestion L objectif vis travers ce travail est de concevoir et d impl menter un syst me qui permet de r cup rer un maximum d informations partir d un site web Les diff rentes t ches fix es ont t r alis es partir de plusieurs hypoth ses Nous avons mod lis les op rations importantes en respectant les contraintes fix es Nous avons trouv cette exp rience tr s enrichissante au niveau personnel que professionnel Nous esp rons avoir r pondu au mieux aux a
15. phosyntaxiques sur des d cisions d analyse shift reduce cr ation d arcs de d pendances C est un syst me open source implant en Java et disponible Purl http w3 msi vxu se nivre research MaltParser html 3 Stanford Pos tagger A pour but d tiqueter chaque mot en fonction de son r le syntaxique par exemple nom adjectif adverbe etc Choix de l outil On n a pas encore choisi un outil pour notre travail phase de test et comparaison des r sultats effectuer en liaison avec le client et en tenant compte des imp ratifs techniques notamment l interfa age avec les autres modules C Module Stockage et Gestion des Donn es L objectif de ce module et l indexation des fichiers texte r cup r s auparavant par la technique Bo lerPlate Removal en utilisant l outil LUCENE pour indexer et faire des recherches sur les fichiers textes Ainsi que le d veloppement d une interface web pour l interrogation des donn es en question gt x Indexation a Indexation des donn es Fichier Textes et M ta Donn es Indexation Enregistrement des fichiers W iez Utilisateur desindex Base de dotes Figure 3 Indexation de donn es Les outils disponibles 1 Lucene Lucene est une biblioth que open source crite en Java qui permet d indexer et de chercher des fichiers textes Il est utilis dans certains moteurs de recherche 2 Xapian Xapi
16. t Calculs statistiques partir du texte brut et du texte annot morpho syntaxiquement Il s agit de calculer la fr quence des n gram sur la totalit du corpus On appelle n gram une s quence de mots ventuellement discontinue Par exemple dans la phrase il est quatre heures du soir on peut d finir les 2 grams suivants en utilisant une fen tre de 3 mots il est il quatre il heures est quatre est heures est du etc L int r t de ce calcul est que la r p tition d un n gram sur corpus est souvent le signe d un usage linguistique que le client cherche rep rer Ce calcul sera fait sur le texte brut mais aussi avec un texte analys morpho syntaxiquement c est dire pourvu d informations linguistiques compl mentaires partie du discours lemme Par exemple il il PROPERS est tre AUX quatre quatre DETNUM heures heure NC Dans ce cas le calcul de fr quence prendra en compte la combinaison des informations Les outils disponibles 1 SemanticVectors C est une biblioth que java open source compatible avec LUCENE elle permet de cr e des mod les s mantiques partir du texte libre en langage naturel Ces mod les sont con us pour repr senter des mots et des documents en termes de concepts Ils peuvent tre utilis s pour de nombreuses t ches telles que la g n ration automatique de th saurus la repr sentation des connaissances 2 word2vec C est un outil d velopp s en plusieurs langages Jav
17. ttentes du projet travers nos travaux et nos conclusions

Download Pdf Manuals

image

Related Search

Related Contents

CR-5P User Manual  Installation Manual - Silver Sport Transmissions  Craftsman 875.19981 User's Manual  A‑dec 551 Assistenten-Instrumente – Bedienungsanleitung  SORBATE DE POTASSIUM (E202) EST UN  NOVUS® Valves and Kits  Ampli-préampli Intégré  ABEL : Summary of the Official Journal User manual  Gefen EXT-DP-441 video switch    

Copyright © All rights reserved.
Failed to retrieve file