Home

Evaluation of SweSum for French texts

image

Contents

1. Ce d coupage peut se r v ler tre g nant quand il s agit d une annonce de th se par exemple o 1l manque les champs et leurs donn es essentielles Titre Candidat Lieu Date Parfois le logiciel indique de fausses informations comme une contraction de seulement 18 pour un texte source compos de 124 mots Le r sum obtenu appara t alors superficiel car absolument pas pertinent du point de vue des statistiques En effet pour un texte source contenant 124 mots le logiciel doit tre m me de pouvoir r aliser une contraction de 30 contraction demand e par l utilisateur du logiciel au d part Par ailleurs des fautes d orthographe ou de grammaire dans le texte source ex l utilit des cellules embryonnaires et qu on peut les faire devnir ce qu on veut nuisent au bon rep rage des mots clefs et quelque peu au contexte Quand il s agit d un forum de discussion scientifique la coh rence d un r sum devient capitale Dans certains textes le logiciel tronque des segments de phrases clef La lecture du r sum n a plus de fil conducteur de logique dans l argumentation et on ne peut plus retrouver la mani re de penser de l auteur Parfois au contraire le r sum est quasiment une copie conforme du texte source Par cons quent la logique de pens e et la coh rence entre les phrases est videmment excellente Les acronymes ou les sigles ne sont pas reconnus par le logiciel surtout
2. Swesum construira son r sum en reprenant deux phrases contenant le mot genereux m me s il ne l a pas identifi comme un mot clef Nous allons tenter de savoir si Swesum d sirait bien reprendre le mot genereux en entrant le texte suivant 19 Etre genereux etait l apanage du corbeau Alors il faudrait se taire C est un animal genereux Il sait soigner donner et garder l amitie des gens Le corbeau est altruiste Oui il est genereux Fin Swesum Etre genereux etait l apanage du corbeau Alors il faudrait se taire C est un animal genereux Resume Il sait soigner donner et garder l amitie des gens Le corbeau est altruiste L le comportement de Swesum est incoh rent car il ne consid re v ritablement pas le mot genereux comme un mot clef mais bien comme un simple mot tout comme Resume C est que les deux logiciels ne savent pas g rer les accents Les fautes d orthographe Commettons volontairement une faute d orthographe sur le mot g n reux que nous transformerons en g n reu D crivons pr sent les comportements Swesum Etre g n reu tait l apanage du corbeau Alors il faudrait se taire C est un animal g n reu Resume Il sait soigner donner et garder l amiti des gens Le corbeau est altruiste Les comportements des deux logiciels sont semblables ils traitent le
3. Comme Swesum Resume garde les chevrons ou s ries de chevrons symbolisant la redite ou d ventuelles r ponses aux r ponses d anciens mails ce qui am liore la lecture du mail De la m me mani re que Swesum le logiciel Resume nous donne des r sum s peu pertinents en ce qui concernent des annonces de th ses colloques ou r unions d informations Ainsi il manque des informations essentielles comme le lieu ou la date car celles ci n apparaissent qu une fois et tr s fr quemment hors phrases Les Fax Tout comme Swesum le logiciel Resume ne sait pas r sumer des textes sources peu lisibles De ce fait le r sum produit ne redonne pas un contexte aussi pr cis qu il devrait et demeure tr s incoh rent au niveau syntaxique En effet le logiciel Resume comptabilise seulement les mots qu il reconna t comme mot cl s D une mani re g n rale le logiciel a Swesum ne respecte pas le taux de contraction pour le r sum 30 contrairement au logiciel Resume Si Resume sait g rer plus de coh rence entre les phrases en d tectant d ventuels connecteurs logiques dans les textes sources en revanche Swesum dispose d un meilleur module de d coupage de textes que Resume Par ailleurs nous pouvons dire que les deux logiciels ont un temps d ex cution du programme quasiment identique Toutefois Swesum et Resume posent encore des p
4. 12 ANNEXE B MODE D EMPLOI Du Logiciel de R sum Automatique de Aude ACOULON 27 septembre 2001 par Aude ACOULON sous la direction de G CHOLLET P V AILLANT Utilisation du Logiciel Pour utiliser le logiciel il faut se placer dans un r pertoire contenant l executable resume les dictionnaires en a txt b txt C txt le texte source en fichier txt Ensuite derri re le prompt il suffit de taper resume pour se rappeler la syntaxe de la commande lt geebee acoulon 7 gt resume SYNTAXE resume NomFichierSource NomFicherDest NomFichierConnecteur TauxContraction 1 99 defaut 30 Il faut donc entrer la suite et suivi d un espace resume SOUrce txt resume txt connecteurs txt 40 ou rien comme le montre cet encadr lt geebee acoulon 8 gt resume texte41 txt texte41R txt connecteurs txt 40 O Le taux de contraction par d faut d un r sum est de 30 Il est indiqu entre crochets dans la syntaxe car il est optionnel si l utilisateur l omet et qu il appuie sur la touche espace alors le logiciel interpr te la contraction donn e par d faut 30 lt geebee acoulon 8 gt resume texte41 txt texte41R txt connecteurs txt NomFichierSource texte41 txt NomFichierDest texte41R txt NomFichierConnecteurs connecteurs txt TauxContraction 30 Apr s avoir rappel l utilisateur les donn es e
5. Aucune Autres Fonctions utilisees 8 Aucune Cette fonction va selectionner les phrases aux scores les plus forts et remettre a jour le tableau de scores des phrases IO void SelectionPhrases SCORE NINO Reecriture JE ft Entree ft Phrase ayant un score fort Type tabElement ft Le tableau de score de phrases Type SCORE Le fichier destination Sortie Aucune Autres Fonctions utilisees Aucune ft Cette fonction va recopier les phrases aux scores selectionnees en conservant l aspect initial du texte source IO void Reecriture tabElement SCORE FILE IO RechercheConnecteur ARA A RAN Entree ft Le tableau de score de phrases Type SCORE Sortie Aucune Autres Fonctions utilisees Aucune Cette fonction va rechercher s il existe un connecteur dans le texte source Puis elle va mettre a jour le score de la phrase avec la valeur du connecteur logique NO int RechercheConnecteur const char mot ANNEXE D COMPARAISON DES LOGICIELS DE RESUME AUTOMATIQUE DE TEXTES SWESUM gt amp RESUME de Hercules DALIANIS de Aude ACOULON et Martin HASSEL Rapport d activit du 26 septembre 2001 par Aude ACOULON sous la direction de G CHOLLET P V AILLANT SOMMAIRE Evaluation des Cat gories critica pitt di diesen dan
6. Suite de l adaptation de mon automatique su dois r sum automatique su dois logiciel sous Unix em laboration des premiers D but du code de la fonction 3 J Am lioration de l interface 8 algorithmes pour la fonction 3 Modification du h R daction d un rapport 8 criture du h Recherche dans le dictionnaire d activit sur l Evaluation du E D but du code de la fonction 1 optimiser fortement si le temps le logiciel de r sum automatique su dois Stagiaire ACOULON Aude Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET 13 12 2001 A D partement TS ATTE Signal mages JE NS T Stage Traitement des messages lectroniques 14 Suite valuation du logiciel de Modification du code de la Logiciel de r sum r sum automatique su dois fonction 3 automatique de textes Participation la r union des Modification du h fonctionne sous Unix amp partenaires de MAJORDOME chez Suite valuation du logiciel de Windows EDF r sum automatique su dois R daction d un mode laboration de l algorithme de la Fonction 3 de mon logiciel d emploi pour mon logiciel fonction 1 fonctionne R daction du Rapport de Modification du h Logiciel de base fonctionne sous Stage en vue d expliquer 2 Modification du code de la Windows l analyse informatique de m
7. Tkibd tvS b Il G L Y 1 SE CT S S LT D autre part le logiciel ne prend pas en compte les champs essentiels d un fax et les donn es qui s y rapportent date heure page exp diteur destinataire objet Ainsi si un fax nous explique la nature m me de l objet l int rieur du corps du message et que ce dernier est illisible alors le r sum obtenu est incoh rent et incompr hensible puisque nous ne pouvons conna tre pas la nature du contexte Peut tre le logiciel pourrait uniquement consid rer ce qu il y a crit apr s l intitul objet Cependant mais cela reste rare le logiciel produit un assez bon r sum reprenant les phrases clef qui pourtant comportaient des l ments illisibles au d part Le r sultat en terme de coh rence et d intelligibilit n est pas parfait mais appara t honorable si l on tient compte de l illisibilit de d part Les dates sous forme de jj mm aa ne sont pas interpr tables pour le logiciel qui ne les reconna t pas comme tant des mots ou des mots cl s Dans la plupart des cas le taux de contraction est faux car le nombre de mots du texte source est faux le logiciel ne comptant que les mots qu il reconna t Par exemple si un r sum obtenu est incoh rent ou incompr hensible et si le logiciel indique une contraction de 100 c est parce qu il aura su recopi les seuls mots qu il avait reconnus Donc dans tous les cas de figure par manque de lisibilit
8. Axes de recherche Traitement statistique du signal Traitements multicapteurs Traitement de la parole et du son Traitement du signal pour les communications Cartographie satellite radar ou optique Imagerie c r brale Perception et traitement de la couleur Traitement des objets 3D Interaction homme machine Caract risation optique des mat riaux de stockage Les missions du d partement e Le d partement TSI a pour missions l enseignement initial et continu la recherche acad mique et contractuelle et la formation par la recherche dans les domaines du traitement du signal et des images et de l application du traitement du signal et des images dans divers contextes de la soci t de l information dont les t l communications e La recherche m thodologique et fondamentale en relation troite avec les organismes nationaux et internationaux de coordination de la recherche et en particulier le CNRS elle permet au d partement de contribuer l innovation par la d couverte de concepts nouveaux La recherche appliqu e souvent men e en collaboration avec des partenaires industriels fran ais ou trangers elle garantit un contact permanent avec les technologies mergentes ainsi qu avec les nouveaux usages e Le d partement TSI participe au rayonnement de l cole en la repr sentant dans son domaine d activit aupr s des diff rentes instances et des organismes nationaux ou internationaux CNRS IEEE RNRT etc et en par
9. Microsoft mails contenant des expressions connecteurs ex En conclusion mails contenant des mots de la m me racine texte vide ayant juste un fichier attach O O 0 0 0 O OC OC OC O Les mots non accentu s ou mal orthographi s n existent pas dans le dictionnaire Donc m me si les mots seront trait s nous ne pourrons pas d terminer si ce sont des mots Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET A D partement TS awis Signal lmages ENS T 27 Stage Traitement des messages lectroniques cl s car ils ne seront pas comptabilis s au niveau de leurs occurrences ventuellement rencontr es dans le texte source A tout moment il est possible pour l utilisateur de rajouter directement dans le dictionnaire qui correspond le mot qu il d sire voir affich comme mot clef volution o mails non accentu s Solution Il s agirait ici d laborer un logiciel qui r accentue les mails source en faisant une recherche dans les dictionnaires o mails contenant des mots mal orthographi s Solution Nous pourrions envisager l laboration d un correcteur d orthographe qui corrige les fautes dans les mails source o mails contenant des phrases caract re oral avec des points de ponctuation de fin de phrase Solution Ici il serait subtile de poser une d marcation logique entre 1 oral et l crit dans des phrases orales
10. b txt c txt etc la premi re astuce est de pouvoir ouvrir le bon dictionnaire gr ce a la premiere lettre du mot recherch Par exemple si le mot recherch est abeille alors une fonction du programme ouvrira directement le dictionnaire a txt Filtre d une lettre accentu e ou majuscule Au d part le logiciel ne pouvait pas traiter les mots commen ant par une lettre accentu e ex cole car il ne trouvait pas de dictionnaire existant correspondant cette lettre accentu e Ce probl me se posait de la m me fa on pour les mots commen ant par une majuscule La solution a t d laborer une fonction qui ne retournait que la lettre minuscule Ainsi si vous d sirez r sumer un mail accentu ou crit enti rement en lettres capitales vous pouvez le faire sans aucune difficult En revanche il n est gu re possible pour l instant de pouvoir r sumer des mails NON accentu s la base Gestion des connecteurs logiques Les connecteurs logiques sont des expressions ou des mots d coupant un texte de fa on logique ex Dans un premier temps Ensuite Par exemple Ainsi Pour conclure Afin de mieux rep rer d ventuelles phrases introduites par ces fameux connecteurs logiques il existe un fichier nomm connecteurs txt Il faut pr ciser que le logiciel ne sait g rer que les mots connecteurs et non les expressions connecteurs car ces derni res sont plus difficilement identifiables compo
11. crites ex je me disais il a perdu ses clefs et c tait vrai Le but difficile atteindre serait de pouvoir donner une approche cognitive un module de d coupage de phrases qui serait destin intervenir sur des phrases crites compr hensibles l oral o mails contenant des sigles Solution Faire une fonction sp ciale pour d terminer les sigles dont le point est diff rent de celui d une fin de phrase En effet il faut que cette fonction v rifie par exemple que le d coupage d une phrase ne va pas s arr ter 4 E au lieu de E N S T ou 4 E D au lieu de 4 E D F o mails contenant des mots d origine trang re ex mail Windows Microsoft Solution Soit trouver un dictionnaire de mots d origine trang re soit ajouter la liste des dictionnaires d j existants les dits mots clefs o mails contenant des mots compos s Solution Faire une fonction sp ciale pour d terminer les mots compos s o mails contenant des expressions connecteurs Solution Optimiser la recherche de mots connecteurs d j cr e o mails contenant des mots de la m me racine Solution Il faudrait laborer une fonction sachant rep rer les mots ayant une racine susceptible de se retrouver dans d autres mots En effet ces mots ont souvent la m me d finition Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET A D partement
12. www cnam fr instituts INTD forum site resume resume2 html http m17 limsi fr RS96FF CHM LC LC8 html http www slis ualberta ca cais2000 balicco htm http palf free fr esaintot connecteurs htm Stagiaire ACOULON Aude 13 12 2001 Maitre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET LA D partementTsl ins Signal mages ENST 32 Stage Traitement des messages lectroniques Annexes Techniques Annexe A e Rapport d activit Evaluation du Syst me de R sum automatique de textes SWESUM de Messieurs Hercules DALIANIS amp Martin HASSEL Aude Acoulon Annexe B e Mode d emploi pour le logiciel de r sum automatique Aude Acoulon Annexe C e Prototype des fonctions utilis es pour le logiciel de r sum automatique Aude Acoulon Annexe D e Comparaison des logiciels de r sum automatique de textes Swesum amp Resume Aude Acoulon Annexe E e Description of human language technology products Hercules Dalianis NADA KTH e Automatic writing Text Generation and Summarization Hercules Dalianis NADA KTH e Advanced in Automatic text summarization K Sparck Jones e Swesum A text Summarizer for Swedish Hercules Dalianis NADA KTH e Development of a Swedish Corpus for Evaluating Summarizers and other IR tools Hercules Dalianis and Martin Hassel NADA R TH e Improving Precision in Information Retrieval for Swedish using Stemming Johan Carlberger Hercu
13. 10 textes Multim dia 10 textes D p ches d agence Insolite Offres d emplois Discussions Forums de scientifiques discussion 10 textes 10 textes 10 textes 10 textes Annonces conf rences 10 textes Offres places en voiture Personnels Notes d informations Annonces de colloques Soutenances de th ses 10 textes 10 textes 10 textes 10 textes 8 textes 8 textes Fax Proposition 9 textes commerciale 1 Cat gories 2 Cat gories 3 valuation G n rales Sp cifiques des textes NB il a t difficile de retenir des fax susceptibles d tre r sum s par le logiciel su dois N anmoins je me suis efforc e de classer en 2 sous parties les fax les plus lisibles Au total j ai pu proc der 135 fiches d valuation Crit res d valuation L valuation de la d mo s est effectu e selon divers crit res au niveau des r sum s obtenus Je me suis donc servi d une fiche de travail type fiche signal tique pour rendre compte de l essentiel de chaque texte valu Type de Fiche de travail Fiche numero Nombre de mots du texte source Nombre de mots du texte cible Contraction du resume Type de texte journal ou acad mique Mot s cle s Informations Qui oui moyen non pas indique dans le texte source Quoi oui moyen non pas indique dans le texte source Ou oui moyen non pas indique dans le t
14. Contraction du resume Type de texte journal ou acad mique Mot s cle s Informations Qui oui moyen non pas indique dans le texte source Quoi oui moyen non pas indique dans le texte source Ou oui moyen non pas indique dans le texte source Comment oui moyen non pas indique dans le texte source Pourquoi oui moyen non pas indique dans le texte source Contexte OK texte source texte cible partiellement OK informations oubli es Longueur bonne moyenne trop court Intelligibilite bonne moyenne peu claire Remarque s Informations Parfois les r ponses aux questions primaires n taient pas pr sentes dans le texte source Dans ce cas je l indiquais entre parenth ses ou directement Contexte Si le contexte du r sum refl tait point point l id e ma tresse du texte source alors je Pindiquais en notant OK Si le r sum comportait les id es g n rales du texte source sans les expliquer alors je notais partiellement OK Si le logiciel n avait pas su redonner toutes les id es dans le r sum alors je notais informations oubli es Longueur Je prenais comme crit re le taux de contraction du r sum produit par rapport au texte source Si la contraction tait autour des 30 je notais bonne Si la contraction tait moins de 20 je notais un peu trop court Si la contraction tait autour de 40 je notais moyenne Si la contraction tait de plus de 50 je
15. TS is Signal mages ENST 28 Stage Traitement des messages lectroniques Par exemple le mot enfant se retrouve dans enfance enfanter enfantement et veut dire quasiment chaque fois la m me chose puisqu il s agit de parler d enfant Donc il faudrait avoir un dictionnaire r unissant ces racines qui comportent pour chacune d elles les d clinaisons de mots possibles partir d elles o texte vide ayant juste un fichier attach Solution Cr er une fonction qui va voir si le mail contient un corps de texte sinon regardera si il existe une pi ce jointe En conclusion nous pouvons donc penser que le r sumeur interviendrait dans la derni re phase du processus C est dire que le logiciel de r sum ne pourrait r sumer qu partir du moment o les logiciels r accentueur correcteur d orthographe auraient d j scann et modifi le texte source Pour ce qui est de la classification de messages on pourrait par exemple s inspirer de la recherche de mots cl s d j existante pour le r sumeur En effet la classification de messages reviendrait rechercher des messages contenant les mots cl s jug s pertinents Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET LA D partementTsl ins Signal mages ENST 29 Stage Traitement des messages lectroniques Connaissances acquises Ce stage a t tr s formateur aussi bien su
16. Traitement des messages lectroniques v la fusion des informations Y l apprentissage v la variabilit interindividuelle Y l organisation du geste Axes de Recherche e Mod lisation de la perception des couleurs e Etude de la variabilit de l criture e Documents multim dia e Fusion de donn es pour l identification des personnes e Mod lisation de la production et de la perception de la parole e Mod lisation du contr le moteur et de la fusion des informations sensorielles Documents multim dia Claudie Faure Laurence Likforman en collaboration avec G Chollet Comprendre un document n cessite d en reconna tre les structures physiques et logiques La premi re tape de reconnaissance de la structure physique fait appara tre les blocs de texte les lignes les mots Au cours de la seconde tape de reconnaissance de la structure logique les entit s physiques sont interpr t es comme des entit s signifiantes pour la communication crite Traitement et acc s aux documents multim dia Nos travaux sur la structuration physique des documents manuscrits nous am nent tudier la structure logique de ces documents tout venant que sont les t l copies Ces documents sont g n ralement imprim s ou mixtes contenant des parties imprim es et manuscrites La reconnaissance de la structure logique ne peut s appuyer ici sur un mod le a priori de document pr cis l avance dans une feuille de style Nous chercho
17. Utilisation de ressources lexicales multilingues extraction d information dans les documents impl mentation d interfaces en langage naturel repr sentation des connaissances KTH Royal Institute of Technology Suede Le D partement d Analyse Num rique et d Informatique m ne des activit s de recherche en r seaux de neurones vision interaction homme machine traitement du langage naturel En particulier le NADA a d velopp des outils pour le r sum automatique de textes et l extraction de mots cl s pour l Anglais et le Su dois Euroseek Su de Entreprise de services lectroniques commerce lectroniques portails GET ENST Ecole Nationale Sup rieure des T l communications France Reconnaissance de la parole et sa synth se analyse documents et le traitement des images EDF DER France HOLISTIQUE Communication Le projet MAJORDOME est bas sur un syst me de messagerie unifi e syst me qui permet d acc der aux messages vocaux mails et t l copies dans une unique bo te aux lettres Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET A D partement TS ins Signal mages ENST 9 Stage Traitement des messages lectroniques Le contenu des messages sera en grande partie interpr t et pr sent de mani re condens e Ceci permettra d acc der directement ou distance via Internet ou un t l phone mobile Qu est ce qu un Majord
18. a jour le nombre d occurrences Type tabElement ft Pointeur sur le tableau d occurrences de mots cles Type TAB OCC Sortie el Aucune Autres Fonctions utilisees Aucune Cette fonction va calculer le nombre d occurrences du mot clef et mettre a jour les occurrences de chaque mot clef du texte INN A void cptOccMotClef tabElement TAB_OCC NN ofe ofe ae he he ee op ofe he he ofe ee of of of ofe de he ofe of ofe of ofe de 3e he he ke ofe ke module 3 ft Entree ft Pointeur sur la premiere structure composant le texte Type tabElement nomFichierDest Type char Sortie Aucune Autres Fonctions utilisees ft ScorePhrases SelectionPhrases Reecriture ft Cette fonction va selectionner les phrases les plus fortes pour etre reecrites dans le texte cible NINO void module3 tabElement char NO ScorePhrases a di ft Entree Le texte source Type tabElement ft t Score Type SCORE Sortie Aucune Autres Fonctions utilisees Aucune ft Cette fonction va calculer le score de chaque phrase en comptant les occurrences des mots cles qu elle contient NINO void ScorePhrases tabElement SCORE IO SelectionPhrases PA Entree t Score Type SCORE Sortie
19. comme appartenant une unique phrase ce qui pose des probl mes de coh rence entre les phrases Par exemple le logiciel peut reprendre dans un r sum toute une liste de coordonn es t l phoniques de personnes ou encore de noms de participants un colloque dont il n est vraisemblablement pas utile de mentionner La contraction du r sum se r v le alors souvent trop longue et la compr hension du texte cible moyenne Toutefois le logiciel sait garder pour un r sum les chevrons ou s ries de chevrons symbolisant la redite ou d ventuelles r ponses aux r ponses d anciens mails ce qui am liore la lecture du mail Parfois il manque des informations essentielles comme le lieu ou la date car celles ci n apparaissent qu une fois et tr s fr quemment hors phrases ce qui peut s av rer g nant en ce qui concerne des mails de colloques ou d annonces de r unions Ainsi dans un mail annon ant une th se on peut remarquer que le r sum obtenu n est pas pertinent puisqu il ne contient pas de r ponses aux questions primaires qui quoi o quand comment Par exemple le r sum peut nous pr senter des phrases issues du milieu du r sum de la th se C est pourquoi dans les mails d annonces de th se ou autre nous n avons g n ralement aucune information sur l objet de la th se elle m me ni sur son auteur ni sur son lieu D autre part le logiciel ne sait pas toujours relever pour le r sum des informatio
20. effectu es devraient permettre la personne recevant un grand nombre de messages d entretenir un dialogue utile avec le standard de messagerie D sormais gr ce au logiciel la personne pourra par exemple prendre connaissance des Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET LA D partementTsl mis Signal lmages ENS T 12 Stage Traitement des messages lectroniques messages provenant de tel ou tel correspondant ou bien savoir quels sont les mails concernant tel ou tel sujet attendu demander le d tail d un message r sum ou la liste des messages en r ponse a une demande Commentaires et valuation Pr sentation du mat riel Tous les calculateurs stations et terminaux graphiques communiquent entre eux et avec les autres machines de l cole par le r seau Ethernet Les postes de travail sur lesquels on peut se connecter sont soit des stations SUN soit des terminaux X soit les postes de travail du centre de calcul Environnements utilis s v Unix sous une station Sun Solaris Ultra 5 v Linux Y X windows v Windows NT 4 Logiciels utilis s Sous Unix PINE programme pour messagerie lectronique conforme la norme MIME Mail tool version 3 6 R sumidor0 logiciel de r sum automatique espagnol cr e par des gens de l UPC Universtat Politecnica de Catalunya et fait sous Perl Relax 3 4 logiciel de d sambiguisation morpho syntaxique pou
21. logique le fait m me de donner une valeur des mots ou expressions comme le ferait un cerveau humain lors de la lecture d un journal afin de d coder un cheminement de logique de pens e est un atout pertinent pour rassembler des phrases cl s diss min es de mani re logique dans tout le texte 24
22. notais un peu trop long Intelligibilit J observais la coh rence du r sum produit en remarquant par exemple si des phrases contradictoires taient coll es c te c te ou si lors de la lecture la logique de pens e du r sum tait fluide Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET A D partement TS is Signal mages ENST 16 Stage Traitement des messages lectroniques Remarque s Je notais ici ce que je ne pouvais crire ailleurs les interrogations ou r flexions que j avais pu tirer de la production d un r sum Les conditions dans lesquelles je travaillais taient les suivantes Taux de contraction pour le r sum 30 Textes fran ais r sumer en fran ais R sum de style journalistique plut t acad mique Affichage des mots clefs reconnus dans le texte source J ai proc d 135 fiches d valuation En effet j ai opt pour diff rents sujets et sous cat gories Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET LA D partementTS ris Signal lag s ENST Stage Traitement des messages lectroniques 10 textes Multim dia 10 textes D p ches d agence Insolite Offres d emplois Discussions Forums de scientifiques discussion 10 textes 10 textes 10 textes 10 textes Annonces conf rences 10 tex
23. prouv es de compression de sources ainsi que sur leur adaptation aux applications de l audiovisuel et du multim dia Groupe Audio Acoustique et Ondes AAO Ce groupe tudie la physique des ondes dans les deux domaines de l optique et de l acoustique Le Groupe PAM Perception Apprentissage et Mod lisation Responsable Hans Brettel Pr sentation de l quipe L quipe Perception Apprentissage Mod lisation PAM s est form e dans le d partement Traitement du Signal et des Images TSI afin de r unir les chercheurs dont les tudes touchent aux sciences cognitives aussi bien qu au traitement des signaux ou l analyse des images Autant que les techniques ce sont les approches qui se sont r v l es compl mentaires les chercheurs rassembl s dans cette quipe tudient la perception ou le contr le sensori moteur Elle se pr sente donc en tant qu une des quipes de l Op ration de Recherche Traitement du Signal et des Images de l URA 820 cela d autant plus naturellement qu une majorit de ses membres sont chercheurs CNRS La formation du groupe Perception Apprentissage et Mod lisation dont les themes de recherche vont de la stimulation sensorielle la cognition permet donc de faire interagir des chercheurs r unis autour de th mes communs Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET LA D partementTsl paies Signal Images NST 7 Stage
24. r sum automatique g Familiarisation amp Apprentissages Familiarisation su dois dans le rapport A du monde Unix Apprentissages du monde Unix d activit du projet Premi res id es du logiciel de Optimisation de la fonction 1 MAJORDOME r sum automatique recherches S lection des phrases de la linguistiques et d but formalisation fonction 3 fonctionne D but de l valuation du logiciel Suite valuation du logiciel de Optimisation du logiciel Su dois avec statistiques manuelles r sum automatique su dois apport linguistique gr ce sur les textes r sum s Suite et modification du code de une fonction g rant les Apprentissage de l valuation des la fonction 2 ajout de fonctions connecteurs logiques syst mes de r sum s automatiques Tests de mon logiciel sous Unix Adaptation de mon logiciel Familiarisation amp Apprentissages modification sur les include sous Unix du monde Unix et quelques fonctions pr d finies R daction du Rapport de D Analyse de mon logiciel de Fonction 2 de mon logiciel Stage en vue d expliquer E r sum automatique fonctionne analyse linguistique de mon Etude du R sumidorO logiciel A Simulation manuelle des fonctions 1 amp 2 de mon analyse modifications apport es la fonction 2 laboration des premiers algorithmes pour les fonctions 1 amp Evaluation du logiciel de r sum Suite valuation du logiciel de
25. recherche d lais aspects financiers communication entre les groupes de recherche internationaux et nationaux Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET LA D partementTsl ins Signal mages ENST 30 Stage Traitement des messages lectroniques Remerciements Je remercie toute l quipe du D partement TSI qui m a accueillie chaleureusement e G rard CHOLLET pour m avoir offert ce stage et t mon directeur de stage e Pascal VAILLANT pour sa bonne humeur et pour m avoir conseill e de Francois YVON pour m avoir guid e dans l orientation de mes lectures Laurence LIKFORMAN pour m avoir suivie dans la progression de mon logiciel Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET LA D partementTsl mes Signal Images ENS T Stage Traitement des messages lectroniques Bibliographie et Annexes Techniques Bibliographie Evaluating Natural Language Processing Systems K Sparck Jones Julia R Galliers e L activit r sumante M Charolles amp A Petitjean Collection Didactique des Textes e Perl Reference Manual version 5 002 beta 1 g Bilbo Baggins in Perl c Webographie www nada kth se xmartin swesum index eng htm wwWw itl nist sov iaui 89402 related projects tipster gen ie htm http www lehmam freesurf fr autoresu htm http
26. reconnaissance de l criture gt traitement du langage constitution de r sum s filtrage des informations extraites Objectifs D velopper un outil informatique d extraction d information dans les images de textes Cet outil peut se d composer en construction d une base de donn es d images de textes d veloppement d une m thode de reconnaissance des caract res d grad s d veloppement d une m thode de segmentation des images de texte d veloppement d une m thode d extraction d information pour l tiquetage des diff rents champs d identification et extraction de mots cl s dans le corps du message Pr sentation de mon Travail L objectif de ce stage qui s est d roul du 2 juillet au 28 septembre 2001 tait une contribution au traitement et l interpr tation des messages lectroniques afin de r sumer chaque message en une ou deux phrases Ce travail s inscrivait dans le cadre du projet Majordome syst me de messagerie unifi e interrogeable partir d un t l phone mobile Dans un premier temps il s est agi d tudier les standards de messageries et d valuer les logiciels de r sum de texte de Messieurs Hercules DALIANIS amp Martin HASSEL partenaires Su dois du projet Majordome Dans un deuxi me temps l aide du dictionnaire du LADL dictionnaire ABU dictionnaire lemmatis il s agissait de g n rer une ou deux phrases qui r sume un mail automatique Les manipulations
27. sinon Autres fonctions utilisees Aucune Cette fonction va verifier s il est posssible de cr er le fichier avec le nom donne PERE RE k k k k k k ak k k k ak k ak ak ak k NINO int VerifFichier char NN IO affichage FE Entree Pointeur sur la structure ou va etre stocke le texte Type Element Sortie Aucune Autres Fonctions utilisees Aucune ft Cette fonction va afficher tous les mots du texte Les mots cles seront precedes d une etoile PERE E k k k k k k he he k of ofe k he he eee of of of k eee ofe of k de he he es e K e of ofe eee he ofe ee ofe ofe ofe K de de void affiche tabElement NN NINO module 1 ft Entree el ft Pointeur sur la structure ou va etre stocke le texte Type Element ft Nom du fichier contenant le texte source Type char Sortie 0 si tout s est bien passe 1 sinon Le seul cas pouvant poser probleme est l inexistence ou la non accessiblite du fichier source Autres Fonctions utilisees Aucune ft Cette fonction va lire le fichier source puis va stocker les differents mots ponctuations ft espaces grace a la structure passee en argument INN A int modulel tabElement char NN NINO module 2 ft Entree ft Pointeur sur la premiere structure composant le texte Type tab
28. E AAEE SEES mit tens 4 bes D pechesd e A OS 4 Les Forums de ISC OM ia iii 3 LEMA O ia ion 5 A ANN 6 Probl mes de Resume amp SWesum ie 6 Les aC na a Ei EN e ties el 7 Les fautes dono rapid A ida 8 A rain cici teca 9 Les mots d origine trang re ia de nn tn orina 9 Ees mots dememe taches San LEE cin ras 10 Astuce de Resume Gestion des Connecteurs 11 COnCIUSI ON ai ne ns E ee Mn et E AE EE is 14 Evaluation des Cat gories Nous tenterons d valuer le comportement des deux logiciels sur un m me texte et cela dans quatre cat gories Nous nous limiterons un taux de contraction de 30 pour le r sum Les D p ches d agence Dans la majorit des cas les deux logiciels ont su redonner de fa on partielle un contexte chacun des r sum s produits Resume ne supporte pas les chiffres contenant un point par exemple 300 000 En effet Resume comporte un module d coupage de phrases qui compte une phrase lorsqu il a trouv une ponctuation de fin de phrase Swesum lui ne pose pas ce genre de probl me puisqu il d tecte bien un chiffre comportant un point et non deux phrases D autre part lorsqu un texte source ne contient que trois longues phrases Swesum les r sume avec une contraction de 75 car le texte source n offre pas un assez grand nombre de phrases En sortie le texte r sum est quasiment la copie conforme du texte source Resume ne s lectionnera
29. Element Sortie Aucune Autres Fonctions utilisees RechercheDico cptOccMotClef Cette fonction va rechercher dans le dictionnaire si le mot est un mot clef et quelles sont ses occurrences connues dans le texte source NI INN ofe of of ofe de he he he of of ofe de he he he of ofe ofe de he he ofe ee ofe ofe ofe ofe de de void module2 tabElement NIN RechercheDico ms AS Entree Pointeur sur le mot dont il faut rechercher l existence dans le dictionnaire Type tabElement ft Pointeur sur le tableau d occurrences de mots cles Type TAB OCC Sortie Aucune Autres Fonctions utilisees FiltreLettre Cette fonction va rechercher dans le dictionnaire si le mot y est contenu si c est le cas alors le mot est un mot clef la fonction retourne O ou 1 INN A int RechercheDico tabElement TAB_OCC III A FiltreLettre Pa a ted ft Entree lettre accentuee ou lettre majuscule Sortie lettre non accentuee ou lettre minuscule Autres Fonctions utilisees Aucune ft Cette fonction ne tient pas compte de la casse ni des accents et renvoie la lettre minuscule ou non accentuee IO char FiltreLettre char PEE E k k k k k kk k k k ak akk ak III A cptOccMotClef e A eds ft Entree ft Pointeur sur le texte dont on doit mettre
30. Es D partementTSI ris Signal lmages ENS T 1 Stage Traitement des messages lectroniques Ecole naticnale sup rieure des td communications Graupe des Ecoles des T communictions membre de ParisTech 46 ue Banauk 75634 ais Cedex 13 Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET LA D partementTS pis Signal lmages ENS T 2 Stage Traitement des messages lectroniques SOMMAIRE Pr sentation de El iaa 3 Les missions La Recherche caricia ies 3 Quelques Chiffres de la Recherche aiii 4 Les D partements de la RCI nn ae tee ane 4 Le D partement TSI Traitement du signal et de l image resserre 4 Axes d POC BCE han rime diode 5 Les missions du DP iaa 5 L organisation du d partement TS Lacuna islas 5 Le Groupe PAM Perception Apprentissage et Mod lisation sessoesoessessoesocssecsoesoesse 6 Presentation de l QUIPE Sn ds 6 A mid 7 Les chercheurs du Groups PAM sirio eines 7 Presentation du Tr aaa 8 Pr sentation du Projet MAJORDOME essseseesseesoesccsscescesccsscescesocsscescescossccsoessoescesocsseesoesoe 8 Qu estce guun Majordome Tar 9 Syst mes classiques de messagerie et Majordome cooocncccnocccooncnoncnoncnonnccononannnnnn nono ncnoncnnnnos 9 Avantages et Potentialit s du Majordome seeseseeseeeseeesesessrseresrrssrsersrressrsrrssrensersresres 10 Organisation du Proj ts messominnon membranes 10 D coupage du Projet en sous pr
31. a selectionner SCORE 6 Variables Globales nombre de mots total nombre de phrases total nombre de paragraphes total nombre entr par l utilisateur pour la contraction de r sume souhait e Algorithmes e D coupage du texte source Allocation du premier mot Allocation du premier vrai mot Par d faut on est en Mode ponctuation Tant qu on est pas la fin du fichier source Lecture du caract re courant S1 le caract re courant est une ponctuation Si on est en Mode mot alors on a trouv un mot On met 1 dans la case nbOcc de ce mot Initialisation par d faut du maillon Incr mentation du nombre de mots au total On passe en Mode ponctuation On passe au caract re suivant Sinon S1 on est en Mode mot alors on a trouv une ponctuation On met 0 dans la case nbOcc de ce mot Initialisation par d faut du maillon On met 0 dans la case MotClef de la ponctuation Si on d tecte une ponctuation de fin de phrase Incr mentation du nombre de phrases au total Mise jour du num ro de phrase du futur maillon Si on d tecte une fin de paragraphe Incr mentation du nombre de paragraphes au total Mise jour du num ro de paragraphe du futur maillon On passe en Mode mot On passe au caract re suivant Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET LA D partementTsl mis Signal lmages ENS T 22 Stage Traitement des messages lectroniques On met u
32. amitie des gens Le corbeau est altruiste Fin Resume Il sait soigner donner et garder l amitie des gens Le corbeau est altruiste Swesum Si etre genereux etait l apanage du corbeau alors il faudrait se taire C est un animal genereux Etant donn que le mot genereux est pr sent sans accents Resume et Swesum ne le reconnaissent pas dans le dictionnaire des mot cl s En effet Resume et Swesum vont traiter genereux comme un mot et non comme un mot clef Le logiciel Resume poss de un moteur reposant de la logique des statistiques En effet Resume s lectionnera une phrase dont il aura calcul un grand poids au niveau des occurrences des mots clefs qu elle comporte Or d apr s ce texte Resume ne compte que 4 mots clefs dans la phrase Si etre genereux etait l apanage du corbeau alors il faudrait se taire C est donc la phrase Il sait soigner donner et garder l amitie des gens qu il s lectionne pour le r sum car il y compte 5 mots clefs Similairement Resume Swesum reconna t le mot corbeau comme mot clef mais lui non plus ne va pas s lectionner uniquement des phrases qui le comportent Ainsi au lieu de s lectionner les deux seules phrases contenant toutes les deux le mot clef corbeau Si etre genereux etait l apanage du corbeau alors il faudrait se taire Le corbeau est altruiste
33. ance des noms propres Sous projet 4 Dialogue Vocal Sous projet 5 valuation Les messages arrivant dans une messagerie sous formes diverses mail t l copies documents attach s messages vocaux La reconnaissance et l extraction d informations cibl es dans les images permet une restitution vocale notamment Sous Projet 1 Description Responsable Laurence LIKFORMAN GET ENST Partenaires GET ENST France UPC Espagne KTH Su de Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET LA D partementTsl mis Signal lmages ENS T 11 Stage Traitement des messages lectroniques Ce sous projet a pour but l extraction automatique d informations cibl es dans les images de texte t l copies documents num ris s attach s aux mails Ces informations concernent les champs d identification de l metteur et du destinataire noms pr noms coordonn es t l phone fax adresses date objet du message ainsi que des mots cl s ou un r sum relatifs au corps du message En effet l identit de l metteur donne des indications sur le contenu Le r sum automatique du message est envisag pour les documents de bonne qualit documents scann s haute r solution t l copies lectroniques apr s extraction du corps du message La r alisation de ces fonctionnalit s fait appel aux techniques suivantes gt analyse de documents gt
34. arder l amitie des gens Le corbeau est altruiste Oui il est genereux Fin Swesum Etre genereux etait l apanage du corbeau Alors il faudrait se taire C est un animal genereux Resume Il sait soigner donner et garder l amitie des gens Le corbeau est altruiste L le comportement de Swesum est incoh rent car 1l ne consid re v ritablement pas le mot genereux comme un mot clef mais bien comme un simple mot tout comme Resume C est que les deux logiciels ne savent pas g rer les accents Les fautes d orthographe Commettons volontairement une faute d orthographe sur le mot g n reux que nous transformerons en g n reu D crivons pr sent les comportements qui d coulent des deux logiciels Swesum Etre g n reu tait l apanage du corbeau Alors il faudrait se taire C est un animal g n reu Resume Il sait soigner donner et garder l amiti des gens Le corbeau est altruiste Les comportements des deux logiciels sont semblables ils traitent le mot mal orthographi comme un mot et non comme un mot clef puisqu ils ne le reconnaissent pas d apr s leurs dictionnaires fran ais Les sigles Maintenant analysons le comportement des deux logiciels fac aux probl mes que peuvent poser des sigles dans un texte L E N S T forme chaque ann e des tudiants C est un tablissement de renom Plusieurs salles ab
35. conna tre la fin d un sigle Les mots d origine trang re A pr sent int ressons nous aux mots d origine trang re ou n ologismes Microsoft veut d tenir le monopole Windows est son b b qui a tout d clench Un operating system ing nieux Windows pate tout le monde Windows n est pour eux qu un logiciel graphique Sauf les Linuxiens Fin Swesum Microsoft veut d tenir le monopole Windows est son b b qui a tout d clench Un operating system ing nieux Resume Microsoft veut d tenir le monopole 21 Windows est son b b qui a tout d clench Ici les deux logiciels ont adopt un comportement diff rent Tout d abord du point de vue de la longueur Swesum a retenu trois phrases alors que Resume n en a gard que deux Il semble que le mot Windows ait t reconnu par les deux logiciels comme un mot clef De m me pour le mot Microsoft repris les deux logiciels alors que celui ci n a qu une occurrence dans le texte source En fait pour Resume les phrases Microsoft veut d tenir le monopole et Windows est son b b qui a tout d clench contiennent respectivement 3 et 2 mot cl s De son c t Resume a une attitude moins claire puisqu il prend directement les trois premi res phrases du texte source Les mots de m me racine L enfantement douloureuse tape pour toutes Les adulte
36. ctionnaire lemmatis ABU qu il a fallu remanier de fa on pouvoir extraire au moment de la recherche dans le dictionnaire uniquement des mots cl s Le dictionnaire a t d barass des Pronoms personnels compl ments r fl chis Conjonctions Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET LA D partementTsl minis Signal mages ENS T 19 Stage Traitement des messages lectroniques Adverbes les plus g n riques Interjections Pr positions formes conjugu es des verbes avoir tre et faire d autres mots dits stopwords Br ve description de l analyse L analyse de mon r sum automatique comporte trois fonctions principales e D coupage du texte source o Deux phases Gestion d ouverture en lecture du fichier source Pr d coupage du texte o Buts Diff rencier un mot d une ponctuation Num roter les phrases et les paragraphes ventuels e Calcul des Fr quence des mots cl s gr ce au dictionnaire o Deux phases Recherche des mots cl s Calcul des occurrences des mots cl s o Buts Savoir si le mot appartient au dictionnaire des mots cl s Compter les occurrences desdits mots cl s e S lection des phrases o Trois phases D termination du score des phrases S lection par le biais d un flag des phrases les plus fortes Gestion d criture dans le fichier destina
37. currences possibles dans le texte source 3 Texte Source Si mentir tait l apanage du corbeau alors il faudrait se taire Le corbeau est un animal g n reux Il sait soigner donner et garder l amiti des gens Bref le corbeau est un animal altruiste Fin 3 bis Texte R sum Le corbeau est un animal g n reux Bref le corbeau est un animal altruiste Le logiciel a pris la seule phrase introduite par un connecteur logique et une phrase comportant les mots corbeau et animal qu il a d tect comme ayant le plus d occurrences possibles dans le texte source 4 Texte Source Si mentir tait l apanage du corbeau alors il faudrait se taire Le corbeau est un animal g n reux Il sait soigner donner et garder l amiti des gens Donc le corbeau est un animal altruiste Fin Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET LA D partementTsl is Signal mages ENS T 26 Stage Traitement des messages lectroniques 4 bis Texte R sum Le corbeau est un animal g n reux Donc le corbeau est un animal altruiste Le logiciel a pris la seule phrase introduite par un connecteur logique et une phrase comportant le mot corbeau qu il a d tect comme ayant le plus d occurrences possibles dans le texte De plus la r criture du texte source dans le texte cible s est pass e correctement puisque l
38. e 140 enseignants chercheurs Elle a essaim Toulouse et Sophia Antipolis Depuis le ler janvier 1997 elle appartient au Groupe des Ecoles des T l communications tablissement public administratif qui comporte aussi l Ecole nationale des t l communications de Bretagne et l Institut national des t l communications d Evry et contribue constituer un p le de tout premier plan pour l enseignement et la recherche dans le vaste domaine des sciences de l information et de la communication T l com Paris est galement membre de ParisTech Paris Institut of Technology qui rassemble les huit autres coles suivantes Agro Arts et M tiers Chimie de Paris Eaux et For ts G nie Rural Mines Physique chimie de Paris Ponts et Techniques Avanc es Les missions La Recherche La recherche a un triple objectif garantir un contenu p dagogique de haute qualit produire des savoirs et mener des actions de recherche appliqu e L organisation de l cole en d partements d enseignement et de recherche o chaque option d enseignement s appuyant sur une quipe de chercheurs maintient une troite imbrication entre ces activit s La recherche est orient e autour des p les majeurs que sont les communications le traitement des signaux et des images et l conomie des syst mes d information L cole a d j acquis une position de pointe reconnue au plan international dans plusieurs domaines traitement du signal tra
39. e explication en dessous de cette image le logiciel prend cette explication comme faisant partie int grante du texte source et l int gre si elle pr sente un mot clef dans le r sum final ce qui cr e des probl mes de coh rence entre les phrases du r sum Les Forums de Discussion Pour le cas d un texte sorti d un forum de discussion le meilleur r sum obtenu est celui qui reprend la r ponse d un internaute faisant r f rence une question pos e ult rieurement dans le forum Le plus mauvais r sum obtenu est celui d un cas o un internaute a volontairement r pondu sur un des l ments d une question pos e par un internaute Dans le texte source l internaute n avait r pondu que partiellement la question pos e sur le forum qui elle n est pas incluse dans le r sum Par cons quent les phrases choisies pour le r sum et mises c te c te manquent de coh rence et il est difficile de pouvoir en redonner un contexte bien pr cis Dans la majorit des cas le logiciel ne prend pas en compte les informations essentielles car celles ci sont s par es le plus souvent par des s ries d espaces ou tabulations norm es indiquant des informations courtes telles qu un titre une date Le r sum obtenu ne nous donne alors aucune information sur l objet m me de la discussion car la reconnaissance d une phrase n est faite que lorsque le logiciel rencontre une ponctuation de fin de phrase 2
40. ef contient un mot cle T true sinon F false HabElement 2 Si element est de la ponctuation alors le nombre d occurrences est de 0 3 Siil y a plus d un retour la ligne alors on incr mente le num ro de paragraphe 4 Dans le module 2 on va tout d abord rechercher les mots cl s puis on va compter le nombre d occurrences de chacun des mots cl s D finition des structures TOCC TABOCC cette structure contiendra les occurrences des mots cles typedef struct TOCC unsigned char Mot 26 contient le mot clef et ses attributs int nbOcc contient le nombre d occurrences du mot clef JOCC typedef struct TABOCC OCC tabOcc tableau d occurrences int nbMotsCles nombre de mots cles trouves TAB_OCC 5 Dans le module 3 on va faire un tableau de score des phrases Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET A D partement TS mis Signal mages ENS T 21 Stage Traitement des messages lectroniques D finition de la structure TSCORE cette structure contiendra les scores des phrases typedef struct TSCORE int noPhrase contient le numero de la phrase int ScoreMotsCles contient le score des mots cles de la phrase int nbMots contient le nombre de mots de la phrase char Flag contient un booleen T true ou F false indiquant si la phrase est
41. es introduites par ces fameux connecteurs logiques j ai d cid de cr er un fichier nomm connecteurs txt D autre part il faut pr ciser que je n ai choisi de g rer que les mots connecteurs et non les expressions connecteurs car elles taient plus difficilement identifiables compos es au minimum de 2 mots De m me je n ai pris que les connecteurs logiques qui me semblaient les plus pertinents conclusion comparaison approximation illustration Conclusion Comparaison Approximation Illustration bref comme probablement ainsi donc parall lement vraisemblablement notamment finalement ainsi Voici les mots connecteurs r pertori s dans le fichier connecteurs txt En face de chacun d eux il y a leur valeur respective Par exemple il m a sembl plus important de prendre en consid ration le connecteur donc valeur de 100 points cens introduire une phrase de conclusion r sumant le texte plut t que le connecteur ainsi valeur de 50 points cens introduire une id e explicative Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET A D partement TS mis Signal lmages ENS T 24 Stage Traitement des messages lectroniques bref 100 donc 100 finalement 100 ainsi 50 probablement 50 vraisemblablement 50 notamment 5 comme 5 parall lement 5 Si la fonction a trouv un connecteur logique ex
42. exte source Comment oui moyen non pas indique dans le texte source Pourquoi oui moyen non pas indique dans le texte source Contexte OK texte source texte cible partiellement OK informations oubli es Longueur bonne moyenne trop court Intelligibilite bonne moyenne peu claire Remarque s Explications de la Fiche Informations Parfois les r ponses aux questions primaires n taient pas pr sentes dans le texte source Dans ce cas je l indiquais entre parenth ses ou directement Contexte Si le contexte du r sum refl tait point point l id e ma tresse du texte source alors je l indiquais en notant OR Si le r sum comportait les id es g n rales du texte source sans les expliquer alors je notais partiellement OK Si le logiciel n avait pas su redonner toutes les id es dans le r sum alors je notais informations oubli es Longueur Je prenais comme crit re le taux de contraction du r sum produit par rapport au texte source Si la contraction tait autour des 30 je notais bonne Si la contraction tait moins de 20 je notais un peu trop court Si la contraction tait autour de 40 je notais moyenne Si la contraction tait de plus de 50 je notais un peu trop long Intelligibilit J observais la coh rence du r sum produit en remarquant par exemple si des phrases contradictoires taient coll es c te c te ou si lors de la lecture la log
43. g de logique de comportement face une phrase introduite par le connecteur logique Donc qui illustrait pourtant d apr s notre comp tence linguistique de mani re tr s forte un r sultat En conclusion nous avons pu remarquer que les deux logiciels respectaient bien le taux de contraction pour le r sum 30 car ils ne retenaient tous deux que deux phrases Par ailleurs nous pouvons dire que le logiciel resume est plus pertinent que le logiciel Swesum En effet Resume sait g rer la pr sence de connecteurs logiques qui sont des mots cl s servant partitionner un texte long en paragraphes par exemple Probl mes de Resume amp Swesum Voici la liste des cas possibles qui ne pourront tre trait s de mani re optimale par le logiciel e mails non accentu s e mails contenant des mots mal orthographi s 18 e mails contenant des sigles e mails contenant des mots d origine trang re e mails contenant des mots de la m me racine Les accents Pour viter que Resume n accorde trop d importance aux phrases introduites par un connecteur logique nous avons choisi de construire un texte sans aucun connecteur logique De la m me mani re nous ne tiendrons pas compte de la s mantique et de la coh rence du texte source S1 etre genereux etait l apanage du corbeau alors il faudrait se taire C est un animal genereux Il sait soigner donner et garder l
44. iera notre gr 5 fois de suite et t chons de montrer le comportement du logiciel en ce qui concerne les occurrences 1 Texte Source Si mentir tait l apanage du corbeau alors il faudrait se taire Bref le corbeau est un animal g n reux Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET A D partement TS ins Signal mages ENST 25 Stage Traitement des messages lectroniques Finalement il sait soigner donner et garder l amiti des gens Le corbeau est un animal altruiste Fin 1 bis Texte R sum Bref le corbeau est un animal g n reux Finalement il sait soigner donner et garder l amiti des gens Le logiciel a bien choisi les phrases introduites par des connecteurs logiques car il a consid r les valeurs des connecteurs logiques bref et finalement comme tant plus fortes que la valeur des mot clefs seuls 2 Texte Source Si mentir tait l apanage du corbeau alors il faudrait se taire Le corbeau est un animal g n reux Il sait soigner donner et garder l amiti des gens Finalement le corbeau est un animal altruiste Fin 2 bis Texte R sum Le corbeau est un animal g n reux Finalement le corbeau est un animal altruiste Le logiciel a pris la seule phrase introduite par un connecteur logique et une phrase comportant les mots corbeau et animal qu il a d tect comme ayant le plus d oc
45. ils sont tous des mots cl s Conclusion Les deux logiciels pr sentent un comportement semblable en ce qui concerne la gestion des accents des fautes d orthographe et des mots de m me tymologie Ainsi Swesum et Resume ne savent pas reconna tre des mots qu ils soient non accentu s ou mal orthographi s comme des mot cl s De m me pour les mots de m me tymologie les deux logiciels ne savent pas distinguer une m me racine et donc un line de familiarit entre des mots de m me racine pouvant exprimer quelque chose de semblable Swesum est un logiciel qui pr sente un assez bon module de d coupage de textes pour les sigles En effet swesum g re la pr sence des points entre les lettres d un sigle Le sigle est d coup en son entier et est consid r comme un mot Resume peut reconna tre 25 un sigle si on enl ve ses points et qu il soit contenu dans un des dictionnaires de mots cl s ex ENST et non plus E N S T Resume est un logiciel qui pr sente une assez bonne pertinence au point de vue linguistique puisqu il sait g rer les phrases introduites par des connecteurs logiques Le r sum obtenu appara t logique car structur Pourtant les deux logiciels pr sentent un module de statistiques d occurrences de mots cl s fragile Tout d pend de la nature du texte source de la longueur des phrases et de la place des phrases dans le texte source En effet du point de vue
46. imal g n reux Ici nous pouvons remarquer d embl e que les deux logiciels ont produit un r sum compos de deux phrases Le premier logiciel Resume a privil gi les deux seules phrases du texte introduites par un connecteur logique Le deuxi me logiciel Swesum a gard deux phrases contenant les mots clefs corbeau et animal Cependant d apr s le texte source si nous suivons la logique de fonctionnement du logiciel nous aurions d obtenir un r sum fait de phrases comportant la fois le mot clef corbeau et le mot clef animal Bref le corbeau est un animal g n reux et Le corbeau est un animal altruiste Or le logiciel Swesum n a gard qu une seule phrase comportant en m me temps les deux mots cl s corbeau et animal et une phrase introduite par le connecteur logique Bref Si mentir tait l apanage du corbeau alors il faudrait se taire Le corbeau est un animal g n reux Il sait soigner donner et garder l amiti des gens Finalement le corbeau est un animal altruiste Fin Resume Le corbeau est un animal g n reux Finalement le corbeau est un animal altruiste Swesum Si mentir tait l apanage du corbeau alors il faudrait se taire Le corbeau est un animal g n reux Resume a pris la seule phrase introduite par un connecteur logique et une phrase comportant les mots corbeau et ani
47. information Le D partement TSI Traitement du signal et de l image Le traitement des signaux a r cemment connu un d veloppement important dans le domaine th orique et dans ses applications aux t l communications La force de T l com Paris est d tre active sur les outils th oriques s paration de source traitements statistique analyse temps fr quence et sur les applications dans des contextes extr mement vari s production de sons pour les instruments de musique et la parole restauration d enregistrements sonores r seaux d antennes acoustiques annulation d cho galisation de canaux de transmission reconnaissance de parole identification de locuteur compression de source interfaces Dans le domaine de l image la mission principale est de concevoir et de mettre en oeuvre les actions d enseignement et de recherche des m thodes de traitement de l information visuelle et Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET A D partement TS ins Signal mages ENST 5 Stage Traitement des messages lectroniques des techniques de sa repr sentation L activit est organis e autour des trois formes compl mentaires de l image l image de t l diffusion et en particulier pour la t l vision num rique le traitement num rique de l image et son impact sur le monde moderne enfin l image optique trait e par des m thodes analogiques ou hybrides
48. ique de pens e du r sum tait fluide Remarque s Je notais ici ce que je ne pouvais crire ailleurs les interrogations ou r flexions que j avais pu tirer de la production d un r sum Conditions de travail Les conditions dans lesquelles je travaillais taient les suivantes Taux de contraction pour le r sum 30 Textes fran ais r sumer en fran ais R sum de style journalistique plut t qu acad mique Affichage des mots clefs reconnus dans le texte source Lien du Logiciel http www nada kth se xmartin swesum index eng adv html EVALUATION DES CATEGORIES Les D p ches d agence Dans la majorit des cas le logiciel a su redonner de fa on partielle un contexte chacun des r sum s produits Lorsqu il existe dans le texte source une liste d informations relatives des donn es d ordre conomique pourcentages taux ou encore une liste de noms propres le logiciel qui ne recherche que les mots clefs va retenir des phrases clefs c est dire contenant le plus de mots clefs mais aussi les donn es d ordre conomique Par cons quent le r sum produit nous pr sente des informations conomiques disparates parfois contradictoires parce que simplement contenues dans des phrases jug es pertinentes par le logiciel mises c te c te Des phrases longues dans le texte source entra nent une mauvaise coh rence dans le texte cible En effet le logiciel ne prend alors en co
49. is Signal lmages ENST 10 Stage Traitement des messages lectroniques a Du traitement de la parole Du traitement de l crit a Traitement du langage naturel TALN extraction de mots cl s analyse des contenus r sum de messages a La communication Homme Machine O Avantages et Potentialit s du Majordome Son utilisation accro trait les capacit s de communication des entreprises en Internet et en externe et rendrait plus ais es le travail distance de ses agents Elle faciliterait en outre la cr ation de r seaux d entreprises qui souhaiteraient mettre en commun leurs savoir faire La r ception d Internet sur les t l phones mobiles constitue un des grands axes de recherche de d veloppement des op rateurs de t l communications lesquels pourraient d ailleurs par la suite proposer de nouveaux services compl mentaires aux utilisateurs Organisation du Projet Software602 d veloppe le syst me de messagerie unifi e La reconnaissance vocale et l analyse des images de t l copies sera d velopp e par URA CNRS 820 l ENST La partie traitement du langage naturel sera trait e par l UPC et le KTH D coupage du Projet en sous projets Chef de Projet France HOLISTIQUE Communication Sous projet 1 Extraction d information dans les images de textes Sous projet 2 Traitement de la Parole v rification et identification du locuteur Sous projet 3 Traitement de la Parole reconnaiss
50. istant dans ce fichier alors elle ajoute sa valeur au score de la phrase auquel il appartient De m me que pour la fonction de recherche des mots cl s cette fonction ne tient pas compte de la casse du mot c est dire qu elle fera pas de diff rence entre Donc donc et DONC Ajout d un mot clef Si l utilisateur d sire ajouter un mot qu il estime comme pertinent par rapport au secteur d activit auquel il appartient il suffit d ouvrir le dictionnaire qui correspond la 1 lettre de ce mot Par exemple si le mot rajouter est mail il faut alors chercher ouvrir le dictionnaire m txt pour l y recopier la suite des autres ou dans l ordre alphab tique de tous les autres mots cl s Ajout d un mot connecteur Si Putilisateur d sire ajouter un mot connecteur qu il estime pertinent par rapport la structuration d informations des mails qu il re oit r guli rement il suffit d ouvrir le fichier connecteurs txt de l y ajouter et d indiquer la valeur qu on souhaite lui donner Cette op ration pourrait tre transpos e de la m me mani re pour le cas o l utilisateur souhaiterait ajouter dans le fichier connecteurs non pas un mot connecteur mais v ritablement un mot qu il estime tre pertinent et capital dans ses mail et qu il ferait suivre d une valeur cons quente Calcul des occurrences Choisissons un texte de base d environ 5 lignes que l on modif
51. istique ind niable la gestion des liens logiques dans un texte Astuce de Resume Gestion des Connecteurs Il y a peu de diff rence entre les deux logiciels du point de vue de l aptitude produire un r sum et du point de vue des performances Toutefois nous allons tenter de d couvrir les comportements des deux logiciels sur un m me texte source Si mentir tait l apanage du corbeau alors il faudrait se taire Bref le corbeau est un animal g n reux Finalement il sait soigner donner et garder l amiti des gens Le corbeau est un animal altruiste Fin Resume Bref le corbeau est un animal g n reux Finalement il sait soigner donner et garder l amiti des gens Swesum Si mentir tait l apanage du corbeau alors il faudrait se taire Bref le corbeau est un animal g n reux Ici nous pouvons remarquer d embl e que les deux logiciels ont produit un r sum compos de deux phrases Le premier logiciel Resume a privil gi les deux seules phrases du texte introduites par un connecteur logique Le deuxi me logiciel Swesum a gard deux phrases contenant les mots clefs corbeau et animal Cependant d apr s le texte source si nous suivons la logique de 11 fonctionnement du logiciel nous aurions d obtenir un r sum fait de phrases comportant la fois le mot clef corbeau et le mot clef animal Bref le corbeau est un a
52. itement de la parole et de l image circuits int gr s associ s Elle d veloppe actuellement de nouveaux p les d excellence dans les architectures parall les le traitement automatique de la parole les sp cifications formelles et les r seaux haut d bit Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET LA D partementTS ris Signal mag s ENS T 4 Stage Traitement des messages lectroniques La recherche s effectue principalement avec les universit s et les grands organismes de recherche notamment le CNRS La recherche appliqu e se d veloppe par les relations contractuelles nou es entre l cole et les industriels ainsi que France T l com R amp D avec lequel l ENST entretient de fortes et anciennes relations Les d partements travaillent tous en forte relation avec les industriels et les plus grands centres de recherche fran ais et trangers Quelques Chiffres de la Recherche 125 enseignants chercheurs 15 chercheurs CNRS plus de 50 doctorats par an plus de 400 publications SNS lt S 4 d partements d enseignement et de recherche Les D partements de la Recherche gt COMELEC Communications et lectronique gt EGSH Economie gestion sciences sociales et humaines gt INFRES Informatique et r seaux gt TSI Traitement du signal et images et une unit de recherche associ e au CNRS l URA 820 Traitement et communication de l
53. les Dalianis Martin Hassel Ola Knutsson NADA KTH e a Ing nierie des Langues sous la direction de Jean Marie Pierrel Hermes Science publications e The TIPSTER SUMMAC Text Summarization Evaluation Final Report The MITRE Corporation Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET ANNEXE A EVALUATION DU LOGICIEL DE RESUME AUTOMATIQUE DE TEXTES SWESUM de Messieurs Hercules DALIANIS amp Martin HASSEL partenaires Su dois du projet Majordome Rapport d activit du 20 septembre 2001 par Aude ACOULON sous la direction de G CHOLLET P VAILLANT SOMMAIRE PRESENTATION DE L EVALUATION sise 4 EES Cairo la 5 Si A A ciat 6 Type de Fiehe de raval usario iio iros 6 Explications de la Pichi mandats do ebdnda adan EE mercancia 6 Conditions de raval ac BN ND U BE ee 1 EVALUATION DES CATEGORIES citi ea eli iii atteio cin 8 Les D p ches oa 8 Les Forums dEDISCUES I Oli eta NS tt 8 Les Mid am Ne toc doten edi 10 A NOTE citem estes EI T AR TURIN RE TUE 11 CONCLUSION aid As GE RG 12 PRESENTATION DE L EVALUATION Il a t tabli quatre sortes de textes d p ches d agence forums de discussion mails fax Dans chaque cat gorie 3 ou 4 sous cat gories ont t cr es Puis pour chaque texte une petite fiche fait la comparaison entre le texte source et le texte cible travers les diff rents crit res d valuation choisis Les Cat gories
54. mal qu il a d tect comme tant des mots cl s Swesum lui a repris les deux phrases qu il avait obtenu comme pour le pr c dent r sum Par cons quent nous pouvons penser que Swesum en ne donnant pas de valeur aux phrases introduites par des connecteurs logiques ne t moigne pas d une r elle pertinence linguistique Si mentir tait l apanage du corbeau alors il faudrait se taire Le corbeau est un animal g n reux Il sait soigner donner et garder l amiti des gens Bref le corbeau est un animal altruiste Fin 17 Resume Le corbeau est un animal g n reux Bref le corbeau est un animal altruiste Swesum Si mentir tait l apanage du corbeau alors il faudrait se taire Le corbeau est un animal g n reux Nous pouvons confirmer travers ces deux r sum s que le logiciel Swesum n a pas chang de comportement en d tectant une phrase introduite par le connecteur logique Bref Si mentir tait l apanage du corbeau alors il faudrait se taire Le corbeau est un animal g n reux Il sait soigner donner et garder l amiti des gens Donc le corbeau est un animal altruiste Fin Resume Le corbeau est un animal g n reux Donc le corbeau est un animal altruiste Swesum Si mentir tait l apanage du corbeau alors il faudrait se taire Le corbeau est un animal g n reux Ici encore Swesum n a pas chan
55. mot mal orthographi comme un mot et non comme un mot clef puisqu ils ne le reconnaissent pas d apr s leurs dictionnaires fran ais Les sigles Maintenant analysons le comportement des deux logiciels fac aux probl mes que peuvent poser des sigles dans un texte 20 L E N S T forme chaque ann e des tudiants C est un tablissement de renom Plusieurs salles abritent des chercheurs L cole E N S T est une tr s bonne cole Il faut d crocher un concours pour y entrer Fin Swesum L E N S T forme chaque ann e des tudiants C est un tablissement de renom Plusieurs salles abritent des chercheurs Resume T forme chaque ann e des tudiants Plusieurs salles abritent des chercheurs L cole E Resume ne sait pas g rer les sigles car son module de d coupage de texte est bas sur le fait qu une phrase se termine par une ponctuation de fin de phrase En revanche Swesum sait g rer la pr sence de sigles car il se base sur le fait qu une phrase se termine par une ponctuation de fin de phrase suivie d un espace En fait un sigle ne peut tre reconnu par un simple logiciel comme Resume qui ne sait pas revenir en arri re dans un mot pour d terminer que si avant un point il existe une lettre alors c est s rement un sigle et qu il faut savoir que la fin du mot n est pas E N S mais bien E N S T Par cons quent Swesum sait re
56. mpte que des phrases jug es statistiquement tre les plus pertinentes sans soucier de coh rence entre les phrases Quand un texte source ne contient pratiquement que des exemples le logiciel nous pr sente un r sum ayant perdu beaucoup d informations souvent introduites par des connecteurs logiques servant illustrer une id e ex ainsi par exemple d ailleurs notamment Comme ces connecteurs n ont pas de valeur reconnue et qu ils sont juste r pertori s comme simples mots clefs la coh rence entre les phrases choisies pour le r sum est moyenne D autre part lorsqu un texte source ne contient que trois longues phrases le logiciel r sume alors ces phrases avec une contraction de 75 car le texte n offre pas un assez grand nombre de phrases En sortie le texte r sum est quasiment la copie conforme du texte source car le nombre de phrases est d une mani re g n rale proportionnel au nombre d id es diff rentes d un texte Par cons quent plus un texte a de phrases plus un choix entre les phrases ne retenir pour le r sum peut tre fait En revanche la probabilit d obtenir un r sum coh rent ou compr hensible est plus faible compte tenu du choix des phrases mises c te c te Peut tre faudrait il imposer une limite maximum de contraction de r sum afin d viter une copie conforme entre le texte source et le texte cible Quand un texte source contient une image et un
57. n caract re de fin de cha ne la position du caract re dans le mot Fermeture du fichier source e Calcul des Fr quence des mots cl s gr ce au dictionnaire Pour chaque mot mot ou ponctuation du texte source S1 le mot courant appartient au dictionnaire des mots clefs On met 1 dans la case MotClef de ce mot Si le mot a d j t trouv Incr mentation de nbOcc dans la case nbOcc de ce mot Sinon cr ation d une nouvelle ligne Sinon on met 0 dans la case MotClef de ce mot On met 1 dans la case nbOcc de ce mot Pour chaque mot clef du texte source Mise jour du nombre d occurrences du mot clef par rapport au tableau d occurrences On cherche les occurrences du mot clef dans le tableau d occurrences On met jour l occurrence du mot courant e S lection des phrases Calcul du Score des phrases Pour chaque mot mot ou ponctuation du texte source S1 le mot courant est un mot S1 le mot courant est un mot clef On incr mente le score de la phrase qui le contient On incr mente le nombre de mots total S lection des phrases Calcul de la contraction du r sum par l quation Reste nombre de l utilisateur nombre total de mots 100 Tant que Reste est sup rieur ou gal a 0 Pour chaque phrase du texte source Si la phrase est s lectionn e Si le score de la phrase courante est sup rieur celui d j stock On met dans le score max le score courant On met T la phrase au score le plus fort O
58. n stocke dans Reste le nombre de mots total t de l ex Reste Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET A D partement TS is Signal mages ENST 23 Stage Traitement des messages lectroniques Astuces Probl mes et Evolution du logiciel Astuces Ouverture du bon dictionnaire Le dictionnaire se pr sentant sous la forme de a txt b txt c txt etc l astuce a t d ouvrir le dictionnaire gr ce la premi re lettre du mot recherch Par exemple si le mot recherch est abeille alors la fonction RechercheDico ouvrira directement le dictionnaire a txt Filtre d une lettre accentu e ou majuscule Le logiciel ne pouvait pas traiter les mots commengant par une lettre accentu e ex cole car il ne trouvait pas le dictionnaire correspond cette lettre accentu e Ce probl me se posait de la m me fa on pour les mots commen ant par une majuscule La solution a t d laborer une fonction qui ne retournait que la lettre minuscule Gestion des connecteurs logiques D apr s l valuation du logiciel su dois il m a sembl utile de faire une fonction qui g rait la recherche de connecteurs logiques dans le texte Les connecteurs logiques sont des expressions ou des mots d coupant un texte de fa on logique ex Dans un premier temps Ensuite Par exemple Ainsi Pour conclure Afin de mieux rep rer d ventuelles phras
59. nimal g n reux et Le corbeau est un animal altruiste Or le logiciel Swesum n a gard qu une seule phrase comportant en m me temps les deux mots cl s corbeau et animal et une phrase introduite par le connecteur logique Bref Si mentir tait l apanage du corbeau alors il faudrait se taire Le corbeau est un animal g n reux Il sait soigner donner et garder l amiti des gens Finalement le corbeau est un animal altruiste Fin Resume Le corbeau est un animal g n reux Finalement le corbeau est un animal altruiste Swesum Si mentir tait l apanage du corbeau alors il faudrait se taire Le corbeau est un animal g n reux Resume a pris la seule phrase introduite par un connecteur logique et une phrase comportant les mots corbeau et animal qu il a d tect comme tant des mots cl s Swesum lui a repris les deux phrases qu il avait obtenu comme pour le pr c dent r sum Par cons quent nous pouvons penser que Swesum en ne donnant pas de valeur aux phrases introduites par des connecteurs logiques ne t moigne pas d une r elle pertinence linguistique Si mentir tait l apanage du corbeau alors il faudrait se taire Le corbeau est un animal g n reux Il sait soigner donner et garder l amiti des gens Bref le corbeau est un animal altruiste Fin Resume Le corbeau est un animal g n reu
60. nnaire des mot cl s En effet Resume et Swesum vont traiter genereux comme un mot et non comme un mot clef Le logiciel Resume poss de un moteur reposant de la logique des statistiques Ainsi Resume s lectionnera une phrase dont il aura calcul un grand poids au niveau des occurrences des mots clefs qu elle comporte Or d apr s ce texte Resume ne compte que 4 mots clefs dans la phrase Si etre genereux etait l apanage du corbeau alors il faudrait se taire C est donc la phrase Il sait soigner donner et garder l amitie des gens qu il s lectionne pour le r sum car il y compte 5 mots clefs Similairement Resume Swesum reconna t le mot corbeau comme mot clef mais lui non plus ne va pas s lectionner uniquement des phrases qui le comportent Ainsi au lieu de s lectionner les deux seules phrases contenant toutes les deux le mot clef corbeau Si etre genereux etait l apanage du corbeau alors il faudrait se taire Le corbeau est altruiste Swesum construira son r sum en reprenant deux phrases contenant le mot genereux m me s il ne l a pas identifi comme un mot clef Nous allons tenter de savoir si Swesum d sirait bien reprendre le mot genereux en entrant le texte suivant Etre genereux etait l apanage du corbeau Alors il faudrait se taire C est un animal genereux Il sait soigner donner et g
61. ns commen ant par des connecteurs logiques par exemple il ne conna t pas l expression dans un deuxi me temps alors qu il prend en compte dans un premier temps car c est une expression contenue dans une phrase clef De ce fait il manque une partie d informations introduites par ces fameux connecteurs logiques qui sont n cessaires la bonne intelligibilit du r sum Pour ce qui est des mails personnels le syst me le plus judicieux adopter serait de prendre en consid ration pour destinataire le les nom s propre s apr s la formule de politesse bien connue Cher Chere et pour exp diteur le les nom s propre s apr s la formule Bien amicalement Cordialement 10 La pr sentation du mail elle m me peut faire d faut au r sum Par exemple le logiciel ne peut indiquer le nom de l auteur d une th se si celui ci est la fin du mail seul en gage de signature Les Fax D une mani re g n rale le logiciel ne sait pas r sumer des textes sources peu lisibles De ce fait le r sum produit ne redonne pas un contexte aussi pr cis qu il devrait et demeure tr s incoh rent au niveau syntaxique De m me le logiciel ne comptabilisant seulement les mots qu il reconna t le nombre de mots du texte source et le nombre de mots cl s sont souvent tr s bas Voici un exemple de r sum produit r amp est l a vei ture de C ara h r w celle de tous les coeurs battants on c ansons musiqu danse
62. ns donc d gager un mod le g n rique de pr sentation physique s appuyant sur les conventions de la communication crite en nous aidant de consid rations linguistiques notamment la reconnaissance de mots cl s Des partenaires industriels seront recherch s pour cette tude Le but est d offrir de nouveaux services de t l communications permettant d acc der au contenu des images de t l copies en identifiant des champs particuliers nom du ou des destinataires de l envoyeur ses coordonn es la date l objet du message Les chercheurs du Groupe PAM Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET LA D partementTsl is Signal mages ENST 8 Stage Traitement des messages lectroniques Permanents G rard CHOLLET Laurence LIKFORMAN Claudie FAURE Fran ois YVON Stage Long Pascal VAILLANT Pr sentation du Travail Pr sentation du Projet MAJORDOME Le projet Majordome est l laboration d un syst me de messagerie unifi e interrogeable partir d un t l phone mobile Majordome est aussi un assistant lectronique personnel Les partenaires Europ ens de ce projet sont Software 602 Tch quie Entreprise de solutions de communications messageries serveurs de bases de donn es Airtel Espagne Grande entreprise de t l communications quipements r seaux communication mobile UPC Universit Polytechnique de Catalogne Espagne
63. ntr es le logiciel va v rifier l existence du nom du fichier entr S il ne le trouve pas il donne un message d erreur du type Fichier inexistant Erreur module 1 Il faut alors recommencer le processus depuis le d but En revanche si le logiciel trouve le fichier alors il va s ex cuter automatiquement en donnant le d tail de ce qu il est en train de calculer Module 1 running Fichier trouve Module 1 finished reduction du texte de 70 en cours Module 2 running Module 2 finished Module 3 running ScorePhrases running ScorePhrases finished SelectionPhrases running La phrase 0 avec un Score de 7 583333 n est pas selectionnee La phrase 1 avec un Score de 27 285715 est selectionnee La phrase 2 avec un Score de 17 363636 est selectionnee La phrase 3 avec un Score de 13 000000 n est pas selectionnee SelectionPhrases finished Reecriture running Reecriture finished Module 3 finished lt geebee acoulon 9 gt Ici le logiciel a donc d d couper 4 phrases not 0 1 2 3 auquel il a attribu un score not entre parenth ses La phrase est alors s lectionn e ou pas selon son score A pr sent 1l suffit d ouvrir le fichier cr dans le r pertoire courant pour en appr cier les r sultats Astuces et Fonctionnement du Logiciel Ouverture du bon dictionnaire Le dictionnaire se pr sentant sous la forme de a txt
64. ojets air toas 10 Sous Projet ls Gel Do Sta a Se ie 10 Pr sentation de mon Travail iii 11 Commentaires et valuation cnrs 12 Pr sentation du mat riel esessoesesossoesesocsosscsocssescssossesoseossesocsssscsscssesossoesesocscsseseossesossss 12 Environnements UI a a a arte 12 NIC CC US cito iaeei naet aeiiaaie ieo e et tacat 12 Journal de Bord HebdomadalTe ion nin ini cis 13 Travail effect ie 14 Description de l valuation d un syst me de r sum automatique ocoocccnnocccnnocccononcnnnnnno 14 Description des donn es linguistiques 18 Br ve description de l analyse 19 Astuces Probl mes et Evolution du logiciel 23 Conmaissances ACQUISES ii bi ia 29 REMer cimentar 30 Bibliographie et Annexes Techniques ssiriiiinsiiniacicnniinacan sanan conocia coin msnm 31 BibDHO0er ADI asil ainsi 31 WebosTaplt cnn 31 Annexes Techniques 1sieosensronsizossomonosony emssosi msnm ma ms simi ns ss 32 Stagiaire ACOULON Aude 13 12 2001 Maitre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET LA D partementTS minis Signal lmages ENS T 3 Stage Traitement des messages lectroniques Pr sentation de L Ecole En d veloppant constamment les changes avec des partenaires exigeants du monde de la Recherche et de l Entreprise l cole dispense aujourd hui un enseignement qui la situe au c ur de la Soci t de l Information Elle accueille plus de 1 000 tudiants toutes formations confondues et plus d
65. ome Messages entrants Vocal E mail T l copies Authentification dialogue routage r sum s mises jour Os Acc s aux messages T l phone Ordinateur Pager PDA Serveur Syst mes classiques de messagerie et Majordome Syst mes de messagerie MAJORDOME messages vocaux N de t l phone metteur nom de l metteur Date nom du destinataire identification du locuteur images de textes N du t l copieur nom et coordonn es de l metteur Date nom et coordonn es du destinataire objet du message extraction de mots cl s e mail Adresse mail de l metteur extraction de mots cl s Date r sum de messages Objet du message acc s la messagerie Code DTMF mot de passe vocal v rification du locuteur synth se vocale des messages Dans MAJORDOME l innovation consiste en l acc s au contenu des messages Les messages seront interpr t s pour en extraire les informations synth tiques noms et coordonn es de l exp diteur et du destinataire date objet du message r sum du message pour les mails et les pages web Ces informations sont ensuite restitu es vocalement par synth se Pour les messages re us sous forme d image une reconnaissance de caract res est n cessaire Les technologies mises en uvre sont celles Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET LA D partementTsl
66. on 3 fonction 1 logiciel 5 Suppression des mots parasites du R daction d un rapport 2 dictionnaire afin d avoir un d activit sur l valuation de dictionnaire ne contenant que des mon logiciel avec celui du mots cl s logiciel de r sum automatique Modification du dictionnaire de su dois mots cl s Fonction 1 de mon logiciel fonctionne Modification du code de la fonction 3 pf Conclusions sur l valuation du E logiciel su dois E R daction d un rapport A d activit concernant l valuation du logiciel su dois Travail effectu J ai labor un logiciel de r sum automatique de textes bas sur la fr quence d occurrences de mots cl s rencontr s dans le texte source Description de l valuation d un syst me de r sum automatique tant donn que l ENST n avait pas la possibilit de mobiliser un grand nombre de sujets experts pour faire des tests extensifs des syst mes de r sum comme ils le font dans la campagne d valuation TIPSTER SUMMAC j ai d le faire moi m me en me mettant dans la peau d un sujet expert Voici une fiche type de chaque texte valu avec le logiciel su dois Stagiaire ACOULON Aude Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET 13 12 2001 A D partement TS is Signal mages ENS T 15 Stage Traitement des messages lectroniques Fiche numero Nombre de mots du texte source Nombre de mots du texte cible
67. on peut penser que le comptage des mots est faux Si un texte source ne comporte pas assez de mots lisibles pour produire un r sum alors le logiciel reconstruit un r sum avec les bribes de mots qui lui restent Par cons quent il n est pas rare de rencontrer des r sum s compos s de mots seuls souvent trop peu nombreux pour pouvoir r tablir un contexte initial comme Pillustre nettement cet exemple de r sum de fax notre adresse e mail Monsieur DAUPHIN Gilles NUMERO FAX UI 4608793 NOMBRE DE PAGES 5 11 CONCLUSION d ja nonc e dans le rapport d activit sur le Projet MAJORDOME Les r sultats ont diverg aussi bien selon la longueur des textes que leur contenu En effet lorsqu un texte court est compos d une grande et d une petite phrase alors le logiciel ne prend en compte que la plus grande celle qui contient le plus de mots cl s et non la plus petite m me si celle ci r sumait le texte en son entier Les connecteurs logiques d coupent un texte en plusieurs parties et introduisent souvent les premi res id es d un paragraphe Ainsi la recherche de connecteurs logiques introduisant certaines phrases ex Donc Bref Finalement dites phrases cl s pourrait se r v ler judicieuse Cela pourrait permettrait par exemple de donner une plus grande valeur aux phrases m me courtes introduite par ces connecteurs d tre s lectionn es pour la production d un r sum D une mani re g n
68. on sont pour les deux logiciels un exercice p rilleux en mati re de d coupage de textes En effet Swesum et Resume sont tous deux incapables de prendre en compte les informations essentielles quand celles ci sont s par es le plus souvent par des s ries d espaces ou tabulations norm es indiquant des informations courtes telles qu un titre une date Ce d coupage peut se r v ler tre g nant quand il s agit d une annonce de th se par exemple tant donn que les deux logiciels fonctionnent sur le fait que la reconnaissance d une phrase n est possible que lorsqu on rencontre une ponctuation de fin de phrase gt alors il est impossible de percevoir une phrase crite sous le coup d une intonation orale comme Tout d abord ce n est pas une affirmation puisque si vous relisez attentivement ma phrase je dis je ne pense pas que mais admettons En effet les deux logiciels vont d apr s leur module de d coupage de textes tronquer cette phrase en 3 phrases s lectionn es ou non pour le r sum final Tout ceci nuit consid rablement la coh rence entre les phrases L aussi contrairement Swesum le logiciel Resume respecte bien la demande initiale de l utilisateur en r alisant une contraction de 30 Lorsque le message d un internaute sur un forum de discussion reprend bien la r ponse d un autre interlocuteur faisant r f rence une question po
69. ordre des phrases du texte cible correspond l ordre des phrases du texte source D une mani re g n rale j ai donc choisi d accorder plus d importance une phrase introduite par un connecteur logique car cette derni re tait statistiquement s re de comporter des informations sur le sujet du texte Ensuite j ai d cid d accorder de l importance aux phrases contenant des mots clefs ayant le plus d occurrences dans tout le texte Enfin j ai donn une importance aux mots qui taient contenus dans le dictionnaire de mots clefs et qui se r v laient donc tre des mots clefs On pourrait sch matiser la notion d importance et de valeur attribu e aux mots et aux phrases par ces expressions Connecteur logique gt Mots clefs les plus r currents gt Mots clefs gt Mots Phrase Connecteur logique gt Phrase Mots clefs les plus r currents gt Phrase Mots clefs gt Phrase sans aucun mot clef Probl mes Voici la liste des cas possibles qui ne pourront tre trait s de mani re optimale par le logiciel mails non accentu s mails contenant des mots mal orthographi s mails contenant des mots compos s mail ne contenant pas de points de fin de phrase mails contenant des phrases caract re oral avec des points de suspension ex je dis a parce que cela fait si longtemps mails contenant des sigles ex E N S T C N R S mails contenant des mots d origine trang re ex mail Windows
70. que les phrases les plus importantes m me si celles ci sont peu nombreuses dans le texte source Au point de vue de la longueur des r sum s obtenus nous pouvons dire que Swesum nous indique fr quemment une contraction sup rieure 30 pour le r sum produit alors que Resume respecte la longueur de r sum demand Les performances des deux logiciels sont pratiquement identiques Ainsi pour un texte long ou court les deux logiciels ont eu un temps d ex cution similaire Textel Texte2 Texte3 Texte4 Resume 5 secondes 6 secondes 10 secondes 5 secondes Swesum 7 secondes 4 secondes 10 secondes 3 secondes Du point de vue de la pertinence et de la longueur du r sum produit Resume est plus fiable que Swesum En revanche Swesum commet moins de fautes de d coupage que Resume qui ne g re pas encore assez de param tres tels que des chiffres contenant des points ou des adresses lectroniques contenant des points Toutefois la fiabilit du module de d coupage de phrases de Swesum d pend de la nature du texte source Les Forums de discussion En ce qui concerne les deux logiciels les fautes d orthographe ou de grammaire dans le texte source nuisent au bon rep rage des mots clefs et quelque peu au contexte De m me les acronymes ou mots trangers ex Newsgroups From To Subject ne sont pas reconnus par les logiciels Les forums de discussi
71. r l espagnol Xemacs Textedit YYY Vvov Sous Windows gt Visual C 6 gt R sum Automatique du KTH accessible par le Web Manipulations e Telnet e Connexion d un PC une station Sun Solaris par ftp e Transferts de fichiers d un PC une station Sun Solaris par ftp Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET LA D partementTsl AE Signal mages JE NS T Stage Traitement des messages lectroniques Journal de Bord Hebdomadaire 13 Transferts de fichiers d une station Sun Solaris un PC par ftp Imprimer sous une station Sun D zipper un fichier sous Unix par la commande gunzip Copier un fichier d une Sun un PC par ftp Copier un fichier d un PC une Sun par ftp Gestion d un compte unix par ftp sous windows NT Conversion d un fichier texte dos en fichier texte unix par la commande dos2unix Conversion d un fichier texte unix en fichier texte dos par la commande unix2dos JUILLET AO T SEPTEMBRE Mise en place Connaissance du Projet D but code fonction 2 Recherche de mots clefs de la Fin valuation du logiciel su dois permet MAJORDOME fonction 2 fonctionne R daction d un petit article Y Lectures amp Recherches Suite valuation du logiciel de concernant l valuation du E bibliographiques r sum automatique su dois logiciel de
72. r le plan informatique que le plan linguistique Sur le plan Technique Je me suis form e l environnement UNIX sur des stations de travail Sun Solaris Jai labor l analyse de mon r sumeur automatique en me basant sur des faits logiques et math matiques tels que des statistiques de fr quences d occurrences de mots cl s Puis j ai appris utiliser la fois l diteur Emacs sous UNIX et Visual C 6 0 sous Windows pour compiler mon code crit en C Sur le plan Linguistique Jai pu me mettre dans la peau d un expert en valuation de syst me de r sum automatique en analysant le logiciel de r sum automatique de textes d velopp par Hercules Dalianis et Martin Hassel Ceci m a permit de me confronter la pertinence d une valuation d un syst me donn et aux choix d orientation effectuer en constatant les r sultats obtenus J ai appris me confronter aux probl mes d intelligibilit et de coh rence que peuvent poser des r sum s automatiques de textes Sur le plan humain J ai d couvert le monde de la recherche que je ne connaissais que partiellement ayant toujours travaill dans des entreprises Gr ce aux r unions sur l avanc e du projet MAJORDOME J ai r alis Vefficacit du travail collectif et l importance des qualit s de relations entre les diff rents partenaires d un projet de grande envergure Ainsi j ai compris les enjeux que pouvaient comporter de gros projets de
73. r rassembler des phrases cl s diss min es de mani re logique dans tout le texte COMPARAISON DES 14 LOGICIELS DE RESUME AUTOMATIQUE DE TEXTES SWESUM gt amp RESUME de Hercules DALIANIS de Aude ACOULON et Martin HASSEL Rapport d activit du 26 septembre 2001 par Aude ACOULON sous la direction de G CHOLLET P V AILLANT SOMMAIRE Astuce de Resume Gestion des Connecteurs 16 Probl mes de Resume amp Swesum nn 18 LES ACCES A IS A RA INS A 19 Les fautes d orthographe ascitis rss drid bs E SEE a 20 A A 20 Les mots d Oripine tran ceres i Rue A 21 Eesimots de meme races NC as 22 Conclusione elan tota esmen a a a aea iora 23 15 Astuce de Resume Gestion des Connecteurs Il y a peu de diff rence entre les deux logiciels du point de vue de l aptitude produire un r sum et du point de vue des performances Toutefois nous allons tenter de d couvrir les comportements des deux logiciels sur un m me texte source Si mentir tait l apanage du corbeau alors il faudrait se taire Bref le corbeau est un animal g n reux Finalement il sait soigner donner et garder l amiti des gens Le corbeau est un animal altruiste Fin 16 Resume Bref le corbeau est un animal g n reux Finalement il sait soigner donner et garder l amiti des gens Swesum Si mentir tait l apanage du corbeau alors il faudrait se taire Bref le corbeau est un an
74. rale le logiciel ne peut reconna tre deux phrases diff rentes si une ponctuation de fin de phrase a t omise entre les deux Ce cas pourrait aussi se pr senter dans la pr sentation d informations s par es par une s rie d espaces ou de tabulations Le r sum obtenu nous pr sente alors une grande phrase contenant plusieurs mots cl s mais h las incoh rente puisque c est la seule D autre part le logiciel ne supporte pas les ponctuations stylistiques que l on peut rencontrer dans des mails par exemple des tirets mis c te c te comme pour un trait de soulignement dans les annonces de s minaires de th ses Similairement les fax pass s sous la technique de l OCR contiennent des phrases peu lisibles que le logiciel ne prend pas en compte puisqu il ne sait pas les corriger Le r sum obtenu est difficilement compr hensible tant au niveau syntaxique que s mantique En fait le logiciel n est pas capable de compenser ou de faire le travail d un autre logiciel savoir reconna tre des suites de mots appartenant s mantiquement syntaxiquement ou non une m me phrase afin de passer la phrase suivante En conclusion nous pouvons donc penser que le logiciel ne pourrait s ex cuter qu partir du moment o d autres logiciels existants r accentueur correcteur d orthographe auraient d j scann et modifi le texte source Ainsi le logiciel n interviendrait que dans la derni re phase du processus
75. reuse tape pour toutes Les adultes savent mesurer et doser leurs choix L enfance est un r ve qui nous pr occupe tous Les jeunes ne savent pas faire de demi mesure Ils veulent tout blanc tout noir Tout le monde a t enfant C est de l que vienne leur innocence de pens e Fin Swesum L enfantement douloureuse tape pour toutes Les adultes savent mesurer et doser leurs choix Les jeunes ne savent pas faire de demi mesure Resume Les adultes savent mesurer et doser leurs choix Les jeunes ne savent pas faire de demi mesure 10 Tout le monde a t enfant Le logiciel Swesum ne sait pas g rer les mots appartenant a la m me racine Son comportement est difficilement rationnel puisqu il n a trouv aucun mot clef ayant une deuxi me occurrence dans le texte source De m me pour Resume les mots de m me tymologie n ont pas de valeur Pour construire un r sum celui ci va se baser sur des statistiques math matiques Il semble difficile pour les deux logiciels de savoir g rer des l ments inexistants tels que des mots mal accentu s ou mal orthographi s De la m me fa on les deux logiciels ne pr sentent pas une pertinence linguistique aussi pouss e que celle de reconna tre des mots de m me racine et donc d en d duire qu ils sont tous des mots cl s Toutefois le logiciel Resume est le seul des deux logiciels qui contient un apport lingu
76. ritent des chercheurs L cole E N S T est une tr s bonne cole Il faut d crocher un concours pour y entrer Fin Swesum L E N S T forme chaque ann e des tudiants C est un tablissement de renom Plusieurs salles abritent des chercheurs Resume T forme chaque ann e des tudiants Plusieurs salles abritent des chercheurs L cole E Resume ne sait pas g rer les sigles car son module de d coupage de texte est bas sur le fait qu une phrase se termine par une ponctuation de fin de phrase En revanche Swesum sait g rer la pr sence de sigles car il se base sur le fait qu une phrase se termine par une ponctuation de fin de phrase suivie d un espace En fait un sigle ne peut tre reconnu par un simple logiciel comme Resume qui ne sait pas revenir en arri re dans un mot pour d terminer que si avant un point 1l existe une lettre alors c est s rement un sigle et qu il faut savoir que la fin du mot n est pas E N S mais bien E N S T Par cons quent Swesum sait reconna tre la fin d un sigle Cependant d apr s l valuation faite uniquement sur le logiciel Swesum 1l a t d montr que Swesum ne reconnaissait pas les acronymes ou les sigles m me si l objet du mail en d pend ex une annonce d emploi d crivant un poste en CDI ou en CDD demandant lettre et CV Nous pouvons donc penser que la fiabilit du module de d co
77. roblemes d ordre r dactionnel rep rage de phrases orales crites d tection de signes stylistiques dans les mails s ries d espaces entre des informations fautes d orthographes Probl mes de Resume Swesum Voici la liste des cas possibles dont nous allons nous servir pour valuer le comportement des deux logiciels face ces situations de probl mes cr es e mails non accentu s e mails contenant des mots mal orthographi s e mails contenant des sigles e mails contenant des mots d origine trang re e mails contenant des mots de la m me racine Pour viter que Resume n accorde trop d importance aux phrases introduites par un connecteur logique nous avons choisi de construire des textes sans aucun connecteur logique De la m me mani re nous ne tiendrons pas compte de la s mantique et de la coh rence du textes sources Les accents S1 etre genereux etait l apanage du corbeau alors il faudrait se taire C est un animal genereux Il sait soigner donner et garder l amitie des gens Le corbeau est altruiste Fin Resume Il sait soigner donner et garder l amitie des gens Le corbeau est altruiste Swesum S1 etre genereux etait l apanage du corbeau alors il faudrait se taire C est un animal genereux Etant donn que le mot genereux est pr sent sans accents Resume et Swesum ne le reconnaissent pas dans le dictio
78. s ils n apparaissent qu une seule fois m me si l objet du mail en d pend ex une annonce d emploi d crivant un poste en CDI ou en CDD demandant lettre et CV De m me le logiciel ne prend pas en compte les mots nouveaux ou trangers ex Newsgroups From To Subject Le logiciel ne sait pas g rer de trop courtes et peu nombreuses phrases Dans la plupart des cas la contraction du r sum r v le 100 ce qui est faux tant donn le nombre de mots du texte source compar au nombre de mots du texte cible Parfois le logiciel ne trouve aucun mot clef ce qui semble tre d la trop courte longueur du texte source ne donnant pas assez de statistiques pour rep rer les ventuels mots cl s Les Mails D une mani re g n rale le logiciel n offre pas un bon r sum pour les mails En effet il y a beaucoup d informations inutiles qui ressortent du r sum alors que les informations pertinentes manquent cruellement l identification du contexte La plupart du temps le logiciel ne supporte pas une abondance de petits signes stylistiques que l on peut trouver dans les mails tirets rapproch s sp cifiant un trait de soulignement toiles Afin de faire r sumer le texte source au logiciel il faut tout d abord proc der la suppression de ces signes pour obtenir un r sum Lorsqu il y a absence de ponctuation de fin de phrase le logiciel a tendance prendre en compte tous les mots quels qu ils soient
79. s e ult rieurement dans le forum alors le r sum produit par 4 Swesum et par Resume est excellent puisqu il redonne en quelques lignes le sujet et les arguments des deux internautes qui discutent En revanche lorsqu un un internaute a volontairement r pondu sur un des l ments d une question pos e par un autre interlocuteur qui elle n est pas incluse dans le r sum alors le r sum produit par Swesum et Resume est incoh rent car les phrases s lectionn es voquent un contexte diff rent Les Mails Contrairement Swesum le logiciel Resume supporte une abondance de petits signes stylistiques que l on peut trouver dans les mails tirets rapproch s sp cifiant un trait de soulignement toiles Lorsqu il y a absence de ponctuation de fin de phrase Swesum a tendance prendre en compte tous les mots quels qu ils soient comme appartenant une unique phrase Le logiciel Resume lui cr e un fichier vide L utilisation des connecteurs logiques tels que donc et bref est tr s fr quente dans les mails Le logiciel Resume con u sur le mode de d tection de liens logiques dans un texte peut imm diatement identifier et s lectionner une phrase contenant le connecteur Donc par exemple En revanche le logiciel Swesum qui n est pas dot de cet outil linguistique pose plus de probl mes de coh rence entre les phrases que le logiciel Resume
80. s es au minimum de 2 mots Par d faut dans le fichier connecteurs txt il existe les connecteurs logiques apparaissant les plus pertinents conclusion comparaison approximation illustration Conclusion Comparaison Approximation Illustration bref comme probablement ainsi donc parall lement vraisemblablement notamment finalement ainsi En face de chacun de ces mots connecteurs vous trouverez dans le fichier connecteurs txt leur valeur respective Par exemple le connecteur jug le plus important est le connecteur donc a une valeur de 100 points car il est cens introduire une phrase de conclusion r sumant le texte Le connecteur ainsi jug moins important a une valeur de 50 points car 1l est cens introduire une id e explicative bref 100 donc 100 finalement 100 ainsi 50 probablement 50 vraisemblablement 50 notamment 5 comme 5 parall lement 5 Si la fonction a trouv un connecteur logique existant dans ce fichier alors elle ajoute sa valeur au score de la phrase auquel il appartient De m me que pour la fonction de recherche des mots cl s cette fonction ne tient pas compte de la casse du mot c est dire qu elle fera pas de diff rence entre Donc donc et DONC Ajout d un mot clef Si vous d sirez ajouter un mot que vous estimez comme pertinent par rapport au secteur d activit auquel vous appartenez il suffit d o
81. s savent mesurer et doser leurs choix L enfance est un r ve qui nous pr occupe tous Les jeunes ne savent pas faire de demi mesure Ils veulent tout blanc tout noir Tout le monde a t enfant C est de l que vienne leur innocence de pens e Fin a Swesum L enfantement douloureuse tape pour toutes Les adultes savent mesurer et doser leurs choix Les jeunes ne savent pas faire de demi mesure Resume Les adultes savent mesurer et doser leurs choix Les jeunes ne savent pas faire de demi mesure Tout le monde a t enfant Le logiciel Swesum ne sait pas g rer les mots appartenant la m me racine Son comportement est difficilement rationnel puisqu il n a trouv aucun mot clef ayant une deuxi me occurrence dans le texte source De m me pour Resume les mots de m me tymologie n ont pas de valeur Pour construire un r sum celui ci va se baser sur des statistiques math matiques Il semble difficile pour les deux logiciels de savoir g rer des l ments inexistants tels que des mots mal accentu s ou mal orthographi s Cependant Swesum est capable lui de respecter le d coupage d une phrase jusqu sa ponctuation de fin de phrase et cela m me quand il s agit d un sigle De la m me fa on les deux logiciels ne pr sentent pas une 22 pertinence linguistique aussi pouss e que celle de reconna tre des mots de m me racine et donc d en d duire qu
82. t contient un pointeur vers le mot suivant struct Element ElementPrecedent contient un pointeur vers le mot precedent int nbOcc contient le nombre d occurrences du mot int noPhrase contient le numero de la phrase a laquelle appartient le mot int noParagraphe contient le numero de paragraphe auquel appartient le mot char MotClef contient un mot clef T true sinon F false tabElement cette structure contiendra les occurrences des mots cles typedef struct TOCC unsigned char Mot 26 contient le mot clef et ses attributs int nbOcc contient le nombre d occurrences du mot clef JOCC typedef struct TABOCC OCC tabOcc tableau d occurrences int nbMotsCles nombre de mots cles trouves JTAB_OCC cette structure contiendra les scores des phrases typedef struct TSCORE int noPhrase contient le numero de la phrase float ScoreMotsCles ft contient le score des mots cles de la phrase int nbMots ft contient le nombre de mots de la phrase char Flag contient un booleen T true ou F false indiquant si la phrase est a selectionner int ScoreMax contient T si la phrase est a reecrire SCORE Definition des prototypes des fonctions utilisees NIN A VerifFichier nits ft Entree ft Nom du fichier dont il faut verifier les droits en ecriture Type char Sortie 1 si le fichier peut etre ecrit O
83. t non ins r s l int rieur d une phrase En effet les r sum s produits ne redonnaient plus que le corps du message sans trace de l auteur et des informations concernant son annonce de conf rence Ce d sagr ment touchait aussi les mails qui annongaient des colloques ou des s minaires En ce qui concerne les fax il a fallu tout d abord les trier puisque la plupart taient illisibles Puis apr s valuation je me suis rendu compte qu il restait peu de phrases ou mots interpr tables ce qui entrainait un r sum souvent incoh rent au niveau de la syntaxe et au niveau s mantique En effet le logiciel rep rait peu ou aucun mot cl et ne redonnait pas toujours les informations relatives au nom du destinataire de l exp diteur la date l objet lui m me Parfois m me le logiciel donnait une contraction de r sum de 100 alors que le nombre de mos du texte source tait faux ou que des informations issues du texte source taient inexistantes dans le texte cible D une mani re g n rale le logiciel ne peut pr tendre reconna tre deux phrases diff rentes dans le cas ou un point de fin de phrase ou tout autre caract re de fin de phrase aurait t oubli entre les deux phrases Le calcul de mots cl s pourrait alors relever cette phrase comme tant une phrase importante du texte parce qu elle contient plusieurs mots cl s Description des donn es linguistiques J avais ma disposition un di
84. tes Offres places en voiture Personnels Notes d informations Annonces de colloques Soutenances de th ses 10 textes 10 textes 10 textes 10 textes 8 textes Fax Proposition 9 textes commerciale 1 Cat gories 2 Cat gories 3 valuation G n rales Sp cifiques des textes Stagiaire ACOULON Aude 13 12 2001 Maitre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET LA D partementTsl ins Signal mages ENST 18 Stage Traitement des messages lectroniques CONCLUSION de l valuation Les r sultats ont diverg aussi bien selon la longueur des textes que leur contenu En ce qui concerne les mails le logiciel ne supportait pas les ponctuations stylistiques que l on peut rencontrer dans les mails par exemple des tirets mis c te c te formant un trait de soulignement En effet dans ce cas le logiciel ne donnait aucun r sum ou plut t il donnait un message d erreur Trop de donn es En ce qui concerne les mails personnels ou les d p ches d agence quand il y avait des phrases trop longues le logiciel ne pouvait calculer une bonne contraction de texte En effet le logiciel pouvait produire des r sum s comportant deux phrases et dont la contraction tait de 50 En ce qui concerne les forums de discussion le logiciel ne prenait pas en compte des l ments pertinents tels que des horaires des dates des lieux des noms lorsqu ils taient seuls e
85. texte long en paragraphes par exemple 13 Conclusion Les deux logiciels pr sentent un comportement semblable en ce qui concerne la gestion des accents des fautes d orthographe et des mots de m me tymologie Ainsi Swesum et Resume ne savent pas reconna tre des mots qu ils soient non accentu s ou mal orthographi s comme des mot cl s De m me pour les mots de m me tymologie les deux logiciels ne savent pas distinguer une m me racine et donc un lien de familiarit entre des mots de m me racine pouvant exprimer quelque chose de semblable Swesum ne respecte jamais le taux de contraction de textes demand au d part par l utilisateur En effet le r sum produit d passe fr quemment les 30 du texte initial Resume est un logiciel qui pr sente une assez bonne pertinence au point de vue linguistique puisqu il sait g rer les phrases introduites par des connecteurs logiques Le r sum obtenu appara t logique car structur Pourtant les deux logiciels pr sentent un module de statistiques d occurrences de mots cl s fragile Tout d pend de la nature du texte source de la longueur des phrases et de la place de ces phrases dans le texte source En effet du point de vue logique le fait m me de donner une valeur des mots ou expressions comme le ferait un cerveau humain lors de la lecture d un journal afin de d coder un cheminement de logique de pens e est un atout pertinent pou
86. ticipant de fa on active la vie scientifique nationale L organisation du d partement TSI Le d partement TSI est organis en 5 groupes Groupe Traitement et Interpr tation des Images TH Ce groupe conduit des recherches sur la mise en oeuvre de sch mas complets de traitement d analyse et d interpr tation d images en particulier de sc nes complexes Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET A D partement TS is Signal mages ENST 6 Stage Traitement des messages lectroniques Groupe Traitements Statistiques et Applications aux Communications TSAC Ce groupe travaille dans le signal pour les communications la s paration de sources la mod lisation statistique pour le signal et l image la reconstruction et la restauration d images le t l traffic analyse et mod lisation Groupe Perception Apprentissage et Mod lisation PAM Ce groupe tudie le r le des facteurs humains dans l acc s aux divers types d information a La parole reconnaissance et identification de locuteurs a L image psychovision perception du contraste de la couleur du relief et imagerie de tr s haute qualit a L crit fax structuration des documents a La fusion des modalit s perceptives dans l appr hension de l environnement a Les interfaces multimodales Groupe Codage COD Ce groupe travaille sur des techniques
87. tion Calculer le score d 1 phrase par rapport au nombre de mots cl s qu elle contient Ne prendre en compte pour la r criture dans le fichier cible le r sum que les phrases les plus fortes Les R gles d or 1 Tout texte doit tre stock en m moire sous forme d une liste cha n e D finition de la structure ELEMENT Mot mot ou ponctuation char Pointeur vers suivant struc element Pointeur vers precedent struc element Stagiaire ACOULON Aude 13 12 2001 Ma tre de Stage Mr P AMSILI Directeur du Stage Mr G CHOLLET A D partement TS is Signal mages ENST 20 Stage Traitement des messages lectroniques Nombre d occurrences des mots cl s dans le texte int Num ro de phrase int Num ro de paragraphe int Mot cl char 0 SF IST cette structure contiendra les mots et leurs attributs typedef struct Element unsigned char Mot 255 Ft contient le mot ou une ponctuation 255 pour les tests voir avec malloc apres struct Element ElementSuivant contient un pointeur vers le mot suivant struct Element ElementPrecedent contient un pointeur vers le mot precedent int nbOcc contient le nombre d occurrences du mot int nbMotsPhrase contient le nombre de mots dans une phrase int noPhrase contient le numero de la phrase a laquelle appartient le mot int noParagraphe contient le numero de paragraphe auquel appartient le mot char MotCl
88. upage de textes du logiciel Swesum est difficilement stable ou logique Les mots d origine trang re A pr sent int ressons nous aux mots d origine trang re ou n ologismes Microsoft veut d tenir le monopole Windows est son b b qui a tout d clench Un operating system ing nieux Windows pate tout le monde Windows n est pour eux qu un logiciel graphique Sauf les Linuxiens Fin Swesum Microsoft veut d tenir le monopole Windows est son b b qui a tout d clench Un operating system ing nieux Resume Microsoft veut d tenir le monopole Windows est son b b qui a tout d clench Ici les deux logiciels ont adopt un comportement diff rent Tout d abord du point de vue de la longueur Swesum a retenu trois phrases alors que Resume n en a gard que deux Il semble que le mot Windows ait t reconnu par les deux logiciels comme un mot clef De m me pour le mot Microsoft repris les deux logiciels alors que celui ci n a qu une occurrence dans le texte source En fait pour Resume les phrases Microsoft veut d tenir le monopole et Windows est son b b qui a tout d clench contiennent respectivement 3 et 2 mot cl s De son c t Resume a une attitude moins claire puisqu il prend directement les trois premi res phrases du texte source Les mots de m me racine L enfantement doulou
89. uvrir le dictionnaire qui correspond la 1 lettre de ce mot Par exemple si le mot rajouter est mail il faut alors chercher ouvrir le dictionnaire m txt pour l y recopier la suite des autres ou dans l ordre alphab tique de tous les autres mots cl s Ajout d un mot connecteur Si vous d sirez ajouter un mot connecteur que vous estimez pertinent par rapport la structuration d informations des mails que vous recevez r guli rement il suffit d ouvrir le fichier connecteurs txt de l y ajouter et d indiquer la valeur que vous souhaitez lui donner Cette op ration pourrait tre transpos e de la m me mani re pour le cas o vous souhaiteriez ajouter dans le fichier connecteurs non pas un mot connecteur mais v ritablement un mot que vous estimez pertinent et capital dans vos mail et que vous feriez suivre d une valeur cons quente O A tout moment il est possible pour l utilisateur de rajouter directement dans le dictionnaire qui correspond le mot qu il d sire voir affich comme mot clef ANNEXE C resume h include lt stdio h gt include lt stdlib h gt include lt string h gt pour strepy include lt ctype h gt pour isalpha cette structure contiendra les mots et leurs attributs typedef struct Element unsigned char Mot 253 contient le mot ou une ponctuation 255 pour les tests voir avec malloc apres struct Element tElementSuivan
90. x Bref le corbeau est un animal altruiste Swesum Si mentir tait l apanage du corbeau alors il faudrait se taire Le corbeau est un animal g n reux Nous pouvons confirmer travers ces deux r sum s que le logiciel Swesum n a P q 8 pas chang de comportement en d tectant une phrase introduite par le connecteur logique Bref 12 Si mentir tait l apanage du corbeau alors il faudrait se taire Le corbeau est un animal g n reux Il sait soigner donner et garder l amiti des gens Donc le corbeau est un animal altruiste Fin Resume Le corbeau est un animal g n reux Donc le corbeau est un animal altruiste Swesum Si mentir tait l apanage du corbeau alors il faudrait se taire Le corbeau est un animal g n reux Ici encore Swesum n a pas chang de logique de comportement face une phrase introduite par le connecteur logique Donc qui illustrait pourtant d apr s notre comp tence linguistique de mani re tr s forte un r sultat En conclusion nous avons pu remarquer que les deux logiciels respectaient bien le taux de contraction pour le r sum 30 car ils ne retenaient tous deux que deux phrases Par ailleurs nous pouvons dire que le logiciel Resume est plus pertinent que le logiciel Swesum En effet Resume sait g rer la pr sence de connecteurs logiques qui sont des mots cl s servant partitionner un

Download Pdf Manuals

image

Related Search

Related Contents

1M硝酸カリウム溶液  ASUS ROG Sica  Logitech T400 User's Manual  Nokia 6310I Cell Phone User Manual    Eskola-eremuko anafilaxiaren prebentzioa    取扱説明書PDFをダウンロード  User Manual - Northern Tool + Equipment  Manual - Pioneer  

Copyright © All rights reserved.
Failed to retrieve file