Home
Documentation automatique de code
Contents
1. Le premier outil auquel j ai t confront d j cit dans le paragraphe pr c dent est Moses Disponible gratuitement sur http www statmt org moses ce logiciel open source permet de r aliser des entrainements de corpus de textes bilingues afin de g n rer des mod les de traduction Afin de pr parer un corpus de textes qui dans ce cas ci rappelons le est d un c t le code et de l autre les commentaires il me fallait un moyen d extraire ceux ci d un projet Java C est en lisant le m moire d une tudiante du laboratoire GEODES que j ai trouv les outils ad quats Premi rement SableCC qui est un g n rateur de compilateur interpr teur en Java Celui ci permet notamment de repr senter un programme java sous forme d un arbre en XML Ensuite en utilisant J JDOM pour manipuler ces fichiers XML ainsi que le langage de requ tes XPATH pour effectuer des actions pr cises sur les n uds de l arbre il m tait possible de localiser et extraire les commentaires ainsi que le code li ceux ci Finalement afin d optimiser l ensemble de mes requ tes jai appris utiliser au mieux les expressions r guli res 4 3 Impl mentations A partir de ces outils l impl mentation a donc consist coder des fonctionnalit s dans le langage Java permettant d extraire les commentaires et le code li ceux ci d une part mais aussi d autre part d avoir une certaine aisance retravailler les fonctionnalit s po
2. aide d autres projets Semaine 14 5 D cembre au 9 D cembre T l chargement d une vingtaine de projets Java open source et extraction de leurs codes et commentaires l aide de mes outils Entrainement du corpus agrandi nouvelles batteries de tests de traduction valuation et commentaires Semaine 15 12 D cembre au 16 D cembre Pr sentation de fin de stage et discussion de l avancement effectu sur les 15 semaines 3 2 Encadrement L environnement et les conditions de travail ayant aussi leurs influences sur la productivit je d cris ici le milieu dans lequel j ai travaill pendant mes trois mois et demi de stage Je commencerai par pr senter un peu le campus de l universit de Montr al ensuite le laboratoire de G nie Logiciel GEODES et finalement la relations avec mes maitres de stage 3 2 1 L universit de Montr al Le campus de l Universit de Montr al est immense Situ sur le Mont Royal 1 Udem est reconnaissable de loin gr ce son pavillon Roger Gaudry et est un des symboles de la m tropole Sur le campus toutes les nationalit s s y prom nent tel qu il y est rare d y croiser deux fois la m me personne Ce qui est s r c est que l universit de Montr al m rite bien sa renomm e internationale et cela se ressent quand on se prom ne sur le campus 3 2 2 Le laboratoire GEODES et l quipe Situ dans le d partement de d informatique et de recherche op ratio
3. maitrise du laboratoire GEODES sur l extraction des commentaires de classes Java D couverte de ses outils et des outils suivants Le parseur SableCC et la librairie JDom Semaine 3 Octobre au 7 Octobre Compr hension et int gration des outils d velopp s autour de l extraction des commen taires dans un projet Java Modification des outils et impl mentation visant pr parer le corpus de commentaires Apprentissage du langage de requ tes XPATH et des expressions r guli res en Java regex Semaine 6 10 Octobre au 14 Octobre Impl mentation de l extraction des commentaires et du code li ceux ci enregistr dans deux fichiers textes s par s fin de pr parer un bitexte commentaires code parall lis Identification des diff rents types de commentaires Semaine 7 17 Octobre au 21 Octobre Impl mentation de la r cup ration du code du corps d une m thode ou juste de son en t te Choix d utiliser le logiciel open source JHotDraw d fini comme un cas d tude bien document pour effectuer les premiers tests Semaine 8 24 Octobre au 28 Octobre Premier choix de pr processing du corpus impl mentations de nouvelles fonctionnalit s Correction de bugs et optimisations des fonctionnalit s Pr paration du corpus entrainement du corpus premi res batteries de tests de traduc 1 http www statmt org moses tion valuation et commentaires Semaine 9 31 Novembre au 4 Novemb
4. quivalents de deux langues Ces techniques de traduction donnent des r sultats impressionnants voir par exemple les nouveaux traducteurs de Google Le projet consistera dans une premi re phase cr er un corpus de donn es m thodes et leurs commentaires partir des logiciels open source La deuxi me phase consiste adapter des traducteurs existants la probl matique de la g n ration des commentaires gt 2 2 D finition des objectifs Apr s une premi re r union d introduction et d explicitation du contexte l objectif princi pal tait clair tudier la possibilit de g n rer automatiquement des commentaires partir des techniques de traduction automatique statistique et plus pr cis ment des techniques d en trainement de corpus de textes traduits mis en parall les Pour ce faire une s rie d tapes avancements se sont dessin s s est dessin e 7 S approprier le contexte des techniques de traduction statistique corpus de textes traduits mis en parall le entrainer afin de g n rer des traducteurs Se familiariser avec l outil Moses gt logiciel open source d entrainement de corpus notamment en lisant son manuel d utilisateur S int resser aux outils propos s par une tudiante du laboratoire GEODES concernant ses travaux sur les commentaires Pr parer un corpus d entrainement et envisager de le pr processer Entrainer le corpus valuer les r sultats et p
5. A 0 A gt 2 Z M a un Y ri E 2 ES FACULT S UNIVERSITAIRES NOTRE DAME DE LA PAIX INFO M210 STAGE Rapport de Stage Laurent JAKUBINA ljakubin student fundp ac be Maitre de Stage Promoteur de M moire Naji HABRA Houari SAHRAOUI FUNDP Philippe LANGLAIS Universit de Montr al 1 Mars 2012 Table des mati res 1 Introduction 2 Objectifs Ji ENONCE A A nd le ds La OS ou 2 2 D finition des objectifs 408 2 da UNE a SAS A el ae 3 D roulement du stage 3 SEMI E AA A me o A A A au A ten 3 2 Encadrement 3 2 1 L universit de Montr al 3 2 2 Le laboratoire GEODES et l quipe 3 2 3 Les promoteurs Rs a ES SUN Sa vu ere 32A L ROC o ur RE GR RE Den der OM NRA Re HO APPLE LOI E Li a A ul A near 4 Activit s Scientifiques et d veloppements 4 1 Appropriation du contexte Pros Dale DANS A a Ai en ms 4 2 D couverte des outils a a a a 43 Inpl mentationss ve ae e e a a ane rs Mn 4 4 Pr parations du corpus 2 2 4 Masai 408 a th da ne e te led 4 5 Entrainements et Tests de Traductions 4 6 valuations LC D td ee Te AN 4 7 R sultats et Conclusions des tad A a IS A RSS a asas 5 Conclusion 1 Introduction Ce rapport de stage a pour but de r sumer et d expliquer bri vement le d roulement de mon stage effectu dans le cadre de ma deuxi me maitrise derni re ann e de m
6. artir de l extraction des commentaires et du code d un programme Java il est temps de lancer l entrainement l aide de Moses sur le bitexte Cette manipulation va consister sp cifier Moses en entr e le bitexte code commentaire ainsi qu un certains nombres de param tres de configuration Durant l entrainement le logiciel calcule les proba bilit s qu un certain fragment de texte se r p te en parall le dans sa langue source et dans sa langue cible C est ce qu on appelle la traduction statistique que j expliquerai plus dans mon m moire L entrainement est un processus long en fonction de la taille du corpus Pour donner un exemple avec des corpus de plusieurs millions de lignes c est des heures que prend le logiciel pour effectuer les calculs En sortie le logiciel g n re un certain nombre de fichiers qui vont tre pass s en param tre de la commande de traduction Cette commande on l appelle ensuite sur le texte que l on souhaite traduire et en output on re oit le texte traduit Le processus est fonctionnel ce qui nous reste valuer c est la qualit de la traduction g n ration du commentaire 4 6 valuations Comme d j dit dans le paragraphe pr c dent ce que l on cherche valuer c est la qualit de la traduction Pour cela j ai constitu un ensemble de 100 morceaux de code extraits du corpus sur lequel on est entrain de travailler Je les aie ensuite lt traduits gt av
7. aussi d exp riences de travail L approche Ouverture d esprit gt promue par P ducation universitaire en est son apog e avec un stage de cette ampleur Et finalement c est parfois l occasion de faire de magnifiques rencontres 4 Activit s Scientifiques et d veloppements Durant le semainier j ai rapidement parl de toutes les t ches que j ai effectu e durant le stage En effet celle ci n ont pas t d taill e ce que je compte faire avec cette section 4 4 1 Appropriation du contexte Avant de rentrer dans le vif du sujet autrement dit de g n rer automatiquement des com mentaires l aide de la traduction automatique statistique il m a fallu passer un peu en revue la litt rature existante sur ces deux sujets Pour cela j ai lu un certains nombres de papiers et de m moires provenant soit de mes promoteurs soit d Internet Touchant l ing nierie linguistique pour la premi re fois j ai appris aussi les notions de base l aide de cours trouv s sur internet Et finalement afin de me pr parer l entrainement de corpus de bitexte il m a t donn de lire le manuel du logiciel open source Moses et de proc der son installation Dans la foul e j ai r alis quelques entrainements sur des petits corpus donn s dans les tutoriels du manuel La liste des r f rences situ es la fin de ce rapport reprend l ensemble des titres des lectures que j ai effectu e 4 2 D couverte des outils
8. ec le traducteur r sultant de l entrainement effectu avec le dit corpus Je me retrouve alors avec un ensemble de 100 commentaires venant de la traduction que je suis capable d valuer en les comparant avec les 100 commentaires originaux li s aux bouts de code choisis En d finissant une m trique telle que par exemple si le commentaire g n r permet de transmettre le sens exact du commentaire original alors on attribue une valeur lt 3 gt Si par contre le commentaire g n r ne permet pas de comprendre le sens du bout de code ou dans le pire de cas ne repr sente aucune valeur alors on attribue une valeur lt 0 gt A l aide de cette chelle de valeur il est la fois simple et efficace d valuer les traductions g n r es et d mettre comme on le cherchait un avis sur l id e de g n rer des commentaires automatique gr ce la traduction automatique statistique 4 7 R sultats et Conclusions Apr s avoir effectu une s rie d entrainements de bitextes de diff rentes caract ristiques ainsi que des batteries de tests de traduction code commentaire que j ai pu valuer les r sultats sont sans appel Oui la technique de la traduction automatique statistique appliqu e un bitexte code commentaire est fonctionnelle en effet vu que le principe a t tudi pour calculer des probabilit s d apparitions de s rie de caracteres sans aucun rapport avec les langues crites dans le corpus Mais par con
9. especte un r ve
10. nnel DIRO de la facult des Arts et des Sciences le laboratoire de G nie Logiciel permet une quipe de 10 15 personnes de travailler soit dans le cadre de sa maitrise soit dans le cadre de son doctorat Des machines Windows et Linux sont mises dispositions et aussi depuis r cemment un serveur de calcul qui notamment m aura aid durant mes entrainements sur des corpus de grande taille L quipe travaillant au laboratoire supervis e par Houari est tr s sympa et multiculturelle Nous avons notamment organis des repas entre nous pour apprendre mieux nous conna tre ce qui a donn lieu une bonne ambiance durant les dures journ es de labeurs Et pour terminer chaque jeudi matin tait r serv afin que l quipe se mette autour de la table et discute de sujets concernant le laboratoire On assistait aussi au moins une pr sentation d un tudiant du laboratoire la plupart du temps dans le cadre d une pr paration d une pr sentation pour l tudiant en question 3 2 3 Les promoteurs Mes promoteurs respectifs Houari et Philippe se sont montr s tr s disponibles que cela soit par mail ou en allant les chercher directement dans leur bureau Cela a t un plaisir de travailler avec eux Notons aussi que Houari superviseur du laboratoire GEODES passait presque tous les jours afin d avoir les derni res nouvelles sur l avancement du travail Aussi on essayait avec Houari et Philippe de faire a
11. on cursus d tudes des sciences informatiques aux Facult s Universitaires Notre Dame de la Paix Na mur troitement li mon m moire supervis par mon promoteur et professeur Naji Habra mon stage a eu lieu l Universit de Montr al plus pr cis ment au D partement d Informa tique et Recherche Op rationnelle ou DIRO J y ai travaill sous la tutelle du professeur Houari Sahraoui membre de l quipe GEODES g nie logiciel et de Philippe Langlais membre de l quipe RALI ing nierie linguistique Mon travail a consist aborder l id e de lt G n ration automatique de commentaires en utilisant les techniques de la traduction automatique statis tique gt Je commencerai donc par expliciter un peu plus le sujet ainsi que les objectifs Ensuite je d ploierai un paragraphe sur le d roulement du stage suivi d explications plus pouss es sur certaines activit s et d veloppements effectu s durant le stage Et finalement je terminerai par une conclusion synth tisant mon rapport au stage 2 Objectifs 2 1 Enonc Voici l nonc tel qu il m a t propos lt Le sujet consiste tudier la possibilit de g n rer des commentaires pour des l ments de programmes tels que les m thodes partir de corpus de donn es paires code commentaire Pour ce faire nous pensons l utilisation des techniques de traduction statistiques qui utilisent une base d exemples paire de segments de texte
12. r parer une validation Dans la suite du rapport chaque tape sera d abord situ e dans le temps gr ce au semainier et expliqu plus en d tails dans la section sur les activit s scientifiques et les d veloppements 3 3 1 D roulement du stage Semainier Afin d avoir en premier lieu une vue globale du d roulement du stage j ai d cid de com mencer par le semainier Pour chaque semaine j y explique bri vement ce que j ai fait Il faut se rapporter la section 4 de mon rapport de stage pour avoir plus de d tails sur certaines des ac tivit s effectu es Notons que toutes les lectures effectu es durant le stage seront explicitement nomm es dans la bibliographie situ e la fin de ce rapport Semaine 1 5 Septembre au 9 Septembre D couverte de la litt rature existante autour des th mes de lt Traduction Automatique Statistique gt et lt G n ration Automatique de commentaires gt Lectures d articles et mise en contexte Semaine 2 12 Septembre au 16 Septembre D couverte de Moses logiciel de traduction automatique statistique permettant l entrai nement de corpus de textes installation et lecture de son manuel d utilisateur Semaine 3 19 Septembre au 23 Septembre Suite et fin de la lecture du manuel d utilisateur de Moses Lecture rapide de diff rents m moires sur la traduction automatique statistique Semaine 4 26 Septembre au 30 Septembre Lecture du m moire d une tudiante en
13. re Choix de pr processing du corpus impl mentations de nouvelles fonctionnalit s Adapta tion du corpus entrainement du corpus modifi nouvelles batteries de tests de traduction valuation et commentaires Impl mentation du splitter d identifiants Semaine 10 7 Novembre au 11 Novembre Adaptation du corpus splitter d identifiants entrainement du corpus modifi nouvelles batteries de tests de traduction valuation et commentaires Semaine 11 14 Novembre au 18 Novembre Correction de bugs et optimisations des fonctionnalit s Adaptation du corpus entrainement du corpus modifi nouvelles batteries de tests de traduction valuation et commentaires Choix de compl ter le corpus avec toutes les versions de JHotDraw Semaine 12 21 Novembre au 25 Novembre T l chargement de toutes les versions de JHotDraw et extraction de leurs codes et com mentaires l aide de mes outils Entrainement du corpus agrandi nouvelles batteries de tests de traduction valuation et commentaires Impl mentation d un script d automatisation de traductions Choix d essayer de g n rer des commentaires pour une version r cente de JHotDraw partir des anciennes versions Semaine 13 28 Novembre au 2 D cembre Adaptation du corpus en fonction du dernier choix entrainement du corpus modifi nouvelles batteries de tests de traduction valuation et commentaires Choix d agrandir au maximum le corpus l
14. tre les commentaires gt g n r s s il on peut encore appeler cela des commentaires sont de valeurs nulles Les commentaires gt g n r s se retrouvent tre une s rie de mots sans aucun lien entre eux sans aucun sens Cependant de nombreuses am liorations sont encore applicables pr processer le corpus selon d autres id es retirer les mots cl s balises particuli res adapter la taille des phrases du corpus modifier le logiciel d entrainement ex Moses euristiques etc 5 Conclusion La conclusion finale de ce rapport ne va pas tre longue et pour cause la section 3 3 Appr ciation apporte d j une conclusion concernant le d roulement global du stage et la section 4 7 R sultats et Conclusions donnent les conclusions des r sultats des exp riences effectu es J inviterai donc le lecteur aller lire ces deux points afin de compl ter gt cette conclusion Mais pour finir je dirai que les objectifs ont t atteins L id e d appliquer la traduction automatique statistique sur un corpus code commentaire afin de g n rer des commentaires a t fonctionnelle dans un sens Les r sultats sont d cevants sur la qualit de la traduction videmment mais l id e est viable et peut encore tre tudi e et r fl chie sur de nombreux points J espere donc que la recherche va continuer sur cette voie car en effet la g n ration automatique de commentaires n est elle pas pour tout programmeur qui se r
15. u moins une r union par semaine afin d valuer les progr s effectu s ainsi que d terminer les prochaines tapes du d veloppement 3 2 4 Les lt cot s gt Par l expression les lt cot s gt je parle videmment des possibilit s d exp riences en dehors du travail qu il tait possible de vivre en faisant son stage Montr al Et en effet il n y avait pas moyens d tre d u Montr al plus qu une ville une m tropole poss dant plusieurs visages telle que chacun peut y trouver un endroit o il se sent chez lui Ces trois mois et demi pass s l bas m ont permis de bien cerner la mentalit montr alaise mais aussi de go ter un peu la culture qu b coise notamment en faisant quelques voyages en dehors de la m tropole Je ne d taillerai pas chaque voyage mais je terminerai en ajoutant que la possibilit de faire un stage l tranger ne fait que renforcer l exp rience du stage 3 3 Appr ciation Pour terminer cette section sur le d roulement du stage et avant d expliquer plus en d tails les activit s scientifiques et les d veloppements effectu s durant le stage voici en quelques phrases mon appr ciation r sum e vis vis de l exp rience unique qu t de faire mon stage de deuxi me maitrise Montr al et plus pr cis ment au laboratoire GEODES de l Universit de Montr al En plus d tre un magnifique voyage on se sent sortir de ce moment avec un gain de maturit mais
16. ur permettre de r pondre au besoin de pr processer les corpus en fonction des exp riences qu il serait n cessaire d effectuer C est donc une s rie de fonctionnalit s que j ai cr es modifi es et adapt es dans le temps en plusieurs versions D tecter de quel type est un commentaire de classe de m thode ou autres et pouvoir choisir quel type de commentaire on traite R cup rer le code li aux commentaires s lectionn s Analyser et traiter les caract res sp ciaux afin de d avoir un corpus propre Splitter d identifiants couper un nom de m thode en fonction des majuscules Etc 4 4 Pr parations du corpus Avant de se lancer dans l entrainement il me fallait videmment du contenu Contenu sur lequel j allais appliquer mes outils afin de pr parer un corpus de bitexte code commentaire Ce contenu c est un ou des programmes Java desquels on va extraire le code et les commentaires Conseill par Houari car connu pour respecter certains bons gt principes de codage et no tamment d tre bien document cas d universit c est le logiciel open source JHotDraw qui m a servi de base pour les premi res exp riences d entrainements et de tests d entrainements Par la suite et comme d j not dans le semainier j ai d t l charger et traiter une vingtaine de projet open source diff rents afin d agrandir le corpus 4 5 Entrainements et Tests de Traductions Une fois le corpus cr p
Download Pdf Manuals
Related Search
Related Contents
TDP EX20 - Toshiba INSTRUCTIONS-INSTRUCCIONES SMC Networks 10/100 Switch User Manual Walkie Talkie PRIXTON T50 PT-LT – Leak Test Apparatus Instruction Manual/Betriebsanleitung/Mode d`emploi RATICIDA IBYS 200 B Dixon Marking Tools ZTR 304 User's Manual Learning Resources LER3060 Copyright © All rights reserved.
Failed to retrieve file