Home

PFE 2000-2001 - Doc`INSA

image

Contents

1. Text Encoding Initiative TEI est un projet international qui a comme objectif la conception d un guide pour l encodage des textes sous forme lectronique Il s agit d un projet ax sur les textes litt raires et est d velopp par plusieurs universit s Oxford Virginia Bergen et soutenu par des associations litt raires comme Association for Computers and the Humanities ou Social Science and Humanities Research Council du Canada Une DTD a t r alis e pour le langage SGML Cette DTD d crit la plupart des formats des textes en sciences humaines Elle est compos e de plusieurs modules qui peuvent tre combin s pour cr er une DTD adapt e aux besoins sp cifiques Le projet fournit une DTD obtenue par cette m thode Cette DTD appel e TEI Lite est une version all g e de l original et contient les l ments essentiels L en t te de la DTD TEI contient des informations analogues celles que l on trouve sur la page de titre d un texte imprim Elle contient jusqu quatre parties e une description bibliographique du texte lectronique e une description de la mani re dont il a t cod e une description non bibliographique du texte le profil du texte e un historique de r vision Le corps du document TEI comporte les l ments suivants e FRONT regroupe tous les l ments en t tes page de titre pr faces d dicaces etc situ s avant le d but du texte lui m m
2. INSA Le format XML est le format qui a t choisi pour l archivage des th ses Ce rapport est divis en deux grandes parties Dans une premi re partie nous avons analys les outils de conversion existants sur le march pour pouvoir choisir ceux qui pourraient tre utiles dans ce projet et qui pourraient tre int gr s dans une chaine de conversion Dans une deuxi me partie nous avons analys la structure logique des th ses pour pouvoir proposer un mod le de DTD Document Type Definition n cessaire la d finition du document th se XML Ce projet est r alis pour Doc INSA et il se d roule dans le cadre d une tude du laboratoire LISI du D partement Informatique sur la recherche d information dans les ressources lectroniques 2 2 D roulement du projet Le projet comprend les tapes suivantes e La Phase d initialisation Pendant cette p riode seront r cup r s les besoins et sera d fini l organisation du projet e La Phase d analyse de l existant Durant cette p riode seront r cup r s tous les l ments n cessaires la conception et au d veloppement de la cha ne de conversion e Etude des formats de stockage des fichiers textes RTF et XML e Etude des outils existants sur le march pour la conversion RTF vers XML e Etude de la structure des th ses et des DTD existantes e La Phase de r daction du cahier des charges de I application La Phase de conception du prototype qui d
3. Formulaire Th se Rapport final 18 41 Sorin NECULITA INSA Lyon Code Bibliographique PFE Conception d une cha ne de conversion des th ses RTF en format XML Formulaire Th se LISI amp Doc INSA Code BIU Folio Les l ments composant le corps de la th se Les pr liminaires Sous El ment Source Destinataire D dicace F Th se Remerciements F Th se Table de mati res Th se Liste des figures F Th se Liste des tableaux F Th se Le contenu Introduction Th se Chapitres Th se Sections 1 2 3 Th se Conclusion Th se Les post liminaires Bibliographie Th se Annexes Th se Rapport final 19 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML Sch ma de la th se La DTD d finissant la structure d une th se INSA est propos e dans le tableau ci dessous Dans ce tableau pour chaque l ment est d fini son nombre d occurrences le fait qu il soit facultatif ou non et qu il soit une m ta donn e ou non El ments sous l ments Nb O F M occurrences Th se Page de Titre 1 O N Ordre 1 O M Date 1 O M Titre FR 1 O M Sous titre FR 0 1 F M Titre ANG 0 1 F M Sous titre ANG 0 1 F M Discipline 0 1 F M Ecole Doctorale 1 O M Formation Doctorale l n O M Auteur l n O M Qualit
4. INSA des th ses RTF en format XML b Majix version 1 2 1 Cette application dispose d une interface graphique et d un acc s en mode ligne de commande Elle convertir directement des fichiers DOC Elle r cup re le style pr d fini dans word et le style de caract res des l ments Ce logiciel ne convertit pas e les dessins e les quations Les images sont r cup r s en format WMF c RTF2XML version 0 9 Cette application est un script interpr t par l outil Omnimark Le script est compos d un ensemble de fichiers d finissant une suite de r gles de conversion Les l ments r cup r s e En t tes et pieds de pages e tableaux e listes e images li es ou int gr es dans un document e dessins seulement les zones de texte e styles Les l ments non r cup r s e les dessins sauf les zones de texte e les quations Equation Editor conversion en image Caract ristiques de conversion e les images sont r cup r es en fichier externe sous format non compress WMF e le style est r cup r comme attribut de la balise lt p gt paragraphe ex lt p stylename header fontsize 20 gt lt string fontsize 20 gt INSA de Lyon lt string gt lt p gt Le style est int gr dans le fichier XML et non dans une CSS part L application est int r ssante pour notre cha ne de conversion car elle permet de r cup rer la plus part des l ments d un document
5. Jury gt lt Jury gt MM Jean lt string caps on gt Brau lt string gt Pr sident du Jury lt Jury gt lt Jury gt Jean Luc lt string caps on gt Hubert lt string gt Examinateur lt Jury gt lt Jury gt Christian INARD Rapporteur lt Jury gt lt Jury gt Jean lt string caps on gt Lebrun lt string gt Rapporteur lt Jury gt lt Jury gt Gilles lt string caps on gt Rusaouen lt string gt Directeur de Th se lt Jury gt lt Jury gt Stig lt string caps on gt skelboe lt string gt Examinateur lt Jury gt lt Jury gt Paul lt string caps on gt Stangerup lt string gt Rapporteur lt Jury gt lt Jury gt lt Jury gt lt Copyright gt Cette th se a t pr par e au Laboratoire CETHIL quipe Thermique du B timent de 1 amp x2019 INSA de Lyon lt Copyright gt lt texte10 gt lt texte10 gt lt p gt lt p gt lt section gt lt ATT00033 gt lt transdoc gt Exemple de fichier CSS g n r lt STYLE TYPE text css gt lt header fontsize 20 bold on italic default scaps default color default caps default rev status default subscript default align default hidden default charset 0 superscript default rev author default underline default fontname default rev time default expandtwips default strike default footer align right fontsize 20 italic default scaps default color default caps default rev status default subscript default hidden default charset 0 bold default supe
6. LYON lt Universite gt lt p gt pour obtenir lt p gt lt Grade gt LE GRADE DE DOCTEUR lt Grade gt lt Formation_Doctorale gt F lt string scaps 0n gt ORMATION DOCTORALE lt string gt G nie Civil sols mat riaux structure physique du batiment lt Formation_Doctorale gt lt Ecole_Doctorale gt lt string caps on gt Ecole doctorale lt string gt M canique Energ tique G nie Civil Acoustique lt Ecole_Doctorale gt lt p gt par lt p gt Rapport final 39 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML lt Auteur gt Monika Woloszyn pouse Vallon lt Auteur gt lt Discipline gt Ing nieur G nie Civil et Urbanisme lt Discipline gt lt Discipline gt Dipl m e de l INSA de Lyon lt Discipline gt lt textel1_these gt lt textel 1_these gt lt textel1_these gt lt textel 1_these gt lt textel1_these gt lt textel 1_these gt lt Titre_these gt Mod lisation hygro thermo a raulique des b timents multizones lt Titre_these gt lt Titre_these gt proposition d une strat gie de RESOLUTION du syst me coupl lt Titre_these gt lt Titre_these gt lt Titre_these gt lt textel1_these gt lt textel 1_these gt lt textel1_these gt lt textel 1_these gt lt Soutenance gt Soutenue le 26 novembre 1999 devant la Commission d amp x2019 Examen lt Soutenance gt lt textel1_these gt lt textel 1_these gt lt Jury gt Jury lt
7. ter autant de fois que de co tutelles DC Contributor Nom de l tablissement composante sous composante Universit de soutenance DC Contributor Nom de l tablissement composante sous composante co tutelle zone a r p ter autant de fois que de membres de jury DC Coverage ft DC Creator person Nom pr nom de l auteur zone r p ter si plusieurs auteurs ex text xml No de la th se attribu par l universit langue de la th se par d faut fre DC Publisher org Universit responsable de l dition lectronique de la th se DC Relation f o DC Subject Mots cl s fran ais de l auteur utiliser le comme s parateur de mots cl s Rapport final 22 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA sisi des th ses RTFen format XML sss DC Subject Mots cl s anglais de l auteur utiliser le comme s parateur de mots cl s DC Subject Mots cl s de l auteur dans une autre langue utiliser le comme s parateur de mots cl s DC Subject Mots cl s fran ais conformes au th saurus Rameau ou au MeSH en fran ais utiliser le comme s parateur de mots cl s pour un m me vocabulaire de r f rence r p ter la zone si le vocabulaire de r f rence est diff rent DC Subject quivalent du code de classification sur le bordereau th se ou pour un autre type de classification r f renc e utiliser le comme s parateur de mots cl s pour une m m
8. Facultatif Les l ments composant la Page de Titre Sous El ment Source Destinataire N Ordre M Formulaire Th se Folio administratif Ann e et date M Th se Formulaire Folio Annonce Titre FR M Th se Formulaire Sous titre FR F M Folio Annonce Formation doctorale M Th se Folio Annonce Ecole doctorale M Th se Qualit de l auteur F Th se Auteur M Th se Formulaire Folio Annonce Jury M Th se Folio Annonce Rapport final 17 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion des th ses RTF en format XML Laboratoire de recherche Th se LISI amp Doc INSA Type de doctorat M Th se ajouter Discipline F Formulaire Th se Th se Formulaire Titre ANG F M Sous Titre ANG F M Mention copyright F M Th se D autres l ments Liste des professeurs Th se Liste des coles doctorales Th se R sum FR M Formulaire Th se Mots cl FR M R sum ANG M Formulaire Th se Mots cl ANG M Les l ments composant la partie administrative Autorisation de diffusion par Formulaire Th se l auteur Autorisation de reproduction Formulaire Th se Autorisation diffusion par le Formulaire Th se jury M Mention de correction Formulaire Th se Mention de confidentialit Formulaire Th se Date de fin confidentialit
9. RIF2XML program you must first obtain OmniMark LE from Omnimark Technologies at http www omnimark com Version 4 or later is prefered Once you have installed OmniMark LE then you can run this program from the command line as follows omle s rtf2xml xom of output xml input rtf This should produce a valid XML file Note you can pass multiple RTF files as input and they will be concatinated into a single XML file If you want to use SGML instead and your parser does not support Unicode i e if you are using OmniMark LE Version 3 x you should run it as follows omle s rtf2xml xom a no unicode of output xml input rtf or alternatively omle s rtf2xml xom a escape unicode of output xml input rtf Command line options Switches a output sgml Outputs SGML instead of XML This switch is an alias for the escape unicode option since all it does is set escape unicode to true which results in ASCII SGML as the output format a no unicode Supresses all Unicode Outputs alternative characters if present in the RTF This also results in the xml ents and sdata ents Rapport final 35 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML parameter entities being set to IGNORE and INCLUDE respectively in the document prolog Note this means that the output will be SGML instead of XML a escap ntit
10. attendre la finalisation des fonctionnalit s de conversion r cup ration des dessins des quations en MathML L outil qui para t le plus prometteur de ce point de vue est OpenOffice dont la sortie est pr vue pour l automne 2001 Rapport final 32 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML 7 R f rences bibliographiques XML Extensible Markup Language 1 0 Second Edition on line lt URL http www w3c org TR 2000 REC xml 20001006 gt OpenOffice Open Office org Source Project on line lt URL http www openoffice org gt UpCast Up Cast on line lt URL http www infinity loop de index html gt XMLAppache Projet XML Apache on line lt URL http xml apache org gt Majix Majix on line lt URL http tetrasys dhs org majix html gt RTF4XML RTF4XML on line lt URL http www hcu ox ac uk TEI gt ISOXML ISO 12083 XML on line lt URL http www xmlxperts com 12083xml htm gt TEI DTD TEI on line lt URL http www hcu ox ac uk TEI gt DocBook DocBook on line lt URL http www oasis open org docbook gt revoir ETD Electronic Thesis Disertation on line lt URL http csgrad cs vt edu mbjorklu etdml gt OpeneBook Open eBook on line lt URL http openebook org gt MathType MathType on line lt URL http www mat
11. auteur 0 1 F Jury 1 O M Pr sident 1 O Membre l n O Personne Fonction Laboratoire de recherche l n O Copyright 0 1 F M Liste professeurs 1 O Liste coles doctorales 1 O R sum FR 1 O M R sum ANG 1 O M Mots cl FR 1 O M Mots cl ANG 1 O M Corps de la th se 1 O D dicace 0 1 F Remerciements 0 1 F Table de mati re 1 O Liste des figures 0 1 F Liste des tableaux 0 1 F Introduction 1 O Chapitre l n O Section 0 n F Conclusion 1 O Bibliographie 1 O Annexes 0 1 F Partie Administrative 1 Autorisation diffusion Auteur 1 Autorisation diffusion Jury 1 M Autorisation reproduction 1 Mention de correction 1 Rapport final 20 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML Mention de confidentialit 1 Code bibliographique 1 Code BIU 1 b M ta donn es Dublin Core Dublin Core Metadata Initiative est une organisation ayant pour but la promotion d un standard de m ta donn es Les meta donn es d une ressource lectronique propos es par la sp cification Dubli Core sont les suivants e TITLE le nom du document CREATOR l auteur du document SUBJECT DESCRIPTION un r sum sur le contenu du document PUBLISHER le nom de l diteur e CONTRIBUTOR le nom des personnes ayant eu une contribution au contenu du document e DATE le format recommand est le AAAA MM JJ comme sp cifi dans l
12. donn es Groupe de travail minist riel 22 d La DTD Open eBook 23 e ETD Electronic Thesis and Dissertation Initiative 25 f DocBook 26 g ISO 12083 XML DTDs 27 h DTD TEI 28 i Conclusion sur les DTD 29 5 Pr sentation de la maquette 30 5 1 Sch ma de l application 30 5 2 Fonctionnement et r sultats 30 5 3 Points restants faire 31 Conclusion 32 R f rences bibliographiques 33 8 Annexes 34 Annexe 1 34 b Annexe 2 35 c Annexe 3 38 d Annexe 4 39 Rapport final 2 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML 1 Remerciements Je remercie tout d abord Mme Monique JOLY responsable de Doc INSA pour m avoir accueilli dans le cadre de son service Je tiens a remercier aux enseignantes responsables de mon projet Mme B atrice RUMPLER et Mme Sylvie CALABRETTO pour leurs aide Un grand remerciement j adresse 4 Mme Dalila BOUDIA pour ses conseils et son aide dans la r daction des rapports Rapport final 3 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML 2 Le Projet 2 1 Objet L objectif du projet est la r alisation d une cha ne de conversion du format RTF Rich Text Format en XML eXtensible Markup Language des th ses lectroniques soutenues P INSA de Lyon et d pos es la biblioth que scientifique et technique Doc
13. gt SINSR L YON LISI amp Doc INSA D partement Informatique Sorin NECULITA PFE 2000 2001 Conception d une cha ne de conversion format RTF vers XML Rapport final Description Projet PFE 2000 2001 Sorin NECULITA Titre Conception d une cha ne de conversion des th ses RTF en format XML Type de document Rapport final Version 1 0 Date 23 juillet 2001 Auteur Sorin NECULITA Distribution LISI B atrice Rumpler Sylvie Calabretto Doc INSA Monique Joly Dalila Boudia Jean Michel Mermet INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML Sommaire 1 Remerciements 3 2 Le Projet 4 2 1 Objet 4 2 2 D roulement du projet 4 2 3 Analyse des besoins 4 3 Contexte 6 3 1 Les th ses soutenues l INSA de Lyon 6 3 2 Int r t de la sauvegarde en format XML 8 4 Analyse de l existant 10 4 1 Les applications de conversion 10 a UpCast version 2 0 10 b Majix version 1 2 1 11 c RTF2XML version 0 9 11 d MathType version 4 11 e Word version 2000 12 f Le projet OpenOffice version 619 13 g Le projet OpenOffice et MathML 13 h RTF4XML 13 i Conclusion sur les outils de conversion 15 4 2 Les DTD 17 a Structure d une th se soutenue l INSA de Lyon 17 b M ta donn es Dublin Core 21 c M ta
14. la cr ation des quations math matiques A l ouverture d un document MSOffice les quations cr es avec le logiciel Equation Editor seront converties dans le format StarMath ou si l utilisateur le d sire seront maintenues dans le format d origine La conversion Equation Editor StarMath est bijective une quation crite en langage StarMath sera au moment de l exportation du fichier en format DOC enregistr e en langage Equation Editor Pour notre projet la conversion des quations en format StarMath est souhaitable Cela permettra d enregistrer une quation en format MathML plut t qu en format binaire ZIP La conversion des quations StarMath en MathML est encore en d veloppement Quelques informations sur cette conversion sont disponibles sur la liste de discutions devat xml openoffice org h RTF4XML RTF4XML est un outil de conversion produit par la soci t d dition Publilog Ce logiciel doit permettre la r cup ration la plus compl te des documents lectroniques RTF4XML convertit des fichiers au format RTF en XML Un syst me client serveur permet de d poser des fichiers RTF sur le serveur et de les r cup rer en XML PDF et TeX Les l ments RTF pris en charge par outil de conversion e Les paragraphes et le style des paragraphes e Les tableaux e Les quations math matiques sont converties en MathML L
15. outil convertit sans probl mes les quations dit es avec Equation Editor par contre des probl mes peuvent appara tre avec les Champs d Equation Le r sultat de la conversion de ce type de champs est un mixage de XML et MathML Rapport final 13 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML Les images incorpor es sont enregistr es en format EPSF Encapsuled PostScript File vectoriel ou bitmap Les prochaines versions devraient convertir ces images en d autres formats TIFF JPEG ou d autres Les notes de bas de page Le style est compl tement r cup r La conversion g n re deux fichiers un fichier contenant la feuille de style le style que l on retrouve dans le mod le du document RTF et un autre fichier contenant le document avec des informations de style suppl mentaires les exceptions de pr sentation Le style est r cup r sous la forme d attributs de I l ment paragraphe Cela entraine donc un post traitement pour convertir ces attributs en noms de balises pour permettre la validation du document par rapport a une DTD Les l ments qui ne sont pas encore g r s Les en t tes des pages Les zones de texte Les images li es Les objets dessin es Leur r cup ration semble assez d licate car il faut d velopper un interpr teur du module graphique de Word Les notes Le marquag
16. C a labor la sp cification de interface des applications traitant des fichiers XML les interfaces DOM Document Object Model et SAX Simple API for XML et d autre part il existe des librairies de fonctions bas es sur ces sp cifications et distribu es gratuitement voire m me en open source ex le projet XML Apache e XML tend remplacer le langage HTML sur I Internet car il le d passe en possibilit s d utilisation facilit de navigation de recherche dans les documents d organisation de la pr sentation et de la mise en page on voit d ja apparaitre avec les derniers navigateurs Internet des pages Web enti rement d velopp es en XML e XML est adaptable extensible il peut tre transform selon les besoins selon le type des donn es 4 traiter Dans notre projet de conversion des th ses scientifiques nous avons apport un grand int r t au MathML MathML est un langage XML qui d crit les formules math matiques Une question importante a t la modalit de conversion en MathML des quations Equation Editor 3 02 dit es dans les documents RTF Les int r ts de la sauvegarde en MathML sont les suivants e MathML tend devenir le langage universel de description des formules math matiques Rapport final 8 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML e MathML permet de r utiliser les quation
17. FR div ResumeFR mso style name Resume FR margin 0cm margin bottom 0001pt Rapport final 15 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML mso pagination widow orphan text autospace none font size 10 0pt font family Comic Sans MS mso fareast font family Times New Roman mso bidi font family Times New Roman font weight bold Utilisation de ce style lt p class ResumeFR gt Style personnalis lt p gt Rapport final 16 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML 4 2 Les DTD Cette partie du rapport est d di e l tude de la structure des th ses soutenues l INSA de Lyon et des DTD propos es par les divers organismes de standardisation Les DTD analys es sont Open eBook ETD DocBook ISO 12083 XML Book TEI Nous pr sentons aussi la sp cification des m ta donn es propos par Dublin Core a Structure d une th se soutenue l INSA de Lyon Nous pr sentons dans cette partie les l ments composant la th se le tableau liste les l ments et les documents source et destination Les documents qui font partie d une th se sont e la Th se e le Formulaire e le Folio Administratif e l Annonce de soutenance Description de la notation M Meta donn es F
18. RTF En plus on peut facilement l adapter en rajoutant de nouvelles r gles de conversion d MathType version 4 MathType est la nouvelle version du logiciel Editeur d Equations dit par Design Science MathType dispose d un outil de conversion des champs d quations en plusieurs formats parmi lesquels MathML Il y a 4 versions de convertisseur MathML chacune est adapt e un navigateur html xml Amaya La conversion est r alis e par l interpr tation d un fichier texte qui contient une suite de r gles de conversion L application est adaptable il est possible de modifier ces fichiers et d ajouter nos propres r gles de conversion Rapport final 11 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML La conversion peut tre effectu e e a partir de Word en utilisant un menu MathType cette conversion d bouche sur un document contenant tous les champs d quations du document original convertis en MathML e a partir d une API donc r cup ration des fonctionnalit s MathType dans le code d une autre application e Word version 2000 Word permet la conversion d un document DOC dans le format XHTML Le fichier obtenu respecte les normes XML mais il est adapt a l affichage dans le navigateur MS Explorer Le style du document peut tre r cup r dans un fichier CSS Les l ments r cup r s so
19. SA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML d Annexe 4 Exemple de fichier XML g n r lt xml version 1 0 encoding ISO 8859 1 gt lt transdoc Nom_These exemple gt lt ATT00033 fileName ATT00033 rtf imgFilesPath ATT00033_files charset ANSI gt lt meta gt lt title gt N Ordre 99 ISAL 0089 lt title gt lt author gt D partement IF lt author gt lt creation date gt lt year gt 2001 lt year gt lt month gt 5 lt month gt lt day gt 2 lt day gt lt hour gt 15 lt hour gt lt minute gt 32 lt minute gt lt creation date gt lt revision date gt lt year gt 2001 lt year gt lt month gt 5 lt month gt lt day gt 2 lt day gt lt hour gt 15 lt hour gt lt minute gt 34 lt minute gt lt revision date gt lt company gt INSA de LYON lt company gt lt template gt THESE dot lt template gt lt meta gt lt section gt lt header page default gt lt header gt lt footer page default gt lt field gt lt fldinst gt PAGE lt fldinst gt lt fldrslt gt 2 lt fldrslt gt lt field gt lt footer gt lt textel 1_these gt N Ordre 99 ISAL 0089 lt string fontsize 24 gt lt string gt Ann e 1999 lt texte 1 1_these gt lt textel 1_these gt lt textel 1_these gt lt p gt THESE lt p gt lt p gt Pr sent e devant lt p gt lt Universite gt L amp x2019 INSTITUT NATIONAL DES SCIENCES APPLIQUEES DE
20. a norme ISO 8601 e TYPE la nature du contenu e FORMAT d crit le format physique et logiciel du document permet de d finir par exemple la taille ou la dur e de la ressource Cette m ta donn e est utile pour connaitre le logiciel de destination e IDENTIFIER un num ro d identification unique a peut tre un URL un ISBN ou autre e SOURCE permet d identifier le document parent dans lequel on retrouve cette ressource e LANGUAGE d finit la langue dans laquelle a t r alis le document pour la notation l organisation Dublin Core recommande la RFC1766 deux lettres pour Videntification de la langue plus ventuellement deux lettres pour l identification du pays Ex en uk e RELATION une r f rence vers une ressource li e e COVERAGE d claration d un espace temps concern par le contenu du document e RIGHTS information concernant les droits de copyright Rapport final 21 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML c M ta donn es Groupe de travail minist riel La sp cification des m tadonn es propos e par le groupe de travail du Minist re Fran ais de l Education est bas sur la sp cification Dublin Core DC Contributor person Nom pr nom du directeur de th se Directeur DC Contributor person Nom pr nom des membres du jury et rapporteurs selon leur r le zone r p
21. ann e P INSA de Lyon sont soutenues environ 120 th ses Ces th ses sont d pos es sous format papier Doc INSA consultation et pr t Depuis 1997 Doc INSA propose aux doctorants de diffuser leurs th ses sur internet Pour cela ils doivent fournir leurs th ses sous format lectronique avec une autorisation de diffusion Contrat fin de diffusion d un travail universitaire Les formats accept s sont le RTF et le LATEX 95 des th ses sont fournies sous format RTF le reste de 5 sous format LATEX Ces th ses sont diffus es sur le WEB sur le site CITHER Consultation en texte Int gral des TH ses En R seau l adresse lectronique suivante http csidoc insa lyon fr these index html Statistique de diffusion des th ses sur CITHER 1997 1998 1999 Chaque th se dispose sur le site d une page d entr e en format HTML appel e pont d embarquement Cette page est structur e sous la forme d un sommaire avec des liens hypertextes vers les fichiers contenant les chapitres de la th se Ces fichiers sont propos s sous le format PDF Le pont d embarquement contient en plus les m tadonn es de la th ses Ces m tadonn es sont cach es et d crivent la th se nom pr nom titre directeur mots cl s r sum s en fran ais et en anglais Les moteurs de recherche comme le moteur Altavista utilise ces m tadonn es pour indexer les pages web Une fois index es ces pages peuvent tres ret
22. at XML e PS Open eBook est bas sur le langage XML Un syst me de lecture Open eBook est un processeur XML Un document bas sur ce format a les caract ristiques suivantes e Tl est un document XML valide e Tl est conforme la DTD Open eBook e Il sera conforme la sp cification XHTML ce qui le rendra lisible par les navigateurs qui supporte ou supporteront la norme HTML 4 Open eBook d finit un langage de style bas sur le CSS1 et CSS2 en utilisant une sous partie des l ments d finis dans ces sp cifications et en rajoutant quelques l ments suppl mentaires pour la gestion des en t tes et des bas de page Open eBook supporte la norme Dublin Core pour la gestion des m ta donn es Rapport final 24 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML e ETD Electronic Thesis and Dissertation Initiative ETD est le nom attribu par l Universit Virginia Tech Graduate School USA aux th ses publi es en format lectronique Une ETD est une th se dont le contenu respecte la DTD d sign e sous le nom de ETD ML con ue par le groupe de travail sur les th ses de Virginia Tech La r alisation de la DTD a t faite en partant d une analyse sur les th ses et les dissertations existantes et en analysant les r gles r gissant leur d p t Une ETD est compos e de trois parties e FRONT MATTER corre
23. bouchera sur la r alisation d une maquette permettant de convertir les theses en format XML 2 3 Analyse des besoins Doc INSA re oit les th ses au format RTF en un seul ou en plusieurs fichiers L objectif est de convertir tous ces fichiers en format XML et de les concat ner pour n avoir qu un seul document final la th se en format XML La conversion doit tre compl te aucune information ne doit tre perdue qu il s agisse du contenu ou du style Il faudra obtenir en plus de la th se en format XML le fichier CSS Cascading Style Sheets contenant le style du document Le style et le contenu seront diff renci s et enregistr s dans deux fichiers distincts Rapport final 4 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML Les l ments non textuels images qui ne peuvent pas faire partie du document XML seront enregistr s sous format binaire dans des fichiers externes Le document XML contiendra des pointeurs vers ces fichiers externes L application sera d velopp e pour les plate formes Windows NT Il faudra convertir les quations dit es avec Equation Editor 3 0 en format MathML de pr sentation Rapport final 5 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML 3 Contexte 3 1 Les th ses soutenues l INSA de Lyon Chaque
24. d Information Standards Cette DTD a comme principal domaine d application mais sans y tre limit la structuration des livres lectroniques ayant comme sujet informatique documentation tutorials etc Il existe une version SGML et une version XML de la DTD DocBook La DTD DocBook est compos de 5 documents e dbpoolx mod d finit les objets et les l ments faisant parties d un document e Dbhierx mod est sp cialis dans les manuels et les documentations Ici est d finie la hi rarchie des diff rentes parties du document e Dbnotnx mod d clare les diff rentes entit s standards jeux de caract res les formats de fichier etc e Dbcentx mod d clare d autres entit s comme les notations math matiques e Dbgenent mod dans ce fichier on peut inclure les entit s personnalis es M me si la DocBook est assez massive la pr face contient plus de 40 l ments titre sommaire auteur etc on ne peut pas l utiliser pour d finir le contenu d une th se Il manque des champs comme le d partement l cole le jury Rapport final 26 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML g ISO 12083 XML DTDs Cette norme se propose de d finir plusieurs formats de DTD pour les documents crits en langage XML On retrouve quatre versions de DTD XML Article DTD XML Book DTD XML Se
25. e e GROUP regroupe plusieurs textes unitaires ou groupes de textes e BODY regroupe le corps entier d un texte unitaire seul l exclusion des pi ces liminaires ou annexe e BACK regroupe toutes les annexes qui suivent le texte principal La page de titre regroupe les l ments suivants e DOCTITLE contient le titre d un document y compris tous ses constituants tel que pr sent sur une page de titre doit tre partag en l ments TITLEPART e TITLEPART contient une subdivision ou division du titre d une ceuvre e BYLINE regroupe la mention de responsabilit principale d une oeuvre donn e tel que reproduite sur la page de titre ou au d but ou la fin de l ouvrage e DOCAUTHOR contient le nom de l auteur du document tel que pr sent sur la page de titre souvent mais pas toujours contenu dans un lt byline gt e DOCDATE contient la date du document telle que pr sent e habituellement sur la page de titre e DOCEDITION contient une mention d dition telle que pr sent e sur une page de titre d un document Rapport final 28 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML D autres l ments faisant partie des pi ces liminaires FOREWORD un texte adress au lecteur par l auteur le r dacteur ou l diteur ventuellement sous forme d une lettre PREFACE DEDICACE ABSTRACT ACK le
26. e classification r p ter la zone si la classification de r f rence est diff rente DC Title Titre et sous titre de la th se en fran ais DC Title Titre et sous titre de la th se en anglais DC Title Titre et sous titre de la th se en une autre langue que le fran ais et l anglais d La DTD Open eBook La DTD Open eBook a t d velopp e pour repr senter le contenu du livre lectronique Cette sp cification est destin e principalement aux diteurs Elle est un guide de structuration du contenu d un livre et est accessible a diverses plates formes de lecture lectronique Un document Open eBook peut tre compos de plusieurs fichiers et dispose d une racine contenant la description de ces fichiers Les l ments composant la racine sont PACKAGE IDENTITY identificateur unique du document OeB METADADA les m ta donn es auteur titre etc MANIFEST la liste des fichiers images sous documents autres qui composent le document OeB e SPINE d finit l ordre de lecture des fichiers composant le document TOURS d finit un ordre de parcours des parties essentielles du document GUIDE contient les bibliographies le sommaire etc La structure d un fichier est identique a la structure d un document HTML HTML HEAD BODY IMG P Rapport final 23 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en form
27. e des documents SGML et HTML Un des objectifs vis par le groupe W3C a t de cr er un langage qui soit plus facile utiliser que le SGML et en m me temps qui puisse combler les lacunes du langage HTML Un document XML contient des donn es et des balises Les balises marquent la pr sence des donn es La puissance du XML par rapport au HTML est la possibilit de personnaliser les balises La structuration des balises et leur ordre de placement dans le document sont d finis dans un document part appel e la DTD Document Type Definition La DTD permet de valider la structure des documents XML Les avantages de la sauvegarde des documents en format XML sont les suivants e tout d abord le format XML est un format ouvert non propri taire sa sp cification est publique et son impl mentation facile e XML est un format pivot un format d change entre les diverses applications de traitement de donn es existants l heure actuelle e un document XML est p renne car il est enregistr en format ASCII ou UNICODE ce qui rend sa lecture et sa compr hension facile pour l utilisateur En plus le document contient au m me endroit les donn es et les m ta donn es les balises qui d crivent son contenu Ainsi un utilisateur peut rapidement comprendre un document XML sans l aide d un parseur e la cr ation des programmes de lecture et de traitement des documents XML est facile car d une part le groupe W3
28. e des mots d index L application est int ressante car c est la seule application de conversion du format RTF en format XML qui permet la r cup ration des quations Equation Editor 3 0 dans le format MathML Rapport final 14 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML i Conclusion sur les outils de conversion Les conversions sont diff rentes en fonction des outils utilis s Dans ce paragraphe nous listons les l ments qui posent des probl mes lors de la conversion Ces l ments sont l en t te et le pied de page les images les quations les dessins et le style L en t te et le pied de page sont r cup r s par la majorit des outils l exception de Word 2000 et de RTF4XML Les images sont r cup r es par tous les outils tudi s Ce qui diff re c est le format de stockage des fichiers r sultants Les images sont r cup r es soit sous leur forme brute non compress e format WMF soit sous format JPEG ou GIF formats reconnus par les navigateurs web Les quations ne sont r cup r es que sous forme d images JPEG Le seul outil qui permet de convertir ces champs est MathType Les dessins posent des probl mes lors de la r cup ration Dans le cas de certaines applications comme UpCast ou Majix ils sont tout simplement ignor s RTF2XML arrive d tecter la pr sence des dessins mais s
29. e limite marquer leur pr sence dans le fichier XML Cet outil ne permet de r cup rer pour l instant que l objet Zone de texte en entier avec toutes ses caract ristiques graphiques position taille etc Word permet par contre de r cup rer en int gralit les dessins Ils sont doublement convertis d une part en langage VML langage XML d crivant les objets graphiques d autre part en images GIF Le style pose aussi des probl mes de conversion UpCast permet de r cup rer le style dans une CSS part Dans le fichier XML tout paragraphe auquel nous avons appliqu un style sera marqu par une balise portant le nom de ce style Exemple lt ResumeFR gt Ceci est un r sum lt ResumeFR gt RTF2XML r cup re le style comme attribut de la balise paragraphe Exemple lt p stylename ResumeFR align left fontname Comic Sans MS fontsize 20 bold on gt lt string fontname Comic Sans MS fontsize 20 bold on gt Style personnalis amp 233 lt string gt lt p gt Ceci pose des probl mes car le fichier XML est alourdi tous ces attributs sont r p t s au niveau de chaque paragraphe En plus comme le nom du style n est pas r cup r en tant que balise nous ne pouvons pas proc der a un test de validation du document XML par une DTD Apr s la conversion avec Word 2000 le style est d fini au d but du document XHTML Au d but du fichier XHTML nous avons par exemple p ResumeFR li Resume
30. h se Ces fichiers sont trait s avec le script RTF2XML et I outil Omnimark ce qui permet de g n rer des fichiers XML et d extraire les images Ces fichiers sont ensuite concat n s dans un seul document XML On appelle ce document XML brut car sa structure ne correspond pas nos objectifs le style est contenu dans la structure du fichier et les noms des styles ne sont pas enregistr s en tant que noms de balises e On utilise donc un utilitaire qui permet de balayer le fichier XML et de cr er la feuille de style CSS e d finir des balises portant les noms des styles e simplifier les balises en supprimant les redondances de style Cet utilitaire a t r alis avec la biblioth que de fonctions Xerxes C impl mentant la sp cification SAX de parsage des documents XML XMLApache Supposons que le fichier XML brut contienne une ligne de la forme lt p stylename RESUME left 11 gt Le texte du r sum lt p gt en utilisant cet utilitaire on obtient le fichier CSS lt STYLE gt RESUME left 11 lt STYLE gt et dans le fichier XML on obtient la balise lt RESUME gt Le texte du r sum lt RESUME gt Rapport final 30 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML L Annexe 4 contient un exemple complet de fichiers XML et CSS g n r s avec ce convertisseur L Annexe 1 d crit la proc dure d util
31. htype com fr gt Dublin Core Dublin Core on line lt URL http dublincore org gt Rapport final 33 41 Sorin NECULITA INSA Lyon PFE Conception d une chaine de conversion LISI amp Doc INSA des th ses RTF en format XML a Annexe 1 Utilisation de l utilitaire de conversion irr ma CE XML lel Es CE These_Test C temp archive ese_Test Introduction Introduction ttf A These_Test xml itre_ Chapitre_l rtf fra These_Test css testall rtf Introduction_files 7 i p0000001 fig Chapitre_ _files p0000001 fig Conclusion_files p0000001 tig p0000002 tig pO000003 fig Demarrage de la conversion Ex cution du convertisseur Compactage du fichier XML Extraction de la feuille de style Fin de la conversion La proc dure de conversion consiste dans les tapes suivantes e L utilisateur d finit le nom de la th se Ce nom sera le nom du dossier d archivage de la th se en XML ainsi que le nom du fichier XML et du fichier CSS 1 e L utilisateur choisit les fichiers RTF convertir Il peut les ajouter 2 ou les supprimer 3 de la liste e La liste des fichiers RTF 4 affiche les documents que l utilisateur a choisi de convertir L ordre du listing est l ordre de concat nation des fichiers XML obtenus suite la conversion Cette ordre peut tre chang e 5 Rapport final 34 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI am
32. ies Outputs an ESCAPE element instead of a named entity reference a escape ansichars Outputs an ANSICHAR element instead of an ANSI character reference a escape unicode Outputs a UNICODE element instead of a Unicode character reference Activate this if you want access to the Unicode values but need to process the resulting file with OmniMark V3 or any other parser that doesn t grok UTF 8 Alternative characters will not be output except in attribute such as style names but their values are accessible through the ALT attribute of the UNICODE element This also sets the xml ents and sdata ents parameter entities to IGNORE and INCLUDE respectively in the document prolog Note this means that the output will be SGML instead of XML a ansi stylenames Uses the ansi representation of stylenames rather than the Unicode version a allow nested paras By default a FIELD is not wrapped in a paragraph when it contains paragraphs within its FLDRSLT child This switch allows such nested paragraph structures a link subdocs RTF subdocuments different from the SGML kind are incorporated into the main document automatically unless this switch is set Activating this switch will cause all RTF subdocuments to be referenced via the DOCLINK element a extract fiqgqures Causes all embedded figures to be extracted from the RTF Note no conversion is done Figures are decoded from hexidecimal t
33. isation de ce convertisseur L Annexe 2 d crit le mode d utilisation de l utilitaire RTF2XML L Annexe 3 d crit le mode d utilisation de l utilitaire de conversion du fichier XML brut utilitaire qui peut tre utilis s par ment de I application principale de conversion 5 3 Points restants faire Les dessins les objets Shapes ne sont pas convertis Leurs pr sences sont toutefois d tect es et indiqu es dans le fichier XML par les balises lt drawing shape gt Ceci facilite l int gration ult rieure d un utilitaire qui puisse reconna tre et convertir ces objets Les balises lt dawing shape gt permettront d ins rer au bon endroit les liens vers les fichiers r sultant de la conversion des dessins en image D autre part les quations sont enregistr es sous forme d images WMF et non pas dans le format MathML Rapport final 31 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML 6 Conclusion Ce projet nous a permis de faire une tude sur la structure des th ses soutenues l INSA de Lyon pour d finir la DTD utiliser lors des conversion en format XML En plus nous avons pu voir l tat actuel de d veloppement des applications qui permettent la conversion RTF vers XML Utilisant au mieu les possibilit s actuelles nous avons pu r aliser une maquette de chaine de conversion Du cot des applications il faudrait
34. litaire de conversion C PROGRA 1 OMNIMARK OMNIMARK EXE s C TEMP APPLICATION rtf2xml rtf2xml xom a extract figures a extract unlinked figures a output drawing objects d fig path C temp archive These_Test Introduction_files of C TEMP APPLICATION temp Introduction xml C temp Introduction rtf Rapport final 37 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML c Annexe 3 Utilisation de l utilitaire de simplification du fichier XML et g n ration de la feuille de style Cet utilitaire utilise interface SAX pour balayer le fichier XML brut L impl mentation utilise la librairie Xerxes pour C d velopp e dans le cadre du projet XML Apache L utilisation de cet utilitaire est la suivante Dtdadapte fic_in xml fic_out css gt fic_out xml avec e fic_in xml le fichier XML traiter e fic_out css le fichier CSS g n rer e fic_out xml le fichier XML g n rer L application g n re le r sultat sur la sortie standard On utilise une redirection du flot de sortie pour crire ce r sultat dans le fichier XML Exemple de ligne de commande utilis e dans le convertisseur C TEMP APPLICATION DtdAdapte dtdadapte C TEMP APPLICATION temp These_Test comp xml C temp archive These_Test These_Test css gt C temp archive These_Test These_Test xml Rapport final 38 41 Sorin NECULITA IN
35. nt e tableaux e listes e images e Jes objets dessin s Les l ments non r cup r s sont e en t tes et pieds de page e quations Equation Editor 3 0 Le principal int r t de cet outil est la possibilit de r cup rer les dessins les objets Shapes Ces dessins sont convertis en VML Vector Markup Language langage interpr t par les derni res versions de MS Explorer 4 5 et plus et en m me temps ils sont enregistr s en format GIF Les quations sont galement r cup r es sous format GIF Cette conversion n est possible que si le filtre HTML 2 0 pour Word 2000 est install Rapport final 12 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des theses RTF en format XML f Le projet OpenOffice version 619 OpenOffice est une projet open source soutenu par la soci t Sun Microsystems OpenOffice est bas sur le code source de application StarOffice rendu publique par Sun OpenOffice permet d enregistrer les document en XML L objectif de ce projet est d utiliser XML comme format natif d enregistrement pour tous les logiciels faisant partie de la suite bureautique OpenOffice Ce projet est en cours de d veloppement version 627 du 1 mai 2001 et la version finale n est pas encore disponible g Le projet OpenOffice et MathML La suite OpenOffice dispose d un outil int gr StarMath pour
36. o binary and placed raw on the file system a extract unlinked figures Extracts only those figures that do not have the link to file option specified in MS Word a sdata entities Sets the xml ents and sdata ents parameter entities to IGNORE and INCLUDE respectively in the document prolog Note this means that the output will be SGML instead of XML a output drawing objects Outputs supported drawing objects Currently only textboxes and embedded graphics that use the pict construct are supported Streams d resource path where_i_put_my_stuff rtf2xml Set this value if you move the RTFDOC DTD and associated files or if you are running RTF2XML via a shell script or batch file d sgml log sgml log This is only valuable for debugging It spits the intermediate RTFDOC data used in the cross translate to the file you specify It s useful because it allows you to see exactly what s going to the parser d fig path figures Rapport final 36 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML Specifies the directory to which embedded figures will be extracted By default they are extracted to the current directory d fig ext eps Specifies th xtension you want placed after the in the filename By default fig is used Exemple de ligne de commande RTF2XML utilis e dans l uti
37. p Doc INSA des th ses RTF en format XML e Dans cette liste on affiche le dossier d emplacement du fichier RTF le nom du fichier RTF et le nom de la balise qui marquera le contenu du document dans le fichier XML final La valeur de la balise est par d faut le nom du fichier RTF Cette valeur est directement modifiable e L tape suivante consiste dans le choix du dossier d archivage 6 e Une fois tous ces l ments d finis l utilisateur peut d clencher la conversion 7 e A la fin de la conversion on affiche dans la liste arborescente 8 le fichier XML le fichier CSS ainsi que les fichiers annexes qui ont t g n r s On peut visualiser le fichier XML 9 le fichier CSS 10 et le fichier RTF s lectionn 11 Limitations les noms des dossiers des fichiers et des balises ne doivent pas contenir des espaces et des caract res non ASCII ex les accents sont interdits La structure du fichier XML brut est d finie dans les documents DTD fournis avec l utilitaire RTF2XML Le point d entr e de ces documents est constitu par transdoc dtd Le fichier XML obtenu la fin de la conversion n est pas reli une DTD Pour pouvoir le valider il faudra cr er une DTD en partant du fichier transdoc dtd et en rajoutant la d finition des nouvelles balises b Annexe 2 Utilisation de l utilitaire RTF2XML extrait du manuel d utilisation fourni avec l utilitaire To run the
38. rial DTD d finit la structure des articles des p riodiques XML Math DTD cette DTD fait partie des DTD Article et Book mais elle est aussi fournie en fichier s par pour tre utilis e avec d autres DTD La DTD qui semble la plus appropri e notre projet sur les th ses est la Book DTD Voici la structure simplifi e des l ments faisant partie de cette DTD Un document est compos de FRONT les pi ces pr liminaires BODY le corps du document APPMAT les annexes BACK les post liminaires La partie FRONT du document contient TITLEGRP d finit le ou les titres du document AUTHGRP d finit l auteur du document le nom une organisation auquel l auteur appartient un degr un r le une cole une adresse DATE une date de r f rence du document PUBFRONT des informations sur I diteur de la publication ISBN prix etc COPYRIGHT TOC la table des mati res La partie BODY contient CHAPITRES SECTIONS PARAGRAPHES La partie BACK contient GLOSSARY INDEX NOTES VITA la biographie de l auteur AFTERWRD la postface Un l ment utile qui manque dans la partie front est la liste du jury On retrouve des l ments marquant la pr sence des quations math matiques et des images Rapport final 27 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML h DTD TEI
39. rouv es en faisant une recherche sur Rocad Actuellement il existe une chaine de conversion qui permet la transformation des formats RTF et LATEX en format PDF Les fichiers PDF produits comportent des liens hypertextes Ceux ci sont g n r s automatiquement d apr s les informations contenues dans les fichiers sources styles Ils pointent sur les chapitres sections sous sections de la th se et sur les fichiers qui la composent Rapport final 6 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML L archivage se fait sous le format RTF LATEX et PDF Le but est de r aliser l archivage sous le format XML car ce format dispose de plusieurs avantages voir chapitre suivant parmi lesquels le principal est la p rennit Rapport final 7 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML 3 2 Int r t de la sauvegarde en format XML Les th ses seront archiv es en format XML Nous nous interessons aussi au langage MathML car celui ci permet la conversion en format texte des quations math matiques dit es dans MSWord Le langage XML eXtensible Markup Language est un langage de structuration des documents relativement nouveau cr par le groupe de travail international W3C World Wide Web Consortium XML est tr s proche de deux autres langages d crivant la structur
40. rscript default rev author default underline default fontname default rev time default expandtwips default strike default textel1_these align justify fontsize 20 italic default scaps default color default caps default rev status default subscript default hidden default charset 0 bold default superscript default rev author default underline default fontname default rev time default expandtwips default strike default p align center fontsize 24 bold on italic default scaps default color default caps default rev status default subscript default hidden default charset 0 superscript default rev Rapport final 40 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML author default underline default fontname default rev time default expandtwips default strike default Universite align center bold on italic default scaps default color default caps default rev status default subscript default hidden default charset 0 superscript default rev author default underline default fontname default fontsize default rev time default expandtwips default strike default gt lt STYLE gt Rapport final 41 41 Sorin NECULITA
41. s si une quation est enregistr e en format image elle n est pas accessible certaines applications D un autre cot le langage MathML n a pas t re u avec satisfaction par la communaut scientifique D une part ce langage est verbeux et lourd et d autre part il est tr s difficile de convertir les formats math matiques existants Mathematica Equation Editor dans ce nouveau langage En plus un document MathML est incompr hensible par un utilisateur sans l aide d un parseur Rapport final 9 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML 4 Analyse de l existant Dans ce chapitre nous allons tudier les outils de conversion du format RTF vers le format XML et les DTD Cette tude nous permettra de s lectionner les outils les plus appropri s au projet de conversion de th ses du format RTF au format XML 4 1 Les applications de conversion Nous avons analys les applications suivantes pour r aliser la conversion des documents RTF en format XML UpCast Majix RTF2XML WORD OpenOffice RTF4XML et l outil MathType pour la conversion des quations dit es avec Equation Editor en MathML Pour chaque outil nous passons en revue les fonctionnalit s impl ment es et les points manquants A la fin de ce chapitre une synth se des outils tudi s met en vidence les l men
42. s remerciements CONTENTS une table des mati res Les pi ces annexes sont APPENDIX GLOSSARY NOTES BIBLIOGRAPHY une s rie de r f rences bibliographiques INDEX une s rie d entr es d index COLOPHON description la fin du livre mentionnant o quand et par qui il a t imprim dans les livres modernes il donne souvent les d tails de production et identifie les polices utilis es i Conclusion sur les DTD La DTD la plus int ressante et la plus proche de nos objectifs semble tre la DTD ETD de l universit Virginia Tech Elle d crit les th ses scientifiques et contient la plupart des l ments dont nous avons besoin Restent quelques l ments qui sont sp cifiques a l INSA de Lyon la liste des coles doctorales la liste des professeurs La solution la plus vidente serait donc de reprendre la DTD ETD et de la compl ter avec les l ments sp cifiques aux th ses soutenues l INSA de Lyon Rapport final 29 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML 5 Pr sentation de la maquette La maquette et un guide de conversion sont pr sent s dans cette partie 5 1 Sch ma de l application dossier ry d archivage VV Nom_th se CSS y Fichiers_Nom_th se 5 2 Fonctionnement et r sultats L application prend en entr e le les fichier s RTF composant la t
43. spond la page de titre ainsi qu aux pages suivantes qui pr c dent le premier chapitre e BODY MATTER correspond au contenu du document e BACK MATTER contenant les parties post liminaires Les composantes de la partie FRONT MATTER sont e TITLE titre de la th se e AUTHOR le nom du doctorant SCHOOL le nom de l universit DEGREE le nom du Doctorat MAJOR le nom du d partement APPROVAL NAMES les noms des membres du jury DATE OF DEFENCE la date de la soutenance CITY STATE le lieu de la soutenance KEYWORDS 4 6 mots cl s permettant la classification de la th se COPYRIGHT les informations sur le droit d auteur ABSTRACT le r sum DEDICACE d dicace optionnelle AUTHOR S ACKNOWLEDGMENTS remerciements optionnel TABLE OF CONTENTS table de mati res LIST OF MULTIMEDIA OBJECTS liste des objets multimedia La partie BODY MATTER est compos e de e CHAPITRES e SECTIONS e PARAGRAPHES La partie BACK MATTER contient e REFERENCES la bibliographie e APPENDICES les annexes e VITA la biographie du doctorant Rapport final 25 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc INSA des th ses RTF en format XML f DocBook DocBook est une DTD con ue par le DocBook Technical Committee groupe de travail faisant partie de l organisation OASIS Organization for the Advancement of Structure
44. ts d un document RTF qui posent des problemes lors de la conversion en XML a UpCast version 2 0 L application convertit les fichiers RTF 1 6 en format XML 1 0 Elle produit un fichier XML avec le contenu du document et le fichier CSS contenant le style L application permet la r cup ration des styles d finis par d faut Normal Heading 1 etc et des styles d finis par l utilisateur Les images ins r es dans le document sont r cup r es et sauvegard es sous format WML Wireless Markup Language Il est possible d enregistrer les images en format JPEG et de param trer le facteur de compression L application est fournie en trois versions e UpCastSingle permet d effectuer la conversion d un seul fichier la fois e UpCastEntreprise est utile pour les conversions en masse d un grand nombre de documents La liste des fichiers est initialis e dans un fichier de batch L application lit les fichiers RTF et ensuite les convertit les uns apr s les autres e UpCastServer fournit une interface de programmation une API qui peut tre int gr e dans un code source Java ou C Toutes les fonctionnalit s des versions Single et Entreprise sont pr sentes dans cette API Les incovenients de cette applications pour notre projet sont la non conversion des dessins et des quations en MathML Rapport final 10 41 Sorin NECULITA INSA Lyon PFE Conception d une cha ne de conversion LISI amp Doc

Download Pdf Manuals

image

Related Search

Related Contents

EA707D-20 マルチテスター  780TPC西班牙说明书 0412  INSTALLATION & OPERATING MANUAL  PBI1812 - CONRAD Produktinfo.  Samsung Gear S R750  Le LEIHNA n°21  

Copyright © All rights reserved.
Failed to retrieve file