Home
Troisème partie 3. Analyse des besoins des utilisateurs
Contents
1. Son interface consiste en trois fen tres la fen tre principale se trouvant au milieu avec une fen tre de chaque c t La fen tre droite consiste en trois petites fen tres permettant l insertion et l ajout d l ments et d attributs La premi re fen tre en haut droite affiche les l ments fils qui 184 appartiennent un l ment racine dans la fen tre principale du milieu de l cran La deuxi me situ e au milieu affiche les attributs en relation avec l l ment racine alors que la troisi me situ e en bas est consacr e aux entit s Cependant pour les fen tres de gauche la premi re en haut est r serv e pour l information sur le projet cr par l utilisateur pour mettre tous les fichiers soit en forme XML soit en forme DTD soit en forme de sch ma etc tandis que la deuxi me situ e en bas est consacr e l information g n rale Les ic nes en bas de l cran aident la cr ation et l ajout facilement et rapidement d l ments d attributs et de commentaires Dans notre travail actuel le DTD MASTER a t notre guide mais nous avons trouv n cessaire d y apporter quelques modifications qui r sultent des caract ristiques particuli res des manuscrits arabes Donc on trouve des points de rencontre ainsi que des points des divergences avec le DTD MASTER Nous avons tent dans notre travail de d finir le plus grand n
2. On peut tudier des manuscrits partir de son propre ordinateur il n y a pas de probl me pour obtenir une copie des manuscrits et pas besoin de voyager de 176 biblioth ques en biblioth que You can look into manuscripts from your computer and don t have troubles in getting copies of manuscripts Or travelling from library to library Encore faudrait il que de tr s nombreux manuscrits soient accessibles Oui si on arrive avoir un grand nombre de fonds NON Pourquoi Pas encore un grand nombre d informations sont contenues dans ces manuscrits Les installer sur Internet peut mettre leur propri taire en danger Peut tre que cela pr sentera moins de probl me si c est r alis au niveau international Not yet there are a lot of important information engulfing these manuscript Putting it on the Internet might endanger the owners and so on Yet if this thing take place on the international level it might be fine Tableau n 32 Les r ponses la question Pensez vous que l accessibilit des manuscrits sur l Internet facilite la recherche Dans les r ponses ci dessus on peut distinguer quatre groupes a Le premier groupe est d accord avec le processus de num risation mais sans donner aucune explication Q2 Q3 Q4 Q13 Q14 a Le deuxi me groupe a r pondu par Oui pour montrer les facilit s que peut permettra cette nouvelle technologie On peut retenir les points suivants
3. la collection collection alors que pour nous les l ments d identification dans le MASTER sont des l ments fils de l l ment location qui 187 forme avec les autres l ments fils l l ment d identification Les neuf l ments suivants ont t choisis comme l ments d identification parmi le DTD de manuscrit arabe element msidentifier diagram Amssubject respStmt title origPlace location origDate textLang msCategory msSubiject element msDescription source lt xs element name msIidentifier gt lt xs complexType gt lt xs sequence gt lt xs element ref respStmt gt lt xs element ref title gt lt xs element ref origPlace gt lt xs element ref location gt lt xs element ref origDate gt lt xs element ref textLang gt lt xs element ref msCategory gt lt xs element ref msSubject gt lt xs sequence gt lt xs complexType gt lt xs element gt mslidentfier Figure n 4 Les l ments msidentifier 1 1 respStmt cet l ment contient les informations sur les noms des personnes qui sont responsables de l laboration et de la r daction du manuscrit comme l auteur le copiste etc Par contre MASTER utilise cet l ment pour indiquer les noms des personnes autres que l auteur ou le copiste responsables d une partie du texte comme l illustration par exemple l ment auteur tant mis comme un l men
4. les manuscrits ont t r alis s comme un moyen pour tracer l histoire d un manuscrit andalou moyen oriental etc a Q14 rejoint les onze r ponses mentionn es dans le tableau qui concerne les objectifs des chercheurs lors de leur tude de manuscrits en proposant l tude des colophons comme un moyen pour suivre l histoire d un manuscrit donn J ai trouv tr s logique cette proposition a La d dicace est aussi propos e par Q14 en plus de la recommandation pr c dente a Q10 a propos d tudier la place d un manuscrit dans une tradition scientifique ou philosophique a Q15 a t plus g n ral et il cite fous les rep res qui aident la datation c est dire tous les l ments mentionn s ci dessus 171 3 1 3 L tude pal ographique des manuscrits R ponse Q1 IQ2 IQ3 04 Q5 Q7 Q10 QII Q12 QI13 QI4 Q15 Total Domain pee RE RER RIT KT eue DIRECTE La calligraphie K K KKI KI Ki Presque la moiti des r pondants sont int ress s par la pal ographie en g n ral a Les l ments de morphologie le style de m me que la calligraphie malgr la richesse et la beaut de la calligraphie arabe sont tous au m me niveau d int r t a Q10 est le seul qui propose un autre l ment la possibilit de dater et de situer g ographiquement un manuscrit partir de la pal ographie 3 1 4 La recherche de l information Dans cette partie nous voudrions pointer
5. satisfaisante FT IT hie LT Li Le ASE le Li ig l d ea F aT Fyt E CI Le nd PaA tr Amore Ua bee CET LE PL i tqs pere ET T en Me ENE l iai aa eE E I 12e rarae AAA 1 i Ta iE ii i de i Jata r rt fera l EF ps aa alha ne il ses Ps ssl sl riz ER i Ee E a e DS lie Lea a ras dada pe Le nr RS Image originale Illustrations 265 p B aeei seldi a nos es Le ART E 14 di lt a hs w igi is ects n D EERUN T us 2 3 hirna i EST PE l e i E airg re i Aie Lalk ie ah Se Fi Le Li da ST Ph 4 Hi ok Gehe ds Texte noir Texte rouge gris claire Illustration n 46 R sultats de la reconnaissance supervis e sur le manuscrit Arabe 2782 R12051 En revanche pour les pages surexpos es ou pr sentant des t ches et des zones d ombres le r sultat de l analyse est insuffisant Le taux de reconnaissance d pend donc de la quantit d image surexpos e ou t ch e TARA ib 2 EE i des o rs LA ru Er PER A A Ji ERA TE ANA pl ets Less dt alu nage saaa 2 Are N sW alie zei rpi One Ca A nt DN Jaat Eu cr hes ge EVACS Gs Less RNA Log 5 Image originale tach e Erreurs de reconnaissance des illustrations Illustration n 47 Exemples des erreurs de reconnaissance 266 3 3 2 6 3 R sultats sur Arabe 2478 R18271 Les images du manuscrit R18271 sont d assez bonne qualit bien qu ayant t obtenu par la num risation des microfilms La r sol
6. ventail possible d l ments qui permettent de faire une analyse exhaustive des caract ristiques des manuscrits arabes 3 3 L extraction automatique des m tadonn es par analyse d image Cette partie r sulte d un travil en commun avec Frank LeBourgeois du laboratoire LIRIS RFV de l INSA de Lyon 3 3 1 Pr sentation Nous avons pour objectif d tudier la faisabilit du traitement des images par ordinateur afin d extraire automatiquement les m tadonn es et les caracteristiques des manuscrits arabes Notre corpus pr sente trois difficult s majeures pour le traitement automatique des images Q L criture arabe il existe tr s peu de travaux de recherche sur la reconnaissance automatique des documents arabes Seuls quelques travaux sont r cemment apparus sur la lecture automatique des documents arabes imprim s qui n ont pas encore permis d am liorer les rares syst mes de lecture optique commerciaux Les performances actuelles des quelques OCR commercialis s sur Arabe imprim sont tr s inf rieures celles des OCR sur les textes latins L criture manuscrite arabe s il existe quelques travaux de recherche sur les textes arabes imprim s en revanche il n y a quasiment pas eu d tudes sur l analyse des textes manuscrits en arabe Le m me constat existe sur les textes manuscrits anciens d Europe Cela s explique la fois par l mergence de ce domaine et par les difficult
7. Name Type Default Fixed scope xs NMTOKEN source lt xs element name handDesc gt lt xs complexType gt lt xs sequence minOccurs 0 maxOccurs unbounded gt lt xs element ref scribe gt lt xs element ref script gt lt xs element ref medium gt lt xs element ref p gt lt xs sequence gt lt xs attribute name scope gt lt xs simpleType gt lt xs restriction base xs NMTOKEN gt lt xs enumeration value sole gt lt Xs enumeration value major gt lt xs enumeration value minor gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt xs complexType gt lt xs element gt Figure n 31 Les l ments handDesc 2 7 1 1 scribe il contient le nom s de s personne s autres que le copiste principal qui a particip la r daction du manuscrit 2 7 1 2 script il d crit le style d criture principal et les autres styles utilis s pour l criture du texte manuscrit Dans writStyle nous avons propos les styles d criture partir de notre tude mais nous avons gard la possibilit d ajouter d autres styles dans le sous l ment otherStyle Les styles propos s sont les suivants Coufi Diwani Farisi Higazi Houroufal Taa Ijaza Kufi Kufi Occidental Tunisie Kuf Oriental Iraq Iran Magribi Magribi Andalou Muhaqqaq Muhaqqaq Arabe Muhaqqaq Turquie Nashk1 Nashki Arabe Nashki Egypt Nashki Inde Nashki micrographie Egypt Nashki Per
8. P73 Re Et j due tk Le ain 187 hia Bar arga Tr rea ir Te as D on CNE Tek e i qhe ahire a Kmer ji 7 as RASE CT Figure 2a Zone principale simple Figure 2b Zone principale double Illustration n 29 D tection automatique de la zone principale du texte Sur certains ouvrages la zone de texte est formalis e par un cadre explicite figure 3a alors que pour d autres ouvrages elle ne peut se voir implicitement que par la justification des textes sur les bords des pages figure 3b LS Lea ass Dot pal as dust lalita las ateilast pe Su ass Le Lette Qu naji ehet MOTTE SAC Rs M S g Ti eoan ii db De Gu raule ose an E halles arak aa Aa laani pagai auhia aea P Hat En HDNNS Homes CHE MTS eh ET ET Us panhia m gH EE FT cer zo ala re EE Nul Sa E Figure 3a zone principale encadr e explicitement Figure 3b zone principale d finie implicitement par la justification du texte Illustratin n 30 Exemples de zone principale du texte Quand la zone principale est d limit e par un cadre ce dernier n appara t pas toujours comme une ligne continue cause de la mauvaise qualit de l image ou d une mauvaise binarisation figure 4 245 Figure 4 Cadres partiellement visibles cause de la mauvaise qualit des images Illustration n 31 Cadres partiellement visibles cause de la mauvaise qualit des images La localisation des cadres peut s effectuer facilement par la localisation
9. author le copiste copyist le titre du volume title la collation collation le style d criture writStyle le script script le r sum summary la rubrique rubric l incipit incipit et l explicit explicit element msitem diagram 1 1 n r I author copyist title collation script summary rubric incipit explicit msContent source lt xs element name msltem gt lt xs complexType gt lt Xxs choice maxOccurs unbounded gt lt xs element ref author maxOccurs unbounded gt lt xs element ref copyist maxOccurs unbounded gt lt xs element ref title gt lt xs element ref collation maxOccurs unbounded gt lt xs element ref script maxOccurs unbounded gt lt xs element ref summary minOccurs 0 maxOccurs unbounded gt lt xs element ref rubric gt lt xs element ref incipit maxOccurs unbounded gt lt xs element ref explicit maxOccurs unbounded gt lt xs choice gt lt xs complexType gt lt xs element gt Figure n 42 Les elements msitem 5 logicStruct il s agit de la structure logique du document sa composition en page de titre de table de mati res de parties de chapitre etc element logicStruct diagram attPage h titPage tabContent index introduction msPart Chapter colophon addwrit msDescription source lt xs element name logicStruct gt lt xs complexType gt lt Xs choice maxOccurs unbounded gt lt xs element r
10. c dentes 2 12 condition il fournit des informations sur la condition physique du document En ce qui concerne la condition physique conPhysique 1l existe trois attributs bon good moyen medium et mauvais bad element condition diagram extension of xs string element _physDesc h c attributes Name Type Use Default Fixed conPhysique XS NMTOKEN source lt xs element name condition gt lt Xxs complexType gt lt Xxs simpleContent gt lt Xxs extension base xs string gt lt xs attribute name conPhysique gt lt Xxs simpleType gt lt xs restriction base xs NMTOKEN gt lt Xs enumeration value good gt lt Xs enumeration value medium gt lt Xs enumeration value bad gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt xs extension gt lt xs simpleContent gt lt xs complexType gt lt xs element gt Figure n 37 Les l ments et les attributs condition 2 13 additions pour fournir d autres l ments afin de d crire l tat du document et qui n ont pas t mentionn s ci dessus 3 history il regroupe les l ments qui d crivent le histoire enti re du manuscrit Il contient les l ments fils suivants element history 11 r colleHame 1 I ra r 1 transmission ir m r l l l r L I Provenance E I mo l ownName colleName transmission stamp origin provenance acquisition others
11. il existe Month Il contient le mois au cours duquel le travail s est termin JCEra Date selon l re de J sus Christ Hegira Date selon l re h gire diffDates Date autre que les pr c dentes AdamEra 5508BC Date selon l re d Adam 5508 avant J sus Christ AlexandEra 356BC Date selon l re d Alexandre 356 avant J sus Christ MartyrEra 283AC Date selon l re du Martyr 283 apr s J sus Christ notBefore datation estim e pour un manuscrit non dat pas anr rieure telle p riode notA ter datation estim e pour un manuscrit non dat pas post rieure telle p riode evidence Il pr cise le degr d vidence pour une date fournie par autre attribut Tableau n 36 Explication pour les l ments date Evidence pour le dernier l ment de la liste evidence il existe trois possibilit s d attributs une source interne une source externe ou une conjecture Les trois derniers l ments dans le tableau de datation sont les m mes que ceux du MASTER avec un nouvel l ment qui s appelle certainty ce dernier sp cifiant le degr de certitude quant la date fournie par d autres attributs 197 Il est indispensable de mentionner dans cette partie que l on doit utiliser une forme normalis e de date selon le standard international connu ex jour mois ann e 1 6 textLang il d crit la langue officielle ou une combinaison de deux ou trois langues utilis es pour crire le te
12. lt xs element ref collection gt lt xs element ref institution gt lt xs element ref repository gt lt xs element ref settlement gt lt xs element ref city gt lt xs element ref region gt lt xs element ref country gt lt xs sequence gt lt xs complexType gt lt xs element gt Figure n 12 Les l ments location 1 4 1 idno cote il s agit de la s rie des abr viations et des chiffres utilis s pour identifier un manuscrit ou un livre dans une ou plusieurs biblioth ques Le idno consiste en l ments fils tels que 1 4 1 1 actCallNo cote actuelle du manuscrit dans une biblioth que 1 4 1 2 altCallNo cote alternative pour d ventuelles copies de ce manuscrit se trouvant dans d autres biblioth ques element idno Diagram I A l 1 aHCallbo 7 Children actCallNo altCallNo location source lt xs element name idno gt lt xs complexType gt lt Xs choice gt lt xs element ref actCalINo gt 19 lt xs element ref altCalINo minOccurs 0 maxOccurs unbounded gt lt xs choice gt lt xs complexType gt lt xs element gt Figure n 13 Les l ments idno 1 4 2 collection il contient le nom de la collection dans une biblioth que ou dans un autre lieu o se trouve le manuscrit Dans le sch ma ci dessous le p d signe un paragraphe c est dire que le catalogueur a la possibilit d crire ce qu il veut La double
13. tude d un manuscrit priorit priorit priorit EP l ou L illustration 7 QS Q9 Q8 Q13 Ql4 a Le d cor dans le texte QL Q7 Q9 Q8 Q13 Q14 Le d cor de la reliure QI 07 Q9 Q14 Autres Suite de textes dans un manuscrit donn Le contenu du texte sainte la Palestine et plus pr cis ment J rusalem enluminures Not from an art history point of view but only as indicators for provenance and date also scribal function use of illumination Le contenu scientifique du document Q12 Histoire du texte l histoire et la technique de fabrication du livre L dition du texte et la focalisation du manuscrit concern sur la terre Pas d un point de vue d histoire de l art mais seulement pour en rep rer la provenance et la date aussi pour des raisons de calligraphie usage des pal ographie Le texte la l gende des images r Le contenu en relation avec la pens e arabe classique Tableau n 21 Autres centres d int r t lors de l tude d un manuscrit Concernant l tude du contenu des manuscrits on peut distinguer deux cat gories diff rentes La premi re cat gorie comprend les aspects qui ont t consid r s comme prioritaires par les utilisateurs et que nous avons pris comme base En deuxi me cat gorie 1l y a les autres aspects ajout s par les personnes interrog es a Pour la premi re cat gorie on constate que les fronfispices prennent
14. xs complexType gt lt xs element gt Figure n 22 Les attributs support 2 3 extent Il d crit la taille approximative du manuscrit sp cifi e dans n importe quelle unit ad quate en cm ou en mm etc element extent diagram entent BCE 1 0 Children dimension O used by element physDesc source lt xs element name extent gt lt xs complexType gt lt XS sequence gt lt xs element ref dimension maxOccurs unbounded gt lt xs sequence gt lt xs complexType gt lt xs element gt Figure n 23 Les l ments extent 2 3 1 dimension l l ment dimension est un l ment fils de P l ment extent qui contient les informations sur la dimension du folio leaves de l espace r gl ruled l espace perc pricked et l espace crit writtensurface ainsi que la dimension des miniatures la dimension de la reliure binding et la dimension de l tui box Les sous l ments hauteur height largeur width et profondeur depth sont des outils dans P l ment dimension pour mesurer les diff rentes parties du manuscrit mentionn e ci dessus element dimension Diagram dimension Children height width depth extent Attributes Name Type Use Default Fixed type XS NMTOKEN Source lt xs element name dimension gt lt Xxs complexType gt lt Xs sequence maxOccurs unbounded gt lt xs element ref height gt lt xs elemen
15. Persian Arabic Turkish 1 7 LangUsage cet l ment d finit une combinaison particuli re de deux langues telle que langue espagnole crite en caract res arabe ou aljamiado morisque Dans MASTER l l ment langUsage indique le m me ph nom ne 198 1 8 msCategory Il indique le cat gorie de manuscrits soit arabo islamiques msArabolslamic soit arabo chr tiens msAraboChristian Cet l ment manque dans MASTER element msCategory children D O element msidentifier attributes Name Type Use Default Fixed mstype XS NMTOKEN source lt xs element name msCategory gt lt Xxs complexType gt lt XS sequence gt lt xs element ref p gt lt xs sequence gt lt xs attribute name mstype gt lt xs simpleType gt lt Xs restriction base xs NMTOKEN gt lt Xs enumeration value msArabolslamic gt lt Xs enumeration value msAraboChristian gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt xs complexType gt lt xs element gt Figure n 16 Les element msCategory 1 9 msSubject il s agit d une cat gorie qui n existe pas dans MASTER et qui indique le sujet ou les sujets du manuscrit msSubject est reparti en trois sous l ments sujet principal mainSubj autres sujets otherSubj et mots cl s keywords element msSubiject diagram msSubject children mainSubj otheSubij keywords msidentifier source lt xs element nam
16. Proc dure utilis e par l auteur et le copiste dans leur classement des textes des manuscrit arabes Avec les attributs suivants nous avons tent de d finir les diff rentes parties composantes comme le djuz le kytab le bab le fasl le matlab et le masalah L quivalent de ces classements en langue fran aise est difficile fournir en raison de la diff rence dans la logique de classement Mais pour cette raison nous avons trouv n cessaire de mettre le classement par chapitre pour le manuscrit qui ne suit pas le classement pr c dent element partes diagram l l l r H l L 1 masalah 1 T ea ai 0 djuz kytab bab fasi matlab masalah element msPart source lt xs element name partes gt lt xs complexType gt lt xs choice gt lt xs element ref djuz maxOccurs unbounded gt lt xs element ref kytab minOccurs 0 maxOccurs unbounded gt lt xs element ref bab maxOccurs unbounded gt lt xs element ref fasl maxOccurs unbounded gt lt xs element ref matlab minOccurs 0 maxOccurs unbounded gt lt xs element ref masalah minOccurs 0 maxOccurs unbounded gt lt xs choice gt lt xs complexType gt lt xs element gt Figure n 47 Les l ments partes 5 4 2 chapter il contient des informations sur la division par chapitre il est divis en deux l ments fils element Chapter diagram chapHomb A Chapter children chapNomb chap
17. de X X X X X IX IX X X Pauteur dans plusieurs manuscrits S e A A A A EE A DE EE plusieurs manuscrits peur memes LL LL plusieurs manuscrits Autres Q12 Q4 Q12 Q13 Comparaison entre la mise en page et les Q10 images Identification de l auteur Q11 Tableau n 25 Les objectifs des chercheurs pour l tude de manuscrits Le but de cette question est de pointer les objectifs des utilisateurs lors de leur tude des manuscrits a Onze r ponses sont plus concern es par la comparaison entre les colophons dans plusieurs ditions d un m me manuscrit Cette partie des manuscrits est tr s essentielle pour trouver des informations sur le nom du copiste le lieu o il a effectu son travail et la date si elle est indiqu e a Onze aussi des r ponses concernent la comparaison entre les noms des copistes et surtout par la fa on dont le m me nom est transcrit dans les diff rents manuscrits a Neuf r ponses sont plut t concern es par la comparaison des noms d auteurs a Alors que dix d entre elles sont int ress es par la comparaison entre les titres donn s un m me manuscrit dans des copies diff rentes D autres points sont ajout s aux points principaux mentionn s ci dessus Ce sont les suivants a En plus des quatre points mentionn s dans la question Q12 est aussi concern par la comparaison des critures arabes a Q12 partage son int r t avec Q4 dans le domaine de la varia
18. des sous chapitres dans le but de trouver les informations Sept font la recherche par la table des mati res Mais dans la plupart des cas on ne trouve pas de table des mati res dans les manuscrits Trois autres possibilit s de recherche sont ajout es par les r pondants m E Par les catalogues comme le cas de Q4 Q8 trouve les informations par la consultation des moyens de recherche bibliographique majeurs comme Brockelman Sezgin etc Selon Q15 par les donn es biographiques et bibliographiques en plus des id es doctrinales En r ponse la question trouvez vous facilement l information dont vous avez besoin nos r pondants nous ont donn les r sultats suivants voir le tableau ci dessous Six disent qu ils trouvent toujours facilement les informations dont ils ont besoin Contrairement Q1 Q4 et Q8 qui les trouvent facilement mais pas toujours Oui non et pourquoi Num ro de questionnaire Oui mais pas toujours quelques fois Q1 Q4 Oui toujours Q6 Q7 Q11 Q13 Ql4etQ15 6 1 Oui Non Oui relativement mais d pend de l exp rience Q3 Q5 Q9 Non c est variable selon les cas Tableau n 31 Les r ponses la question trouvez vous facilement information dont vous avez besoin 173 3 1 4 2 Les probl mes rencontr s dans le processus de recherche manuelle d information Les difficult s trouv es dans la recherche sont dues plusieurs facteurs
19. element ref city minOccurs 0 maxOccurs unbounded gt lt xs element ref region minOccurs 0 maxOccurs unbounded gt lt xs element ref country minOccurs 0 maxOccurs unbounded gt lt xs sequence gt lt xs complexType gt lt xs element gt Figure n 11 Les l ments origPlace 1 3 1 city Ville il contient le nom d une unit g opolitique plus petite que la r gion Il indique la ville d origine o le manuscrit a t achev 1 3 2 region r gion il contient le nom d une unit g opolitique plus large que celle de la ville et plus petite qu un pays Il montre le nom de la r gion dans laquelle la ville est situ e 1 3 3 country pays 1l contient le nom d un endroit g opolitique plus grand que la r gion Il fournit le nom du pays d origine du manuscrit 1 4 Localisation il contient les l ments n cessaires pour localiser un manuscrit donn dans une ou plusieurs biblioth ques Dans cette partie nous avons utilis une autre d marche que celle de MASTER en faisant la distinction entre le lieu d origine du manuscrit et l endroit de sa pr sence actuelle 194 element location Diagram institution repository location settlement region Children idno collection institution repository settlement city region country element msidentifier Source lt xs element name location gt lt xs complexType gt lt XS sequence gt lt xs element ref idno gt
20. et la forme des objets que l on d sire segmenter L utilisateur choisi la m thode la plus adapt e apr s une phase de test sur quelques images Ces m thodes sont choisies pour leurs performances leurs robustesses et leurs g n ricit s qui leurs permettent de traiter automatiquement une grande vari t d images En contre parties ces m thodes de conversion demandent beaucoup de temps de calcul par image mais elles ne n cessitent presque pas de param tres et fonctionnent automatiquement sans l assistance de l utilisateur a Conversion en luminance quand tous les objets conformant image couleur sont reconnaissables en fonction des intensit s communes tous les canaux R V B alors on peut calculer une image niveaux de gris partir de la moyenne des canaux R V B Cette m thode tr s simple r duit consid rablement les temps de calcul et reste adapt e quelques ouvrages pour lesquels la couleur n est pas une information importante pour la segmentation des textes Image originale couleur RVB Analyse de la luminance Illustration n 16 Conversion en luminance b Analyse statistique des couleurs Guand les textes ou les illustrations sont r alis s avec des couleurs diff rentes 1l faut donc analyser chaque information d intensit Rouge Vert et Bleu s par ment Pour cela on utilise les outils statistiques d analyse de la variance pour trouver la combinaison optimale u u2 u3 des canaux R V
21. faut remettre en cause le choix des caract ristiques ou celui des m tadonn es Nous avons par exemple constat des difficult s diff rencier les illustrations des cadres 1llumin s qui ont les m mes caract ristiques Dans l impossibilit de diff rencier certaines m tadonn es nous pr f rons les regrouper ensemble En cas d chec de s paration entre certaines m tadonn es il faut alors r fl chir sur la formalisation de nouvelles caract ristiques physiques qui permettraient de les diff rencier de fa on fiable et r p titive sur l ensemble d un ouvrage C est ce travail difficile qui n cessite du temps et des connaissances approfondies des manuscrits anciens 3 3 2 6 R sultats Cinq manuscrits ont t choisis pour valider le processus de reconnaissance car 1ls avaient une certaine richesse dans leurs m tadonn es Il est juste question ici d valuer la faisabilit de l analyse d image comme aide l extraction de m tadonn es dans les images num ris es de manuscrits anciens en langue arabe Ce ne sont donc que des premiers r sultats qui devront tre confirm s par la suite sur un nombre plus cons quent de manuscrits 260 3 3 2 6 1 R sultats sur MS6191 Les images de l ouvrage MS6191I ont t obtenues par la num risation directe de l ouvrage original en couleur Nous serions dans les conditions optimales de qualit en terme de num risation si les images n avaient pas t r d
22. grammaire de langue arabe araLangGram mystique mystic islamique philosophie islAraPhilos element otheSubj xsisting element msSubject lt xs element name otherSubj type xs string gt Figure n 19 L l ment otherSubj 1 9 3 keywords il fournit un ou plusieurs mots cl s autres que le sujet pour affiner le sujet du document 2 physDesc Il contient des informations sur la description physique d un manuscrit ou d une partie d un manuscrit comme la forme la collation la composition du cahier le nombre de folios la r clame le cachet etc cf la figure suivante element physDesc diagram il collation foliation A ill CB EREA 0 a meriting decoration binding condition i Ill Ill additions children form support extent collation foliation layout msWriting decoration binding condition additions element msDescription 201 source lt xs element name physDesc gt lt xs complexType gt lt Xs choice minOccurs 0 maxOccurs unbounded gt lt xs element ref form gt lt xs element ref support gt lt xs element ref extent gt lt xs element ref collation gt lt xs element ref foliation gt lt xs element ref layout gt lt xs element ref msWriting gt lt xs element ref decoration gt lt xs element ref binding gt lt xs element ref condition gt lt xs element ref additions gt lt Xs choice gt
23. information sur la situation du manuscrit du point de vue num risation et date de num risation de m me l l ment lt p gt a t ajout pour le catalogueur lui permettant de noter des informations si n cessaire 6 1 3 1 3 exhibition 1l fournit les donn es sur les v nements pass s concernant le manuscrit tels que sa participation des expositions etc 6 1 3 1 4 fumigation il donne des informations sur la derni re date de fumigation 6 1 4 L l ment fils remarks contient n importe quelle remarque que le catalogueur trouve n cessaire de faire afin de permettre de d crire un v nement qui n ait pas t d fini ailleurs 6 2 surrogates 1l fournit des informations sur la copie num ris e la photocopie le microfilm ou une copie publi e de ce m me manuscrit et qui existerait au sein de la biblioth que ou l ext rieur element surrogates diagram Adigitalcopy Lier of Copy APhotogrCopy APublishCopy p digitalcopy microfilCopy photogrCopy publishCopy additional source lt xs element name surrogates gt lt Xxs complexType gt lt XS sequence gt lt xs element ref p gt lt xs element ref digitalcopy gt lt xs element ref microfilCopy gt lt xs element ref photogrCopy gt lt xs element ref publishCopy gt lt xs sequence gt lt xs complexType gt lt xs element gt Figure n 54 Les l ments surrogates 6 2 1 digitalCopy il contient des in
24. les difficult s rencontr es dans la recherche d informations partir d un manuscrit sur un support papier Ensuite nous voudrions conna tre le point vue des r pondants pour une recherche men e partir d un format lectronique de manuscrits apr s la num risation Ceci sera la quatri me partie de notre questionnaire 3 1 4 1 La recherche d informations textuelles dans un manuscrit R ponse Q1 Q2 Q3 Q5 Q7 Q10 Q11 Q12 Q13 Q14 Q15 Total Les moyens Par la table X X X X X X X 7 des mati res s il y en a une En rep rant X X X X X les titres des chapitres des sous chapitres etc En feuilletant X X les manuscrits Autres Par les catalogues Par la consultation de moyens de recherche bibliographiques majeurs comme Brockelman Sezgin etc Les donn es biographiques et bibliographiques en plus des id es doctrinales Tableau n 30 La recherche d informations textuelles dans un manuscrit 172 A partir de tableau ci dessus on peut faire les remarques suivantes m Treize des r pondants trouvent les informations dont ils ont besoin en feuilletant le manuscrit C est un moyen peu pratique et p nible pour les chercheurs car 1l prend beaucoup de temps et d nergie Ce moyen est tr s utilis malgr toutes ses difficult s du fait de l absence d autres moyens pratiques de recherche comme la table des mati res par exemple Neuf rep rent les titres des chapitres et
25. lt xs complexType gt lt xs element gt Figure n 20 Les l ments et les attributs du physDesc 2 1 Form il d crit la forme dans laquelle le manuscrit a t crit soit sous la forme de codex de rouleau soit sous la forme de charte element form diagram extension of xs string element physDesc attributes Name Default Fixed msForm T NMTOKEN source lt xs element name form gt lt Xxs complexType gt lt Xxs simpleContent gt lt Xxs extension base xs string gt lt Xs attribute name msForm gt lt Xxs simpleType gt lt Xxs restriction base xs NMTOKEN gt lt Xs enumeration value codex gt lt Xs enumeration value roller gt lt Xs enumeration value chart gt lt xs restriction gt lt xs simpleType gt lt Xxs attribute gt lt xs extension gt lt xs simpleContent gt lt xs complexType gt lt xs element gt Figure n 21 L l ment et les attributes form 2 2 support le support se repartit en trois attributs importants La premi re est le suppKind 1l s agit de la vari t du support utilis papier parchemin ou papyrus Le deuxi me paper Type indique en cas de support papier le type de papier utilis arabique ou occidental Le troisi me other donne la possibilit au catalogueur de mettre une autre information qu il trouve n cessaire et qui n est pas indiqu e auparavant En cas d utilisation de papier arabique il ex
26. ml AE dm T Illustration n 23 Probl mes rencontr s par la segmentation des objets partir de la d finition de connexit 241 La segmentation de l image en objets connexes est riche en information mais elle est sensible la qualit des images et n cessite que tous les objets soient espac s les uns des autres Il existe des m thodes de traitement des images qui r duisent les points de contact entre les objets mais appliqu es l ensemble de l image elles casseraient les blocs de texte en plusieurs objets ind pendants 3 3 2 2 3 Le traitement des cadres et des illustrations L autre solution consiste simplement utiliser les outils de traitements morphologiques pour mesurer les tailles de tous les objets et de s parer tous les objets dont la taille est sup rieure une valeur c est dire les bordures les taches les illustrations et les cadres Une fois s par e on traite ces l ments graphiques pour distinguer les bordures dont l paisseur est faible des illustrations qui sont des grands objets La morphologie permet d affecter toute connexit une valeur correspondant la taille maximale celle ci pouvant tre mesur e dans n importe quelle direction Par exemple sur l image suivante Arabe 2478 R18271 image n 0120 on a appliqu la morphologie pour affecter tous les objets une valeur correspondant la hauteur et la largeur maximale S1 les objets de grande dimension
27. n 37 R sultats sur des textes contenant des tableaux et des illustration Les objets vont tre s par s en deux groupes a Les objets situ s dans les zones principales a Les objets situ s en dehors des zones principales Tous les objets seront soumis la reconnaissance des formes car 1l est important de savoir la nature texte graphique ornement de tous les objets y compris ceux qui sont situ s en dehors des zones principales 3 3 2 3 La reconnaissance des formes Le processus de reconnaissance des formes s effectue en deux tapes a L analyse et la mesure des objets cette phase correspond la n cessaire caract risation des objets par diff rentes mesures aussi bien g om triques de forme ou sur la couleur quand cette information existe Le choix des descripteurs qui caract risent les objets est essentiel pour les performances Si les descripteurs ne sont pas adapt s aux objets et aux classes souhait es l tage de reconnaissance ne pourra pas r aliser une classification performante La classification des objets Cette tape importante permet de classer les objets et d terminer si ils sont des textes des titres des annotations ou des graphiques L utilisateur donne le nombre de classes qu il souhaite obtenir et leurs libell s 3 3 2 4 La caract risation des objets Nous laissons l utilisateur le choix entre 14 descripteurs dont 4 pour la couleur 4 sur la forme des objets et 6 sur la g om
28. nombre d l ments manuscrits d un ou plusieurs auteurs Tableau n 33 Les l ments propos s par les r pondants qu ils souhaitent trouver par une recherche lectronique En plus des onze l ments mentionn s dans le tableau ci dessus on a eu d autres r ponses qu on peut consid rer comme des moyens de recherche tels que les noms propres les th mes les titres les titres de chapitres les donn es codicologiques la date de la copie le nom du copiste etc les indexes les miniatures les enluminures les illustrations les colophons etc Q5 souhaite avoir un service de recherche gratuity No need to pay money for the wanted manuscripts whatever Q6 souhaite que la recherche lectronique puisse aider l avancement dans le travail de recherche 3 1 6 Propositions g n rales En r ponse la question Avez vous des pr cisions apporter sur des l ments qui n ont pas t cit s auparavant dans le questionnaire nous avons re u les propositions suivantes a Q3 est int ress par la classification lectronique des manuscrits a Q15 est int ress par l exploitation scientifique du contenu a Alors que l int r t de Q5 est tout fait diff rent des autres Il souhaite que le projet de num risation soit un moyen pour rassembler tous les manuscrits qui concernent la Palestine et en particulier J rusalem et les faire revenir en Terre Sainte The project of bringing all the sc
29. objets textuels tant plus nombreux et de taille homog ne ils peuvent tre statistiquement d tect s en analysant la taille moyenne de tous les objets situ s dans l image Comme la taille moyenne des objets est proche de la taille moyenne d un bloc de texte on peut d finir pour chaque objet x une valeur de probabilit P x entre 0 et 1 partir de l cart de la taille de x la taille moyenne de tous les objets 247 T aille x tailleMoyenl Max T aille x tailleMoyen tout objet P x 1 En projetant horizontalement et verticalement la position de chaque objet x la valeur P x on construit deux histogrammes Xprofile et Yprofile Xprofile projection verticale de P x sur la largeur de x Yprofile projection horizontale de P x sur la hauteur de x Image originale Affichage de P x sur chaque objets Illustration n 34 l affichage de P X sur chaque objets Xprofile et Yprofile et seuil de d tection Localisation des corps de texte Illustration n 35 Localisation des corps de texte Les projections Xprofile et Yprofile affich es sur le haut et la gauche de l image montrent des valeurs lev es aux coordonn es o se situent les objets qui ont une taille proche de la taille moyenne des objets c est dire pr cis ment l o se situe le texte Un seuil affich sous la forme d une ligne qui coupe les profiles est automatiquement 248 calcul pour d terminer les bor
30. s sur des manuscrites couleurs malgr la faible r solution comme le manuscrit MS6191 En revanche nous obtenons des taux tr s bas de reconnaissance sur des images d grad es issus de la num risation de microfilms et qui pr sentent des t ches rendant impossible la s paration des objets voir Arabe 2953 R3414 La num risation en niveaux de gris de microfilms apporte certes plus d information mais si l tat du microfilm pr sente de d faut de r gularit s d clairage et des t ches sombres voir Arabe 2782 R12051 alors l analyse d image ne r ussit pas extraire correctement les m tadonn es demand es Enfin dans le cas o le manuscrit est num ris en noir et blanc mais avec une r solution suffisante pour pouvoir s parer les objets et qui ne pr sentent pas de t ches alors l analyse d image donne des r sultats exploitables en terme d indexation SEGMENTATION Analyse Couleur Conversion simple RGB en Luminance L Conversion RGB en K classes par Classification automatique Conversion optimale RGB y a Image couleur RGB Tiff a au Image en 256 niv de gris Binarisation Seuillage global Suppression des automatique Fisher E en ne cadres E w Segmentation des objets connexes D tection de la zone principale Seuillage local adaptatif 4 Miene iasa e j r O Serre EN Niblack BEER 24 ar His nt a au Classification automatique 2 classes p
31. se justifie par l importance de la saturation des couleurs comme mesure int ressante pour caract riser les objets d une classe particuli re Si la saturation n apporte pas d information suppl mentaire on choisira alors par d faut l information de chrominance Les mesures sur la forme des objets a La densit cette mesure correspond la surface relative qu occupe un objet dans le rectangle englobant Il est calcul par le rapport entre le nombre de pixels noirs appartenant l objet et le nombre de pixel blancs appartenant l arri re plan a La structure la variation des paisseurs des traits m La courbure la distribution des niveaux de courbures dans 16 directions it Vp n2 ei NS ga A NL Zy Z N L NAN wW Da g EE A ass SA 22 EZ Z mwe LL RE EZ EMN 2 2 6 2 Z LA G g A Te A g BB 2 2 Bei E mie SN NY a 2 Aa Z EE NS ES FE A La g Ma Z F Es FE CE CN 4 ES EE ER Fi a ZI SES HW 2 SZ uw 3J EE Zum 7 E4 my rs Il ma GX Ai Wm TNN AD gt AUNE 3 N S Mat S a amp To TT AA FES 0 ser mA 0 180 360 252 LL LULU D W W 7 ANAL 7m N 2 om S MO Wa A TT A ess w j mn Illustration n 38 La distribution des niveaux de courbures dans 16 directions a Les Projections la projection horizontale et verticale de l objet sur une chel
32. trie et le dimensionnement Les mesures sur la couleur des objets Q Q Q Q La luminance la valeur moyenne Y des canaux R V B la chrominance le couple U V du syst me de couleur YUV de la norme standard de codage des images couleurs Le syst me de couleur YUV tant qu une rotation du syst me de couleur RVB pour faire co ncider l un de ses axes sur l axe principal de la luminance Y Le syst me de couleur YUV permet de d corr ler la luminance Y des informations sur la chrominance U V qui d termine la couleur des objets La saturation La saturation est mesur e par la distance d une couleur dans l espace tridimensionnel RVB par rapport l axe de la luminance Y Plus le pixel est proche de l axe de la luminance plus sa couleur est proche d une nuance de gris traduisant une saturation presque nulle Inversement plus la valeur d un pixel est loign e de l axe de la luminance et plus sa couleur est satur e La teinte La teinte est l angle que fait une couleur avec l axe de la luminance Y 251 Figure n 57 Mesure de la saturation S et la teinte T d une couleur c dans l espace RVB La mesure de la saturation et de la teinte sont calcul es partir des informations de chrominance Il n est donc pas utile de conserver la fois les informations sur la chrominance et les informations de teinte et de saturation Le choix entre l une et l autre des repr sentation de la couleur
33. value Naskhi Persan gt lt xs enumeration value Naskhi Syrie gt lt Xs enumeration value Naskhi Tulut lrag gt lt Xs enumeration value Nastalig Persan gt lt Xs enumeration value Orientale Egypt gt lt Xs enumeration value Rouqa gt lt Xs enumeration value Taghra gt lt xs enumeration value Tulut gt lt xs enumeration value Tulut Muhagqaq gt lt xs enumeration value Tulut lran gt lt xs enumeration value Tulut Muhagqaq Nash Turquie gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt xs attribute name otherStyle type xs string gt lt xs complexType gt lt xs element gt Figure n 32 Les l ments script 2 7 1 3 medium le m dium d criture c est dire la teinte ou le type d encre utilis Il donne la possibilit de mettre les diff rentes couleurs d encre trouv es soit pour le texte int gral soit pour une ou des parties du texte comme le titre de chapitre et de sous chapitre qui se trouvent crits en couleur autre que celle du reste du texte Cependant scope est un attribut l int rieur de handDesc qui sp cifie le taux de participation d un copiste dans l criture des manuscrits sole major ou minore 2 8 decoration il contient une description du d cor trouv dans le texte Le d cor est r parti en deux l ments fils principaux element decoration diagram L E p deroTech 1 l decoNote decoTech p element ph
34. xs element ref sublndex gt lt xs element ref authindex gt lt xs element ref otherindex gt lt xs choice gt lt xs sequence gt lt xs attribute name exist gt lt xs simpleType gt lt Xxs restriction base xs NMTOKEN gt lt xs enumeration value yes gt lt xs enumeration value no gt lt xs enumeration value pagNomb gt lt xs enumeration value undit gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt xs complexType gt lt xs element gt Figure n 45 Les l ments et les attributs index Il est divis en trois l ments fils 5 3 1 subindex index par sujet il contient des informations sur l existence d un index par sujet 5 3 2 authindex index par auteur il fournit des informations sur l existence d un index par auteur 5 3 3 otherIndex un autre genre d index qui peut tre trouv dans d autres manuscrits et qui n ait pas t mentionn Jusqu 1c1 5 4 msPart il contient des informations sur les parties composant un manuscrit element msPart children partesp o O element ogicStruc source lt xs element name msPart gt lt xs complexType gt lt xs choice maxOccurs unbounded gt lt xs element ref partes gt lt xs element ref p gt lt xs choice gt lt xs complexType gt lt xs element gt Figure n 46 Les elements msPart L l ment msPart a t divis entre trois parties 5 4 1 Partes
35. 0 Pour viter de capturer des objets trop petits comme les points isol s ou les petites taches nous liminons toutes les connexit s trop petites dont la largeur ou la hauteur est inf rieure taille donn e Ainsi les traits peuvent s liminer s ils sont horizontaux et verticaux et s ils poss dent une paisseur suffisamment faible Cependant les cadres continus forment de grandes connexit s qui ne peuvent pas tre supprim s Le choix d utiliser la notion de connexit pour d finir les objets va donc poser des probl mes sur le traitement des illustrations ou les textes qui touchent les cadres ainsi que les tableaux La premi re figure montre le dessin de la roue touchant le cadre il fait donc partie de l objet cadre De m me les textes qui touchent le cadre feront parti int grante du cadre Sur la figure suivante le cadre est continu sur la parti haute de l image et forme une grande connexit englobant l illustration jusqu au milieu de la page A cause de la mauvaise qualit de l image le cadre est repr sent en bas de l image par des traits pointill s qui ont t supprim s dans l analyse Sur cette image nous n obtenons ni un objet cadre complet ni un objet image s par du cadre Enfin sur la derni re image le cachet tant imprim sur une partie du titre et du cadre nous obtenons un objet commun regroupant tous ces l ments a ikp m ja of AT EE y haai a e eA aT nu st
36. 0 ou 1 entre lesquels il existe toujours un chemin qui relie deux points P et Q quelconques Dans une image binaire on classifie les connexit s dans 3 familles distinctes a Les connexit s de valeur 0 noir repr sente par convention les objets portant une information a Les connexit s de valeur 1 blanc adjacent aux bords de l image repr sentent le fond de l image c est dire le support papier a Les connexit s de valeur 1 blanc qui ne font pas parties du fond repr sentent les trous inscrits dans les objets On d finit le rectangle circonscrit une connexit le plus petit rectangle qui contient cette connexit Cette notion de rectangle circonscrit fr quemment utilis est ambigu Un rectangle circonscrit une connexit peut contenir plus d une connexit ou peut avoir une intersection non vide avec d autres rectangles circonscrits d autres connexit s Notre choix de construire les objets autour des connexit s est adapt l criture arabe car celle ci est form e de blocs connexes espac s D finition d une connexit des objets du fond des trous et du rectangle circonscrit Ambigu t dans la repr sentation des connexit s par des rectangles Figure n 56 La d finition d un objet par les connexit s de l image sir gt mra i ANNS ED CA t Ys Illustration n 22 Segmentation des connexiti s rectangles cironscrits aux connexiti s 24
37. B pour minimiser la perte d information S a e k j am Er 0 7 m 4 pHa A TEES TA el 61 EEEE AAAA pe Tal k 4 aN a i A P A EF la Pi mri Ka PR ee er A e Et RAA Image originale couleur RVB Analyse statistique des couleurs Illustration n 17 Analyse statistique des couleurs c Classification automatique des couleurs Quand les diff rents objets n ont pas une couleur homog ne et que l information de couleur doit tre analys e de fa on plus subtile il convient de r aliser une classification automatique des couleurs en K classes distinctes Cette op ration est r alis e en appliquant une classification automatique tous les pixels de l image dans l espace tridimensionnel des couleurs L algorithme universel des K means permet de classer automatiquement tous les pixels dans K classes L utilisateur doit donner a priori le nombre de classes qu il souhaite obtenir Cette m thode performante permet de s parer le recto du verso sur les images couleurs ou d isoler les diff rentes couleurs utilis es dans un document Cependant cette m thode d analyse est tr s co teuse en temps de calcul cause du grand nombre de pixels classer et peut prendre plusieurs minutes sur des images de grande dimension Image originale couleur RVB Classification des couleurs en K 5 classes Illustration n 18 Classification automatique des couleurs 3 3 2 1 3 La conversion des images
38. Default Fixed type xs string defective xs NMTOKEN no source lt xs element name explicit gt lt xs complexType gt lt xs simpleContent gt lt xs extension base xs string gt lt xs attribute name type type xs string gt lt Xs attribute name defective default no gt lt Xxs simpleType gt lt Xs restriction base xs NMTOKEN gt lt xs enumeration value yes gt lt xs enumeration value no gt lt xs enumeration value unknown gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt xs extension gt lt xs simpleContent gt lt xs complexType gt lt xs element gt Figure n 10 L l ment explicit A l exception de l incipit et de l explicit les cinq premiers l ments fils de l l ment titre n existent pas dans MASTER Par contre il utilise le mot titre indistinctement pour les diff rents titres trouv s dans le manuscrit 1 3 origPlace il s agit du lieu d origine du manuscrit Le lieu d origine se compose en trois l ments fils le nom de la ville le nom de la r gion et le nom du pays Dans MASTER le mot origPlace englobe toutes les formes des noms de lieux utilis s pour identifier la provenance du manuscrit ou d une partie de manuscrit 193 element origPlace diagram ETES EL I I A element msidentifier source lt xs element name origPlace gt lt Xxs complexType gt lt XS sequence gt lt xs
39. List logicStruct source lt xs element name Chapter gt lt xs complexType gt lt xs sequence gt lt xs element ref chapNomb gt lt xs element ref chapList minOccurs 0 maxOccurs unbounded gt 224 lt xs sequence gt lt xs complexType gt lt xs element gt Figure n 48 Les l ments chapter 5 4 2 1 chapNomb il a pour but de fournir les donn es sur le nombre de chapitres 5 4 2 2 chapList l ment fils liste de chapitre est un moyen de lister les titre de chapitre si possible 5 5 colophon il fournit les informations sur le colophon de manuscrit Il est divis en deux l ments fils la premi re par le texte du colophon coloText pour citer les informations trouv es l int rieur du colophon et la deuxi me la forme de colophon coloForm qui d crit la forme dans laquelle le colophon a t pr sent element colophon diagram coloText A used by element logicStruct attributes Name Type Default presence xs NMTOKEN source lt xs element name colophon gt lt xs complexType gt lt xs sequence gt lt xs element ref coloText gt lt xs element ref coloForm gt lt xs sequence gt lt xs attribute name presence gt lt xs simpleType gt lt xs restriction base xs NMTOKEN gt lt xs enumeration value yes gt lt Xs enumeration value no gt lt Xs enumeration value unDet gt lt Xs enumeration value torn gt lt Xxs restri
40. Trois me partie 3 Analyse des besoins des utilisateurs Dans le but de mieux cerner les besoins des utilisateurs en mati res de description des manuscrits arabes un questionnaire a t utilis Les r sultats de cette enqu te ont permis de d finir les m tadonn es n cessaires pour l acc s aux manuscrits dans une base de donn es Notre but est de rassembler le plus possible d id es qui nous permettent de cr er les m tadonn es les plus pertinentes et les plus compr hensibles possibles Pour atteindre notre objectif nous avons distribu personnellement dans une conf rence Venise des copies de questionnaires des coll gues qui travaillent dans le domaine des manuscrits arabes Egalement nous avons distribu des copies pendant un mois la BNF Biblioth que Nationale de France par l entremise de Madame la Directrice de la division des manuscrits orientaux et de Madame Genevi ve Guesdon Nous avons aussi diffus le questionnaire sur l Internet par l interm diaire du groupe de discussion Liste Middle East Pour identifier les r ponses nous les avons num rot es Q1 Q2 etc sans aucun ordre particulier A partir des 15 r ponses que nous avons re ues nous voudrions dans ce chapitre analyser les r ponses selon les aspects suivants a Une tude br ve sur les cat gories d utilisateurs leur ge leur nationalit et leur profession pour montrer que malgr le faible nombre de r ponses la quali
41. Type gt lt xs attribute gt lt xs extension gt lt xs simpleContent gt lt xs complexType gt lt xs element gt Figure n 36 Les l ments decText 2 10 2 2 decoTeKoran il d crit le genre de d cor trouv dans le texte coranique surtout le d cor de la s paration des sourates le frontispice et le commencement des sourates etc L l ment fils type fournit les attributs qu il s agisse du d cor de premi re page du manuscrit frontispice du d cor du titre de chaque sourate decoTiSourate des d cors qui s parent les versets en diff rents niveaux apr s chaque verset af 1 Verse apr s cinq versets af 5 Verse apr s dix versets af 10 Verse L attribut divRamadan concerne le d cor des divisions du Coran destin es la lecture pendant le mois de Ramadan 2 10 2 3 decBinding il contient la description du style de d cor utilis dans la fabrication de la reliure BindingDesc est un l ment fils de decBinding Il fournit les informations sur la technique de reliure 2 11 Binding l l ment reliure binding contient l l ment fils concernant le style de reliure bindTypes avec les attributs suivants reliure fran aise bindFrench reliure maghr bine bindMaghriban reliure orientale bindOriental reliure gyptienne 214 bindEgyptian reliure ottomane bindOthoman et la derni re tant l attribut autre others qui concerne d autres reliures que les pr
42. Type gt lt xs attribute gt lt xs attribute name pagNomb type xs string gt lt xs extension gt lt xs simpleContent gt lt xs complexType gt lt xs element gt Figure n 40 les l ments et les attributes stamp 3 5 origin l origine l ment qui permet de d crire l origine d un manuscrit ou d une partie de manuscrit 3 6 Others autres l ment qui fournit d autres indications qui peuvent servir identifier l histoire du manuscrit Dans MASTER l l ment history inclut les l ments fils suivants lt origin gt lt provenance gt et lt acquisition gt Mais comme dans MASTER nous avons trouv n cessaire de mettre les attributs suivants comme un moyen d aide d finir une date approximative pour le manuscrit non dat Les attributs sont Name Type Status XS NMTOKEN 218 notBefore xs string notAfter xs string evidence XS NMTOKEN a Status c est un attribut qui contient des informations sur la copie du manuscrit du point de vu originalit comme a a Autographes il est utilis pour indiquer que la copie du manuscrit est crite directement par l auteur lui m me a b Apographes 1l indique que la copie du manuscrit actuelle est crite directement partir de la copie originale a c Unique il indique que la copie du manuscrit est la seule copie qui existe dans le monde a d Waqf il indique que la copie fait partie du waqf h ritage famil
43. a a a T E arc ce Haies A if ol ie she DS ppan s iid Palaos e de a em a S e Sc AE o gE pots 3 d pe JS B A pia a l A A i L T re ahar A E R a E DAA RL a 2 j rait Ji aad aak E er A e e Figure 6a Textes non justifi s et pr sence de larges Figure 6b Pr sence d illustrations qui zones sans texte g n rent des espaces sans texte Illustration n 33 Exemples de texte non justifi et la pr sence d illustrations Proposition La pr sence de cadres explicites tant peu fr quente sur le corpus la m thode de localisation de la zone principale qui a t retenue est la d tection de textes justifi s sachant que cette m thode peut tout de m me chouer sur les documents pr sentant de larges zones vides ou bien avec des textes non justifi s Comme la reconnaissance est effectu e apr s la segmentation physique de la page le logiciel d analyse d images n a pas encore la connaissance de l identit de tous les objets pr sents et donc des objets qui correspondent la d finition d un texte ou non Pour localiser les zones potentielles de texte il faut proc der grossi rement une pr classification des objets en texte non texte pour ensuite localiser les alignements des objets textuels seuls A ce niveau la pr classification des objets tant hasardeuse on a choisi d attribuer chaque objet une probabilit P x d tre ou non du texte en fonction des tailles des objets A priori les
44. a r s es KA si iMi EST si v i a t ke n te FIRE M i E Gui ul AE C PTS j d u ad L kai te 1 4 ao tee er 7 LS ER A jt aa i j Image originale en niveaux de gris Seuillage automatique global Illustration n 19 La binarisation automatique globale a La binarisation adaptative Pour les documents o certains traits ont des nuances de gris proches de celui du support papier il convient d appliquer une m thode de seuillage adaptatif qui va calculer pour chaque pixel un seuil localement adapt Parmi toutes les m thodes adaptatives locales nous avons pris la m thode la plus fiable appel e Niblack du nom de son auteur Un abaissement du niveau de seuil dans les zones de l image faiblement contrast es permet 237 d augmenter la sensibilit de la d tection des traits dans les zones de niveaux de gris homog nes Se PIS AE ns se A T i aT L K paigh F p L ui ima A i pa d Te bai e 7 A RE NEUT E it R ta A ai eat R p a a 4 m H TET Pui i don la w NES ce gs 4 i ENT A SNLE Usd A Sl Le CR T4 5 E i i m E gi AT tt aka SUR H bi e Ega t re E aY E LU i i k td L o r Image originale en niveaux de gris Seuillage adaptatif Illustration n 20 La binarisation adaptative a La binarisation par classification Comme pour les images couleurs la classification automatique peut r aliser une binarisation des images niveaux de gris Dans un premier temps on cherch
45. ale Coranique e AM HA E e E E E RE De A E E SUR M Scientifiques J 1 7 7 IX d xix 7 d 61 Litt raires XX X IXIXIX IXIXIX 91 Autres Q2 Documentaire S O O M thodologie juridique musulmane au moyen age et plus particuli rement dans l Andalousie et le Maghreb Toutes les typologies mentionn es ci dessus pour le besoin de catalogages Q Philosophiques Historiques Grammaticales Mystique et philosophie arabo islamique Tableau no 23 La typologie des manuscrits a Neuf r ponses concernent le domaine de la litt rature ce qui mon avis est tr s logique car les manuscrits sont les sources premi res qui englobent toutes les richesses de la litt rature arabe a Sept r ponses concernent l autre texte religieux tels que le hadith le tafsir etc a Malgr sa richesse surtout en m decine pharmacie astrologie etc le texte scientifique occupe la troisi me place dans la priorit des r ponses 6 r ponses a Le texte coranique lui m me se situe en derni re place 5 r ponses En revanche on peut ajouter d autres domaines qui sont propos s par les r pondants comme les suivants 167 E Juridique musulman en Andalousie et au Maghreb propos par Q6 a La mystique et la philosophie islamique selon Q15 a L histoire par QII a La philosophie Q10 a La grammaire de la langue arabe Q12 a Et finalement pour Q2 le documentaire 3 1 2 4 La p riode historique des manuscrits En r
46. and so on Yet if this thing take place on the International level it might be fine 3 1 5 2 L attente d une recherche lectronique sur les manuscrits Treize ont r pondu la question Qu attendez vous d une recherche lectronique sur les manuscrits Leurs attentes des recherches lectroniques peuvent tre class es comme suit a Faciliter la recherche Q1 Q6 et Q7 sont d accord sur la m me id e Pour Q1 la num risation facilite la recherche Pour Q6 la recherche lectronique fait progresser le travail de recherche Il faut voir la chose de pr s et au fur et mesure de l avancement du travail de recherche Pour Q7 il faut qu elle soit aussi compl te que possible tout en restant ais e et rapide 178 a Faciliter la comparaison des textes manuscrits l attente de Q8 est d tre capable de comparer les manuscrits de diff rentes collections autrement dit d assembler les manuscrits Being able to compare manuscripts from different collections collate manuscripts etc Pour Q15 cela devrait faciliter les comparaisons a Selon Q3 la recherche lectronique peut syst matiser au maximum et donc globaliser et r unir des connaissances parses et par cons quent permettre de nouvelles conclusions a L identification de texte l attente de Q4 lors de la recherche lectronique est d abord de bien lire le texte manuscrit To be able to read it La
47. anuscrit dans le colophon au dos de l ouvrage dans des catalogues de biblioth ques ou dans des livres bibliographiques et sp cialis s tels que Brokelman par exemple 1 2 2 tiTranslated titre traduit il contient le titre du manuscrit traduit dans une autre langue que l arabe 1 2 3 tiTransliterated titre translitt r il fournit le titre du manuscrit en langue arabe mais crit en caract res latins 191 1 2 4 parallalTit titre parall le il fournit le titre parall le du titre propre qui se trouve dans certains manuscrits crit soit dans la m me langue soit dans une autre langue que l originale 1 2 5 VolTitle titre du volume 1l donne le titre de chaque volume dans le cas o le manuscrit se compose de plusieurs volumes 1 2 6 otherTit autres titres il donne la possibilit au catalogueur de mettre d autres titres qui n ont pas t mentionn s ci dessus element otherTit diagram r l r l l 1 otherTit E i 54 E 4 MLD I 0 l titteColophon Re titPage titleCover titleSpine titleColophon element _title source lt xs element name otherTit gt lt Xxs complexType gt lt xs choice minOccurs 0 maxOccurs unbounded lt xs element ref titPage minOccurs 0 maxOccurs unbounded gt lt xs element ref titleCover minOccurs 0 maxOccurs unbounded gt lt xs element ref titleSpine minOccurs 0 maxOccurs unbounded gt lt
48. ar Kmeans Image binaire 273 Extraction des caract ristiques sur les objets Couleur G om trie Chrominance U V Hauteur Teinte T Largeur Saturation S Longueur Luminance L Epaisseur Objets localis s Position Reconnaissance Classification automatique non supervis e Kmeans Reconnaissance par classification supervis e K PPV Forme Densit Structure Orientation Courbure Edition des m tadonn es en XML Figure n 59 Sch ma du logiciel de reconnaissance des m ta donn es par analyse d images 274
49. ations pour guider la classification Cette m thode est cependant int ressante pour tester la pertinence des caract ristiques et valuer les performances futures d une classification supervis e en fonction du nombre de classes souhait es La m thode retenue est celle des K MEANS qui consiste classer it rativement les objets par rapport K centres de classes pris au hasard puis recalculer ces centres en effectuant la moyenne des caract ristiques des objets de chaque classe La classification s arr te quand les centres restent immobiles La classification des observations en K classes est alors optimale Nom du mod le R28062 x charger Analyse de la Couleur binarisation Luminance C binarisation_globale Chrominance binarisation_adaptative 3 3 2 5 2 L apprentissage C Classif G a Nombre de classes 2 Nombre de classes 5 Detection de texte L apprentissage consiste d signer les observations M Automatique PMi E Eniever Cadres r Caract ristiques pertinentes et indiquer leurs classes respectives ue Fr hu Luminance E Structure 3 111 3 it Saturation E Projections C est une tape critique dont va d pendre la qualit de san one e e 7 g om trie la reconnaissance Le choix des observations et leur Hauteur M Alignments Largeur v Distances po traits M Longueurs traits V nombre par classe sont deux facteurs importants Plus Incinaison F Relations Spatiales reconnaissance cau
50. attered manuscripts relating to Palestine in particular to Jerusalem back to the Holy Land 3 1 7 Conclusion Les r sultats que nous avons obtenus lors du questionnaire nous ont permis de construire et de d finir les m tadonn es propre aux besoins de nos r pondants Les m tadonn es propos es dans le tableau restent toujours enrichir par l tude d autres projets de num risation tels que MASTER EAMMS ou DEBORA Le tableau ci dessous est un tableau r capitulatif qui rassemble les r sultats obtenus par les r ponses au questionnaire Les M tadonn es propos es par les r pondants eo aee Ce Auteur S O Copiste OS 180 Nom du possesseur Nom du collectionneur Titre des manuscrits Titre des chapitres Titre des sous chapitres Le titre du manuscrit dans le colophon Incipit Lieu M di vale islamique VII XV a VII X VE 700 1500 par r ri p riode Re e XII XIV si cles oo Toutes les p riodes Class s par th me T a Les l ments qui aident identifier la date des manuscrits Le nom du collectionneur Le colophon Domaine d int r t th mes P riode tudi e La pal ographie La codicologie Cat gorie de manuscrits Arabo islamique Arabo chr tien 8 Coranique Autres textes religieux Type Scientifiques de manuscrit Gus Les types de support Codicologie L tude materiel La de mise La r glure pag
51. chr tiens 1 attributes Name Type Default Day xs string Month xs string JCEra xs string Hegira xs string diffDates xs string AdamEra 5508BC xs string AlexandEra 356BC xs string MartyrEra 283AC xs string notBefore xs string notAfter xs string evidence xs NMTOKEN source lt xs element name Date gt lt xs complexType gt lt xs sequence gt lt xs element ref p gt lt xs sequence gt lt xs attribute name Day type xs string gt lt Xs attribute name Month type xs string gt lt Xs attribute name JCEra type xs string gt lt Xs attribute name Hegira type xs string gt lt xs attribute name diffDates type xs string gt lt Xs attribute name AdamEra 5508BC type xs string gt lt xs attribute name AlexandEra 356BC type xs string gt lt xs attribute name MartyrEra 283AC type xs string gt lt xs attribute name notBefore type xs string gt lt Xs attribute name notAfter type xs string gt lt Xs attribute name evidence gt lt Xxs simpleType gt lt XSs restriction base xs NMTOKEN gt lt xs enumeration value internal gt lt xs enumeration value external gt lt XxS enumeration value conjecture gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt xs complexType gt lt xs element gt Tableau n 35 Les elements date Le tableau suivant explique chaque datation Name Type Day Il contient le jour d ach vement du manuscrit s
52. ction gt lt xs simpleType gt lt xs attribute gt lt xs complexType gt lt xs element gt Figure n 49 Les l ments colophon Le lt P gt dans coloText est une zone libre pour citer l information trouv e dans le colophon Cependant le type dans coloForm indique les attributs des diff rents types de forme trouv s pour d crire le colophon Dans les l ments fils de l l ment type nous avons mis les attributs de la forme du colophon trouv s dans notre tude de manuscrits pour la premi re forme 1l s agit d un triangle point en haut upTriangle au contraire de la premi re forme le deuxi me est une forme de triangle point en bas dowTriangle la troisi me prenant la forme de double triangle doubTriangle Alors que others est r serv pour d autres formes de colophon qui n ait pas t mentionn auparavant 6 Additional il inclut des informations additionnelles qui concernent la situation actuelle du manuscrit dans la biblioth que Il contient les l ments fils suivants element additional diagram Children surrogates O oo element msDescription source lt xs element name additional gt lt xs complexType gt lt xs sequence gt lt xs element ref surrogates minOccurs 0 gt lt xs sequence gt lt xs complexType gt lt xs element gt Figure n 50 les l ments additional 6 1 adminInfo il fournit des informations sur la situati
53. cture S texte manuscrit chapitres sous chapitres etc Tableau no27 l tude de la mise en page d un manuscrit Le tableau ci dessus montre que la structure du texte manuscrit chapitre et sous chapitres de m me que a r glure de page viennent au m me niveau neuf r ponses Le 170 nombre de lignes par page est aussi important dans le domaine de la mise en page mais 1l vient plut t en deuxi me tape dans l int r t des r pondants 3 1 2 7 L histoire des manuscrits PP PPEP EPP EPP Domaine Les noms desiX IX IX IX IX IX IX IX IX possesseurs personne ou institution Les noms des X i collectionneurs Lescachets X X Xx xixjx I I su X w Autres Les noms de lieux o les manuscrits ont t copi s Le colophon Q14 La d dicace Tous les rep res qui aident la datation QS La place du manuscrit dans une tradition scientifique ou Q10 philosophique Le manuscrit et sa relation avec J rusalem p riode islamique Tableau n 28 L histoire des manuscrits a Pour suivre l histoire d un manuscrit donn 11 r pondants ont choisi comme moyen le plus efficace le nom du possesseur personne ou institution a L identification historique d un manuscrit par les noms de collectionneurs et les cachets occupe la deuxi me place Huit r ponses D autres propositions sont ajout es concernant l identification historique a Q13 par exemple cite les lieux o
54. de texte Texte de titre reconnaissable par l indentation 268 ASPIRE TIRE Fi A PEL S als diluw res PRETT EE pA Ty ia hatta SAS Lin Est AN 133 8 dues Lol ETE el Cl sl aus less foal caly EENEN vo haifa ciy ur 7 Dis algul T s dl ui rA o bledi als ig dili fi sl Gula EP ERE UE mT alal E pe ee CRE if Texte Courant al T a Ta Does La D TT GARE D corations florales Autre style de texte Prolongement de Texte Illustration n 50 R sultats de la reconnaissance supervis e sur Arabe 179 R60914 Texte de titre erreur de reconnaissance La reconnaissance des titres par l indentation s est av r e impossible car la mesure d alignements verticaux avec les blocs voisins av n est pas diff rente de celle du texte 269 normal Pour trouver l indentation du texte de titre il faut d tecter la justification droite du texte ou du bord de la page et d ajouter une mesure d indentation par rapport celle ci Le probl me vient de la conception m me du logiciel qui ne consid re que les objets noirs les zones vides blanches n tant pas pris en compte Ce sera l objet de d veloppements futurs 3 3 2 6 5 R sultats sur Arabe 1489 R28062 C est l ouvrage le plus riche en terme de m tadonn es et qui aussi pr sente des mises en page d une tr s grande complexit La qualit des images est assez m diocre car e
55. des alignements horizontaux et verticaux de pixels noirs Cependant l interpr tation de tous les alignements par un programme n est pas toujours simple En effet les bords du livre et de la reliure produisent des alignements qui peuvent tre interpr t s comme des cadres potentiels et qu il faudra ignorer figure 5a De m me certaines illustrations peuvent contenir des cadres plus petits qui mettront en chec une interpr tation automatique figure 5b sonne Io bla AR A OU SES PL L A aea aey aman PEE E EEE E LATE Ayaks i aN UT Eu WEERA ri i aT se ie pa us le hell 3 alih PE DAT ON LENS EN ATEN PTE ET ra LA stop Los gs Tai ot F pui DE ja ee lt pakaka ah pa eak Lra Ee haril MEL Sis TNE us 1 2 rise uaki rh Far Ur i HET LES kT maligi aria EEO EA E A N ara and d i r to yna pen v Ko ET to LA Je AC RL cale he ester RAS Fa sai niet LE LANTA PORER PT usa bag EPP ES D E PEA ET De TUR EN A Figure 5a pr sence des bords du livre et de la Figure 5b pr sence de cadres dans les reliure illustrations Illustration n 32 Presence des bords du livre de la reliure et de cadre dans les illustrations Lorsque la zone principale n est pas explicitement d finie par un cadre sa d tection par analyse d image peut tre rendue difficile quand les textes ne sont pas justifi s figure 6a ou bien en pr sence de larges zones d illustrations ou de tableaux figure 6b 246 Len AE LIEU ia
56. dited with XML Spy v4 1 U http fan xmlspy com by pp pp a XML Files ription F 4rabe1489 xml FA 4rabe179 xml id arabe1489 EF 4rabe2964 xml FA Arabe317 xml FA Cata xml EF ms136Jeru xml FE ms26Jeru xml EF ms3eru xml FA ms453Jeru xml EF ms462Jeru xml EF ms481Jeru xml FA ms483Jeru xml FA ms498Jeru xml EF Ms6191 xml Al Biruni namHormalised 77 777 a title Attributes tiTransliterated Al Atar al Baqiya an al qurun al haliya H titPropr 22222 27772772 7 777772 TIVIN origPlace l location x idno collection institution Biblioth que Nationale de France repository settlement city Paris region Parisienne country France Faa ms73Jeru xml FA ms76Jeru xml Faa ms7Jeru xml Faa ms83Jeru xml j origDate Yj textLang lang Arabii i msCategory Mmstype msArabolslamic Histoire physDesc Yj form msForm code j support suppoKind paper papertype occidenta En Arabe2278 xml msidentifier FE 4rabe2478 xml A respStmt En Arabe2782 xml author FA 4rabe2953 xml namTranslit Muhammad Ibn Ahmad 4 EA Finaldtd2 fF Arabe1489 ia jei eiri e ire teitt jle itg iiin Re in im R in gm Er ie ie B ee ee Bot Bei R XML Spy v4 1 U Registered to pp pp c 1998 2001 Altova GmbH amp Altova Inc ium D marrer wA amp E g Eudora i Microsoft word Em Spy Arabe1489 mag TA Illustration n 15 L interface du XML Spy
57. ds des zones qui contiennent le plus de texte On balaye les deux profiles en partant des coordonn es extr mes de l image jusqu atteindre une valeur de profile sup rieur au seuil calcul sur les 4 coins de l image On effectue un traitement suppl mentaire pour d tecter une double zone principale en cherchant au milieu de la zone trouv e des valeurs de Xprofile inf rieur au seuil Si il existe une telle une zone alors on balaye Xprofile vers la gauche puis vers la droite jusqu ce que l on d tecte des valeurs sup rieures au seuil indiquant la pr sence du bord du texte au centre du livre L avantage d un calcul automatique du seuil c est qu en pr sence d une faible quantit de texte le seuil s abaisse automatiquement En l absence d objets de taille moyenne en grand nombre ce seuil peut s abaisser au point de d tecter les bords du livre Il reste encore des probl mes de d tection dans certains cas extr mes comme sur les pages pr sentant des annotations trop nombreuses peuvent faire d vier la d tection jusqu les englober De m me la pr sence de grandes zones d illustrations peut diminuer localement la quantit de blocs de texte et donc fausser le calcul des projections et donc la d tection O aijo Illustration n 36 R sultats sur des textes inclin s 249 F EERE yaren I o Eiig ENORME ST NT RA aip L i iaia R AL LE A pE AS a Illustration
58. e chapitres etc Le style Pal ographie l tude de l criture 181 La calligraphie 11 Table des mati res Oui Non 13 Th mes y D cor des textes Enluminures Illustrations Miniatures Frontispice D cor de reliure Tableau n 34 Les M tadonn es propos es par les r pondants 182 3 2 D finition des m tadonn e 3 2 1 Introduction Dans ce chapitre nous d finirons les m tadonn es et leur grammaire la DTD Ces l ments nous servent au balisage et la description des manuscrits arabes en prenant en consid ration leur structure hi rarchique Chaque l ment est d fini en tenant compte de ses attributs et de sa relation avec les l ments fils Notre intention galement est de comparer les m tadonn es des manuscrits arabes avec celles du projet MASTER que nous avons mentionn dans la premiere partie du th se Parmi les diteurs XML qui existent dans le march nous avons choisi XML Spy pour d finir notre DTD Notre choix est d au fait que cet diteur est jusqu maintenant le plus facile et le plus avanc dans le domaine de la publication lectronique de document sur XML format XML Spy Arabe1489 EE 0 x FA File Edit Project XML DTD Schema Schema design XSL Document Editor Convert Table View Browser Tools Window Help 8X D Sg Aug Sa eejo yy al l e aa Mm ea ael e 6H Project projT heses e
59. e msSubject gt lt Xxs complexType gt lt Xxs choice gt lt xs element ref mainSubj gt lt xs element ref otheSubj gt lt xs element ref keywords minOccurs 0 maxOccurs unbounded gt lt xs choice gt lt xs complexType gt lt xs element gt Figure n 17 Les l ments msSubject 1 9 1 mainSubj il contient un ou plusieurs sujets principaux du manuscrit 19 element mainSubj diagram extension of xs string element msSubject attributes Name Type Use Default Fixed type XS NMTOKEN p xs string source lt xs element name mainSubj gt lt Xxs complexType gt lt Xxs simpleContent gt lt Xxs extension base xs string gt lt xs attribute name type gt lt Xxs simpleType gt lt Xs restriction base xs NMTOKEN gt lt Xxs enumeration value Algebra gt lt Xs enumeration value araLangGram gt lt xs enumeration value Arithemetic gt lt Xs enumeration value Astronomy gt lt Xs enumeration value Botany gt lt Xxs enumeration value chris Theology gt lt xs enumeration value Documentary gt lt xs enumeration value Ethics gt lt xs enumeration value Fiqh gt lt Xxs enumeration value Genealogy gt lt Xxs enumeration value Geography gt lt Xs enumeration value Geometry gt lt xs enumeration value Hadith gt lt Xs enumeration value History gt lt xs enumeration value islAraPhilos gt lt Xs enumeration value IslamTheology gt lt
60. e automatiquement K classes parmi toutes les nuances de gris trouv es dans l image la valeur de K tant saisie par l utiisateur Dans un deuxi me temps on attribue les pixels de la premi re moiti des classes la valeur 0 et la seconde moiti des classes la valeur 1 Sans autre information locale cette m thode peut s apparenter une binarisation automatique globale car la classification d termine globalement les classes sur tous les pixels de l image Les r sultats obtenus sont cependant tr s diff rents de la premi re m thode car elle ne tient pas compte du nombre de pixels dans chacune des classes La classification trouv e favorise donc plus les traits statistiquement moins pr sents dans l image que les nuances de gris correspondant au support papier L image binaire obtenue montre un paississement des traits des textes et une tendance faire appara tre les taches RES ONE sus MARS AC ne Classification en K 4 classes Seuillage par classification Illustration n 21 La binarisation par classification 3 3 2 2 La segmentation des objets 3 3 2 2 1 Le choix de la m thode Nous avons choisi d effectuer une analyse ascendante de l image en partant de l information l mentaire qu est le pixel pour obtenir une information plus interpr t e comme les objets pour enfin aboutir des informations encore plus volu es comme celle de la zone principale de texte Cette approche ascendante aujourd h
61. e de certains manuscrits est fait en deux langues arabique et syriaque Alors que coptNos expose le marquage en chiffres coptes Et araNos pr sente le marquage en chiffres arabes Cependant le sous l ment other donne 206 la possibilit d ajouter d autres informations qui ne sont pas mentionn es parmi les attributs propos s auparavant element cahierMarking diagram E cahierMarking type extension of xs string used by elements foliation h a attributes Name Default markType H NMTOKEN other xs strino source lt xs element name cahierMarking gt lt Xxs complexType gt lt Xxs simpleContent gt lt Xxs extension base xs string gt lt xs attribute name markType gt lt Xxs simpleType gt lt Xs restriction base xs NMTOKEN gt lt xs enumeration value allAraLet gt lt Xs enumeration value allAraSyriLet gt lt xs enumeration value coptNos gt lt Xs enumeration value araNos gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt Xs attribute name other type xs string gt lt xs extension gt lt xs simpleContent gt lt xs complexType gt lt xs element gt Figure n 28 Les l ments cahierMarking 2 6 layout l l ment disposition de page ou la mise en page layout est utilis e pour d crire la mani re dont le texte et l illustration sont dispos s sur les pages du manuscrit Dans l l ment pagPresentation nous avon
62. e sont class es dans les classes 5 6 et 8 Le syst me a tenu compte de l importance du nombre d objets dans chaque classe pour classer automatiquement les objets entre eux sans l intervention ext rieure de l utilisateur Le mode de reconnaissance non supervis est int ressant pour tester le pouvoir discriminant des primitives mais ne peut pas tre utilis 262 en tant que tel pour l extraction des m tadonn es C est l usager de d signer les objets qui doivent tre reconnus comme appartenant une classe donn e lors d un apprentissage Le mode de reconnaissance supervis est donc le mode le plus int ressant pour l extraction automatique des m ta donn es 3 4 2 6 1 2 Reconnaissance supervis e par apprentissage En mode de reconnaissance supervis nous avons fait l apprentissage sur les 5 premi res pages en quelques minutes avant de lancer la reconnaissance sur les 70 pages restantes Le travail a t fini en moins de 40 minutes pour toutes les pages en tenant compte de la s paration des couleurs de la binarisation de l extraction des objets et des relations entre eux de les mesures des primitives et la reconnaissance Le temps de calcul est d environ 35 secondes par page sur un PC 1 9GHZ Nous avons mod lis 4 m ta donn es reconna tre a Letexte principal a Les annotations a Les dessins et cadres 1llumin s a Les ponctuations EAGLE i LOST RESTES LS 4 A ag das 5 Gosa
63. ecoSection du d cor du colophon decoColophon du d cor de s paration ou de division de textes decoTextDivision du d cor de cadre des pages decoPagFram du d cor de frontispice frontspice du d cor sur la marge DecoMargin et du d cor de doublure decoLining element decoText diagram extension of xs string element decoTech attributes Name Type Use Default Fixed decType XS NMTOKEN decPlace XS NMTOKEN source lt xs element name decoText gt 213 lt Xxs complexType gt lt Xxs simpleContent gt lt Xxs extension base xs string gt lt Xs attribute name decType gt lt Xxs simpleType gt lt Xs restriction base xs NMTOKEN gt lt xs enumeration value Shamsas gt lt Xxs enumeration value miniatures gt lt xs enumeration value illustration gt lt xs enumeration value drawings gt lt Xs enumeration value arabisque gt lt xs enumeration value DecoMargin gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt xs attribute name decPlace gt lt Xxs simpleType gt lt Xs restriction base xs NMTOKEN gt lt xs enumeration value DecoFullPage gt lt Xs enumeration value decoSection gt lt xs enumeration value decoColophon gt lt xs enumeration value decoTextDivision gt lt xs enumeration value decoPagFram gt lt xs enumeration value DecoMargin gt lt Xs enumeration value decolLining gt lt xs restriction gt lt xs simple
64. ef titPage minOccurs 0 maxOccurs unbounded gt lt xs element ref tabContent minOccurs 0 maxOccurs unbounded gt lt xs element ref index minOccurs 0 maxOccurs unbounded gt lt xs element ref introduction minOccurs 0 maxOccurs unbounded gt lt xs element ref msPart minOccurs 0 maxOccurs unbounded gt lt xs element ref Chapter minOccurs 0 maxOccurs unbounded gt lt xs element ref colophon minOccurs 0 maxOccurs unbounded gt lt xs element ref addwrit gt lt xs choice gt lt xs complexType gt lt xs element gt Figure n 43 Les l ments logicStruct 5 1 titlePage il contient des informations qui indiquent l existence de page de titre dans le manuscrit Les attributs suivants sont ajout s pour identifier le type de titre de page s il existe dans le texte soit crit dans une page s par e separate soit m lang avec le corpus du texte notSeparate 5 2 tabContent il contient des informations sur la table des mati res Le sous l ment lt p gt est l pour donner au catalogueur de mettre le nombre de pages et d autres informations concernant la table des mati res 221 element tabContent children O element logicStruct attributes Name Type Use Default Fixed existe XS NMTOKEN no tabConType xs NMTOKEN source lt xs element name tabContent gt lt xs complexType gt lt xs sequence minOccurs 0 maxOccurs unbounded gt lt xs element re
65. element msDescription attributes Name yp Default Fixed Status XS NMTOKEN notBefore xs string notAfter xs string evidence xs NMTOKEN source lt xs element name history gt lt xs complexType gt lt xs complexType gt lt xs choice gt lt xs element ref ownName minOccurs 0 maxOccurs unbounded gt lt xs element ref colleName minOccurs 0 maxOccurs unbounded gt lt xs element ref transmission minOccurs 0 maxOccurs unbounded gt lt xs element ref stamp minOccurs 0 maxOccurs unbounded gt lt xs element ref origin minOccurs 0 maxOccurs unbounded gt lt xs element ref provenance minOccurs 0 maxOccurs unbounded gt lt xs element ref acquisition minOccurs 0 maxOccurs unbounded gt lt xs element ref others minOccurs 0 maxOccurs unbounded gt lt xs choice gt lt xs attribute name Status gt lt xs simpleType gt lt Xs restriction base xs NMTOKEN gt lt xs enumeration value Autographes gt lt xs enumeration value Apographes gt lt Xs enumeration value Unique gt lt xs enumeration value waqf gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt xs attribute name notBefore type xs string gt lt Xs attribute name notAfter type xs string gt lt xs attribute name evidence gt lt Xxs simpleType gt lt Xs restriction base xs NMTOKEN gt lt xs enumeration value internal gt lt xsS enumeration value externa
66. es Le pr traitement consiste simplifier progressivement l image et restaurer l information contenue dans les couleurs ou les nuances de gris pour obtenir une image binaire o tous les objets importants apparaissent Les objets qui nous int ressent dans les textes sont constitu s de traits En terme d analyse d image il faut donc chercher tous les traits possibles quelles que soient leurs couleurs ou leurs nuances de gris Cette tape est trop complexe pour tre appliqu e directement sur les images couleurs 1l faut proc der dans un premier temps une conversion de l image couleur en image niveaux de gris en minimisant les pertes d informations concernant les traits des objets que l on d sire conserver Dans un deuxi me temps l image niveaux de gris est transform e en image binaire o chaque pixel n est repr sent que par deux valeurs possibles 0 pour les pixels du fond et 1 pour les pixels des traits des objets 3 3 2 1 2 La conversion d images couleurs en images niveaux de gris Dans une image couleur chaque pixel de l image est repr sent par un triplet de valeurs R V B qui mesure l intensit dans chacun de canaux Rouge Vert Bleu Chaque canal mesurant une valeur entre 0 et 255 nous avons 256 couleurs possibles soit plus de 16 millions de couleurs Trois m thodes diff rentes sont applicables dans le d monstrateur suivant le niveau de difficult de s paration entre le fond
67. f p gt lt xs sequence gt lt xs attribute name existe default no gt lt xs simpleType gt lt Xxs restriction base xs NMTOKEN gt lt xs enumeration value yes gt lt xs enumeration value no gt lt xs enumeration value unDet gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt xs attribute name tabConType lt Xxs simpleType gt lt xs restriction base xs NMTOKEN gt lt Xs enumeration value subiT able gt lt Xs enumeration value SoraTable gt lt xs enumeration value chapTitTable gt lt Xs enumeration value otherTable gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt xs complexType gt lt xs element gt Figure n 44 Les l ments tabContent Les attributs suivants sont ajout s pour d crire le type de table des mati res trouv e dans le texte surtout le sous l ment tabConT ype soit une table class e par sujet sub Table par titre de sourate SoraTable par titre de chapitre chapTitTable soit par d autres titres otherT able qui ne seraient pas mentionn s ci dessus 5 3 index 1l contient des informations sur l existence d un ou plusieurs index dans le manuscrit element index subindex authindex otherindex element logicStruct Name Type Default exist XS NMTOKEN lt xs element name index gt lt Xxs complexType gt lt Xxs sequence minOccurs 0 maxOccurs unbounded gt lt Xs choice gt lt
68. fen tre avec le nombre 1 autour du p signifie qu il est possible de r p ter le paragraphe au moins une ou plusieurs fois 1 4 3 institution il contient le nom de l institution que ce soit biblioth que ou universit dans lequel le manuscrit existe 1 4 4 repository 1l permet de localiser le manuscrit dans la partie de la biblioth que ou de l institution o 1l se trouve 1 4 5 settlement il contient le nom d un lieu plus petit qu une ville tel qu un village par exemple Les trois derniers l ments fils city region et country sont d j d finis dans l l ment origPlace 1 5 origDate il contient n importe quelle date utilis e pour identifier la date d origine d un manuscrit ou d une partie de manuscrit element origDate diagram CE children Date O used by element msidentifier source lt xs element name origDate gt lt xs complexType gt lt xs sequence gt lt xs element ref Date gt lt xs sequence gt lt xs complexType gt lt xs element gt Figure n 14 Les l ments origDate 1 5 1 Date pour la date il y a un l ment fils p dans lequel on peut ajouter la date sous n importe quelle forme Autre possibilit pour faciliter le t che des catalogueurs nous avons mis tous les attributs des dates trouv es pendant notre tude des manuscrits et ce plus particuli rement pour les manuscrits arabo
69. ficile a Pour surmonter ces difficult s Q5 a propos deux solutions les deux derniers points de ses r ponses a Le premier est l change de manuscrits l chelle mondiale 174 Q Le second est l utilisation d quipements de haute technologie pour sauvegarder les manuscrits et en assurer une bonne diffusion 3 1 5 La num risation des manuscrits 3 1 5 1 Que pensez vous de la num risation des manuscrits Douze parmi les quinze r pondants sont favorables au processus de num risation des manuscrits arabes pour les raisons suivantes Q Q2 pense que la num risation a permettra un grand bond en avant dans l tude des manuscrits Pour Q3 la num risation permettra d liminer une part des probl mes de lecture et aidera au classement comparatif mais selon lui une condition si on parvient instaurer une grille respectable dans un maximum de cas La r ponse de Q4 est aussi conditionnelle elle sera une v ritable aide si l acc s est fait et la r solution bonne I think it is good idea 1f accessing and resolution are possible Du fait de son exp rience et de la particularit des corpus de manuscrits qu il a travaill s Q5 reste toujours prudent Selon lui c est tr s bien mais on a besoin d experts pour que la num risation des manuscrits donne une bon r sultat avec Putilisation de l ordinateur Very good still we need experts for making this digitalisation of the man
70. formations sur la copie num ris e de ce m me manuscrit 6 2 2 microfilCopy il contient des informations sur la copie microfilm de ce m me manuscrit element microfilCopy diagram mmewe Children e o O element surrogates attributes Name Type Default lieu xs string date xs string institution xs string other xs string source lt xs element name microfilCopy gt lt Xxs complexType gt lt XS sequence gt lt xs element ref p gt lt xs sequence gt lt xs attribute name lieu type xs string gt lt xs attribute name date type xs string gt lt xs attribute name institution type xs string gt lt Xs attribute name other type xs string gt lt xs complexType gt lt xs element gt Figure n 55 les l ments et les attributs microfilCopy 6 2 3 photogrCopy il contient des informations sur la copie photographique de ce m me manuscrit 6 2 4 publishCopy il contient des informations sur la copie publi e de ce m me manuscrit 3 2 3 Conclusion La description des m tadonn es et sa grammaire se veut une aide l analyse d un manuscrit ou d une partie de manuscrit et une aide utile pour le catalogueur afin d encoder ces manuscrits sous forme lectronique num ris e Il y a peu de manuscrits qui contiennent tous les l ments et sous l ments mentionn s dans cette partie cependant nous avons trouv n cessaire de d finir le plus large
71. homme et une femme Il y a aussi une allemande un am ricain un belge un britannique une grecque un italien un marocain un palestinien et un fran ais d origine tunisienne a Treize sur quinze ses trouvent dans la tranche d ge de 31 60 ans ce qui indique que la plupart ont des exp riences assez riches dans le domaine de manuscrits a Par cons quent leur profession ainsi que leur exp rience donne une base tr s riche pour tablir la description n cessaire l acc s aux manuscrits num ris s 3 1 2 Les tudes de manuscrits R ponse o1 Q2 03 Q11 Q12 Q13 Q14 Domai ess Ea E E E La consultation de texte e b ia ia i ia a collections La pal ographie Xx KRKI a A 8 e e a L histoire de lart X 1 1 1 Ci 1 0 1 1 RKI Tableau n 20 Les domaines d int r t dan l tude codicologique 164 Du tableau ci dessus on peut pointer les domaines qui int ressent le plus les utilisateurs dans leur tude des manuscrits arabes a La majorit de notre chantillon 12 sont int ress e par l dition de textes manuscrits a En deuxi me lieu vient la consultation de textes manuscrits 9 a En troisi me lieu l histoire des collections 7 a En quatri me lieu la pal ographie 6 a En cinqui me la codicologie 5 a En sixi me et derni re tape vient l histoire de l art 2 3 1 2 1 Autres centres d inter t lors de l tude d un manuscrit l
72. ial ou religieux b certainty 1l d signe le niveau de confiance associ la datation indiqu e par certains attributs dans le manuscrit comme un niveau tr s lev high moyen medium ou bas low c evidence 1l indique le genre d vidence ou de t moignage la datation d un manuscrit une vidence int rieure internal ext rieure external ou hypoth tique conjecture 4 msContent manuscript content il d crit tous les l ments qui aident identifier le contenu d un manuscrit donn element msContent msContent DE el Lun 1 children msltem o element msDescription attributes Name Type Use Default Fixed defective xs NMTOKEN no source lt xs element name msContent gt lt xs complexType gt lt xs sequence gt lt xs element ref msltem maxOccurs unbounded gt lt xs sequence gt lt xs attribute name defective default no gt lt xs simpleType gt lt xs restriction base xs NMTOKEN gt lt xs enumeration value yes gt lt xs enumeration value no gt lt xs enumeration value unk gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt xs complexType gt lt xs element gt 219 Figure n 41 Les elements et les attributes msContent 4 1 msitem il s agit d une unit descriptive dans laquelle on trouve des informations sur la composition du manuscrit en volumes et l information qui concerne chaque volume comme l auteur
73. ion value illustration gt lt xs enumeration value drawings gt lt Xs enumeration value arabisque gt lt xs enumeration value DecoMargin gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt xs attribute name decPlace gt lt Xxs simpleType gt lt Xs restriction base xs NMTOKEN gt lt xs enumeration value DecoFullPage gt lt Xs enumeration value decoSection gt lt xs enumeration value decoColophon gt lt xs enumeration value decoTextDivision gt lt xs enumeration value decoPagFram gt lt xs enumeration value DecoMargin gt lt Xs enumeration value decoLining gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt xs extension gt lt xs simpleContent gt lt xs complexType gt lt xs element gt Figure n 35 Les l ments et les attributes decText 2 10 2 1 decoText il d crit la forme de d cor trouv dans le texte Dans le decType qui est un l ment fils de decoText nous avons mis la liste des attributs suivants qui repr sentent le d cor trouv dans le texte comme Shamsas un style de d cor connu sous ce nom la miniature les illustrations les dessins drawings les arabesques et le d cor sur la marge DecoMargin alors que le deuxi me l ment fils decoPlace indique la place du d cor l int rieur de texte Il s agit du d cor de pages enti res DecoFullPage ou du d corde certaines parties du manuscrit d
74. is sur un microfilm de tr s mauvaise qualit De plus la qualit de la num risation n est pas r guli re en 264 terme de contraste et de luminosit d une page l autre traduisant un r ajustement manuel de l op rateur entre chaque prise d image La mauvaise qualit du manuscrit rentre aussi en ligne de compte avec la pr sence de nombreuses taches qui occultent le contenu des pages Mais c est l irr gularit de la luminosit et du contraste qui va le plus perturber l analyse d image car les m thodes de segmentation s lectionn es et leurs param tres ne marchent pas pour toutes les images pr sentant des contrastes diff rents La segmentation des caract res qui taient crits en rouge qui apparaissent donc en gris clair va chouer sur toutes les images surexpos es et ils ne pourront donc tre reconnus plus tard Et cette m me nuance de gris appara t sur le texte courant quelques pages plus loin cause d une surexposition de l image lors de la num risation Une normalisation des images en terme de luminosit et de contraste est alors n cessaire pour rendre toutes les images comparables Cependant cet outil n a pas t encore d velopp dans le prototype et donc les r sultats sont tr s partiels Les m tadonn es s lectionn es sont a Texte Noir a Texte Rouge apparaissant gris clair a Illustrations Pour les images suffisamment contrast es les r sultats de la reconnaissance est
75. iste des attributs qui aident l identification de ce genre de papier Sulimani Talhi Nohi Faraouni Jaafari Tahiri un autre attribut est aussi pr sent pour d autres types que les pr c dents otherType Par contre si le type de papier est occidental on distingue les attributs suivants avec filigrane WaterMark et sans filigrane Si c est un papier avec filigrane il existe un champ avec WaterMarkType pour mettre le type de filigrane utilis pour la fabrication du papier element support diagram extension of xs string element physDesc attributes Name Type Default Fixed suppoKind XS NMTOKEN papertype XS NMTOKEN others xs string source lt xs element name support gt lt xs complexType gt lt xs simpleContent gt lt xs extension base xs string gt lt xs attribute name suppoKind gt lt xs simpleType gt lt Xs restriction base xs NMTOKEN gt lt xs enumeration value paper gt lt Xs enumeration value parcheman gt lt xs enumeration value papyrus gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt xs attribute name papertype gt lt Xxs simpleType gt lt Xs restriction base xs NMTOKEN gt lt xs enumeration value Arabic gt lt Xs enumeration value occidentale gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt xs attribute name others type xs string gt lt xs extension gt lt xs simpleContent gt lt
76. l gt lt xs enumeration value conjecture gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt 216 element yO Figure n 38 Les l ments history 3 1 ownName le nom du possesseur il contient des informations sur le s nom s de s possesseur s 3 2 colleName le nom du collecteur il contient des informations sur le s nom s de s collecteur s 3 3 transmission les informations mentionn es au cours de la transmission Il contient les noms des personnes mentionn es au cours de la transmission surtout le s nom s de s personne s qui coute nt sama la personne qui a lu le manuscrit qirah et le s nom s de s personne s qui donne nt le dipl me ijaza la personne qui a lu le manuscrit Il contient galement le nom du lieu et de la date de la c r monie element transmission diagram transmission place date name element histor attributes Type Default Fixed XS NMTOKEN XS NMTOKEN XS NMTOKEN source lt xs element name transmission gt lt Xxs complexType gt lt Xs choice gt lt xs element ref place gt lt xs element ref date gt lt xs element ref name gt lt xs choice gt lt Xs attribute name sama gt lt Xxs simpleType gt lt Xs restriction base xs NMTOKEN gt lt Xs enumeration value nOfTimes gt lt xs enumeration value perListening gt lt xs enumeration value place gt lt Xxs restriction gt lt x
77. la premi re place dans l int r t de l utilisateur peut tre cause de leur richesse au niveau 165 couleur aussi bien qu au niveau du style L illustration et le d cor dans le texte viennent la deuxi me et la troisi me place c est une indication que ces deux aspects sont aussi importants dans l tude d un manuscrit et que nous avons besoin de les prendre en consid ration dans la cr ation de m tadonn es Bien que le d cor de la reliure vienne la quatri me place c est dire en derni re priorit dans notre chantillon cela repr sente encore un pourcentage de 27 de l chantillon nous ne pouvons donc pas le marginaliser non plus a Dans la deuxi me cat gorie on trouve huit aspects nouveaux ajout s par les utilisateurs On peut les regrouper selon les cat gories suivantes o Le contenu du texte est mentionn dans les r ponses Q3 Q4 Q5 Q10 Q14 et Q15 Dans ces r ponses le contenu des textes est consid r suivant diff rents point de vue le contenu scientifique du document les aspects philosophiques exemple La pens e arabe classique la l gende des images Egalement pour l auteur de la r ponse Q5 qui est aussi int ress par le contenu du texte mais surtout en ce qui concerne J rusalem o L histoire du texte et la technique de fabrication o L incipit des textes o L histoire de l art comme des indicateurs de provenance et pour dater le manuscrit comme l indi
78. le de 5 valeurs respectivement Projection Proj ct on Le da si PSS Projection X Projection Y Projection X Projection Y Projection X Projection Y Projection X Projection Y Illustration n 39 La Projection X et projection Y des formes Les mesures sur la g om trie des objets a La hauteur de l objet a La largeur de l objet a L paisseur l paisseur moyenne des traits a La longueur la longueur de tous les traits de l objet a La position relative dans l image en abscisse a La position relative dans l image en ordonn e 3 3 2 5 La prise en compte des relations spatiales Il existe des m tadonn es qui ne peuvent pas tre reconnues partir de la seule forme des objets analys e ind pendamment les uns des autres Par exemple pour le manuscrit Arabe 1489 R28062 l alignement entre les objets et la r partition spatiale r guli re des objets doivent tre pris en compte dans la reconnaissance des textes situ s dans les tableaux En effet la forme des textes est identique l int rieur comme l ext rieur des tableaux et la pr sence des bordures des tableaux n est pas toujours apparente dans l image Dans un autre exemple sur le manuscrit Arabe 179 R60914 le texte est identique en taille et en paisseur celui des titres et aucune des primitives d crites pr c demment ne peut permettre la reconnaissance des titres partir de la seule forme des textes Les titres sont recon
79. lle description suppl mentaire qui concerne la responsabilit intellectuelle du manuscrit autre que l auteur et le copiste comme le peintre par exemple 1 2 title il fournit le titre du document ou d une partie de document Le m me l ment a t utilis dans MASTER mais comme l ment fils de l l ment msHeading Nous avons trouv n cessaire de mettre l int rieur de l l ment racine titre les l ments fils suivants 190 element title diagram I r l l l l l tPropr tiTranslated irransiterated DaralleiTi it VolTitle otherTit incipit explicit source lt xs element name ame title gt lt Xxs complexType gt lt xs choice maxOccurs unbounded gt lt xs element ref titPropr minOccurs 0 maxOccurs unbounded gt lt xs element ref tiTranslated minOccurs 0 maxOccurs unbounded gt lt xs element ref tiTransliterated minOccurs 0 maxOccurs unbounded gt lt xs element ref parallelTit gt lt xs element ref VolTitle minOccurs 0 maxOccurs unbounded gt lt xs element ref otherTit minOccurs 0 maxOccurs unbounded gt lt xs element ref incipit minOccurs 0 gt lt xs element ref explicit minOccurs 0 gt lt xs choice gt lt xs complexType gt lt xs element gt Figure n 7 Les element title 1 2 1 titPropr il s agit du v ritable titre qui a t retrouv r p t de la m me fa on dans plusieurs sources soit sur la premi re page du m
80. lle est encore issue de la num risation de microfilms L image binaris e pr sente des pertes d informations et affiche des objets coup s ou coll s ainsi qu un grand nombre de taches Nous rappelons qu une image binaire ne peut pas tre restaur e par traitement d images car l information perdue lors de la binarisation ne peut plus tre retrouv e La bordure des tableaux n est pas utilisable car elle est repr sent e trop souvent par des lignes discontinues jusqu des pointill s Le manque de temps sur le d veloppement informatique du logiciel ne nous a pas permis d extraire toutes les m tadonn es que l on souhaitait et notamment les textes en zigzag Nous nous sommes limit s des m tadonn es qui taient susceptibles d tre reconnues avec une taux suffisamment lev de reconnaissance pour exploiter les r sultats en terme d indexation a Texte a Titres a Tableaux a Illustrations 270 FI EEI as RM es j ais ta e ed L b a H Lee D Lure sut Ds js A Pr de re Se Mes mr se M Loan st zA Fa EEN AF EN PAT uy Lu FA spt hi sen A EM EE i A A KEREN Ak a des sa PR TRE Me eE E J fs af s bris in T jat ta Tableau Illustrations Illustration n 51 R sultats de la reconnaissance supervis e sur Arabe 1489 R28062 Cependant la complexit des m tadonn es de ce manuscrit rend sa description tr s difficile Par exemple certains chiffres surlign s apparai
81. musicNotation il contient des informations concernent les notes musicales trouv es dans le texte 2 6 10 mathForm il contient ce qui concerne des informations dans le texte qui ne sont pas d criture normale comme une formule math matique par exemple 208 2 7 msWriting 1l contient la description des diff rentes critures utilis es pour crire un manuscrit L l ment msWriting est r parti en deux sous l ments handDesc et p element msWriting diagram o AhandDesc meWriting E E ss 0 handDesc p used by element physDesc attributes Name Type Use Default Fixed hands xs NMTOKEN source lt xs element name msWriting gt lt xs complexType gt lt Xs choice minOccurs 0 maxOccurs unbounded gt lt xs element ref handDesc gt lt xs element ref p gt lt xs choice gt lt Xs attribute name hands gt lt Xxs simpleType gt lt Xxs restriction base xs NMTOKEN gt lt Xs enumeration value firstHand gt lt Xs enumeration value secondHand gt lt Xs enumeration value thirdHand gt lt Xs enumeration value secFol gt lt Xxs restriction gt lt xs simpleType gt lt xs attribute gt lt xs complexType gt lt xs element gt Figure n 30 Les l ments msWriting 2 7 1 handDesc l l ment fils handDesc d crit tout se qui concerne l criture du texte element handDesc diagram handDesc F 1 wO 0 attributes
82. naissables seulement partir de l indentation du texte par rapport la bordure de la page et la distance avec le texte sup rieur et inf rieur Ces deux exemples illustrent combien l alignement la justification et les distance entre les blocs de texte sont importants pour l extraction de certaines des m tadonn es PER t le ge de ree e our rej br pe mlie ee ir S i Less als ee om 1 I La male prier ele rie ieir r FE gs ERTA o Eis Z uem ml RS eme EA oa an a aa acoc sos D EEEREN ATA nt 7 7 DETER NPA PENEN ape aaou pilies DT Sen HEAR igesa n O Ji cas tr a ar EE NEE E anik pa 3ta UE eue Gars sites LE y A TRDETS an DE art E FRE ES a ge te sy AGE AVE SY NOPEAA EAE KA Erare ERLENT GERIR EORR DOETE a D mere fee n Rares rot PRO Lay FE pr Syrie tel ra Danasa is esa Pause E st A M La A te Cl de RE last ses ne ang BAAP TOUTE TEF aa gt FERET Seb g niae k i re lg ul JE FE passe 5 rt JA lei Ge lE ea Et TETEE A hp Ws sl AA pen ak Le EN i A de a ng e 43 NE t s cara ae poa a cu i tro A sn riS te ne 3 La ERE ER TIN ei caj E f RATES ip oje o r mls fe LIS X p Let ce j ch z en SE EE a lys cle mere Dwe ee n aji L Ard sLaer t S a p lue aieh a HUE le i as 09 p DE w 4 CLR Exemple ou la r gularit de la r partition spatiale entre les obje
83. niveaux de gris en images binaires La seconde tape consiste convertir l image en niveaux de gris en image binaire adapt e la segmentation des objets Cette tape critique appel e aussi binarisation va conditionner les performances de la segmentation des objets lors des tapes suivantes Nous avons encore choisi trois m thodes robustes et r put es performantes sur une grande vari t de documents x a La binarisation automatique globale chaque pixel est compar un seuil optimal calcul automatiquement par le crit re statistique de Fisher Ce crit re garantit de trouver dans la distribution statistique des nuances de gris repr sent e sous la forme d un histogramme exactement 2 classes de nuances de niveaux de gris s par es par un seuil Tous les pixels dont le niveau est inf rieur ce seuil sont class s 0 noir et les autres class s 1 blanc Le seuil est identique pour tous les pixels de l image La m thode de seuillage globale est adapt e aux documents tr s contrast s pour lesquels tous les objets ont un niveau de gris suffisamment diff rent de celui du support papier Il ne convient pas comme le montre la figure suivante sur des images o les traits ont des nuances faiblement contrast es i r ST a fer ON EU TON Li La r i wt Ta r i i s A s i 1 i Fa LR RON id JN we AS a FE ee D a RER os ns ms Me Ne al 1 i i e ej ma i P e Pa t
84. nte textuelle a Q13 est le seul qui est int ress par les incipit la premi re phrase de texte manuscrit de m me pour la comparaison entre la mise en page et les images a L identification de l auteur est aussi signal e par Q14 169 3 1 2 6 Le domaine de la codicologie l tude mat rielle R ponse Q1 Q2 Q3 Q5 Q7 Q10 Q11 Q12 Q13 Q14 Q15 Total Domaine La composition des cahiers TE Ju utes r clames technique ee fur Sms Mis miss Autres Les notes Le Q10 La datation du papier Q15 Tableau n 26 Le domaine de la codicologie l tude mat rielle a La mise en page d un manuscrit la r glure des pages le nombre des lignes le paragraphe le chapitre et les sous chapitres est la plus mentionn e 9 dans nos r ponses a Huit sont int ress s par la composition de cahier Cahiers de cinq ou de dix etc a Ensuite il y a les types de support papier ou parchemin 7 r ponses a Alors que la technique de reliure prend la quatri me place avec 5 r ponses a Ilya enfin les r clames dans 3 r ponses D autres l ments sont ajout s par Q10 et QIS il s agit des notes sur la marge et la datation du papier Dans le paragraphe qui suit nous montrerons en d tail les aspects les plus importants dans l tude de la mise en page d un manuscrit R ponse Q1 Q2 Q3 Q5 Q7 Q10 Q11 Q12 Q13 Q14 Q15 Total Domaine Le nombre de lignes par page La D La stru
85. o Un acc s plus rapide des donn es essentielles et la possibilit de visualiser imm diatement les manuscrits comme l indique Q7 o Il en est de m me pour Q10 qui rejoint Q7 dans la m me position Il ajoute ceci Encore faudrait il que de tr s nombreux manuscrits soient accessibles a Pour le troisi me groupe Q8 Q9 et QII la num risation facilite la t che des utilisateurs en leur donnent un acc s distance aux manuscrits comme l indique QII C est bien surtout pour les chercheurs loign s des grandes biblioth ques Q9 aussi est d accord avec le m me principe surtout que cela vite le d placement des chercheurs d une biblioth que l autre galement la num risation donne l utilisateur la possibilit de trouver facilement les copies des manuscrits You can look into manuscripts from your computer and don t have troubles in getting copies of manuscripts or travelling from library to library Q8 qui est aussi d accord avec les id es pr c dentes ajoute que la num risation aide la conservation des manuscrits en r duisant l utilisation directe des documents Gr ce la num risation les chercheurs peuvent facilement les consulter par l interm diaire de l ordinateur Q8 dit que Yes remote users can consult the manuscripts on line and do much of their research 177 from home before consulting the originals Again less handling of precious manuscripts a Le quat
86. objets s lectionn s Mis dieu de et i Op ration 4e ie Ci L w H TE al CT m B amp z Damga LC CEST NE A EE ten its rl E Fr DETE TS mn ms Ti smmm ms S lctionn plusieurs bj ts pour Tapprentssage digusr le bouton droit pour terne pointe un objet pour l apprentissage chquer le be ton droit pour terminer Interface client Saisie de la classe n 1 Texte Interface client Saisie de la classe n 2 Titre 259 fer yare Affichage Wens Op ration APS aicho QUE Wal El apprentissage SE QD Et rs Aiha RER Op ration EE aser OE Mial apponi QE QG ENT ET FRE RL a EEEN E T HMMHH AHAU ER AH HT eo rl Mo CERERE REII AT JAAT d A Aa AFA Eo 4e PERS sh pointe un objet pour l appr n issags dhau r l be Aon droit pour terminar S lectionn plusieurs objets pour l apprenss29e chquer Ie bouton droit pour terminer Interface client Saisie de la classe n 3 Illustration Interface client Saisie de la classe n 4 Tableau Illustration n 43 Interface client avec les saisie des diff rentes classes L utilisateur peut tout moment v rifier la progression de l apprentissage en relan ant le processus de reconnaissance sur la m me page avec les nouvelles observations saisies et v rifier l am lioration de la reconnaissance Si la reconnaissance se d grade au fur et mesure de l apprentissage alors 1l
87. ombre possible des m tadonn es trouv s dans l ensemble des manuscrits tout en sachant que ces m tadonn es ne seraient pas appliqu es chacun de ces manuscrits 3 2 1 1 Quelques remarques explicatives Il est indispensable dans ce paragraphe d expliquer les sch mas que nous allons montrer dans ce chapitre comme exemples l existence d autres l ments fils Indique le lien fils avec ne Deux fen tres aux cadres l l ment racine z en pointill s indiquent la possibilit de r p ter l l ment 0 ou plus fois Figure n 2 Exemple de Sch mas sur XML Spy Le signe qui repr sente un mot donn comme amp est l entit du signe amp le apos est l entit de le gt est l entit du gt le Jt est l entit de lt et le quot est l entit du etc 185 1 Les l ments de racine et les l ments fils Comme 1l a t montr dans la figure ci dessus le rectangle avec le mot respStmt repr sente l l ment racine qui peut tre suivi par des l ments fils pour affiner la d finition de l l ment princeps dans ce cas de figure l auteur le copiste et la note sont des l ments fils Le petit cadre entre l l ment racine et les l ments fils signifie qu il y a un lien entre les deux Le signe sur les deux premiers cadres des l ments fils indique que ces deux l ments ont aussi des l ments fils alors
88. on administrative du manuscrit l int rieur de la biblioth que element admininfo diagram p recordHist availability custodialHist remarks msDescription source lt xs element name admininfo gt lt xs complexType gt lt xs sequence gt lt xs element ref p minOccurs 0 gt lt xs element ref recordHist minOccurs 0 gt lt xs element ref availability minOccurs 0 gt lt xs element ref custodialHist minOccurs 0 gt lt xs element ref remarks minOccurs 0 gt lt xs sequence gt lt xs complexType gt lt xs element gt Figure n 51 les elements admininfo Il est divis en cinq sous l ments un sous l ment lt p gt pour mettre n importe quelle information n cessaire 6 1 1 Le recordHist fournit des informations sur la source du manuscrit et sa copie d origine recordHist est divis en deux sous l ments source et change Source avec l l ment lt p gt qui fournit des informations sur l origine du manuscrit alors que l l ment change fournit toutes les informations concernant le changement qui a permis d arriver la situation actuelle du manuscrit 6 1 2 Availability 1l fournit des informations sur la disponibilit du manuscrit dans la biblioth que et sur l ventuelle restriction de son utilisation autrement dit sur le r glement d utilisation de ce manuscrit dans la biblioth que 6 1 3 custodialHist il fournit des inf
89. ormations sur l histoire d acquisition du manuscrit par la biblioth que soit par achat soit par donation etc element custodialHist P io I custodialHist Et ee ir AcustEuent Children p custEvent element admininfo source lt xs element name custodialHist gt diagram lt xs complexType gt lt xs sequence minOccurs 0 gt lt xs element ref p minOccurs 0 gt lt xs element ref custEvent minOccurs 0 gt lt xs sequence gt lt xs complexType gt lt xs element gt Figure n 52 Les elements custodialHist 6 1 3 1 custEvent il d crit les traitements qui ont t appliqu s au document lors de son acquisition par la biblioth que comme la conservation la pr sentation dans une exposition ou la num risation digitisation et la fumigation Les m me termes et la m me structure ont t utilis s dans MASTER l exception de la photographie car nous n avons pas trouv n cessaire de la mettre dans cette cat gorie Par contre nous avons trouv n cessaire d ajouter la fumigation l ment qui n existe pas dans MASTER 221 element custEvent diagram p conservation digitalisation exhibition fumigation element custodialHist attributes Name Type Default Fixed notBefore xs string notAfter xs string certainty XS NMTOKEN evidence XS NMTOKEN external type xs string source lt xs element name custEvent lt Xxs complexType gt lt XS sequence gt l
90. pleType gt lt Xs restriction base xs NMTOKEN gt lt xs enumeration value yes gt lt xs enumeration value no gt lt xs enumeration value na gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt xs attribute name illustrative default u gt lt Xxs simpleType gt lt Xs restriction base xs NMTOKEN gt lt xs enumeration value y gt lt xs enumeration value n gt lt Xxs enumeration value u gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt xs complexType gt lt xs element gt Figure n 34 les l ments et les attributs decNote 2 8 2 decoTech la technique de d cor Il contient des descriptions sur la caract ristique de technique du d cor qui existent dans les manuscrits arabes Nous avons divis cet l ment en trois parties la technique de texte la technique de d cor dans le texte coranique et le d cor de reliure element decoText diagram decoText extension of xs string used by element decoTech used by attributes Name Type Default decType XS NMTOKEN 212 __ decPlace xs NMTOKEN source lt xs element name decoText gt lt Xxs complexType gt lt Xxs simpleContent gt lt Xxs extension base xs string gt lt Xs attribute name decType gt lt Xxs simpleType gt lt xs restriction base xs NMTOKEN gt lt xs enumeration value Shamsas gt lt xsS enumeration value miniatures gt lt xs enumerat
91. ponse cette question nos interlocuteurs nous ont donn deux cat gories de donn es diff rentes La premi re est purement historique par p riode et la deuxi me la fois sujet et p riode La p riode Historique Num ro de questionnaire Islamique Q4 IV X si cles VI VIT QE VIHS XVI 700 1500 J Q9 o XII XIV O O O Toutes les p riodes La codicologie IX XVI J rusalem islamique et pr islamique Pal ographie toutes les p riodes Q12 Les textes grammaticaux IX XVI Tableau n 24 La p riode historique propos e a La premi re cat gorie les dix r ponses de Q4 Q11 Q6 QI Q8 Q9 Q7 Q6 Q14 et Q15 sp cifient bien les p riodes d int r t sans donner aucune indication sur le domaine a La deuxi me cat gorie deux de nos r ponses Q5 et Q12 sp cifient bien leur domaine d int r t par rapport la p riode historique o Pour Q5 en tant que palestinien 1l est bien videmment int ress par tous les manuscrits sp cialis s sur J rusalem pendant la p riode islamique et pr islamique o Alors que Q12 est int ress par la codicologie et les textes grammaticaux entre le IX XVI si cles et en ce qui concerne la pal ographie toutes les p riodes 168 3 1 2 5 Les objectifs des chercheurs pour l tude de manuscrits X X X X 10 X IX IX IX IX Objectif de recherche Comparer les titres de X plusieurs manuscrits La formation du nom
92. que Q8 Not from an art point of view but only as indicators for provenance and date also scribe function use of illumination Pas d un point de de l histoire de l art mais seulement pour en rep rer la provenance et la date aussi pour des raisons de calligraphie usage des enluminures 3 1 2 2 La cat gorie du manuscrit Les manuscrits arabes comme nous l avons dit dans le chapitre qui concerne la description des manuscrits arabes sont class s en deux cat gories les manuscrits arabo islamiques et les manuscrits arabo chr tiens avec pour chacun ses propres caract ristiques Notre but ici est de savoir quel pourcentage est int ress par l un ou 166 l autre de deux cat gories afin de prendre cela en consid ration dans la cr ation des m tadonn es n cessaires Cat gorie de ms Arabo Islamique X IX IX IX IX IX IX Arabo Chr tiens X X Tableau n 22 La cat gorie du manuscrits Dans le tableau ci dessus on voit que 14 utilisateurs sur 15 sont int ress s par les manuscrits arabo islamiques alors que seulement quatre 27 manifestent un int r t pour l autre cat gorie arabo chr tiens Parmi les quatre derni res r ponses 1l y en a une Q3 qui dit un int r t pour les manuscrits arabo chr tiens seulement Les trois autres Q2 Q5 et Q13 sont concern s par les deux cat gories 3 1 2 3 La typologie des manuscrits R ponse Q2 Q3 Q5 Q7 Q10 Q11 Q12 Q13 Q14 tot
93. que le cadre en pointill est l indication que l l ment est r p table soit 0 ou une fois soit une ou plusieurs fois soit 0 ou plusieurs fois 2 Les attributs L l ment racine ainsi que leurs l ments fils ont des attributs qui ont pour but d ajouter des valeurs l l ment lui m me comme par exemple l adjectif fran aise ajout l l ment langue indique que la langue utilis e est la langue fran aise etc 3 2 2 Les DTD des manuscrits arabes Cent soixante tries champs dont soixant tries poss dent en moyenne deux ou trois attributs ont t retenus pour d finir la structure des documents d crivant les manuscrits arabes Comme point de d part nous avons choisi le terme msDescription qui sert de base partir de laquelle sont tablis tous les autres l ments fils et les sous l ments De m me dans le projet MASTER le terme msDescription a aussi t utilis comme l ment de base msDescription l l ment msDescription est divis en six l ments principaux Il s agit de msidentifier physDesc history msContent logicStruct additional cf les figures suivantes Alors que dans le projet MASTER les l ments msldentifier msHeading msContents physDesc history additional et msPart ont t choisis comme l ments fils pour l l ment msDescription 186 element msDescription diagram msDeseripon E additional msiden
94. recherche sur le vocabulaire du manuscrit est une autre attente exprim e par Q10 par exemple les possibilit s d identification du texte de recherches sur le vocabulaire etc comme on peut le faire sur CD Rom pour les textes imprim s a Qualit d image tr s lev e l esp rance de Q2 et Q9 est d avoir des images de manuscrits de grande qualit Q2 aussi souhaite la possibilit de bien manipuler l imagerie High quality manipulatable imagery a Un catalogue correct et complet pour faire une recherche lectronique il faut un catalogue lectronique coh rent comme le propose Q2 a Pour Q14 il faut une vision enti re des manuscrits m me le feuilleton a Pour Q5 la num risation et par cons quent la recherche lectronique peut endommager le texte ce qui le rendra difficile comparer avec d autres manuscrits dans le m me domaine will damage the texts even will make it very difficult to compare it to other manuscripts which related to subject of this manuscripts Les r pondants nous ont propos d autres l ments qu ils souhaitent trouver par une recherche lectronique Les l ments propos s Num ro de questionnaire Donn es codicologiques date de copie nom du copiste etc Diff rents types d enluminures Q8 et Q14 Diff rents types d illustration Colophons Q8 Index avec le titre des chapitres 179 Les miniatures Avoir dans la main le plus grand
95. ri me groupe est aussi d accord avec le principe mais leur Oui est conditionnel Q8 dans sa derni re remarque rejoint le quatri me groupe condition que la num risation soit de bonne qualit But this all depends on the quality of the digitisation etc Q6 est plus concern par le comportement des utilisateurs Oui mais attention Il y a des chercheurs qui d j lisent trop vite les textes Avec les moyens modernes ils seront tent s d aller encore plus vite Mais pour Q15 le plus important est la rassemblement d un fond de manuscrits num ris s Oui si on arrive avoir un grand nombre de fonds a Le cinqui me groupe est tout fait en opposition avec les quatre premiers groupes mais il ne s agit que d une seule r ponse Q5 n est pas d accord avec le processus de num risation Ses pr cautions concernent surtout les informations et les possesseurs de manuscrits Les informations contenues dans les manuscrits risquent de circuler par l interm diaire de l Internet ce qui peut tre peut mettre en danger les possesseurs des manuscrits Q5 serait d accord avec les autres r pondants une seule condition si tous les manuscrits taient diffus s une chelle mondiale autrement dit si le projet de num risation deverait un projet mondial Selon lui Not yet there are a lot of important information engulfing these manuscript Putting it on the Internet might endanger the owners
96. rites dans un style diff rent et qui sont r pertori es de telle page telle page Dans MASTER l l ment extent est utilis dans le m me sens mais se situe comme l ment fils de l l ment collation 2 4 2 cahierComp le sous l ment cahierComp est le troisi me parmi les l ments fils d extent il contient l information sur la composition du cahier surtout son l ment fils noBifolia Nous avons ajout les attributs ternion quaternion quinion senion pour aider le catalogueur choisir le type de composition de chaque cahier composant le manuscrit Il s agit de trois quatre cinq ou six bi folios etc element cahierComp diagram E extension of xs string element collation attributes Name Type Use Default Fixed noBifolia xs NMTOKEN other xs string source lt xs element name cahierComp gt lt xs complexType gt lt xs simpleContent gt lt xs extension base xs string gt lt xs attribute name noBifolia gt lt xs simpleType gt lt Xs restriction base xs NMTOKEN gt lt xs enumeration value ternion gt lt Xs enumeration value quaternion gt lt Xs enumeration value quinion gt lt xs enumeration value senion gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt Xs attribute name other type xs string gt lt xs extension gt lt xs simpleContent gt lt xs complexType gt lt xs element gt Figure n 26 Les l ment
97. rouv n cessaire de mettre la profession de l auteur comme information suppl mentaire en sachant que cet l ment n arrive pas au m me niveau que l autre mais qu il indique seulement la profession de l auteur du manuscrit 5 Date de naissance et de morte 189 element author s l anamHormalised 1 E r7i l CnamTransiit I A za elements mslitem respStmt source lt xs element name author gt lt xs complexType gt lt Xs choice minOccurs 0 maxOccurs unbounded gt lt xs element ref namNormalised minOccurs 0 maxOccurs unbounded gt lt xs element ref namTransiit minOccurs 0 maxOccurs unbounded gt lt xs element ref otherNames gt lt xs element ref Profession minOccurs 0 maxOccurs unbounded gt lt xs element ref born gt lt xs element ref died gt lt Xs choice gt lt xs complexType gt lt xs element gt Figure n 6 Les l ments author 1 1 2 copyist 1l contient le nom du copiste qui ex cute le travail En contrepartie MASTER utilise le mot scribe comme attribut pour indiquer le nom du copiste Comme pour l auteur le nom du copiste a t class selon les l ments suivants 1 namNormalised il indique le nom officiel du copiste 2 namTranslit il contient le nom du copiste crit en caract res latins 3 otherNames il fournit les noms autres que le nom officiel du copiste 1 1 3 note cet l ment contient n importe que
98. s en image binaire pour extraire les diff rents objets de l image Dans un deuxi me temps on effectue une phase de reconnaissance qui analyse et mesure les diff rents objets segment s pour les classer suivant leurs formes 3 3 2 1 La segmentation des images La segmentation des images consiste trouver tous les objets porteurs d une information dans l image Puisque cette phase pr c de celle de la reconnaissance et que nous avons s par ces deux tapes qui sont pourtant troitement li es la segmentation va donc s effectuer sans l aide de la reconnaissance des formes Les images de notre corpus sont tr s vari es car elles peuvent tre en couleurs en niveaux de gris ou binaires quand elles sont obtenues partir de microfilms Pour traiter la grande vari t des images et pour r utiliser au maximum les algorithmes adapt s un certain type d image un module de pr traitement a t r alis Il permet de restaurer et de convertir les images couleurs ou en niveaux de gris en images binaires La segmentation proprement dite est effectu e partir de l image binaire La phase de restauration des images couleurs et en niveaux de gris et de conversion en image binaire est donc importante pour les performances globales du syst me Cela explique pourquoi en pr sence d images d j binaires de mauvaise qualit la restauration des images est impossible 3 3 2 1 1 Le pr traitement et la restauration des imag
99. s et les attributs cahierComp 2 4 3 other l l ment other contient des informations sur un autre type de cahier que n a pas t mentionn auparavant Cet l ment n existe pas dans MASTER car cet l ment ne concerne que les manuscrits arabes 2 5 foliation l ment d crivant une ou plusieurs formes de pagination appliqu e dans un manuscrit comme la pagination de folios ou de cahier etc Il est r parti en deux sous l ments le r clame qui sert comme une sorte de pagination et le cahier Marking qui sert de type de marquage de cahier element foliation diagram cahierMarking p reclame cahierMarking element physDesc source lt xs element name foliation gt lt xs complexType gt lt xs sequence gt lt xs element ref p gt lt xs element ref reclame gt lt xs element ref cahierMarking gt lt xs sequence gt lt xs complexType gt lt xs element gt Figure n 27 Les l ments foliation 2 5 1 reclame il contient des informations sur la r clame et sa composition les trois ou quatre derniers caract res du mot ou le dernier mot entier de la page pr c dente 2 5 2 cahierMarking il fournit des informations sur le type de marquage trouv dans le manuscrit Nous avons propos dans le sous l ment markType les attributs suivants allAraLet il indique que toutes les lettres de marquage sont en langue arabe L attribut allAraSyriLet montre que le marquag
100. s mis les l ments qui peuvent tre trouv s dans un manuscrit comme la colonne columns le tableau table l illustration illustration les figures figures le r glage des lignes ruledLines et le nombre des lignes d criture writtenLines surtout dans l l ment fils nomLigne LignePoem est un autre sous l ment pour indiquer l existence de po me dans le texte quelle page et quelle ligne 207 element layout diagram table illustration l aligures ruledLines A ritenLines A amp AlinePoem musicHotation if Punctuation pagForm A children columns table illustration figures ruledLines writtenLines stamp linePoem musicNotation mathForm punctuation pagForm lineForm physDesc source lt xs element name layout gt lt xs complexType gt lt Xs choice minOccurs 0 maxOccurs unbounded gt lt xs element ref columns gt lt xs element ref table gt lt xs element ref illustration gt lt xs element ref figures gt lt xs element ref ruledLines gt lt xs element ref writtenLines gt lt xs element ref stamp gt lt xs element ref linePoem gt lt xs element ref musicNotation gt lt xs element ref mathForm gt lt xs element ref punctuation gt lt xs element ref pagForm gt lt xs element ref lineForm gt lt Xs choice gt lt xs complexType gt lt xs element gt Figure n 29 Les l ments layout 2 6 9
101. s qu il soul ve De plus les manuscrits arabes pr sentent des difficult s qui sont diff rentes de celles que l on rencontre sur les manuscrits latins et qui rendent impossible les adaptations des autres travaux sur les manuscrits anciens Europe La m diocre qualit des images une grande partie des images du corpus proviennent de microfilms num ris s Nous savons actuellement que ce support n est pas adapt une num risation de qualit En effet 1l n est pas possible de num riser des microfilms en niveaux de gris car le proc d photographique du microfilmage enl ve toutes les nuances de niveaux de gris pour ne laisser appara tre que du blanc ou du noir afin de pouvoir r duire consid rablement la taille de l image Les images num riques issues de microfilms sont donc des images binaires qui ne peuvent pratiquement plus tre corrig es Les taches Institut National de Science Appliquer m lang es au texte ne peuvent plus tre enlev es et les d grad es des peintures et des ornements ont d finitivement t perdues Dans ces conditions l information perdue ne peut pas tre retrouv e et les textes effac s ne peuvent pas plus tre segment s Les m tadonn es que nous cherchons extraire ne n cessitent pas la reconnaissance des textes car les annotations les titres et les 1llustrations sont parfaitement visibles et reconnaissables sans recours au contenu des textes Nous avons donc demand a
102. s simpleType gt lt xs attribute gt lt xs attribute name airah gt lt Xxs simpleType gt lt Xs restriction base xs NMTOKEN gt lt Xs enumeration value NO Times gt lt xs enumeration value perReading gt lt xs enumeration value place gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt xs attribute name ijaza gt lt Xxs simpleType gt lt Xxs restriction base xs NMTOKEN gt lt Xs enumeration value Donor gt 217 lt Xs enumeration value place gt lt xs enumeration value date gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt xs complexType gt lt xs element gt Figure n 39 Les l ments transmission 3 4 stamp le cachet il fournit la possibilit d indiquer l existence du cachet et dans quelle page il se situe Le cachet est un l ment important pour qu un sp cialiste dans l histoire des manuscrits puisse suivre l histoire d un manuscrit donn element stamp stamp extension of xs string elements history layout attributes Name Type Use Default Fixed pagNomb xs string source lt xs element name stamp gt lt xs complexType gt lt xs simpleContent gt lt xs extension base xs string gt lt xs attribute name exist gt lt xs simpleType gt lt Xs restriction base xs NMTOKEN gt lt xs enumeration value yes gt lt xs enumeration value no gt lt xs restriction gt lt xs simple
103. sale E nombre d observations est lev plus la E Classification Supervisee par Apprentissage A C Classification Non Supervisee Automatique reconnaissance sera s re Naturellement re Nombre de classes Apprentissage i car toutes les pages d un m me ouvrage gardent une pr sentation homog ne et affichent des m tadonn es communes qui peuvent tre reconnues classe n 5 Illustration n 42 Interface du script automatiquement A l inverse deux ouvrages diff rents ont rarement la m me pr sentation n1 les m mes m tadonn es Cette constatation nous a pouss d finir un script pour chaque ouvrage qui permet de conserver tous les param tres n cessaires au traitement de ce dernier Les informations conserv es par ce script concernent la fois les m thodes de segmentation et leurs param tres ainsi que les caract ristiques que l utilisateur va choisir pour d finir les objets le choix de la m thode de reconnaissance le nombre de classes et l apprentissage des observations L interface indique aussi le nombre d observations acquises lors de l apprentissage et permet aussi de nommer chaque classe des m tadonn es Tr s conviviale l interface utilisateur simplifie la phase d apprentissage Un certain nombre d outils permettent de s lectionner ou d selectionner en pointant avec la souris un ou plusieurs objets Un menu contextuel appara t pour d terminer la classe des
104. san Nashki Syrie Nashki Tulut Iraq Nastaliq Persan Orientale Egypt Rouqa Taghra Tulut Tulut Muhaqqaq Tulut Iran Tulut Muhaqqaq Nashki Turquie element script diagram LL cl CHp A ne 0 Children image o oo O elements handDesc msitem attributes Name Type Use Default Fiy writStyle XS NMTOKEN otherStyle xs string source lt xs element name script gt lt Xxs complexType gt lt xs sequence minOccurs 0 maxOccurs unbounded gt lt xs element ref image gt lt xs sequence gt lt xs attribute name writStyle gt lt xs simpleType gt lt Xs restriction base xs NMTOKEN gt lt xs enumeration value Diwani gt lt xs enumeration value Farisi gt lt Xxs enumeration value Higazi gt lt xs enumeration value Houroufal Taaj gt lt xs enumeration value ljaza gt lt xs enumeration value Kufi gt lt xs enumeration value Kufi Occidental Tunisie gt lt Xxs enumeration value Kufi Oriental lraq lran gt lt xs enumeration value Magribi gt lt Xs enumeration value Magribi Andalou gt lt Xs enumeration value Muhaqgaq gt lt Xs enumeration value Muhaqqgagq Arabe gt lt Xxs enumeration value Muhagqgag Turquie gt 210 lt xs enumeration value Naskhi gt lt xs enumeration value Naskhi Arabe gt lt Xs enumeration value Naskhi Egypt gt lt xs enumeration value Naskhi Inde gt lt Xxs enumeration value Naskhi micrographie Egypt gt lt Xs enumeration
105. selon nos r pondants comme les suivants a Mon ignorance comme l indique Q3 dans sa r ponse a Difficult s de toutes sortes textes ac phales sans t te et le d sordre des folios etc comme le dit Q10 a Le manque de tables des mati res et d index dans la plupart des manuscrits a Selon Q5 il y a plusieurs facteurs o Trop de manuscrits originaux ne sont pas disponibles sont manquants ou dispers s travers le monde o Pour faire des comparaisons on ne trouve pas de manuscrits sur le m me sujet qui permettent de comparer l un l autre o Beaucoup de manuscrits en Palestine ne sont pas bien conserv s o Il devrait y avoir des changes de manuscrits au niveau international o Nous avons besoin d quipement de haute technologie pour sauvegarder les manuscrits Notre dernier r pondant Q5 de nationalit palestinienne a voqu le probl me qui touche les chercheurs palestiniens On peut r sumer ainsi ses r ponses a En premier lieu le manque de copies pour le m me manuscrit pour faire l tude compar e a En deuxi me lieu dans la plupart des cas on ne trouve pas le manuscrit original soit il est perdu soit il est ailleurs quelque part dans le monde a En troisi me lieu ce qui est vident et qui a t dit dans la partie description d un corpus de manuscrits de J rusalem c est que les manuscrits sont dans une condition de conservation tr s mauvaise ce qui rend la recherche tr s dif
106. sont dans les deux cas bien d tect s en revanche la mesure de la largeur maximale fait appara tre certains longs mots du texte arabe pour de grands objets et qu il ne faut pas s parer F TrA CREET E Ean y a HA rar Alias abaknay y de sent Illustration n 24 Zone d tude sur R18271 Arabe2478 image 0120 242 Mesure de la hauteur maximale Mesure de la largeur maximale Illustration n 25 mesure de la hauteur et de la largeur maximale Par cons quent nous avons choisi de mesurer tous les objets par la hauteur maximale de fa on ce que le texte ne soit jamais s par et class comme un grand objet La figure suivante montre que tous les objets de grande taille sont affect s d une valeur maximale alors que le texte poss de une hauteur maximale n gligeable Cependant les petits objets qui touchent un grand objet comme le texte qui touche le cadre ou les illustrations feront partie int grante de l objet graphique Illustration n 26 R sultat de la mesure des objets par la hauteur maximale On s pare donc les objets de grande taille illustrations bordures du livre cadres etc dans une autre image s par e de celle du texte 243 Ajib taugar ga BaN PARER Shell A at i A aE T TE 3 r i ii ja be a E are sucr e eue a ad LAURE ETINENE TE y Image Objets de faible hauteur Texte Image B Objets de grande hauteur cadre bordures du livre illustrations Illu
107. ssent dans la classe des tableaux cause de l alignement et de l quidistance entre les caract res De m me les diacritiques des titres et le texte dans certains graphiques de forme circulaire sont align s et apparaissent galement dans la classe des tableaux Et la partie verticale du titre n a pas t reconnue car d une part celui ci touche le cadre et d autre part cette orientation particuli re n a pas t vue lors de l apprentissage 271 aie rar dis pan LRU ra A E ta Eee Rene repose Hi a Re RCE tipk paa Fa tp REETITE TEETE LR ESETA IAA N P EAA S AA iie rron iritatia ju iris ste RL AAA DETTE TS FN 7 pr on rs si Tableau Pres PE Titres Illustration n 52 Exemples des erreurs de la reconnaissance sur Arabe 1489 R28062 272 mere spl 2 NIET D res is de dE HE D oo Ki Sr Kanis 4 au ne FE bota lege L Mepit TE PEEN E F ea N S w ogh s gapt Al iut s k Yadnya bbe Lis Le AT pt LS t d A gua ee ee AN a Vs he bdd JE Me Ve Gte on bai gs A H 54 rt DT D AC TEADE ET Jade by mie d DA IEA dell fire n t i s ya euE AAAG As pt Illustrations 3 3 2 7 Conclusion sur l analyse d images La reconnaissance des m tadonn es dans les images est tr s d pendante de la qualit de celle c1 et de leur richesse d information en terme de r solution et du nombre de couleurs Des taux tr s lev s de reconnaissance ont pu tre mesur
108. stration n 27 La s paration des objets de grande taille L image des objets de grande taille va tre trait e encore par morphologie pour retirer tous les objets de faible paisseur comme les bordures et la reliure du livre ainsi que les cadres Il ne restera de cette op ration que les illustrations drap ln AE i 5 DE m Hielal mi LATE OR TENTAC TIRE L Aa y EEE E i Image C Filtrage par l paisseur des objets Image D Union de l image de l image C et graphiques de l image B Illustration n 28 La s paration des objets de grande taille Le texte ne sera pas affect par ce traitement car la suppression des objets de faible paisseur ne s effectue que sur l image contenant que les grands objets 3 3 2 2 4 D tection automatique de la zone principale Probl matique La zone principale d limite la r gion d int r t o se situent les textes Cette zone principale peut tre simple sur les images contenant une seule page figure 2a ou double 244 sur les images d un livre ouvert figure 2b La d tection de la zone principale de texte permet de d finir les textes hors champs comme les annotations des pt Le sd PE in P t ji gairi sal i p bhdi en dl 4 i J be PTE Ferg i aE p SAR i is iP Dagi ni m DLS Sa ph re sl noiet HE Fu E PE T F etre Re El ir i jt J LKAA i TRE La Le LE ia i i F ag RAT ATEA tes k L r z La Ia SDE Te ig ar ai Ha Que Le EU er Le
109. t de ceux qui ont r pondu est r elle Tout cela pour montrer la pertinence de notre conclusion a L tude des manuscrits vue par les utilisateurs du point de vue de la typologie de la codicologie de la pal ographie et de la mise en page a La recherche d information manuelle les probl mes et les perspectives a La num risation des manuscrits Ce qu on attend d une recherche lectronique de document partir des manuscrits num ris s 163 3 1 1 Les utilisateurs R ponse Nationalit Profession Age de l utilisateur 20 30 31 40 41 50 51 60 Fran aise Professeur d universit o Am ricaine Dome _ 3 Grecque Ma tre conf rences N Q4 Canadienne Erudite S o o o a y S XX E Pusate i loeti sisinya O N a Tunisienne Directeur FA recherche OT ee Maine de cont rences E x Q8 Anglaise Conservateur de biblioth que X e Allemande Biblioth caire sp cialis s en litt rature arabe Directeur de recherche RE o a Marocaine Ma tre de conf rences O12 Fran aise Chercheur enes 1 1 x Q13 Italienne Charg d enseignement X 1 J R CE AE OO SE ES QI5 Fran aise Ma tre de conf rences Tableau n 19 L ensemble des r ponses au ou A propos du tableau ci dessus on peut faire les remarques suivantes a partir de notre chantillon nous avons un assemblage assez riche de nationalit s onze nationalit s diff rentes dont cinq fran aises 4
110. t fils de l l ment msHeading 188 element respStmt diagram author copyist note element msidentifier source lt xs element name lt xs complexType gt lt xs sequence gt lt xs element ref author minOccurs 0 maxOccurs unbounded gt lt xs element ref copyist minOccurs 0 maxOccurs unbounded gt lt xs element ref note minOccurs 0 maxOccurs unbounded gt lt xs sequence gt lt xs complexType gt lt xs element gt Figure n 5 Les l ments respStmt 1 1 1 author il contient le nom de l auteur principal l origine du manuscrit respStmt gt Pour l l ment author on a trois l ments fils 1 nomNormalised le nom officiel reconnu par le sp cialiste car pour le nom d un auteur arabe il arrive de trouver le nom crit de diff rentes mani res soit dans le m me document soit dans d autres documents bibliographiques 2 namTranslit nom translitt r 1l fournit le nom d un auteur arabe crit en caract res latins Nous avons mis cet l ment pour deux raisons d une part comme solution en l absence de logiciel informatique de langue arabe et d autre part pour garder un nom translitt r comme aide aux utilisateurs qui ne savent pas lire l arabe 3 other Names dans respStmt l l ment otherNames contient un autre nom par lequel un auteur ou un copiste est connu un surnom par exemple 4 profession nous avons t
111. t ref width gt lt xs element ref depth gt lt xs sequence gt lt xs attribute name type gt lt xs simpleType gt lt Xs restriction base xs NMTOKEN gt lt Xs enumeration value leaves gt lt Xs enumeration value ruled gt lt Xs enumeration value pricked gt lt Xs enumeration value writtensurface gt lt XsS enumeration value miniatures gt lt Xs enumeration value binding gt lt Xs enumeration value box gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt xs complexType gt lt xs element gt Figure n 24 Les l ments et les attributs dimansion 2 4 collation 1l contient le nombre de folios composant un manuscrit Il est r partit en trois l ments fils formula cahierComp other Dans lt p gt le catalogueur peut mettre de fa on libre le nombre de folios trouv s element collation Diagram collation cahierComp Children p formula cahierComp other used by elements msitem physDesc source lt xs element name collation gt lt xs complexType gt lt xs sequence gt lt xs element ref p gt lt xs element ref formula gt lt xs element ref cahierComp gt lt xs element ref other gt lt xs sequence gt lt xs complexType gt lt xs element gt Figure n 25 Les l ments collation 2 4 1 formula il d crit des informations particuli res qui peuvent tre trouv es dans le manuscrit telles des pages c
112. t xs element ref p gt lt xs element ref conservation minOccurs 0 maxOccurs unbounded gt lt xs element ref digitalisation minOccurs 0 maxOccurs unbounded gt lt xs element ref exhibition minOccurs 0 maxOccurs unbounded gt lt xs element ref fumigation minOccurs 0 maxOccurs unbounded gt lt xs sequence gt lt xs attribute name notBefore type xs string gt lt xs attribute name notAfter type xs string gt lt Xs attribute name certainty gt lt Xxs simpleType gt lt Xs restriction base xs NMTOKEN gt lt xs enumeration value high gt lt xs enumeration value medium gt lt xs enumeration value low gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt Xs attribute name evidence default external gt lt Xxs simpleType gt lt Xs restriction base xs NMTOKEN gt lt xs enumeration value internal gt lt xsS enumeration value external gt lt XS enumeration value conjecture gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt xs attribute name type type xs string gt lt xs complexType gt lt xs element gt Figure n 53 Les l ments custEvent 6 1 3 1 1 Conservation il fournit les informations sur l tat de conservation des manuscrits l l ment lt p gt est un espace libre pour le catalogueur lui permettant d ajouter des informations si n cessaire 6 1 3 1 2 digitisation il contient l
113. taux ah 2 mesures d alignements verticaux av et 4 distances d 25 Les alignements verticaux av avec les objets situ s au dessus et en dessous sont mesur s partir des bords situ s droite des objets afin de tenir compte du sens naturelle de lecture en arabe La longueur des mots tant variable seule la justification droite est int ressante Les alignements horizontaux ah expriment les variations de l alignement horizontal des objets voisins par rapport la ligne de base car les blocs de texte ont une hauteur variable Sil n y a pas de voisin proche dans une direction les primitives associ es avec ce voisin sont mises z ro La distance d entre les objets voisins est prise partir des bords des objets les plus proches pour limiter les effets de la variation en longueur et en hauteur des mots 3 3 2 5 1 La reconnaissance Cette reconnaissance a pour objectif d identifier des classes d objets titres illustrations cadres textes etc Ce processus qui est en fait une classification peut s effectuer de deux mani res diff rentes e La classification supervis e par l utilisateur Elle consiste pendant une phase d apprentissage rentrer un certain nombre d observations qui permettront la prise de d cision par la machine pour le classement de nouveaux objets Cette approche permet de diriger compl tement le syst me de reconnaissance gr ce au choix des observations que le syst me doit apprendre Pl
114. tifier physDesc history msContent logicStruct admininfo additional Name Type Default Fixed type xs string ne lt xs element name msDescription gt lt Xxs complexType gt lt XS sequence gt lt xs element ref msidentifier gt lt xs element ref physDesc gt lt xs element ref history gt lt xs element ref msContent gt lt xs element ref logicStruct gt lt xs element ref admininfo gt lt xs element ref additional gt lt xs sequence gt lt xs attribute name status default uni gt lt xs simpleType gt lt xs restriction base xs NMTOKEN gt lt Xxs enumeration value uni gt lt xs enumeration value comp gt lt xs enumeration value frag gt lt Xs enumeration value def gt lt Xs enumeration value unknown gt lt Xxs restriction gt lt xs simpleType gt lt xs attribute gt lt xs attribute name type type xs string gt lt xs complexType gt lt xs element gt Figure n 3 Les l ments msDescription 1 msidentifier manuscript identifier cet l ment englobe tous les l ments qui permettent l identification du manuscrit ou d un fragment de manuscrit Notre d marche de choisir les l ments fils de msidentifier diverge de celle du projet MASTER Pour ce dernier les l ments d identification d un manuscrit donn sont le pays country la r gion region l habitation settlement l institution institution le d positaire repository
115. ts est Exemple o la distance entre les n cessaire pour diff rencier les textes dans les tableaux du texte objets doit tre prise en compte pour principal Arabe 1489 R28062 image 0275 la reconnaissance des titres interligne et indentation Arabe 179 R60914 image 008 Illustration n 0 40 Exemple La prise en compte des relations spatiales Nous avons donc rajout des primitives qui traduisent les relations spatiales entre un objet et ses voisins Pour exprimer les notions de r gularit s de distances entre objets et d alignements nous devons proc der par tape Chercher pour chaque objet les 4 voisins les plus proches dans les directions principales nord sud est ouest S il n existe pas de voisins proche d une distance inf rieure un seuil alors le champ reste vide Calculer les caract ristiques spatiales entre chaque objet et ses voisins qui sont les distances les alignements verticaux et horizontaux Enter i per LS Ft i a hp Epa a heta Papin fare i mmafaba jara Y H ys m R FFE A 4 ou Le ER Fr FE auf EE a iE a ICE TU CT nantes LEE LEE WANT nb rak aa mn pA 7 HE LA Figure n 58 Caract ristiques spatiales entre objets voisins mesures d alignement et de distance entre un objet et ses 4 voisins 2 mesures d alignements horizon
116. u laboratoire LIRIS RFV de l INSA de Lyon de d velopper un logiciel d analyse d images capable de reconna tre certaines de nos m tadonn es Le d lai tr s court impos cette tude n a pas permis de r aliser un logiciel abouti mais seulement un d monstrateur avec lequel nous avons pu mesurer les performances r elles sur notre corpus pour conclure sur la faisabilit du traitement automatique des manuscrits anciens par analyse d images 3 3 2 Construction d une chaine d analyse d image L analyse des images de documents est un processus complexe qui ne peut pas toujours s effectuer s quentiellement car les op rations de segmentation et de reconnaissance sont troitement li es Les ordinateurs actuels bas s sur le traitement s quentiel des donn es ne sont donc pas adapt s l analyse d image Pour pallier ce probl me on cherche d couper le processus d analyse d images en tapes plus ou moins s quentielles plus adapt es l architecture de nos ordinateurs Le choix du d coupage du processus va d terminer les limites fonctionnelles d un syst me d analyse d images La cha ne traditionnelle de traitement consiste simplifier progressivement l image pour segmenter les formes puis soumettre ces derniers des algorithmes de reconnaissance Dans un premier temps on proc de une suite d tapes appel e segmentation qui consiste convertir l image couleur en image niveaux de gris pui
117. u SIA 6 TEE Ce ts ER DEA 522 Es HSA e pe ds5 FE fa FE Len hpr iig Ar n RS Ed _ 225 t AERE 4 k 1 5 tj CAE ET LAS CE EA Hepes a Image originale 263 e 5 ke Es HE F5 Liu f A ax Po sde EE Eu 3 ut ES Dan 425 as CSC 755 roiya 4 Frs ls 2 SF M UF City ir REG a DA di MIP EX Pare ja b Texte Principal c Notes e Ponctuation f Erreurs de reconnaissance Texte connect aux cadres et ponctuation connect e au texte Illustration n 45 R sultat de la reconnaissance supervis e sur l ouvrage MS6191 Les ponctuations qui touchent le texte ont t syst matiquement class s comme du texte car le syst me a probablement retenu lors de l apprentissage la forme g om trique circulaire des ponctuations Cette forme n appara t pas quand la ponctuation touche le texte La connexion de texte au cadre illumin constitue une autre erreur assez fr quente C est la faible r solution qui emp che l analyse d image de trouver un espace vide entre le texte et le cadre ou les l ments de ponctuation Seule l augmentation de la r solution permettrait de pallier ces difficult s Les taux de reconnaissance sont tr s satisfaisants et permettent d exploiter directement les r sultats pour l enrichissement de la base de donn e sans correction 3 3 2 6 2 R sultats sur le manuscrit Arabe 2782 R12051 Le manuscrit Arabe 2782 R12051 a t num ris en niveaux de gr
118. udier les originaux sans les toucher n1 par cons quent les ab mer Benefit for conservation and preservation readers can study the manuscripts without handling and damaging the original manuscripts a La r ponse de Q10 Je ne connais pas d exemple indique qu il n a pas d exp rience dans ce domaine Par cons quent il n a pas donn de r ponse sp cifique Pensez vous que laccessibilit des manuscrits sur l Internet facilite la recherche Dans le m me domaine de num risation et pour cette question on peut classer les r ponses en deux cat gories OU Pourquoi Q2 Q03 04 Q013 Q14 Oui sans commentaire Oui mais attention Il y a des chercheurs qui d j lisent trop vite les textes Avec les moyens modernes ils seront tent s d aller encore plus vite Oui acc s plus rapide des donn es essentielles possibilit de visualiser imm diatement les manuscrits Oui les utilisateurs loign s peuvent consulter les manuscrits en ligne et effectuer la majeure partie de leur recherche depuis leur domicile avant du consulter les originaux Encore une fois il y a moins de manipulation des pr cieux manuscrits Mais tout ceci d pend de la qualit de la num risation Yes remote users can consult the manuscripts on line and do much of their research from home before consulting the originals Again less handling of precious manuscripts But this all depends on the quality of the digitisation 39
119. ui classique est en opposition avec l approche descendante qui consiste partir des connaissances a priori sur le contenu des images et de segmenter les diff rents objets partir de ces connaissances Le choix entre une m thode ascendante et une m thode descendante s effectue en fonction de la possibilit ou de la non possibilit de mod liser le contenu des images Ainsi pour certains textes imprim s on privil giera une m thode descendante pour localiser les caract res les mots les lignes et les paragraphes car les r gles typographiques actuelles sont suffisamment rigides pour pouvoir r aliser un mod le g n raliste de segmentation A l inverse les textes anciens et en particulier les textes manuscrits montrent une plus grande variabilit dans leurs formes et leurs structures C est pour cette raison que nous avons privil gi une m thode ascendante plus souple et qui ne n cessite pas d tude pr alable tr s longue sur une grande quantit de textes pour cr er un mod le de segmentation robuste de tous les textes manuscrits arabes 3 3 2 2 2 La d finition d un objet par les connexit s de l image L image binaire obtenue par les tapes pr c dentes est constitu e principalement de traits et de points Cependant les blocs de texte sont constitu s d objets interm diaires qui sont les l ments connexes On d finit une connexit comme tant un sous ensemble de points de l image de m me valeur
120. uites en terme de r solution et comprim es avec la compression JPEG avec une perte d information visible qui g ne l analyse d image Cependant l information couleur est suffisamment importante pour pallier la perte de r solution et les d formations engendr es par la compression JPEG 3 4 2 6 1 1 Reconnaissance non supervis e sans apprentissage En mode de reconnaissance non supervis Nous avons test le pouvoir discriminant des informations extraites dans les images Nous avons demand au syst me de classer automatiquement de fa on optimale tous les objets en 8 classes en tenant compte de toutes les primitives possibles Dans la premi re classe nous avons retrouv les _ P ES ponctuations dans les classes n 2 et n 5 on retrouve les signes diacritiques les autres classes repr sentent des mots tri s suivant leur forme leur longueur leur paisseur etc PL Eee or CE TRAA aa ET A EN AOT EO DE SAk EUNT GE AEA Are Lie NS PESTE CEE ETES re i FA Ne LI ne HUE Re ne ie rs KESE ai EE 5 PA RSS E NE Co Tr 65g DALE 5 Image originale Classe 1 Classe 2 261 Classe 3 Classe 4 Classe 5 Classe 6 Classe 7 Classe 8 Illustration n 44 R sultats de reconnaissance non supervis e sur le manuscrits MS6191 On s aper oit d j que la connexion entre objets de classes diff rentes va mettre en chec la reconnaissance des formes Par exemple les ponctuations rattach es au text
121. us le nombre d observations par classe sera lev plus la classification sera juste mais plus la phase d apprentissage sera longue et fastidieuse Pour une tude de faisabilit nous avons utilis une m thode tr s simple comme le K PPV K Plus Proches Voisins qui attribue la classe majoritaire parmi les K observations les plus proches de l objet reconna tre Le nombre K d observations d pend du nombre de classes et du nombre d observations par classes lors de l apprentissage Un classifieur 1 PPV qui tient compte que de l observation la plus proche est sensible aux cas particuliers et donne une classification trop d pendante de la justesse de la base d apprentissage Inversement un classifieur K PPV avec un nombre K lev est ind pendant des cas particuliers et gagne en g n ralit et en justesse Cependant pour augmenter le 257 l apprentissage doit tre r alis pour chaque ouvrage nombre K il faut augmenter le nombre d observations et donc le temps d apprentissage La classification automatique non supervis e C est un algorithme qui partir des caract ristiques des objets et du nombre de classes d sir es va effectuer tout seul une classification automatique sans l assistance de l utilisateur La fastidieuse phase d apprentissage est vit e mais cette approche ne donne pas de r sultats reproductibles et conformes aux souhaits de l usager en raison de l absence d observ
122. uscripts on excellant one through the use of computers Q7 quant a lui estime que la num risation est une technique d acc s int ressante condition d tre utilis e bon escient Q11 rejoint l id e de Q7 en disant que la num risation sera un moyen tr s efficace et peut tre une r volution pour acc der tous les manuscrits arabes du monde Q9 est le seul qui prend en consid ration l int r t des utilisateurs pour lui la num risation facilitera beaucoup le travail des utilisateurs un great facilitation for users Pour Q11 la num risation est bonne pour la protection des originaux dont elle peut r duire les consultations 175 a Q8 partage ses id es avec plusieurs r pondants pour lui la num risation facilite les taches suivantes o Cela permettra un acc s bien plus large aux manuscrits arabes This well certainly provides wider access to the Arabic manuscripts o De m me la num risation fournira un excellent substitut aux originaux particuli rement dans les cas des tr sors que constituent enluminures et illustrations de m me que pour les manuscrits dont on n a qu un seul exemplaire Also digitisation will provide an excellent surrogate of the originals particularly the illuminated and illustrated treasure items as well as unique manuscripts o C est d un grand profit pour la conservation et la pr paration des manuscrits en effet les lecteurs peuvent t
123. ution est suffisante pour s parer tous les objets sauf certaines illustrations du bord du cadre Nous avons d fini 3 m tadonn es a Texte a Illustrations a Annotations POER T obtint es Male ER TAN E pi Santo Texte seul nf 4 Illustrations Annotations Illustration n 48 R sultats de la reconnaissance supervisi e sur Arabe 2478 R18271 267 La pr sence du cadre explicite rend la reconnaissance des annotations certaine Les seules erreurs observ es sont toutes caus es par une mauvaise s paration physique entre des objets de classe diff rente comme le texte connect aux cadres ou aux illustrations Image originale Erreur dans la reconnaissance des illustrations connexion Texte cadre dessins Illustration n 49 Erreur dans la reconnaissance des illustrations connexion Texte cadre dessins 3 3 2 6 4 R sultats sur Arabe 179 R60914 La qualit de la num risation de cet ouvrage est suffisante en terme de r solution et de qualit d images pour l extraction automatique des m tadonn es Cependant cet ouvrage est assez pauvre en m tadonn es et nous avons donc utilis l analyse d images pour affiner les m tadonn es comme la s paration des styles d critures et la pr sence de prolongement des mots Nous avons donc d fini cinq classes de m tadonn es Q m Les d corations florales Le texte courant Les prolongements de textes Les autres styles
124. xs element ref titleColophon minOccurs 0 maxOccurs unbounded gt lt xs choice gt lt xs complexType gt lt xs element gt Figure n 8 Les element otherTitle 1 2 6 1 titCover il contient le titre qui se trouve sur la premi res de couverture 1 2 6 2 titleSpine il fournit le titre du manuscrit trouv crit sur le dos du livre 1 2 7 incipit il contient la premi re phrase du manuscrit au cas o le titre n existerait pas ou pour ajouter des informations suppl mentaires en plus du titre element incipit extension of xs string elements msiltem title attributes Name Use Default i type xs string defective xs NMTOKEN no 192 source lt xs element name incipit gt lt Xxs complexType gt lt Xxs simpleContent gt lt Xxs extension base xs string gt lt xs attribute name type type xs string gt lt xs attribute name defective default no gt lt Xxs simpleType gt lt Xs restriction base xs NMTOKEN gt lt xs enumeration value yes gt lt xs enumeration value no gt lt xs enumeration value unknown gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt xs extension gt lt xs simpleContent gt lt xs complexType gt lt xs element gt Figure n 9 L l ment incipit 1 2 8 explicit Il contient la derni re phrase du manuscrit element explicit extension of xs string elements msltem title attributes Name Type Use
125. xs enumeration value Juridical gt lt xs enumeration value Koran gt lt xs enumeration value Language gt lt Xs enumeration value langLiter gt lt xs enumeration value Literature gt lt xs enumeration value Medicine gt lt Xxs enumeration value metaphysics gt lt Xs enumeration value Mystic gt lt Xxs enumeration value Pharmacy gt lt Xs enumeration value Philosophy gt lt Xs enumeration value PoliticalScience gt lt xs enumeration value Science gt lt xs enumeration value Tafsir gt lt xs enumeration value Travels gt lt xs enumeration value Zoology gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt xs attribute name p type xs string gt lt xs extension gt lt xs simpleContent gt lt xs complexType gt lt xs element gt Figure n 18 Les attributs mainSubiject 1 9 2 otherSubj il indique les sujets autres que le sujet ou les sujets principaux Guid e par notre tude de manuscrits arabes et inspir e par l enqu te men e aupr s de sp cialistes de manuscrits arabes nous allons proposer les sujets suivants afin de faciliter la classification de ces ouvrages Coran Koran hadith Hadith interpr tation du Coran tafsir jurisprudence Fiqh texte religieux chr tien chrisReligTex science science litt rature literature documentaire documentary juridique Juridical philosophie philosophy histoire history
126. xte du manuscrit M me dans MASTER l l ment textLang indique la langue officielle du texte element HER elements P me ir oo aaao elements Language msidentifier attributes Name Type Default lang xs NMTOKEN source lt xs element name textLang gt lt xs complexType gt lt xs sequence gt lt xs element ref p gt lt xs sequence gt lt xs attribute name lang gt lt xs simpleType gt lt xs restriction base xs NMTOKEN gt lt xs enumeration value Arabic gt lt Xxs enumeration value Arabic Coptic gt lt xs enumeration value Arabic Grece gt lt Xs enumeration value Arabic Syriac gt lt xs enumeration value Arabic Coptic Syriac gt lt Xs enumeration value Copt gt lt xs enumeration value French gt lt xs enumeration value Greek gt lt Xs enumeration value Latine gt lt Xs enumeration value Persian gt lt xs enumeration value Syriac gt lt xs enumeration value Turkish gt lt xs restriction gt lt xs simpleType gt lt xs attribute gt lt xs complexType gt lt xs element gt Figure n 15 Les l ment et les attributs du textLang Notre proposition des langues suivantes provient de notre tude de manuscrits notamment de manuscrits arabo chr tiens o certains textes religieux sont crits en deux ou trois langues tels que Arabic Coptic Arabic Grece Arabic Syriac Arabic Coptic Syriac et quelquefois Arabic French arabic Latine Arabic
127. ysDesc source lt xs element name decoration gt lt xs complexType gt lt Xs choice gt lt xs element ref decoNote minOccurs 0 maxOccurs unbounded gt lt xs element ref decoTech minOccurs 0 maxOccurs unbounded gt lt xs element ref p minOccurs 0 maxOccurs unbounded gt lt xs choice gt lt xs complexType gt lt xs element gt Figure n 33 Les elements decoration 2 8 1 decoNote il s agit des notes qui d crivent les composants du d cor Cet l ment est similaire de celui du MASTER sauf en ce qui concerne ses attributs car dans MASTER 211 il d finit une liste d attributs tels que type sub type technique qualit figurative alors que pour faciliter le t che des catalogueurs nous avons trouv utile de mettre p comme zone libre pour d autres descriptions element decoNote diagram aie EP DER 0 children D O element decoration attributes Name Type Use Default Fixed type xs string subtype xs string quality xs string figurative XS NMTOKEN illustrative xs NMTOKEN source lt xs element name decoNote gt lt xs complexType gt lt xs sequence minOccurs 0 maxOccurs unbounded gt lt xs element ref p gt lt xs sequence gt lt xs attribute name type type xs string gt lt xs attribute name subtype type xs string gt lt Xs attribute name quality type xs string gt lt xs attribute name figurative default na gt lt Xxs sim
Download Pdf Manuals
Related Search
Related Contents
こちら - Sony Hoover Washing Machine VisionHD 8 VHD862 GOST Measurement Application (for the FloBoss™ 107) User Manual Manuale d`istruzioni Sega a muro FZ-4S Indice 002 Kenmore 21 cu. ft. Counter-Depth Side-by-Side Refrigerator - Black Manufacturer's Warranty (Espanol) Troy-Bilt 148H Tiller User Manual NEW AND IMPROVED Copyright © All rights reserved.
Failed to retrieve file