Home
        Rinaldo José de Lima - Universidade Federal de Pernambuco
         Contents
1.      44    4 2 3 2   tape d application de r  gles   extraction   Le fichier de configuration pour l   tape d extraction  est le fichier CLASSIFIER   CONFIG XML  dans lequel  lt ties config gt  est l   l  ment principal  Il est constitu   de plusieurs  balises d  crivant les modules du TIES employ  s pour l extraction   classificateur  strat  gie  d extraction  tokeniseur et corpus loader  Les directives de contr  le d entr  e et de sortie sont  aussi mises dans le fichier de configuration  ainsi que la m  moire cache  toujours essentielle  pour optimiser les performances du syst  me et l utilisation de la m  moire   Ci dessous un  extrait du fichier de configuration d extraction CLASSIFIER CONFIG XML concernant le  corpus CMU Seminar announcements  Le manuel d utilisateur  ITC IRST  2004  contient des  explications sur la fa  on de param  trer le syst  me           Configuration file for the standard  CMU seminar announcements  extraction  task        lt ties config gt    lt bwi gt    lt classifier gt    lt extract gt    lt entity gt    lt wrapper gt   bwi sa new out0 speaker xml lt  wrapper gt    lt output gt   bwi sa res0 speaker xml lt  output gt    lt  entity gt    lt entity gt    lt wrapper gt   bwi sa new out0 location xml lt  wrapper gt    lt output gt   bwi sa res0 location xml lt  output gt    lt  entity gt    lt  extract gt    lt  classifier gt            lt corpus loader gt      lt  corpus loader gt    lt  ties config gt     4 2 4 Ex  cution du syst  me    TIES r 
2.      professor   NN Word    Punctuation       SDS NNP Word                   Fig  19  Exemple d une r  gle   tiquetage  taging rule   Tang  2007      Les r  gles d   tiquetage sont induites de la fa  on suivante   tout d abord  une   tiquette du  corpus d apprentissage est s  lectionn  e  une fen  tre de w mots    gauche et w    droite est prise  en suivant le patron initial de la r  gle  Ensuite  toutes les r  gles initiales sont g  n  ralis  es  Par  exemple  en utilisant TAL  les deux r  gles    at 4 pm    et    at 5 pm   peuvent   tre g  n  ralis  es  par    at DIGIT pm     Chaque r  gle g  n  ralis  e est test  e dans le corpus d apprentissage et un  score d erreur est calcul    Finalement  les meilleurs k g  n  ralisations pour chaque r  gle  initiale sont conserv  s dans le groupe de meilleures r  gles  Cet algorithme est   galement  utilis   pour induire les deux autres types de r  gles  La Fig  20 indique une r  gle d   tiquetage  g  n  ralis  e pour l identification du d  limiteur initial de    Speaker       Des r  gles contextuelles sont appliqu  es pour am  liorer la performance du syst  me   L id  e principale est qu un   tag    pourrait   tre utilis   comme un indicateur de l apparition de    tagy    Consid  rons  par exemple  une r  gle qui reconnait un d  limiteur final entre un mot  avec une majuscule initiale et un mot avec toutes les lettres minuscules  Cette r  gle ne fait pas  partie du groupe des meilleures r  gles en raison de sa faible pr  cision dans 
3.     O centro    de Inform  tica    Vc Fo poe E    Universidade Federal de Pernambuco    P  s Gradua    o em Ci  ncia da Computa    o    EXTRACTION D INFORMATION ADAPTATIVE  DE PAGES WEB PAR INDUCTION  SUPERVISEE D EXTRACTEURS    Rinaldo Jos   de Lima    DISSERTATION DE MASTER    Vv   g     A  Universidade Federal de Pernambuco  www cin ufpe br  posgraduacao       RECIFE  AGOSTO DE 2009    ii    UNIVERSIDADE FEDERAL DE PERNAMBUCO  CENTRO DE INFORM  TICA  P  S GRADUACAO EM CI  NCIA DA COMPUTACAO       Rinaldo Jos   de Lima    EXTRACTION D INFORMATION ADAPTATIVE  DE PAGES WEB PAR INDUCTION  SUPERVISEE D EXTRACTEURS    Ce m  moire a   t   pr  sent   au Programme de Post Graduation en  Sciences de l Informatique du   Centro de Inform  tica de  P Universidade Federal de Pernambuco    comme exigence  partielle pour l obtention du grade Master en Sciences  specialit    Informatique     Directeurs  Prof  Frederico Luiz Gongalves Freitas  Phd et  Prof  Bernard Espinasse  Phd     Prof  Jacques Robin  PhD   Membre du Jury    Prof  Evandro de Barros Costa  PhD   Membre du Jury    RECIFE  JUNHO 2009    iii    Lima  Rinaldo Jos   de   Extraction d information adaptative de pages web  par induction supervis  e d extracteurs   Rinaldo Jos    de Lima   Recife   O Autor  2009    XX  89 p    il   fig   tab     Disserta    o  mestrado      Universidade Federal de  Pernambuco  Cln  Ci  ncia da Computa    o  2009     Inclui bibliografia e ap  ndice   1  Intelig  ncia artificial     T  tulo     006 
4.    L   valuation globale d exactitude est prise comme la moyenne des pr  cisions obtenues    partir  de chaque it  ration    Dans k fold cross validation  les donn  es initiales sont al  atoirement divis  es en k sous   ensembles mutuellement exclusifs ou fold  S  S2      S  chacun d une taille  approximativement   gale  L apprentissage et test sont effectu  s k fois  Dans l it  ration i  le  sous ensemble S  est r  serv   comme l ensemble de test  et les sous ensembles restants sont  collectivement employ  s pour faire apprendre le classificateur  On d  finit alors l estimation  d exactitude comme le nombre global de classifications correctes de k it  rations  divis   par le  nombre total d instances pr  sentes dans les donn  es initiales  Kohavi  Kohavi  1995  d  fend  ce dernier m  thode d   valuation comme la meilleur parce qu elle fournit des estimations plus  impartiales et avec une variance minimum    Les exp  riences de cette section ont   t   men  es en prenant en compte les m  thodes hold   out ou k fold cross validation     Macroaverage et Microaverage    Pour chaque slot d information  des r  sultats sont   valu  s en comptant true positives tp  slots  correctes   false positives fp  slots incorrectes   false negatives fn  slots absents  et en          etle rappel R      tp   fp tp   fn   Pour un corpus contenant plusieurs slots d information    extraire  il y a diverses mani  res  de combiner les r  sultats de toutes les slots en une seule mesure  parmi elles  on
5.    valuation comparative   Les exp  riences d   valuation comparative ont montr   que le syst  me M TIES est sup  rieur     d autres syst  mes de l   tat de l art sur le corpus plus structur   Seminars  et qu il atteint des  score comparables sur le corpus semi structur   Jobs  En plus  les extracteurs produits par le  syst  me propos   ont la tendance    atteindre plus de pr  cision que les autres syst  mes tout en  tenant un rappel raisonnable    La raison pour cette r  ussite est que le systeme M TIES  qui repose sur l algorithme BWI   performe l extraction avec plus de pr  cision  car les r  gles contextuelles apprises sont  fortement pr  cises  mais il a   galement un rappel raisonnable dans de nombreux domaines     tant donn   que des dizaines ou de centaines de r  gles suffisent pour avoir un bon rappel  En  revanche  m  me avec l aide d   tiquetage POS  M TIES a obtenu un score inf  rieur sur le  corpus CFP  en langage naturel   Cependant  tous ces r  sultats ne font que confirmer  exp  rimentalement ce qu il   tait pr  vu pour cette recherche    En effet  l algorithme BWI emploie un formalisme de r  gles plus expressif gr  ce     l utilisation de wildcards qui g  n  ralisent mieux que l algorithme LP   par exemple  sur des  documents plus structur  s  Ce formalisme de r  gles inclut un certain nombre de wildcards   jokers  qui contribuent radicalement aux r  sultats exp  rimentaux de l algorithme  BWI  apprend des r  gles simples d extraction qui sont en grande parti
6.   57  6  Influence du nombre d it  rations de boosting sur le corpus Jobs                         ssss 60  7  Influence de diff  rentes features sur le corpora r  sultats exprim  s en F Measure      66  8  R  sultats en F measure par slots du corpus    ss 67  9  R  sum   de configuration des syst  mes   valu  s sur le corpus SEMINARS                  70  10  R  sum   de configuration des syst  mes   valu  s sur le corpus JOBS                          70  11  Perfomances par slot de 5 syst  mes sur le corpus Seminars                       esee 71  12  Perfomances par slot de 4 syst  mes sur le corpus Jobs en utilisant                           71  13  Perfomance des syst  mes sur le corpus CFP par slot en termes de                             73  14  Comparaison entre les 4 syst  mes sur le corpus CFP    76    xix    XX    1 INTRODUCTION    Une grande quantit   d informations sur divers sujets en diff  rents formats num  riques sont  de  fa  on croissante  publi  es sur le Web chaque jour  Cette croissance a   t   stimul  e par le  progr  s technologique en informatique simplifiant la production  le stockage et la distribution  de l information sur le Web  Beaucoup de ces informations stock  es de facon non structur  e   sont   parpill  es sur des milliers d ordinateurs individuels  hosts  constituant ainsi une  complexe et immense base de donn  es de port  e mondiale    Cela limite fortement l exploitation de ces informations  et des techniques de navigation  ou des recherche
7.   SUPERVISEE D EXTRACTEURS    Dans ce chapitre nous proposerons un syst  me d EI adaptatif modulaire permettant  l extraction d information de documents semi structur  s ou libres  Ce syst  me  reposant sur  l induction supervis  e d extracteurs  est compos   de divers modules permettant la pr  paration  d un ensemble d apprentissage annot   manuellement par un utilisateur   ensemble pouvant  aussi int  grer l     tiquetage morphosyntaxique permettant le traitement de la syntaxe du  langage naturel   et un module r  alisant l induction supervis  e d extracteurs  Pour ce dernier  module  le syst  me TIES mettant lui m  me en ceuvre l algorithme BWI  a   t   retenu  Il sera  d  taill   dans la section 4 2 et modifi   afin de pouvoir traiter l   tiquetage morphosyntaxique    Pour obtenir de meilleurs r  sultats sur des collections de documents moins structur  s  il a  fallu modifier l architecture de TIES pour qu il puisse traiter des documents en texte libre  annot  s par   tiquetage morphosyntaxique fournie par une analyse de Parties du Discours   Part of Speech     Ainsi  dans un premier temps  nous pr  senterons chacun des diff  rents modules ou  composants du syst  me d EI propos    Ensuite  les nouveaux modules de l architecture de  notre solution seront pr  sent  s   le module d annotation de documents XHTML  le module de  validation des pages de corpora qui les transforme en fichiers XML bien form  s et  enfin  le  module en charge de l   tiquetage morphosyntaxique  POS 
8.   ce    la fa  on de l algorithme BWI qui peut voir le contenu du champ     extraire      10 Voir les commentaires de la perfomance du M TIES sur le corpus Seminars     74    Corpus CFP       1 0  0 8  0 6  c  o BB Amilcare  A E  Yaoyong  9 EJ SE  oO CL M TIES  0 4  0 2  0 0    w nam w acro w dat w hom w loc w pap w not w cam c nam c acro c hom    Slots    Fig  45  Scores de Pr  cision des syst  mes par slot sur le corpus CFP    Les figures 45 et 46 pr  sentent  respectivement  la performance des syst  mes en termes  de la pr  cision et du rappel pour les 4 syst  mes    comparer  Comme le montrent ces r  sultats   les syst  mes pr  f  rent d avoir plus de pr  cision que de rappel  Ce fait est probablement d   aux  syst  mes d IE qui  en g  n  ral  sont destin  s    performer une extraction qui attribuent un co  t  plus   lev   aux faux positifs  En effet  on constate plus de variations dans le rappel que dans la  pr  cision pour tous les syst  mes     l exception de Yaoyong qui favorise le rappel  Cela nous  am  ne    une forte indication que ces syst  mes poursuivent de diff  rentes strat  gies en termes  de mesures de performance  Enfin  il faut aussi noter que l on peut seulement avoir un  syst  me d EI avec plus de rappel en d  triment de la pr  cision et vice versa    L explication pour le plus bas rappel du M TIES pour le slot c hom  home page de la  conf  rence   Fig  46   c est que les liens de pages sont d  coup   en plusieurs tokens et la taille  de seulement 3 toke
9.   et DeLa  Wang  amp  Locovsky  2002  sont des  exemples de syst  mes qui appartiennent    cette approche  En g  n  ral parmi les informations  extraites par ces syst  mes  celles qui sont vraiment pertinentes  sont souvent soumises    un  post traitement     2 5 Mesures d   valuation de syst  mes d  EI    Les mesures d   valuation pour le probl  me d EI sont apparues lors des conf  rences MUC   Message Understanding Conference   Hirschman  1998   L   tude men  e par les quatre  premi  res MUC a servi de base    la d  finition des mesures d   valuation existantes   Initialement ces mesures ont   t   d  velopp  es en se fondant sur des mesures de pr  cision et de  rappel du domaine de la Recherche d Informations  RI     Cette section d  crit la m  thodologie d   valuation de r  sultats d une t  che d EI  Avant de  montrer les mesures classiques d   valuation des performances  il faut pr  ciser comment    valuer la correction d une donn  e extraite  Plusieurs crit  res sont envisageables pour d  finir  la correction d une donn  e extraite dans le cas d extraction single slot     2 5 1  Crit  res de correction    Afin d   valuer la correction d une s  quence extraite  3 crit  res sont applicables    tous les  types de documents repr  sent  s sous la forme d une s  quence  tokens   Le premier crit  re est  le plus l  che   une donn  e extraite est correcte si elle contient une partie d une donn  e     extraire  Le second est un peu plus strict que le premier   une donn  e extrait
10.   gt  speaker lt  token gt    65  type  nl  start  510  len  1   nl_token  true  gt  n lt  token gt           167  type  word  start  512  len  11  alpha_token  true        capitalized_token  true  gt Affiliation lt  token gt     168  type  punct  start  523  len  1     punct_token  true  gt   lt  token gt           170  type  word  start  525  len  10  alpha_token  true        capitalized token  true  gt Department lt  token gt     Nous renvoyons le lecteur au guide d utilisateur de TIES  ITC IRST  2004  pour en savoir    plus     4 2 2 2 Feature Ex    Les exemples sont d    sur les tokens  Ainsi   dire  un exemple est    traction    finis en termes d attributs qui sont les r  sultats des fonctions appliqu  es  chaque token a une image f x  qui sont des valeurs discr  tes  C est      transform   en une collection d attributs  produisant ainsi un vecteur N   dimensionnel  Chaque token est trait   comme un exemple  de cette fa  on  on peut avoir un  attribut capitalized qui associe un token    l ensemble  true  false     tant donn   cet attribut   nous pouvons exprimer de simples propositions sur un token sp  cifique   capitalized   Home        true et capitalized  work     false     L impl  mentation par d  faut du tokeniseur du TIES encapsule un simple feature extractor    de 12 attributs     savo    ir         alpha token   true pour des tokens qui contiennent seulement des caract  res    alphab  tiques        num  token   true pour un nombre       perc  token   true pour d
11.   lt title gt MUC Data Sets lt  title gt     lt META name  description  content  Listing of the various datasets available for  download   gt     lt META name  keywords  content  Database  database  Information Extraction   MUC  muc  MUC Proceedings  MUC proceedings  MUC Data Sets  data sets   information extraction  SAIC  Science Applications International Corporation    lt  head gt       BODY BGCOLOR   FFFFFF  TEXT   000000  link   0033FF  gt     IMG SRC     graphics blue bar gif  width  721  height  10  gt  lt P gt    lt H1 gt MUC Data Sets lt  H1 gt      IMG SRC     graphics blue_bar gif  width  721  height  10  gt  lt P gt     For each evaluation  ground truth had to be established to determine the reliability of  the participating systems  Datasets were typically prepared by human annotators for  training  dry run test  and formal run test usage  These datasets are now being made  available wherever possible on this website      lt  body gt    lt  html gt     Fig  5  Exemple d un document HTML     2 2 3 Documents structur  s    Depuis sa cr  ation en 1998 par le W3C  le format XML est devenu un standard pour  l   change et le stockage de donn  es semi structur  s  On trouve    pr  sent divers genres de  documents XML  RDF  diffusion de m  tadonn  es sur le Web   MATHML  langage  d   criture de formules math  matiques   ODF et DOCBOOK  pour l   dition de document  et  WSDL  langage de description des interfaces de services Web   etc    Les documents XML ont une structure
12.   sont  optionnelles    Cette t  che pr  liminaire d annotation de documents peut   tre faite manuellement   il ne  faut qu annoter chaque slot d information trouv   dans les documents du corpus  Cependant   pour cette recherche  il est envisageable d automatiser cette t  che d annotation car    chaque  fois que l on change de corpus ou de domaine  il faudra annoter tous les documents du  nouveau corpus  En tenant en compte cette possibilit    le syst  me d annotation MnN  d  j    pr  sent   dans la section 4 3 1  sera en charge de rendre cette t  che moins fastidieuse     5 1 2 Corpus SEMINARS    5 1 2 1 Description du corpus   Le corpus Seminars est constitu   par une collection d annonces de conf  rences prise des  panneaux d affichage   lectronique de l Universit   Carnegie Mellon    tats Unis  pendant la  p  riode de septembre 1982    ao  t 1995 et propos  e par  Freitag  1997   Cette collection  comporte 485 documents aux mises en forme tr  s diff  rentes  La figure suivante en illustre un  exemple      Name  Dr  Jeffrey D  Hermes   Affiliation  Department of Autoimmune Diseases  Research  amp  Biophysical Chemistry Merck Research  Laboratories   Title   MHC Class II  A Target for Specific  Immunomodulation of the Immune Response   Host e mail  Robert Murphy  murphy a cfr cmu edu  Date  Wednesday  May 3  1995   Time  3 30 p m    Place  Mellon Institute Conference Room    Sponsor  MERCK RESEARCH LABORATORIES    Professor John Skvoretz  U  of South Carolina   Columbia  wi
13.  0 940 0 940 0 959 0 959 0 959  location   0 547 0 562 0 753 0 723 0 715 0 703  speaker   0 513 0 775 0 844 0 912 0 907 0 922    67    Seminars       F1       RR O       etime         w      location        A       speaker          0 4 T T T T T  0 20 40 60 80 100  Documents       Fig  43  Courbe d apprentissage sur le corpus Seminars     En analysant la courbe d apprentissage de l algorithme  on s   aper  oit qu en g  n  ral la  performance de l algorithme augmente progressivement au fur et    mesure que de nouveaux  documents sont utilis  s pour l apprentissage  Plus particuli  rement  les slots de temps  stime  et etime  sont les plus faciles      tre g  n  ralis   que les autres  vu que le syst  me peut les  apprendre d  s le premier ensemble de 10 documents  En revanche  pour le slot speaker  il a  fallu 60 documents pour atteindre un score proche de ceux des slots de temps  De plus  on  note que juste apr  s 60 documents  la courbe se stabilise pour les slots stime  etime et speaker   Le gain est mineur    partir de ce point sur la courbe  On note aussi une l  g  re d  gradation de  performance pour le slot location apr  s un nombre de 40 documents  Cela signifie que  l algorithme pr  sente un probl  me de sur apprentissage  overfitting   une r  duction de son  efficacit   quand plus de documents sont utilis  s pour l apprentissage     5 4   valuation comparative    5 4 1 Crit  res d   valuation recommand  s    La d  finition d une m  thodologie d   valuation et la disp
14.  0 983  0 981  0 938  0 962    F1  0 720  0 626  0 964  0 850  0 983  0 586  0 874  0 975  0 883  0 873  1 000  0 881  0 830  0 884  0 882  0 975  0 698    Corpus JOBS    Bl no POS   EY with Pos          app area city comp count d deg dye id lang plat p dt recr r deg ry e sal stat title    Slots    Fig  38  Comparaisons par slot de F measure avec et sans POS sur le corpus JOBS     Corpus CFP   R  sultats par slot avec et sans POS    Comme le montrent les Fig  39 et 40  le tagage POS a apport   une l  g  re augmentation sur la  F measure pour la majorit   des slots  Par exemple  le slot confacro  conference acronym  a  pr  sent   le gain de plus de 596    Le plus bas r  sultat de l algorithme en consid  rant tous les slots individuellement a   t    celui du slot confhome  conference homepage   On peut expliquer ce score    cause du nombre  moins repr  sentatif  100  d exemples dans le corpus tout entier  De plus  on a constat   que le  module responsable pour la tokenisation de documents du M TIES  ne reconnais pas les  adresses   lectronique comme une entit    Une possibilit   d avoir meilleurs r  sultats pour ce  type de slot  serait de permettre le tokeniseur pour le reconnaitre en augmentant la taille de la  fen  tre w  par exemple     64       Slot Pr  c   Rappel F1 Slot Pr  c Rappel F1  confacro 0 935 0 386 0 547 confacro 0 930 0 442 0 600  confhome   0 745 0 143 0 240 confhome 0 717 0 122 0 208  confname   0 969 0 683 0 801 confname 0 951 0 685 0 796  workacro 0 902 0 2
15.  2003      AKT  2009  MnmMnM  Ontology Driven Semi Automatic and Automatic Support for  Semantic Web  Mnm Developer Guide    Disponible     http   projects kmi open ac uk ak MnM MnM Developer Guide html  dernier  acc  s en juin 2009          Apache  2009  JFex   java Feature Extractor  User Guide  Disponible      http   tcc itc it research textec tools resources jfex quickstart html  dernier acc  s en juin  2009          Arasu  2003  Arasu A   Garcia Molina H  Extracting structured data from web pages  In  Proceedings of internation conference on Management of data  pp  33  348  2003      Baumgartner et al   2001  Baumgartner R   Flesca S   Gottlob G  Visual web information  extraction with Lixto  In 28th International Conference on VLDB  pp  119 128  2001      Bray et al   2008  Bray T   Paoli J   Sperberg McQueen C   Maler E   Yergeau F  Extensible  Markup Language  XML  1 0  Fifth Edition   In W3C Recommendation  November  2008      Brill  1992  Brill E  A simple rule based part of speech tagger  In Proceedings Of the 3th  conference on Applied NLP  pp  152 155  Association for Computational Linguistics  1992      Cabral  2004  Cabral D  M  Um framework para extra    o de informa    es  uma abordagem  baseada em XML  Disserta    o de Mestrado  UFPE  CIN  Recife  2005      Califf  1998  Califf M  E  Relational Learning Techniques for Natural Language  Information Extraction  Ph D  Dissertation  University of Texas at Austin  1998      Califf  amp  Mooney  1999  Califf M  E 
16.  CONFIG XML   Dans ce fichier  lt ties config gt  est l   l  ment principal  Il est constitu   de plusieurs balises  d  crivant les modules du TIES pour   tape de g  n  ration d un mod  le   strat  gie de validation   strat  gie d extraction  weak learner  boosting  tokeniseur et corpus loader  Les directives de  contr  le d entr  e et de sortie sont aussi mises dans ce fichier de configuration  ainsi que la  m  moire cache  essentielle pour optimiser les performances du syst  me et l utilisation de la  m  moire   Ci dessous on voit un extrait du fichier de configuration TIES CONFIG XML  relatif au corpus CMU Seminar announcements  Le manuel d utilisateur  ITC IRST  2004   d  crit en d  tail la signification de tous les param  tres d  finis par ce fichier           Configuration file for the standard  CMU seminar announcements  extraction  task          lt ties config gt    lt validation strategy gt     validation   class gt org itc irst tcc ties validation NFoldCrossValidation lt  validation class gt    lt init param gt    lt param name gt n lt  param name gt    lt param value gt 10 lt  param value gt    lt  init param gt    lt init param gt    lt param name gt hypothesis file lt  param name gt    lt param value gt   bwi sa out xml lt  param value gt    lt  init param gt    lt init param gt    lt param name gt eval file lt  param name gt    lt param value gt   bwi sa bwi eval csv lt  param value gt    lt  init param gt    lt  validation strategy gt         lt  ties config gt
17.  Classification Supervis  e    D apr  s Mitchell  Mitchell  1997  classer un objet consiste    l affecter au groupe auquel il  appartient  Autrement dit  on associe    un objet une classe  La classification supervis  e  consiste alors dans l apprentissage de cette association objet classe    partir d objets dont la  classe est d  j   connue    Le mod  le d apprentissage de la classification supervis  e pr  sume l existence d un  concept cible f que l on cherche    d  couvrir    partir d un ensemble d exemples d  j   class  s     Le concept cible f peut   tre vu comme une fonction de l ensemble d exemples vers l ensemble    22    de classes  Dans ce contexte  l apprentissage se produit quand on s approche le plus possible  de f par une fonction hypoth  se h  La fonction h r  sultante pourra   tre utilis  e pour pr  dire la  classe d exemples dont la classe est inconnue  Marty  2007     Soit le probl  me de classification sur deux classes  classification binaire   Soit        y      x  y    un ensemble de donn  es d apprentissage dans lequel x  d  note une    instance  un vecteur d attributs  et y  e Y    1  1  d  note une   tiquette de classification   L ensemble X constitu   par x  x      x  est aussi nomm  e de l   espace de description des    exemples tandis que Y est l ensemble de classes possibles     chaque exemple  on associe sa  description xe X et sa classe ye Y  Chaque couple  x y  est un exemple   tiquet   et    l ensemble de tous les couples constitue l ensemble d 
18.  Intelligence  14 5  771 780  September  1999      Friedmann Hill 2000  Friedmann Hill  E  Jess  The Java Expert System Shell  2000   Disponible     http   herzberg ca sandia gov Jess  dernier acc  s en juin 2009       Gilleron et al   2006  Gilleron R   Marty P   Tommasi M   Torre F  Extraction de relations  from semi structured data  In Revue RNTI   Actes de EGC 06  pages 415 420  2006      Girardi  2007  Girardi  C  HtmlCleaner  Extracting Relevant Text from Web Pages  In  Proceedings of WAC3 2007   3rd Web as Corpus Workshop  Louvain la Neuve  Belgium   September 15 16  2007      Giuliano et al   2006  Giuliano C   Lavelli A   Romano L  Simple Information Extraction   SIE   A Portable and Effective IE System  In Proceedings of the EACL 06 Workshop on  Adaptive Text Extraction and Mining  ATEM 2006    Trento  Italy  2006       Gliozzo et al   2005  Gliozzo A  M   Giuliano C   Rinaldi R  Instance pruning by filtering  uninformative words  an Information Extraction case study  In Proceedings of the Sixth  International Conference on Intelligent Text Processing and Computational Linguistics   CICLing 2005   Mexico City  Mexico  13 19  February  2005      Hirschman  1998  Hirschman L  The evolution of evaluation  Lessons from the Message  Understanding Conferences  Computer Speech and Language  12  pp  281 305  1998      Hsu  1998  Hsu C  N   Dung M  Generating finite state transducers for semi structured data  extraction from the web  Journal of Information Systems  23 8   52
19.  Mooney R  J  Relational learning of pattern match  rules for information extraction  In Proceedings of the Sixteenth National Conference on  Artificial Intelligence  AA AI 99   pp  328 334  1999      Callif et al   2004  Califf M  E   Ciravegna F   Freitag D   Giuliano C   Kushmerick N    Lavelli A  Romano  A critical survey of the methodology for IE evaluation  In Proceedings of  LREC  2004     82     Chang  amp  Lui  2001  Chang C  H   Lui S  C  IEPAD  Information extraction based on pattern  discovery  Proceedings of the Tenth International Conference on World Wide Web  WWW    Hong Kong  pp  223 231  2001      Chang  amp  Kuo  2004  Chang C  H   Kuo S  C  OLERA  A semi supervised approach for Web  data extraction with visual support  IEEE Intelligent Systems  19 6  56 64  2004      Chang et al   2006  Chang C H   Kayed M   Girgis M  R   Shaalan K  F  A Survey of Web  Information Extraction Systems  IEEE Trans  Knowl  Data Eng  18 10   1411 1428  2006      Ciravegna  2001  Ciravegna  F   LP   An adaptive algorithm for information extraction from  web related texts  In Proceedings of the IJCAI 2001  Workshop on Adaptive Text Extraction  and Mining held in conjunction with the 17th International Joint Conference on Artificial  Intelligence  2001   Seattle  2001      Ciravegna  amp  Lavelli  2001  Ciravegna  F   Lavelli  A  LearningPinocchio  Adaptive  information extraction for real world applications  In Proceedings of 3rd Romand Workshop   Frascati  Italy  2001      Cirave
20.  algorithme  LP   sur les autres r  side  dans l effet combin   de l   tape d   tiquetage contextuel  de l   tape de correction et de  l utilisation plus avanc  e d information TAL  Ce dernier   tant le plus important d entre eux     6 2 Perspectives relatives au syst  me d   EI propos      Plusieurs travaux pour   tendre la version actuelle du syst  me d EI propos   dans cette  recherche peuvent   tre envisag  s    court et moyen terme  En voici quelques uns      1  Extraction d information    partir de documents en format PDF   Le syst  me M TIES ne traite que des documents en format HTML XHTML  Cependant  le  format PDF devient de plus en plus utilis   sur Web comme un format standard pour une  gamme de documents  Ainsi  il est envisag   d avoir un module capable d extraire des  informations de tel type de document     2  S  paration des modules tokeniseur et extracteur d attributs   Il a   t   constat   que  dans M TIES  les modules tokeniseur et d extraction d attributs sont  fortement li  s entre eux  Pour avoir plus de flexibilit   et  cons  quemment  rendre ce syst  me  plus adaptatif    l apprentissage sur de nouveaux corpus  en fournissant diff  rents types de  tokeniseur et ou extracteur d attributs  par exemple   un travail de r  ing  nierie sur les codes  source de M TIES devrait   tre r  alis       3  Ajoutement d un module de Normalisation   Il est tr  s fr  quent d avoir certains type d information tels que  adresses de courrier    lectronique  URL de home pag
21.  alise deux t  ches diff  rentes   la t  che d apprentissage test et celle d extraction  Les    tapes    suivre pour ces t  ches sont pr  sent  es ici d une fa  on algorithmique     1  Apprentissage test   1  Instancier un algorithme d EI  Sp  cifier un corpus d entr  e  Choisir une strat  gie de validation  Choisir une strat  gie d extraction  Apprendre un mod  le  Tester le mod  le appris    DNA Meo EN    2   Extraction  1  Sp  cifier un nouveau corpus d entr  e  2  Ex  cuter un classificateur utilisant le mod  le appris    Pour l instant TIES ne disposant pas d une interface conviviale de param  trage  tous les  param  tres de configuration doivent   tre saisis d une des fa  ons suivantes   invite de    45    commande  configuration XML ou API  Le lecteur est renvoy   au  ITC IRST  2004  pour  savoir comment ajuster pr  cis  ment les param  tres de configuration     4 2 5 R  gles induites et information extraites    4 2 5 1 R  gles induites    Les r  gles induites par TIES sont exprim  es par des wrappers essentiellement form  s par un  pr  fixe suivi de l   information    extraire et se terminant par un suffixe  En fait  une r  gle  d  termine un pattern  patron de tokens  dans le corpus d   entr  e qui entoure le slot  d   information    extraire  Les wrappers appris sont stock  s en format XML  et ils pourront   tre  employ  s plus tard pendant une t  che d extraction  La Fig  25 montre un extrait d un wrapper  appris pour le slot  lt speaker gt  du corpus CMU Seminar a
22.  arborescente  traduite par l imbrication des  balises  qui d  crit    la fois la structure logique du document et son contenu  Les n  uds  internes ou les   l  ments de l arbre repr  sentant un document XML correspondent aux    l  ments de sa structure logique  tandis que son contenu est stock   dans les feuilles de l arbre   Par exemple  le document XML de la Fig  6 contient les   l  ments catalog  cd  title  artist   country  company et year  Chaque   l  ment est repr  sent   par une paire de balises  ouvrante fermante  Dans cette figure  l   l  ment title est repr  sent   par les balises   titre   et   lt  titre gt     Pour   tre bien form    toute balise ouverte doit   tre ferm  e et les balises fermantes  apparaissent dans l ordre inverse des balises ouvrantes  cette contrainte n est pas obligatoire  dans le cas HTML   A la diff  rence d HTML o   l ensemble des balises est d  fini par une  norme fix  e  XML permet de cr  er l ensemble des balises utilis  es  On peut ainsi cr  er sa  propre variante en fonction de ses besoins  en d  crivant    la fois les balises et la s  mantique  qui leur est associ  e     12       l   aide d un sch  ma DTD  Document Type Definition  ou un sch  ma XML qui    d  termine l ensemble de balisage    con  u et  cons  quemment  la fa  on dont elles sont    structur  es  on peut contraindre la structure arborescence des documents XML et les types de    donn  es qui y figurent      lt  xml versionz  1 0  encoding  utf 8   gt       CATALOG      
23.  certains slots  Par contre  pour les autres deux corpora plus structur    la    78    diff  rence a   t   pratiquement nulle  Ceci peut s expliquer par le fait que l algorithme  d induction d extracteurs a d  j   de tr  s bonnes performances sans se servir d un espace  d hypoth  ses plus large  avec la prise en compte de l information POS   quand il est employ    sur de documents plus structur  s  corpus Seminars et Jobs   En plus  il y a eu le cas o   un slot  avait un score parfait    Concernant les exp  riences sur l   valuation comparative  elles ont montr   que  l architecture d  velopp   dans cette recherche est sup  rieure    d autres syst  mes d EI de l   tat  de l art sur le corpus plus structur   Seminars  et qu elle atteint des scores comparables sur le  corpus semi structur   Jobs  En plus  les extracteurs produits par le syst  me propos   semblent  atteindre plus de pr  cision que les autres syst  mes tout en ayant un rappel raisonnable  En  revanche  m  me avec l aide du tagage POS  le syst  me propos   a obtenu un score inf  rieur  par rapport aux autres syst  mes compar  s  notamment  LP      sur le corpus CFP  en langage  naturel   Dans M TIES  l algorithme BWI utilise un formalisme de r  gles plus expressif gr  ce     l utilisation de wildcards qui g  n  ralise mieux que l algorithme  LP   par exemple  sur des  documents plus structur  s  Pour une collection de document moins structur  s  notamment en  langage naturel  on peut conclure que l   avantage de l
24.  des documents semi structur  s et libres  format XHTML   Cette approche  retenue n  cessite la connaissance d exemples de donn  es    extraire et une annotation de ces  exemples d apprentissage r  alis  e par l utilisateur  Afin que la t  che d annotation ne soit pas  fastidieuse  l apprentissage permettant l induction de l extracteur doit pouvoir   tre fait    partir  de peu d exemples  La section suivante traitera plus en d  tail l   induction supervis  e  d extracteurs     21    3 INDUCTION D EXTRACTEURS ET  CLASSIFICATION SUPERVISEE    Le domaine de l apprentissage artificiel  qui rel  ve de l intelligence artificielle  propose de  nombreux algorithmes dont les propri  t  s ont d  j     t   bien   tablies  Cornu  jols  amp  Miclet   2002  Mitchell  1997  Russel  amp  Norwig  2003   Parmi les diverses techniques  d apprentissage artificiel appliqu  es    l induction d extracteurs d information  ce chapitre  s int  resse aux techniques relevant de la Classification Supervis  e  CS     Dans un probl  me de la CS  des exemples convenablement   tiquet  s sont fournis     l lgorithme d apprentissage  Les   tiquettes indiquent les classes auxquelles les exemples  appartiennent  Pour le cas    deux classes  cas binaire   chaque exemple peut   tre soit positif   soit n  gatif     partir de ces exemples  il faut alors d apprendre un classificateur capable de  pr  dire la classe d un exemple    On peut se servir de la CS pour concevoir un syst  me d EI constitu   de deux phases   a
25.  des slot annot  s  Ireson  amp  Ciravegna  2005      ANNOTATION TYPE CORPUS FREQUENCY    ma     a La       La Tab  5 pr  sente la distribution de fr  quences des slots annot  s dans le deux premiers  corpus  apprentissage et test    comme on peut bien constater  les deux distributions sont    peu  pr  s semblables  Il faut noter que  comme ni tous les workshops ont une conf  rence qui leurs  sont associ  es  les slots moins repr  sentatifs sont les slots relatifs aux conf  rences     57    5 1 5 Comparaison et sp  cificit  s des Corpora    Un syst  me d EI adaptatif doit s adapter    un nouveau domaine ou application avec un  minimum d effort  Du point de vue de l algorithme d apprentissage  un tel syst  me est  n  cessaire pour apprendre un premier mod  le    partir d un petit nombre d exemples  d apprentissage    Dans ce contexte  afin d   valuer le syst  me M TIES dans un sc  nario d  TE adaptatif  on    value son algorithme d apprentissage  qui sera d  taill   dans le chapitre suivant  sur 3  corpora d  j   annot  s  avec diff  rents degr  s de structuration pouvant   tre class  s en 2  groupes   partiellement structur   et naturel  non structur       Les documents partiellement structur  s des corpora Seminars et Jobs contiennent des  structures au niveau de document et des r  gularit  s dans la mise en forme et dans les  annotations  Par exemple  il est commun pour quelques slots d   tre pr  c  d  s d une   tiquette  d identification  ex     Speaker   Dr  X      bien q
26.  elles soient   gales    1 si  et seulement si  ils sont des  s  parateurs de d  but et de fin d une donn  e    extraire pr  sent dans le document  sinon elles  sont   gales    0    Les exemples positifs sont ainsi codifi  s d une mani  re tr  s simple et identique pour les  positions de d  buts et fins  Chacune de ces positions est repr  sent  e par deux ensembles    l ensemble des tokens se trouvant    sa gauche et celui se trouvant    sa droite     3 1 4 2 Hypoth  ses   Les hypoth  ses  destin  es    caract  riser les s  parateurs repr  sent  s par les exemples positifs   sont exprim  es par des r  gles  ou des classificateurs   l  mentaires  qui prennent en entr  e un  s  parateur et d  termine s il s agit ou non d un s  parateur d  but  ou fin  selon les tokens        gt  La repr  sentation attribut valeur consiste d appliquer des fonctions sur les tokens et de leurs attacher les  r  sultats de ces fonctions  les atributs avec leurs valeurs correpondantes  Par exemple  une fonction f appliqu   au  token         peut renvoie  symbol token   true     25    pr  sents    gauche et    droite  Une r  gle est alors constitu  e d une s  quence de tokens ou de  jokers  wildcards   ces derniers   tant la conversion d un token    une cat  gorie plus g  n  rale   En fait  cela rend les d  tecteurs plus g  n  raux  Ainsi  au lieu de chercher des correspondances  des tokens exactes des d  tecteurs dans un texte  les jokers correspondent    plusieurs tokens en  m  me temps  Ci apr  s  
27.  elles sont consid  r  es comme semi structur  es puisque les donn  es incluses sont  souvent r  cup  r  es gr  ce    l utilisation de balises HTML  La figure suivante montre un aper  u  de divers types de documents en consid  rant les dimensions niveaux de structuration et  facilit   de traitement par la machine     o  o  a  3 Database  D  XML   3 Cgi generated HTML  9 Hand written HTML  B      E Postings on newsgroup  D e g  apartment rentals   Equipment maintenance logs  g medical records    Free texts  E e g  News articles  e  3       Hard to understand by machine Easy to maintain by machine    Fig  7  Structuration de documents selon  Chang  2006      2 3 Concepts de base en EI    Cette section discute deux concepts de bases relatifs    la t  che d EL a savoir  la  repr  sentation de documents et les types de sorties    2 3 1 Repr  sentation de documents   A fin de pr  ciser la fa  on de repr  senter des documents semi structur  s dans le contexte d une    t  che d EI typique  deux repr  sentations sont alors possibles  la repr  sentation par une  s  quence et par un arbre     14    2 3 1 1 Repr  sentation par une s  quence    Cette repr  sentation de documents sous la forme d une s  quence d unit  s lexicales  ou tokens   est la plus courante en EI  Elle est obtenue    partir du code source de la page    Quant    l atomicit    un token peut se pr  senter sous un aspect seulement syntaxique  ou  avoir aussi un aspect s  mantique   dans le premier cas  des tokens caract  
28.  en fait des s  parateurs de d  but ou de fin d une donn  e quelconque    extraire   sinon ces fonctions sont   gales    0  Par exemple  la s  quence    Time   9 PM    contient cinq  s  parateurs qui sont illustr  es respectivement par so  51  52  53  54 et ss  Fig  13      t Time T   T 9 T PM     0  1  9  3    on       e    Fig  13  S  quence de tokens avec des s  parateurs  Marty  amp  Torre  2004    S2 et s4 sont des s  parateurs de d  but et fin  respectivement     Supposons que l on veut extraire la donn  e    9 PM    de l exemple pr  sent   dans la figure  ci dessus  alors s2 et s4 seront respectivement le s  parateur de d  but et de fin de cette donn  e  et les autres  des s  parateurs quelconques    Apr  s avoir choisi la description de l ensemble d exemples  il reste    d  finir un langage  d hypoth  ses et    choisir un algorithme de classification supervis  e permettant de trouver dans  l espace d hypoth  ses  l hypoth  se qui sera la plus coh  rente avec les exemples disponibles   Ensuite  une hypoth  se   tant apprise  il faut sp  cifier le wrapper correspondant  Enfin  une    tape post  rieure se fait n  cessaire pour que l on r  associe les s  parateurs de d  but et de fin    Dans la section suivante  afin d illustrer la transformation du probl  me d EI en un  probl  me de classification supervis  e  nous d  crivons le syst  me BWI qui r  alise l extraction  single slot    partir de documents non structur  s  et qui faire l usage de s  parateurs  ind  pendants 
29.  fixe     speaker    suivi d un  token form   par un seul caract  re  et n importe quel suffixe     4 2 5 2 Information extraites    Les entit  s extraites d un nouveau corpus sont aussi stock  s en format XML  La figure  suivante montre ces entit  s avec l endroit exact au millier de documents indiqu  s par les  balises   entity   et ses attributs  name  src                         lt entity list gt      entity name  speaker  src    CMUAN     token start  142  len  3  gt Mr  lt  to    token start  146  len  5  gt Okada lt        entity       entity name  speaker  src    CMUAN    lt token start  330  len  3  gt Dr  lt  to    token start  334      token start  344  len  4  gt Shaw lt  t      entity       entity name  speaker  src    CMUAN     token start  624  len  3  gt Mr  lt  to    token start  628  len  6  gt Andrew lt     token start  635  len  5  gt Gault lt        entity       entity name  speaker  src    CMUAN     token start  810  len  3  gt Mr  lt  to    token start  814  len  6  gt Jessie lt     token start  821  len  5  gt Ramey lt        entity       entity name  speaker  src    CMUAN    lt token start  880  len  3  gt Dr  lt  to    token start  884  len  4  gt gudi lt  t    token start  889  len  7  gt Mancuso lt  token gt       entity      lt  entity list gt        3G DER   ken gt   token gt           EU ACE   ken gt              oken gt     G2 CAR   ken     token    token      G2 CAR   ken     token    token      G2 CAR   ken    oken gt        start  142     st
30.  gt    lt b gt  Reviewer Name  lt  b gt  Jane   lt b gt  Rating  lt  b gt  6   lt b gt  Text  lt  b gt        lt  li gt    lt  ol gt    lt  body gt   lt  html gt     Fig  8  Rendu d une page HTML  adapt   de  Chang et al   2006       15    html    body   3    E   JU  S S            gt  5   ANN    Z i 2    S  3 AN LS  3 beh 2b4 be b6 be    Al ISTE  3      Reviewer D 2 Reviewer 2 q  Name Ei A Name 2 3   amp  a 7    Fig  9  Repr  sentation arborescente  DOM Tree  de la page HTML  de la Fig  8  Chang et al   2006      2 3 2 Types de Sorties    En ce qui concerne la sortie  un syst  me d   EI peut   tre   single slot  unaire   multi slot  n   aire  ou structur  e     Sortie single slot  unaire  Les syst  mes d EI single slot ou unaire extraient du document  d entr  e seulement des donn  es isol  es  c est    dire  ils ne sont pas capables de lier une  instance d un champ d information  slot  du formulaire de sortie    une instance d autre champ     Sortie multi slot  n aire    Ceux ci sont capables d extraire du document d entr  e  des  donn  es li  es les unes aux autres  c est    dire  ils peuvent faire des relations entre les instances    de diff  rents slots   La Fig  10 illustre ce deux types de sorties     16       Capitol Hill   1 br twnhme  fplc D W W D  Undrgrnd pkg  incl  675  3 BR  upper flr of turn of ctry HOME  incl gar   grt N  Hill loc  995   206  999 9999  lt br gt      i     font size  2 gt   This ad last ran on 08 03 97     lt  font gt   lt  i gt    hr      Singl
31.  jusqu    ce  qu il soit trouv  e la premi  re occurrence de     B       et extraire le nom du pays comme une  cha  ne qui se termine par le premier     lt  B gt    Ensuite ignorer tous les caract  res jusqu    ce que  soit trouv       lt I gt    et extraire la chaine qui se termine par    lt I gt      Afin d extraire des  informations sur Country et Area Code  la r  gle est appliqu  e de fa  on r  p  t  e jusqu    ce     1    30    qu elle ne s applique plus  De cet exemple  on note qu une r  gle de WIEN peut   tre appliqu  e  avec succ  s sur les deux documents  D  et D2    Cependant WIEM pr  sente certaines limitations qui ont   t   soulign  es par  Hsu  1998    Tout d abord  une premi  re limitation est li  e au fait que WIEN fait une hypoth  se forte sur  l organisation des tuples dans les documents   les tuples sont cons  cutifs  et leurs  composantes sont obligatoirement dans le m  me ordre  Cette hypoth  se est v  rifi  e lorsque  les donn  es    extraire sont pr  sent  es dans une table car l ordre des colonnes est  naturellement fixe et identique dans toute la table  Cependant elle n est plus n  cessairement  lorsque les n uplets sont dans une liste dans laquelle l ordre des composantes peut changer  d un tuple    l autre  Ensuite  une autre limitation est que dans WIEN  les valeurs manquantes  ne sont pas g  r  es convenablement en extraction  Ainsi  l induction d un extracteur est tout  simplement impossible lorsque les documents contiennent des tuples dont certai
32.  l efficacit   d extracteurs con  us  avant de  conclure     2 1 Traitement Automatique de la Langue  TAL     L objectif du Traitement Automatique des Langues  TAL  est la conception de logiciels  capables de traiter de facon automatique des donn  es exprim  es dans une langue  dite   naturelle   par opposition aux langages formels de la logique math  matique   Ces donn  es  linguistiques peuvent  selon le cas    tre de diff  rents types  textes   crits ou oraux  et de taille  variable  du texte entier au mot isol    en passant par la phrase ou le syntagme   Selon la nature  de l application  le traitement peut viser    transformer des donn  es linguistiques existantes     des fins de correction  d extraction d information  de traduction  etc    Actuellement nous avons un r  el et croissant besoin de disposer d outils et de m  thodes  robustes pour traiter la langue sous toutes ses formes   requ  tes documentaires  moteurs de  recherche   extraction d information pr  cises  correction orthographiques  fouille de donn  es  textuelles  etc  Les proc  dures d   valuation d  velopp  es initialement en RI  dans le cadre des  comp  titions internationales en EI et en RI  Message Understanding Conference   MUC   Hirschman  1998   ont   t   g  n  ralis  es    d autres domaines  Reconnaissance d Entit  s  Nomm  es  Named Entity Recognition   c est    dire des noms de personnes  d intuitions  de  lieux     tiquetage morphosyntaxique  POS Tagging   Adda et al   1999   pour en citer  que
33.  la classification de s  parateurs fin  cy  et  3  la r  association de  chaque s  parateur class   comme d  but    un s  parateur class  e comme fin    l aide d un  histogramme ha    Les classificateurs cy et cy  constitu  s par des classificateurs   l  mentaires combin  s par la  technique du boosting  sont appliqu  s sur tous les s  parateurs candidats des documents  d entr  e  Cela correspond aux   tapes  1  et  2  que l on vient de mentionner  On obtient    ce  point de l extraction  deux ensembles des s  parateurs class  s comme s  parateurs d  but et  s  parateurs fins  not  s respectivement D et F  Freitag   galement d  finit D et F comme des  ensembles de d  tecteurs  Freitag  amp  Kushmerick  2000   Un d  tecteur est une paire de  s  quences de tokens  lt  p  s gt     Un d  tecteur s assortit    un s  parateur dans le document si  et seulement si  le pr  fixe de  la s  quence de tokens  p  correspond    des tokens avant le s  parateur et le suffixe de la  s  quence de tokens  s  correspond    des tokens apr  s le s  parateur  Par exemple  le d  tecteur    Who    Dr    peut s assortir au fragment de texte    Who  Dr  John Smith    d  finissant le  s  parateur entre     et  Dr      Dans ce contexte  soient des d  tecteurs de d  but et fin   l extraction est r  alis  e en identifiant le d  but et la fin d un champ et en prenant les tokens  entre ces deux points  La figure suivante illustre un exemple d un wrapper avec ses d  tecteurs  D et F appris     Un exemple Deux 
34.  las Le  n 41  422 1    TokenisatiOm iuin ee ee de b e dete edi Eae i pe n dd cede 42  22 2    Feature Extract   n Ans ne uot orbes mt Quentin ondes 43  42 3  X onB  guration du systeme  TES  inei abe D He ei 44  4 2 3 1   tape d apprentissage   g  n  ration d un mod  le    44  4 2 3 2 Etape d application de r  gles   extraction                     45  42 4 Ex  cution du Systeme  sinistre e eee PUE Eee eR sponse 45  4 2 5 R  gles induites et information extraites 4   46  4 250  HROSI  S QUES Mn URI pam la Di Nain ins 46  AD 2 Information OX ALES shoes oti de eds sn EE ha sa 47  4 3   M TIES   nouvelle version de TIES   tendue    l annotation morphosyntaxique         48  4 3 1 Am  lioration du pr  ttalte meh    sense err he Par Aa QUA a 49  4 3 1 1 Module d annotation de documents   MnM                     see 49  4 3 1 2   Module de Nettoyage de pages HTML   HTML Cleaner                              49  4 3 2   Extension du module de tokenisation par l ajout de tagage POS                         50  4 3 2   Module d   tiquetage morphosyntaxique  POS tagging   QTag                   50  4 3 3    G  n  ration de diagrammes de classes 2 ees dtet deis cei passada eti od eoe qup Spo Pega SD 51  4 3 4 Decompilation de code SOUlCE    x none ue tn at SR TS entr   51  43 5  Sortie de r  sultats en format CSV 5256 ne A ML tie ads ede doped odas 51  Ad SCOUTS OM aod iu toto t o e ca toon ute Tan rss 52    5   EXPERIMENTA TIONS  nicetttioti trae nd nm eR Oo s entr ERN ner Ne 53    S L Co
35.  ou XML     La deuxi  me version du TIES d  crite dans ce m  moire utilise tagage POS  section 4 3      37    La transformation d un probl  me d extraction en un probl  me de classification  supervis  e n  cessite que l on sp  cifie la repr  sentation de documents  la d  finition des    l  ments de documents qui seront consid  r  s comme les exemples du probl  me de  classification  et le codage de ces exemples  En   tudiant en d  tail un syst  me d induction  d extracteurs reposant sur la classification supervis  e  BWT   il a   t   illustr   les diff  rentes    tapes   l  mentaires associ  es    une telle transformation    Ensuite  diff  rents syst  mes d  EI par induction supervis  e d extracteurs ont   t   pr  sent  s   notamment les syst  mes WIEN  SoftMealy  STALKER  Almicare  SIE et TIES  Ces  diff  rents syst  mes presque tous adoptent une repr  sentation de document    base de tokens   font de l extraction unaire  mettent en   uvre diff  rents algorithmes d apprentissage pour  traiter des textes semi structur  s  voire libre pour certains de ces syst  mes  SIE  TIES     Amilcare     Dans le chapitre suivant ce travail propose un syst  me d EI adaptatif modulaire  permettant l extraction d information de documents semi structur  s ou libres  reposant sur  l induction supervis  e d extracteurs et int  grant le syst  me TIES mettant lui m  me en   uvre  l algorithme BWI     7 Bri  vement pr  sent   dans la section 3 3 6    38    4 UN SYSTEME D EI ADAPTATIF PAR INDUCTION
36.  peut  mentionner les mesures micro average et macro average  La mesure micro average est  calcul  e en additionnant les tp  fp et fn pour tous les slots  et en calculant ensuite P  R et F   Par cons  quent  des slots plus fr  quents ont un impact plus   lev   sur la mesure finale que des  slots rares  D autre part  la mesure macro average est calcul  e en faisant la moyenne de toutes  les valeurs P et R par slots  de sorte que toutes les slots sont consid  r  s comme d   gale  importance  peu important combien de fois ils se produisent    Certains chercheurs soutiennent que la mesure macro average est meilleure que la micro   average  Yang  amp  Liu  1999  parce que la derni  re peut   tre domin  e par les classes plus  nombreuses de telle fa  on qu elle exprime moins la performance de l algorithme sur les  classes moins repr  sentatives  D autre part  si toutes les classes sont d une taille comparable   comme c est souvent le cas de corpora en EI  alors la mesure macro average n est pas tr  s  diff  rente de la micro average     calculantla pr  cision P        59    Dans ce chapitre  la performance globale du syst  me propos   sur un corpus quelconque  est mesur  e en termes de F Measure  micro et macro  avec le param  tre B   1     5 3 Exp  riences    Les r  sultats exp  rimentaux sur trois corpora d  crits dans la section 5 sont pr  sent  s  Toutes  les exp  riences ont   t   men  es avec le syst  me M TIES  Pour chaque exp  rience  les  respectifs param  tres utilis  s p
37.  pr  senter aucun    En outre   Eikvil  1999  d  clare que les syst  mes d EI n essayent pas de comprendre le  texte dans les documents d entr  e  mais plut  t d analyser des portions de chaque document  qui contiennent des informations pertinentes  La pertinence est d  termin  e par des sch  mas  pr  d  finis du domaine qui sp  cifient quel type d information le syst  me s attend    trouver    Ces d  finitions sont tr  s g  n  rales car elles ne sp  cifient ni le type des documents  d entr  e  ni la nature des   l  ments extraits  En revanche   Florescu et al   1998  propose une  d  finition plus pr  cise et focalis  e sur Web o   les pages d un site Web sont consid  r  es  comme des conteneurs de donn  es  Alors  l EI consiste    produire une repr  sentation  structur  e de ces donn  es  La d  finition trouv  e en  Cohen et al   2003  est   galement  sp  cifique au Web et appui lEI sur l usage d extracteurs  Un extracteur est d  fini comme    tant un programme qui permet de voir un site Web existant comme une base de donn  es   Cette derni  re d  finition est plus sp  cifique que les autres  tant au niveau du type des  documents d entr  e  ici limit  s aux pages Web  qu au niveau du type de la sortie  une base de  donn  es    En comparant toutes les d  finitions   voqu  es ci dessus  on distingue 3 caract  ristiques  majeures partag  es    1  l EI a comme entr  e un ensemble de documents d un certain type     2  tels documents contiennent des informations ou donn  es que l 
38.  repr  sentation de tokens sous la forme attribut valeur     reposant sur des  informations de base et sur des ressources simples  associ   a un algorithme de classification  supervis  e classique  comme le BWI  permet d   induire des wrappers ayant performants    Les prochaines sections d  tailleront l algorithme BWI en exposant sa mani  re de  repr  senter les documents  ses algorithmes d apprentissage et d extraction aussi bien que ses  avantages et limitations     3 1 4 1 Repr  sentation de documents et d exemples    Dans BWI  un document est vu comme une s  quence d unit  s lexicales ou tokens  On  distingue trois types de tokens   une s  quence de caract  res alphanum  riques  un caract  re de  ponctuation  et enfin le caract  re de retour chariot  Notons que pour repr  senter des exemples  positifs  BWI emploie la notation de s  parateur   tudi   dans la section pr  c  dente    En effet  un s  parateur est soit une interposition entre deux tokens adjacents  soit la  position avant  respectivement apr  s  le premier  respectivement dernier  token d une valeur     extraire  Cons  quemment  une donn  e    extraire est une sous s  quence de la s  quence de  tokens repr  sentant le document et elle est caract  ris  e par un couple de positions  d  but  fin   qui d  limitent la s  quence de tokens correspondante    cette donn  e  De plus  il faut faire  apprendre deux classificateurs  c est    dire  deux fonctions de s  paration sur  0 1   On  restreint ces fonctions pour qu
39.  s sur les corpora Seminars  et Jobs  et avec k 2 4 sur le corpus CFP     62    Corpus SEMINARS   R  sultats par slot avec et sans POS       Slot Pr  c Rappel  stime 0 985 0 979  etime 0 989 0 969   location 0 961 0 912  speaker 0 962 0 944   a  sans POS    Fig  36  R  sultats sur le Corpus Seminars sans  a  et avec  b  POS     F1  0 982  0 979  0 936  0 953    Slot  stime  etime   location       speaker    Corpus JOBS   R  sultats par slot avec et sans POS    Slots  application  area  city  company  country  des degree  des y exp  id  language  plataform  post date  recruiter  req degree  req y exp  salary  state  title       Pr  c  0 903  0 848  0 993  0 943  0 998  0 922  0 942  1 000  0 934  0 957  1 000  0 976  0 915  0 932  0 920  0 995  0 855    Rappel  0 618  0 491  0 944  0 759  0 974  0 379  0 835  0 956  0 840  0 802  1 000  0 774  0 805  0 806  0 854  0 963  0 582     a     F1  0 734  0 622  0 968  0 841  0 986  0 537  0 885  0 977  0 885  0 872  1 000  0 864  0 857  0 864  0 886  0 979  0 693    Slots  application  area  city  company  country  des degree  des y exp  id  language  plataform  post date  recruiter  req degree  req y exp  salary  state  title       Pr  c  0 984  0 988  0 953  0 960    Rappel  0 983  0 974  0 924  0 965     b  avec POS    Pr  c    Rappel  0 599  0 502  0 941  0 772  0 966  0 432  0 856  0 952  0 841  0 807  1 000  0 797  0 767  0 842  0 870  0 960  0 601    Fig  37  R  sultats sur le Corpus Jobs sans  a  et avec  b  POS     63    F1 
40.  tiqueteurs POS   mais il est assez robuste en    tiquetant des textes avec une pr  cision   lev  e    Il y a deux fa  ons d utiliser le QTag   soit en tant que logiciel  lorsqu on pr  pare les textes  et puis on ex  cute le QTAG l   dessus  ou int  gr   en tant que module    travers une API dans  nos propres programme     50    QTAG est impl  ment   en Java  ce qui signifie qu il fonctionne sur plusieurs syst  mes  d exploitions  Il est  en principe  ind  pendant de la langue  bien que la version actuelle ne  vient qu avec des fichiers de ressources pour l anglais  Si on a besoin de l utiliser avec d autres  langues  on devra avoir un ensemble pr     tiquet   de texte pour cr  er les ressources  n  cessaires  Le logiciel pour cr  er ces ressources est aussi inclus dans le package de  distribution sur le site  QTag  2008     Dans cette recherche  QTAG est utilis   comme module d   tiquetage morphosyntaxique a  fin d   tiqueter automatiquement des documents avec un ensemble d   tiquettes POS qui est  list    avec leurs significations  dans l appendice A     4 3 3 G  n  ration de diagrammes de classes    Le guide utilisateur du system TIES est consid  rablement r  sum    De plus  sa documentation  concernent l API  Application Program Interface  est tr  s l  g  re  Aussi il a   t   n  cessaire  d utiliser un outil de retro ing  nierie  reverse engineering  pour obtenir     partir du code  source de TIES  les diagrammes de classes de tous les package du syst  me     4 3 4 D  com
41.  tokens et les sous   s  quences    extraire sont marqu  es  t  che d annotation   Ce que nous am  ne    choisir  comment repr  senter pr  cis  ment un exemple particulier  On peut le repr  senter soit comme  une sous s  quence  Kosala  amp  Blockeel  2000     ventuellement r  duite    un seul token   Seymore et al   1999  Freitag  amp  McCallum  1999  Giuliano et al   2006   soit comme un  s  parateur  de d  but ou de fin d une donn  e    extraire   Freitag  amp  Kushmerick  2000   dans  ce cas  l apprentissage des s  parateurs de d  buts et des fins sera effectu   ind  pendamment     Dans ce qui suit  on met en   vidence l apprentissage de s  parateurs     3 1 3 Identification de S  parateurs par la Classification Supervis  e  CS     Au lieu de performer l extraction d information comme l extraction d une sous chaine de  tokens  on peut la r  aliser au travers de fonctions de s  paration ou s  parateurs  Un s  parateur  est un espace entre deux tokens adjacents  Ici  un s  parateur n est pas quelque chose qui fait  partie effectivement du texte  tel que l espace blanc   mais une notion qui r  sulte du processus  de transformation d un document en une s  quence de tokens    En se servant de la CS  on souhaite alors appr  hender deux classificateurs  autrement dit   deux fonctions d extractions d  finissant des s  parateurs de d  but ou de fin d une donn  e     extraire  Ces fonctions sont   gales    1 si  et seulement si  l espace entre deux tokens adjacents  quelconque sont
42.  un transducteur de tuples   et les transitions d   tat  sont d  termin  es en assortissant les r  gles contextuelles qui d  crivent le contexte d  limitant  deux attributs adjacents  Les r  gles contextuelles se composent des diff  rents s  parateurs qui  repr  sentent les fronti  res invisibles entre des tokens adjacents et un algorithme de  g  n  ralisation inductif est employ   pour induire ces r  gles depuis les exemples d entrainement  annot  s    Avant d extraire des donn  es d un document  le syst  me segmente la page HTML d entr  e  en tokens  Le transducteurs      tats finis qui en r  sulte prend une s  quence de tokens comme  entr  e et assortit les s  parateurs de contexte avec des r  gles contextuelles pour d  terminer des  transitions d   tat  Un FST peut   tre construit pour chaque type de tuples dans un document     3 2 3 STALKER    STALKER est un syst  me d extraction multi slot reposant sur n extracteurs single slot  Il  utilise un formalisme appel   Embedded Catalog Tree  ECT   Muslea et al  1998  pour  repr  senter un sch  ma de sortie  ECT est une structure arborescente  o   les noeuds feuilles    3l    sont des donn  es    extraire et les noeuds non feuilles sont des listes de tuples  dont les  composantes repr  sentent soit un noeud feuille  soit un noeud liste  Cet arbre d  crit  l organisation logique des donn  es dans le document  mais   galement un processus  d extraction hi  rarchique  En plus  le formalisme ECT guide le processus d extraction  d i
43. 1   22   23   24   25   26   2T   28   29   30   31   32   33   34   35   36   37   38   39   40   4    42   43     44    45   46   4T     Table de Figures     Latehti  cture g  n  rique d ACGATHE die en etf od ulate adil fa nee 4    Exemple d extraction d information   auteurs et emails  adapt   de  Cabral  2004          8  Un document non structur   du MUC 4    sisi 10  Donn  es a extraire du document de la Fig  Sa annee Ep 11  Exemple d un document HM Ds s ass ieu quee Et nn escala of edite eene  12     Un exemple de document XML repr  sentant un catalogue de CD                                 13    Structuration de documents selon  Chang  2006     14    Rendu d une page HTML  adapt   de  Chang et al   2006                          esses 15    Repr  sentation arborescente  DOM Tree  de la page HTML    16  Exemple d extractions single slot et multi slot d une                             sess 17  Structure arborescente d un document HTML contenant une liste    18  Sortie structur   extrait du document HTML de la Fig  11  adapt   de  Marty  2007   18  S  quence de tokens avec des s  parateurs  Marty  amp  Torre  2004                                 24  L algorithme d apprentissage de BWI  Freitag  amp  Kushmerick  2000                         26  L apprenant faible LearnDetector de BWI  Freitag  amp  Kushmerick  2000                 27  Deux d  tecteus  d  but et fin  pour le slot    stime    du corpus Seminars                    28  Exemple d induction d extracteurs et extra
44. 1 2 Param  tre Lookahead   1  ueniet EH eed quete  61  3o 1 3      Information  POS  eta eto oai a etes data otii esce DR  62   5 3 2  Diff  rents ensembles dati Duss ai oes eco nm so eU GU en nl nn ne 66   5 3 3  cC DEDE apprentissage a causes en io equo paso based essct esi uiuis Da 67   5 4   valuation comparative oder ton teda en bau need odd  68  5 4 1 Crit  res d   valuation recommand  s ass e as 68  5 4 2 Description des syst  mes    comparer    69  5 4 5 Comparaison sur les corpora Seminars et Jobs                        eese 70  5 4 4 Comparaison sur le corpus Call For Papers  CFP     13   6 CONCLUSION ET PERSPECTIVES     e eesesseseessesessoesossesossesossossescosoesossossesossosseseessese 78   oS ME oT LESTO E E E E E E E AE 78   6 2 Perspectives relatives au syst  me d EI propos                        79   6 3 Perspectives relatives    l architecture MasterWeb AGATHE                       eene 81   REFERENCES 6 ssecdcosscetessesssodsseadscaseespoatsssyscessvesiesees ERROR  BOOKMARK NOT DEFINED    Appendice A   L  gendes d   tiquettes POS du QTAG  en anglais                              sss 89    XV    xvi    Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig   Fig        2  IQ Ur    W D    10   LT   12   13   14   15   16   17   18   19   20   2
45. 1 538  1998      Ireson  amp  Ciravegna  2005  Ireson  N   F  Ciravegna  Pascal Challenge  The Evaluation of  Machine Learning for Information Extraction  Machine Learning for the Semantic Web  Dagstuhl Seminar  Dagstuhl  DE  2005      Ireson et al   2005  Ireson N   Ciravegna F   Califf M  E   Freitag D   Kushmerick N   Lavelli  A  Evaluating machine learning for information extraction  In Proceedings of the 22nd  international conference on Machine learning table of contents  Vol  119  pp  345   352    Bonn Germany  2005      ITC IRST  2004  TIES  Trainable Information Extraction System  Dot Kom project  2004     Disponible     http   tcc itc it research textec tools resources ties html  dernier acc  s en juin  2009       Kauchak et al   2002  Kauchak D   Smarr J   Elkan C  Sources of Success for Information    Extraction Methods  Technical Report CS2002 0696  Department of Computer Science and  Engineering  University of California  San Diego  January  2002     85     Kohavi  1995  Kohavi R  A Study of Cross Validation and Bootstrap for Accuracy  Estimation and Model Selection  IJCAT  pp  1137 1145  1995      Kosala  amp  Blockeel  Kosala R   Blockeel H Instance based wrapper induction  2000      Kushmerick  1997  Kushmerick N  Wrapper Induction for Information Extraction  PhD   Thesis  University of Washington  1997      Kushmerick  2000  Kushmerick N  Wrapper induction  Efficency and expressiveness   Artificial Intelligence  118 1 2  15 68  2000      Kushmerick  amp  Tho
46. 14  2 3   Concepts de base en Eliane nn nine nt NS pA de 14  2 3 1   Repr  sentation de doc  ments sssic tiennent 14  2 3 1 1 Repr  sentation par une s  quence dn casa saindo E aereas Beat ee hae eine 15  2 3 1 2 Repr  sentation par Marbre Eua da sesta dh Sead 15  2 32     Types de SOMICS   use etie ORE DU RED NIRE qe in eii pei dada 16  2 4   Conception A EXITACIEURS SE tyge rki e e a een aE Hoe ito do a ege Ul 18  241    Approche manuelle  prt er UE TUUS SERO EAR Ver Ada aa Mansa S REE 19  2 4 2 Approche par specification assist  e nine nine 19  2 4 3 Approche par induction supervis  e d extracteurs                    see 19  2 4 4 Approche par induction non supervis  e                                                 20  25  Mesures d   vall  tion de syst  mes d BI s ue Se de aua eid ORE 20  2 5 1  Crit  res de Correction  asino bii e ptg Feeds eed Loa ditas es died 20  2 5 2 Pr  cision  Rappel et F Measure acuti nn titio c ne en ee 20  2 0 Poi die et Wile ae hein lee ae 21  3 INDUCTION D EXTRACTEURS ET CLASSIFICATION SUPERVISEE             22  3 1 Mod  le d Apprentissage de la Classification Supervis  e                                         22  Sl     Classification SUpervisee  Sas an udo edens abge Badass 22  3 1 2 El comme un Probl  me de Classification Supervis  e                           sess 23  3 1 3 Identification de S  parateurs par la Classification Supervis  e  CS                     24  3 1 4 sBoosted Wrdpper Inductiol    ouo RSR AR En Le 24  3 1 4 1 Repr  se
47. 2003      Le syst  me    scorer      Ce point concerne le logiciel qui a   t   utilis  e pour l   valuation  Le seul outil publiquement  disponible pour tel but est le MUC Scorer  Douthat  1998   Normalement  les chercheurs d IE  ont mis en oeuvre leurs propres syst  mes scorer  en s appuyant sur un certain nombre  d hypoth  ses implicites qui ont une forte influence sur les r  sultats de l   valuation     R  sultats rapport  s  Quelques articles rapportent seulement la F measure  mais pas la pr  cision et le rappel  alors  que la diff  rence entre la pr  cision et le rappel est un aspect fondamental de la performance     5 4 2 Description des syst  mes    comparer    Cette section fait une br  ve pr  sentation des syst  mes    comparer avec M TIES qui n ont pas  d  j     t   mentionn  s dans la section 3 3     Rapier C est un syst  me d  EI single slot qui vise    extraire des informations de textes  libres  Califf  amp  Mooney  1999   Son algorithme d apprentissage incorpore des techniques de  la programmation logique inductive  Muggleton  1994  Thomas  2005  et il apprend des  patrons qui ne sont pas limit  s par une fen  tre fixe mais que inclut des contraints sur les mots  et sur le tagage POS que entoure la donn  e    extraire  Ces patrons consistent de trois slots  distincts  Pre   Post  et Filler  Les premiers jouent le r  le de d  limiteurs gauche et droite   tandis que le dernier d  finit la structure du champ    extraire     GATE SVM  Li et al   2004a  2004b  est u
48. 3 CDD  22  ed   MEI2009  070    iv    Disserta    o de Mestrado apresentada por Rinaldo Jos   de Lima P  s Gradua    o em  Ci  ncia da Computa    o do Centro de Inform  tica da Universidade Federal de  Pernambuco  sob o t  tulo   Extraction d information Adaptative de Pages Web par  Induction Supervis  e d exfracteurs   orientada pelo Prof  Frederico Luiz Gon  alves    de Freitas e aprovada pela Banca Examinadora formada pelos professores     Prof  Evandro de Barros  Departamento de Tecnologia da Informa    o   UFAL       Prof  Frederico Luiz Gon  alves de Freitas  Centro de Inform  tica   UFPE    Visto e permitida a impress  o   Recife  16 de junho de 2009         C     i GE  jj  PIA ol to d i    Vita Ee 20 A Ln ips  Prof  FRANCISCO DE ASSIS TEN  RIO DE CARVALHO    Coordenador da P  s Gradua    o em Ci  ncia da Computa    o do  Centro de Inform  tica da Universidade Federal de Pernambuco           ma m  re Maria Lima et ma fille Rebeca Lima   Les deux jeunes filles les plus importantes du monde pour moi     vi    Remerciements    Cette dissertation est l aboutissement d un stage de recherche d  velopp   par l auteur pour  conclure son projet de Master of Sciences dans le cadre des projets MasterWeb AGATHE et  Click amp Go  Ce dernier a financ  e cette recherche qui a   t   men  e en accord avec l   Universit    F  d  rale de Pernambuco  UFPE     Recife  sous la co orientation des Professeurs Frederico  FREITAS  du Centre d Informatique de l UFPE   et Bernard ESPINASSE  du La
49. 83 0 431 workacro 0 904 0 280 0 428  workcame   0 869 0 392 0 541 workcame   0 855 0 425 0 559  workdate   0 930 0 725 0 815 workdate 0 919 0 731 0 814  workhome   0 718 0 729 0 724 workhome   0 718 0 739 0 728  workloca   0 988 0 906 0 945 workloca 0 990 0 917 0 952  workname   0 875 0 761 0 814 workname   0 890 0 826 0 857  worknoti 0 902 0 545 0 679 worknoti 0 927 0 572 0 708  workpaper   0 882 0 464 0 608 workpaper   0 911 0 478 0 627    a   b   Fig  39  R  sultats sur le Corpus CFP sans  a  et avec  b  POS   CFP   Pascal Challenge  1 0  EE no POS      7  with POS  0 8 4    F1                      0 6    0 4 4  0 2 4  0 0      cf_acro cf home cf name w_acro w_came w date w home w_loca w_name w noti w paper    Slots  Fig  40  Influence du POS sur le Corpus CFP   sans  a  et avec  b  POS     Bilan sur les corpora avec information POS    La Fig  41 pr  sente le bilan g  n  ral pour appr  cier le gain effectif du tagage POS sur les  corpora  On constate que pour le corpus CFP on a obtenu de meilleurs r  sultats avec POS  En  revanche  pour les deux autres corpora  Fig  36  37 et 38  la diff  rence a   t   pratiquement  nulle  Ces derniers r  sultats peuvent surprendre mais on peut les justifier on analysant la  nature tr  s structur   des corpora Seminars et Jobs  En effet  l algorithme d induction  d extracteurs peut d  j   avoir de tr  s bonnes performances sans se servir d un espace  d hypoth  ses plus large  sans la prise en compte de l information POS  par exemple  On pe
50. CD       lt  CD gt    lt CD gt      lt  CD gt    lt CD gt      lt  CD gt    lt CD gt      lt  CD gt    lt CD gt      lt  CD gt      lt  CATALOG gt      lt TITLE gt Empire Burlesque lt  TITLE gt    lt ARTIST gt Bob Dylan lt  ARTIST gt    lt COUNTRY gt USA lt  COUNTRY gt    lt COMPANY gt Columbia lt  COMPANY gt    lt YEAR gt 1985 lt  YEAR gt      lt TITLE gt Hide your heart lt  TITLE gt    lt ARTIST gt Bonnie Tyler lt  ARTIST gt    lt COUNTRY gt UK lt  COUNTRY gt    lt COMPANY gt CBS Records lt  COMPANY gt    lt YEAR gt 1988 lt  YEAR gt      lt TITLE gt Greatest Hits lt  TITLE gt    lt ARTIST gt Dolly Parton lt  ARTIST gt    lt COUNTRY gt USA lt  COUNTRY gt    lt COMPANY gt RCA lt  COMPANY gt    lt YEAR gt 1982 lt  YEAR gt      lt TITLE gt Still got the blues lt  TITLE gt    lt ARTIST gt Gary Moore lt  ARTIST gt    lt COUNTRY gt UK lt  COUNTRY gt    lt COMPANY gt Virgin records lt  COMPANY gt    lt YEAR gt 1990 lt  YEAR gt      lt TITLE gt Eros lt  TITLE gt    lt ARTIST gt Eros Ramazzotti lt  ARTIST gt    lt COUNTRY gt EU lt  COUNTRY gt    lt COMPANY gt BMG lt  COMPANY gt    lt YEAR gt 1997 lt  YEAR gt     Fig  6  Un exemple de document XML repr  sentant un catalogue de CD     13    2 2 4 Bilan    Les documents XML sont consid  r  s comme structur  s car il existe des sch  mas DTD ou  XML disponibles pour d  crire les donn  es  Les textes libres sont non structur  s puisqu ils  exigent un substantiel traitement de langage naturel  Pour le grand volume de pages HTML  sur le Web 
51. F1 comme fonction du nombre d it  rations  de boosting sur le corpus Jobs     Comme la Fig  34 sugg  re  le nombre d it  rations exig  s par l algorithme BWI pour  atteindre la performance maximal d  pend de la difficult   de la t  che  Par exemple  pour les  slots city et state  tr  s peu d it  rations ont   t   n  cessaires pour achever la performance  maximale  dont nous pouvons conclure que pour les slot plus r  guliers  tr  s peu d it  rations  sont suffisantes  D autre part  quand on consid  re les slots recruiter  language et plataform   on s aper  oit qu il faut un nombre plus grand d it  rations pour atteindre un niveau similaire de  performance  Les slots area  title et application se montrent encore plus difficiles pour  l algorithme BWI car on observe la tendance croissante de gain au fur et    mesure que  l algorithme utilise plus d it  rations       ce point il est important de discuter que le gain faible de performance du slot area   quand on consid  re le nombre d it  rations entre 100 et 200  ne compense pas le double de  temps qu il le faut  En plus  Kauchak  Kauchak et al   2002  affirment que un nombre tr  s    lev   d it  rations peut amener l algorithme    une situation de sur apprentissage ou    des  r  gles redondantes    Enfin  la courbe correspondante du slot    All     vue ici comme la courbe moyenne de  performance  montrent qu un nombre de 100 it  rations nous semble un bon compromis entre  la performance et le temps d ex  cution de l algorithme B
52. REPORTS  DISCLOSED IN LIMA TODAY    THE COCA GROWERS OPPOSE THE USE OF THE HERBICIDE CALLED  SPIKE    WHICH THE GOVERNMENT IS PLANNING TO USE TO DESTROY THE CLANDESTINE  COCA PLANTATIONS  ACCORDING TO UNOFFICIAL SOURCES  A GROUP OF  TERRORISTS LINKED TO DRUG TRAFFICKING REPORTEDLY WOUNDED A POLICE  OFFICER IN AN ATTACK ON A POLICE HELICOPTER  TERRORISTS ALSO ATTACKED A  CIVIL GUARD POST IN NUEVO PROGRESO  NORTH OF TINGO MARIA  UCAYALI  DEPARTMENT    Fig  3  Un document non structur   du MUC 4     10    0  MESSAGE  ID TST4 MUC4 0003   1  MESSAGE  TEMPLATE 1   2  INCIDENT  DATE 23 AUG 88   3  INCIDENT  LOCATION PERU   4  INCIDENT  TYPE ATTACK   5  INCIDENT  STAGE OF EXECUTION ACCOMPLISHED   6  INCIDENT  INSTRUMENT ID     7  INCIDENT  INSTRUMENT TYPE     8  PERP  INCIDENT CATEGORY TERRORIST ACT   9  PERP  INDIVIDUAL ID  GROUP OF TERRORISTS     10  PERP  ORGANIZATION ID    11  PERP  ORGANIZATION CONFIDENCE    12  PHYS TGT  ID  THEIR COCA    POLICE HELICOPTER   13 TRANSPORT VEHICLE   POLICE HELICOPTER    14  PHYS TGT  NUMBER     15  PHYS TGT  FOREIGN NATION     16  PHYS TGT  EFFECT OF INCIDENT     17  PHYS TGT  TOTAL NUMBER     18  HUM TGT  NAME     POLICE OFFICER     19  HUM TGT  DESCRIPTION  20  HUM TGT  TYPE LAW ENFORCEMENT   POLICE  OFFICER     21  HUM TGT  NUMBER   22  HUM TGT  FOREIGN NATION    23  HUM TGT  EFFECT OF INCIDENT INJURY   POLICE OFFICER   24  HUM TGT  TOTAL NUMBER      1   POLICE OFFICER     Fig  4  Donn  es a extraire du document de la Fig  3     2 2 2 Document
53. WI     5 3 1 2 Param  tre Lookahead L    Il a   t   r  alis   des exp  riences en utilisant diff  rent valeurs pour le param  tre look ahead L  afin d analyser son effet sur la performance  La section 3 2 4 5  sur les limitations de  l algorithme BWI  a expliqu   que trouver une extension de s  parateurs est exponentiel en L  parce que chaque combinaison des motifs de tokens    droite et a gauche d un s  parateur  quelconque est   num  r  e et   valu  e  En revanche  dans  Freitag  amp  Kushmerik  on trouve la    61    remarque que dans la grosse majorit   de cas des t  ches d extraction  la valeur L   3 est  pertinente pour avoir un bon   quilibre entre la performance et le temps pris par l algorithme  pour induire d extracteurs  Cons  quemment  pour rendre les exp  riences de cette section  viable pour des valeurs plus   lev  es de L  nous les avons r  alis  es avec les attributs d  fauts  du syst  me  c est    dire  sans utiliser des attributs suppl  mentaires pour caract  riser les  tokens    La Fig  35 montre les r  sultats des exp  riences sur le corpus CFP pour une validation  crois  e  avec k   4  et le nombre d it  rations   100  En examinant ces r  sultats  ils confirment  l importance du contexte en EI  En plus  le graphique ci dessous montre que  dans un m  me  corpus  diff  rents slots peuvent avoir diff  rentes valeurs optimales de L  Par exemple  le slot  workshop acronym n  cessite d une fen  tre de token plus large de 7 pour avoir la meilleure  performance  A
54. aleurs manquantes dans  la table de r  sultats    Les honorables scores des slots speaker et location confirment l ad  quation de  l algorithme BWI pour les t  ches d EI sur des documents plus structur  s  Pour l algorithme  BWI  si un slot cible  slot    extraire  est tout simplement pr  c  d   ou suivi d un ensemble de  tokens  ou par des tokens d un type distinct  repr  sent   par les caract  res wildcard  joker   disponibles dans son espace d hypoth  ses  les d  tecteurs de s  parateurs apprennent ais  ment  ce contexte    Pour les documents fortement structur  s ou partiellement structur  s  le cas du corpus  Seminars   les slots sont souvent pr  c  d  s par l identification des   tiquettes  par exemple     Speaker  Dr  X      ou suivi par des   l  ments d information facilement identifiables    Alors que d autres m  thodes d EI reposant sur r  gles sont principalement con  ues pour  identifier des contextes en dehors des slots cibles  BWI apprend davantage certaines  r  gularit  s qui se produisent    l int  rieur de slots cibles  Cons  quemment  les d  tecteurs de  s  parateurs peuvent se    prolonger    dans le bord du slot cible aussi bien que dans le contexte  local  Autrement dit  les d  tecteurs    gauche  d  tecteurs fore  peuvent apprendre    ce que  ressemblent les premiers tokens d un slot cible  si les slots tendent    avoir un d  but r  gulier  et  les d  tecteurs    droite  d  tecteurs aff  peuvent apprendre les derniers tokens si ils ont une  forme   galem
55. application du mod  le d extraction    39    Les syst  mes d EI modernes utilisent un composant d apprentissage pour r  duire la  d  pendance de domaines sp  cifiques et pour diminuer la quantit   de ressources fournies par  un humain  Un mod  le d extraction est d  fini en fonction de la d  marche    suivre et ses  param  tres sont   appris    optimis  s   par une proc  dure d apprentissage  Les approches  statistiques apprennent  par exemple  les attributs de classement les plus pertinents  des  probabilit  s  des s  quences d   tats   des approches reposant sur r  gles apprennent un ensemble  de r  gles d extraction et les approches reposant sur connaissance acqui  rent des structures  pour augmenter et interpr  ter leur connaissance pour l extraction  Le d  fi est de trouver un  mod  le d extraction permettant l apprentissage de tous les param  tres en utilisant la m  me  plate forme d extraction pour chaque domaine d application     4 1 3 Post traitement de la sortie   L une des possibilit  s pour structurer les donn  es extraites est de modeler le template en tant  qu une relation de base de donn  es  Apr  s que les informations importantes aient   t   trouv  es  par l application d un mod  le d extraction  les extraits identifi  s des textes sont assign  s aux  attributs correspondants de la structure cible            Corpus  j d  i    entrainement       Pre traitement  dutexte d entr  e    Apprentissage du Mod  le  mod  le d extraction d extraction  Post traitement   
56. apprentissage  not   S   On dit alors que  x est un exemple positif si y    1  et un exemple n  gatif  contre exemple  si y    1  Par  cons  quent  pour chaque exemple   tiquet    x  y on a donc y   f x   La fonction cible f   f X Y  est d  finie sur l   ensemble X et prend ses valeurs dansY   Le but de    l apprentissage en classification supervis  e est alors d   induire d   apr  s un ensemble  d exemples   tiquet  s S une hypoth  se A  X     Y qui approche le plus possible la fonction  cible f dont on ne dispose pas    Ce mod  le de classification supervis  e consiste en deux   tapes  apprentissage et  pr  diction  Dans l apprentissage  on essaye de trouver un mod  le    partir de donn  es    tiquet  es qui permet de s  parer les donn  es d apprentissage  tandis que dans la pr  diction  les  mod  les appris servent    identifier si un exemple non   tiquet   devrait   tre classifi   comme  1  ou  1      L espace de recherche de l algorithme d apprentissage est aussi appel   de l ensemble  d hypoth  ses  not   par H  L apprenant op  re le processus de g  n  ralisation qui est vu comme  une recherche dans l espace d hypoth  ses H afin de trouver celle qui correspond mieux aux  exemples d apprentissage  Russel  amp  Norwig  2003   Ainsi  l objectif de l apprenant est de  trouveur un compromis entre l   hypoth  se la plus g  n  rale et l hypoth  se la plus sp  cifique   C est    dire quil doit bien g  n  raliser pour qu il puisse se d  tacher des donn  es  d apprentissage  ne p
57. art  330     len  9  gt Stephanie lt  token gt     start  624     start  810     start  880     end  151  gt   end  348  gt   end  640  gt   end  826  gt   end  896  gt     Fig  26  Un extrait d une sortie d extraction obtenu du corpus d annonces de conf  rences CMU    s  quences de tokens extraits pour le slot  lt speaker gt      Le guide du TIES explique en plus de d  tail la configuration n  cessaire pour ex  cuter des    extractions     47    4 3 M TIES   nouvelle version de TIES   tendue    l annotation  morphosyntaxique    Comme nous avons d  j     voqu   dans l introduction de ce chapitre  il a fallu d   tendre la  version originale du syst  me TIES afin de pouvoir   valuer l influence de l annotation  morphosyntaxique  POS tagging  dans l extraction d information dans un document plus ou  moins structur    De plus  certaines limitations dans cette version du syst  me ont   t    constat  es  notamment un pr  traitement insuffisant de documents d entr  e pour bien pr  parer  et valider les documents avant qu ils puissent   tre trait  s par le module d apprentissage  Ces  limitations seront corrig  es dans la nouvelle version propos  e par ce projet  M TIES    La figure suivante illustre l architecture modifi  e du syst  me pr  sentant les nouveau  modules y rajout  s  Nous exposerons ci apr  s les t  ches qui ont   t   n  cessaires pour adapter  le syst  me TIES aux besoins de cette recherche       Corpus     d entrainement    Module d induction Application des  de r  g
58. arty  amp  Torre  2003  Marty P   Torre F  Classer pour extraire   repr  sentation et m  thodes   Technical Report Grappa report 0103  GRAPPA  2003      Marty  amp  Torre  2004  Marty P   Torre F  Codages et connaissances en extraction  d information  In M  Liqui  re and M  Sebban  editors  Actes de la Sixi  me Conf  rence  d Apprentissage  CAp 2004   Montpellier  pp  207 222  juin 2004      Mason  amp  Tufis  1998  Mason O   Tufis D  Tagging Romanian Texts  a Case Study for  QTAG  a Language Independent Probabilistic Tagger  In Proceddings of First International  Conference on Language Resources and Evaluation  LREC   Granada  Spain   28 30 May   pp 589 596  1998     86     Mitchell  1997  Michell T  Machine Learning  McGraw Hill  1997      MnN  2008  Ontology driven semi automatic and automatic support for semantic web   d  cembre  2008  Disponible      http   projects kmi open ac uk akt mnm   dernier acc  s en juin  2009          Muslea et al  1998  Muslea I   Minton S   Knoblock C  STALKER  Learning extraction rules  for semistructured  web based information sources  In AAAI Workshop on AI and  Information Integration  pp 74 81  1998      Muggleton  1994  Muggleton S   Raedt L  D  Inductive logic programming  Theory and  methods  J  Log  Programming  19 20 629 679  1994      Muslea et al   2001  Muslea I   Minton S   Knoblock C  Hierarchical wrapper induction for  semistructured information sources  Automomous Agents and Multi Agent Systems  4 1 2    93 114  2001      Par
59. as apprendre par c  ur  et   viter alors         overfitting     Par contre  il doit  en m  me temps ne pas sur g  n  raliser pour ne pas s   loigner du concept cible quand il  apprend une hypoth  se trop g  n  rale     3 1 2 EI comme un Probl  me de Classification Supervis  e    La classification supervis  e a   t   appliqu  e avec succ  s pour l EI dans diff  rents travaux   Freitag  amp  McCallum  1999  Freitag  amp  Kushemerick  2000  Marty  amp  Torre  2004  Finn  amp   Kushmerick  2004  Gilleron et al   2006   Un probl  me d   EI est alors formul   en tant qu un  probl  me de classification supervis  e et l   laboration d un syst  me d EI se fait alors en deux    tapes  l apprentissage et l extraction  Ces deux   tapes sont pr  c  d  es d un m  me  pr  traitement du document  permettant de le segmenter en unit  s et de repr  senter des  exemples sur lesquels portera la classification  L   tape d apprentissage utilise un ensemble de  documents   tiquet  s pour produire un mod  le de classification capable d identifier les  donn  es    extraire  tandis que l   tape d extraction applique le mod  le appris    des documents  non   tiquet  s pour en extraire les donn  es          Dans certains cas  les r  sultats de pr  diction peuvent   tre des valeurs num  riques compris entre 0 et 1  Alors un  exemple peut   tre classifi   comme  1 quand la valeur de pr  diction est plus grande que 0 5  par exemple     23    Une base d exemples est constitu  e d un ensemble de s  quence de
60. ass     Ce type de fichier est compatible avec Excel     51          language   platform   post date   recruiter   req degree   req years experience   salary    state  test   application   area   city   company   country   desired_degree   desired years experience                  n dp EE fn       total   precision T  EE     lag 0 94736842    0 92307692     D 93506493      34  0 96428571   0 79411764     D 87096774      39 Ho   D 79487179     0 88571428      42 10 97297297   0 85714285    0 91139240     154 0 0 97115677  10 84230230    0 90215169                                                    Fig  29  Fen  tre de r  sultats d une session d apprentissage de TIES     4 4 Conclusion    Ce chapitre a pr  sent   un syst  me d EI modulaire que  reposant sur l induction supervis  e  d extracteurs  permet l extraction d information    partir d un corpus d apprentissage  manuellement annot   par l utilisateur et qui peut prendre en compte la syntaxe du langage  naturel par le moyen d un nouveau module responsable pour l   tiquetage morphosyntaxique  sur ces documents    Dans le prochain chapitre  afin d   valuer les performances de l architecture propos  e   plusieurs exp  riences seront r  alis  es sur des corpora bien connus dans la communaut    scientifique du domaine de l EI   Seminars  Jobs et CFP  Pascal Challenge   L objectif sera  d   valuer les performances d un syst  me d induction supervis  e d extracteurs  M TIES  sur  des corpora de diff  rents niveaux de structuratio
61. boratoire des  Sciences de l Information et des Systemes  LSIS     Marseille  UMR CNRS 6168      Je tiens    remercier mon cotuteur br  silien  Prof  Frederico Freitas  pour toutes les le  ons  apprises  son soutien tout au long de cette   tude  et l opportunit   qu il m a donn   pour la  r  alisation de ce travail     Je tiens    remercier vivement mon cotuteur frangais  Prof  Bernard Espinasse  pour son  soutien  ses conseils   clair  s  son suivi quotidien qui m ont   t   d une aide pr  cieuse dans  l   volution de mes travaux  Qu il trouve ici l expression de ma profonde gratitude     Un grand merci au Prof  S  bastien Fournier et Shereen Bitar pour de nombreuses  discussions qui n ont permis de voir plus clair le contexte de notre sujet de recherche     Je remercie mon ami  Luciano Cabral  que j ai connu pendant le temps que nous avons  durement travaill   ensemble au Centre d Informatique  CIN     Recife  et qui a beaucoup  particip   dans la conception de ce travail     Je souhaite pr  senter mes remerciements aux membres du jury qui ont accept   de  participer    ma soutenance     Je remercie   galement mon ami de longues ann  es  Gerson Henrique  qui m a encourag    et soutenu tout au long de cette recherche     Merci sp  cial    Roberta Costa pour avoir eu la patience d   couter mes h  sitations  pour  les conseils et les mots d encouragements qui m ont vraiment faire avancer     Je tiens    remercier Claudia Serey  ma seule amie br  silienne    Marseille qui  d  s 
62. cessaire pour atteindre les meilleurs r  sultats     3 2 Autres syst  mes d induction supervis  e d extracteurs    Cette section pr  sente bri  vement d autres syst  mes d induction supervis  e d extracteurs   Pour une   tude plus d  taill  e des syst  mes d EI  nous renvoyons le lecteur     Kushmerick  amp     29    Thomas  2003  Siefkes  amp  Siniakov  2005  Chang et al   2006  Tang et al   2007   Les syst  mes  examin  s sont tous des syst  mes d  EI qui s appliquent aux documents HTML et XML    I  faut rappeler qu un syst  me d EI supervis   prend en entr  e des documents dans  lesquels les informations    extraire sont annot  es  Il fournit en sortie l extracteur induit au  cours d un processus d apprentissage    partir d exemples positifs    Les sections suivantes pr  sentent les syst  mes WIEN  SoftMealy  STALKER  Amilcare   SIE et TIES     3 2 1 WIEN    Le syst  me WIEN  Kushmerick  1997  2000   d  velopp   par Kushemick au Departement of  Computer Science de l Universit   de Washington en 1997  a   t   le premier syst  me  d induction d extracteurs  Ce syst  me traite les documents HTML annot  s comme des cha  nes    de caract  res  Il est d  fini comme un vecteur  lt l   rj       ly ri   de 2K d  limiteurs  o   chaque  paire      R  gt  correspond    un type d information et par la fonction extraireLR  Kushmerick   1997   Cette fonction prend en entr  e un extracteur W     l   rj           In rn   et un document d    et applique l extracteur W au document d    L ext
63. chitecture originale du syst  me TIES est illustr  e par la Fig  24  On peut noter que cette  architecture suit de pr  s le mod  le d architecture g  n  rique pr  sent   dans la section 4 1 de ce  chapitre  Les sections suivantes d  taillent chaque module en analysant leurs aspects les plus    importants     4 2 2 Repr  sentation de documents    41    Dans TIES les documents d un corpus qui seront trait  s doivent   tre sous un format  sp  cifique nomm   TIESIF  TIES Input Format   Ce format permettra la tokenisation et  l extraction d information       Corpus    d entrainement    Feature  Extraction    Module d induction Application des  de r  gles  BWI  regles d extration    Informations  extraites   XML        Fig  24  Architecture originale du TIES     4 2 2 1 Tokenisation      partir d une s  quence de caract  res  l objectif est d identifier les parties   l  mentaires du  langage naturel  des mots  des signes de ponctuations et des s  parateurs  La s  quence  r  sultante de tokens significatifs est la base pour tous les types de traitements linguistiques  post  rieurs  Ci dessous un extrait d un fichier du corpus Seminars d  j   tokenis   avec des  balises d annotations   speaker   qui indique les exemples positifs et sa repr  sentation en  format TIESIF     University of Pittsburgh  Name    speaker   Dr  Jefrey D  Hermes    speaker    Affiliation  Department        lt  xml version  1 0   gt    lt corpus gt     text path    input seminar  name  cmu andrew org cfa cfa to
64. ction dans WIEN                                     30  Exemple d une r  gle par conjonction  Cabral  20041     22  Exemple d   une r  gle   tiquetage  taging rule   Tang  2007     34  Exemple d   une r  gle d     tiquetage g  n  ralis    Tang  2007     34  L action d  place la balise de la mauvaise position    la bonne  Ciravegna  2001     35  Apercu du systeme SIE  os uei oet to eot nee ne Me nel Di Ru Nr des 36  Architecture d un syst  me d EI adaptatif                          sess 40  Arveliteotureoriprale du  ELES ssi e a be Sea DE 42  Un extrait d un wrapper appris en XML                seseeeeeeeeeeeeeene nennen enne enne 46  Un extrait d une sortie d extraction obtenu du corpus d annonces de conf  rences      47  Nouvelle architecture du TIES  M TIES              cccccccccccccceceesessnsecececceeceessnseaeeeeeceeneees 48  Fen  tre principale de l outil d annotation MnM  see 49  Fen  tre de r  sultats d une session d apprentissage de TIES                                        52  Exemple d un document correctement annot   en XML                      sse 53  Exemple d un document du corpus Seminars  Freitag  1997     54  Exemples de template d extraction compl  te rempli  a  et    55  Exemple d une offre d emploi avec son template d extraction rempli  Califf  1999  56  Performance Fl comme fonction du nombre d it  rations                            esses 61    volution de la F measure en fonction du look ahead L sur le corpus CFP                62  R  sultats sur le C
65. ctuellement  sur  des documents d entr  e  il pourrait   tre d  velopp   un module de post traitement pour  sauvegarder les r  gles g  n  r  es en utilisant une base de donn  es  par exemple  En plus  une    tude post  rieure plus minutieuse pourrait   tre faite pour d  finir d autres fa  ons de  repr  senter ces r  gles en utilisant un autre langage ou formalisme de repr  sentation     9  Mod  lisation d une base de donn  es pour les informations extraites   De fa  on similaire    ce qu on vient de mentionner  on envisage aussi un module de post   traitement pour stocker les informations extraites qui sont g  n  r  es par le syst  me en  plusieurs fichiers XML  En fait  M TIES cr  e s  par  ment un fichier XML pour chaque slot du  sch  ma d extraction  Ainsi  on peut r  organiser les r  gles extraites  en les regroupant selon  une structure dict  e par le sch  ma d extraction en question  Un possible choix serait de bien  mod  liser une base de donn  es pour atteindre cet objectif     80    10  Annotation automatique guid  e par une ontologie de domaine  Il a   t   propos   dans la section 4 3 1 l usage d un syst  me d annotation semi automatique  pour rendre moins fastidieuse l annotation de nouveaux corpora  En fait  la version originale  de MnN  de 2004  avait un module tr  s important qui guidait tout le processus de suggestions  de r  gles pour l annotation assist  e de documents  mode interactif  ou m  me pour les r  gles  d annotation sans intervention de l utilisateu
66. cuments avec donn  es     extraire soient annot  es par l utilisateur    Puis  nous avons vu comment la classification supervis  e sur laquelle repose la plupart  des techniques d EI par induction supervis  e  permet de d  finir un extracteur en tant qu un  processus de classification  le probl  me d induction d extracteurs se ram  ne alors    un  probl  me d apprentissage de classification supervis  e  Cette transformation d un probl  me  d extraction en un probl  me de classification supervis  e n  cessite que soit sp  cifi   la  repr  sentation des documents  la d  finition des   l  ments des documents qui seront consid  r  s  comme les exemples du probl  me de classification  et le codage de ces exemples  En  analysant en d  tail le syst  me BWI d induction d extracteurs reposant sur la classification  supervis  e  on a pu distinguer les diff  rentes   tapes   l  mentaires associ  es    une telle  transformation  En plus  il a   t   pr  sent   diff  rents syst  mes d EI par induction supervis  e  d extracteurs qui adoptent une repr  sentation de document    base de tokens et r  alisent l EI en  mettant en oeuvre diff  rents algorithmes d apprentissage pour traiter des textes semi   structur  s    La contribution principale de cette recherche a   t   la proposition d un syst  me d EI  adaptatif  facilement configurable et convivial    l utilisateur par le biais d une architecture  modulaire destin  e    l utilisation sur plusieurs types de documents  Il a   t   constat   q
67. d  tecteurs  ann tad   8 30 PM      SA stime Fi     tine       lt Num gt     Ai             Num      lt   gt   lt Alph gt   ll     Fig  16  Deux d  tecteurs  d  but et fin  pour le slot    stime    du corpus Seminars  Freitag  amp   Kushmerick  2000   Le symbole y signifie une nouvelle ligne     Finalement pendant l   tape  3   BWI enregistre les longueurs des s  quences de tokens  d un champ observ  es sur les donn  es d apprentissage  Deux d  tecteurs  le premier identifi    comme un d  but et le second comme une fin  sont associ  s si le nombre de tokens entre les  deux a d  j     t   observ   lors de l apprentissage  En fait  l algorithme apprend la distribution de    x    la probabilit    histogramme Hi  de la longueur des champs    extraire rencontr  s dans  l ensemble d apprentissage  En d autres termes  on peut associer    chaque d  tecteur de d  but  et fin  une valeur num  rique de confiance Caa et Cy  respectivement  Pour effectuer une    extraction en utilisant un extracteur  wrapper  W      F  A  H     on attribue    chaque d  tecteur i    dans le document un score    fore    F i    25 C  F  i  et un score    aft    A     p   C  A      Le wrapper W classifie une s  quence de tokens comme      Ls F A  H j    gt t    O  autrement    WG  j        Ou Test une valeur seuil qui repr  sente la pr  f  rence entre la pr  cision et le rappel     28    La raison est que W compare 7 avec l estimation de la probabilit   d une classification  correcte  En faisant varier 7 on p
68. d degree et post date   N importe quel de ces slots peut apparaitre aucune  une ou plusieurs fois dans un m  me  document  Le tableau ci dessous en pr  sente des statistiques sur ce corpus      Tab  4  Nombre d exemples pour chaque entit    slot  du corpus JOBS     JOBS  ao xw pss px ome       56    5 1 4 Corpus CFP  CALL FOR PAPERS    Pascal Challenge 2005    5 1 4 1 Description du corpus    Ce corpus est constitu   de 1 100 documents contenant 850 Workshop Call for Papers  CFP   et 250 Conference CFP    tabli lors de la comp  tition de syst  mes d EI de l   tat de l art  Pascal  Challenge  en 2005  Ireson  amp  Ciravegna  2005   La grosse majorit   de documents rel  vent du  domaine de l Informatique  bien que d autres domaines  biom  decine et linguistique  y soient  repr  sent  s    Les documents sont divis  s en trois corpora   un corpus d apprentissage  400 Workshop  CFP   un corpus de test  200 Workshop CFP   et un corpus enrichi  250 Workshop CFP and  250 Conf  rence CFP   Ce dernier corpus a   t   annot   par le system GATE qui fournit la  tokenisation    tiquetage POS  NER et attributs de token de textes  type de token  taille  etc      5 1 4 2  D  finition du template d extraction    Chaque document peut avoir 11 slots    extraire  8 concernant des Workshops  name   acronym  homepage  location  date  paper submission date  notification date et camera ready  copy date   et 3 relatifs aux Conferences  name  acronym et homepage      Tab  5  Distribution de fr  quences
69. day 19 0  gt     body      token id  146  type  word  start  438  len  10  alpha token  true   capitalized token  true  gt University lt  token gt     token id  148  type  word  start  449  len  2  alpha token  true   lower case token  true  gt of lt  token gt     token id  150  type  word  start  452  len  10  alpha token  true   capitalized token  true  gt Pittsburgh lt  token gt                 42      token id  1      token id  1      token id  1      token id  1      token id  1      token id  1      token id         151  type  nl  start  462  len  1    nl token  true  gt  n lt  token gt    153  type  word  start  464  len  4  alpha token  true   capitalized_token  true  gt Name lt  token gt   154  type  punct  start  468  len  1   punct_token  true  gt   lt  token gt    156  type  tag  start  470  len  9   open_tag  true  gt speaker lt  token gt    157  type  abbrev  start  479  len  3   abbr_token  true  gt Dr  lt  token gt    159  type  word  start  483  len  7           alpha_token  true capitalized_token  true  gt Jeffrey lt  token gt   p Y  161  type  abbrev  start  491  len  2        abbr token  true  gt D  lt  token gt            lt token id        token id        token id  1      token id        token id              token id         body       text      text       text      lt  corpus gt           163  type  word  start  494   en  6  alpha token  true        capitalized_token  true  gt Hermes lt  token gt    164  type  tag  start  500  len  10   close_tag  true
70. de la sortie  Informations  extraites    Fig  23  Architecture d un syst  me d EI adaptatif             40    4 2 TIES   un syst  me d induction supervis  e d extracteurs    Le syst  me d induction supervis  e d extracteurs propos   par le pr  sent travail est constitu    par le syst  me TIES  ITC IRST  2004   vu comme un module dans l architecture g  n  rale de  notre proposition  voir section 4 3   Ce dernier consiste d un syst  me d EI adaptatif reposant  sur des techniques d apprentissage supervis      Pour qu un syst  me d EI soit consid  r   adaptatif  il doit  d   apr  s  Ciravegna  2003a         s adapter    de nouveaux domaines d information   en employant  ou modifiant  leurs  bases de connaissances  en concevant de nouveaux templates d extraction  de sorte que  les syst  mes soient capables de manipuler des concepts du domaine en question         s adapter aux sous langages des attributs   en modifiant des grammaires et des lexiques     fin de faire face aux constructions linguistiques sp  cifiques qui sont typiques     l application         Ss adapter aux diff  rents types de textes   les documents Web peuvent varier des  documents rigidement structur  s  par exemple des pages en XML et des tableaux  aux  textes libres  Par cons  quent  chaque type de texte peut avoir des exigences diff  rentes  en termes d analyse du langage    Le syst  me TIES apprend automatiquement des r  gles    partir d un corpus annot   avec un  ensemble pr  d  fini de balises XML  Ces bali
71. de moteurs de recherche comme  Google et Yahoo  et pour l   tiquetage de partie de discours  Brill Tagger  Brill  1992    etc    GATE accepte en entr  e divers formats de texte comme le texte brut  HTML  XML   Microsoft Word  PDF  ainsi que divers formats de bases de donn  es comme PostgreSQL et  Oracle gr  ce    JDBC  Il utilise   galement le langage JAPE  Java Annotation Patterns Engine   pour construire des r  gles d annotation de documents  On y trouve aussi un debugger et des  outils de comparaison de corpus et d annotations     2 2 Types de Documents    Les types de documents auxquels cette recherche s int  resse sont pr  sent  s dans cette section   On peut distinguer trois types de documents par rapport    leur niveaux de structuration   non  structur  s  semi structur  s et structur  s     2 2 1 Documents non structur  s    La notion de document non structur   se d  finit du point de vue des bases de donn  es  En  effet  dans une base de donn  es  lorsque l on parle de donn  es structur  es  on d  signe les  donn  es qui poss  dent une structure pr  alablement connue par le biais d un sch  ma de base  qui les organisent et qui rend ais   leur manipulation et leur interrogation par des requ  tes    Dans un document non structur    un texte par exemple  les informations qu il contient ont  une structure a priori inconnue et tr  s variable  Pour ce type de document on ne dispose pas  d un sch  ma qui indiquerait le type des donn  es et leur organisation qui puisse guide
72. de pages Web  en les transformant en fichiers XHTML bien form  s  En  plus  il a fallu le d  veloppement d un programme  en Java  pour adapter HTMLCleaner aux  besoins de services de nettoyage de pages HTML et de mise en forme sous le format XML   Les corpora ont   t   annot  s selon l exemple d  j   pr  sent   dans la section 5 1     58    5 2 2 M  thodes d   valuation    Utiliser les donn  es d apprentissage pour concevoir un classificateur et puis estimer la  pr  cision de la classification sur ces m  mes donn  es peut aboutir    des estimations  trompeusement suroptimistes    cause de la sursp  cialisation de l algorithme d apprentissage    Hold out et k fold cross validation sont deux techniques d   valuation d exactitude de  classificateurs  reposant sur des partitions al  atoires d   chantillonnage de donn  es  Dans la  m  thode hold out  les donn  es sont al  atoirement partitionn  es en deux ensembles  un  ensemble d apprentissage et un autre de test  Typiquement  deux tiers des donn  es sont  attribu  es    l ensemble d apprentissage  et le tiers restant est attribu      l ensemble de test   L ensemble d apprentissage est employ   pour construire le classificateur  dont l exactitude est  estim  e avec l ensemble de test  L   valuation ici est pessimiste puisque seulement une partie  de donn  es initiales est employ  e pour construire le classificateur  Random subsampling est  une variante de la m  thode holdout dans laquelle la m  thode holdout est r  p  t  e k fois
73. des jokers utilis  s par BWI sont cit  s avec leurs significations          alph   correspond aux tokens contenant des caract  res de l alphabet         lt ANum gt  correspond aux tokens contenant des caract  res alphanum  riques          Cap   correspond aux tokens contenant des caract  res en majuscule          LC   correspond aux tokens contenant des caract  res en minuscule          SChar   correspond aux tokens contenant un seul caract  re          Num correspond aux tokens contenant des chiffres          Punc   correspond aux tokens de ponctuation         lt   gt  correspond    n importe quel token     3 1 4 3 Algorithme d apprentissage   L algorithme d apprentissage de BWI utilise une technique de boosting nomm   AdaBoost   Freund  amp  Schapire  1996  1997  pour l induction de s  parateur d  but et fin des exemples  positifs  Dans  Freund  amp  Schapire  1996  les auteurs affirment que la technique de boosting  peut   tre utile pour des probl  mes d apprentissage o   les exemples observ  s tendent    avoir  diff  rent niveaux de difficult  s  Pour ces probl  mes  l algorithme de boosting tend    g  n  rer  des distributions qui se concentrent sur des exemples les plus difficiles  ce qui repr  sente un  challenge    un algorithme d apprentissage faible  pour avoir une bonne performance sur ces  parties plus difficiles de l   chantillon d exemples    L algorithme d apprentissage de BWI  pr  sent   dans la Fig  14  apprend deux  classificateurs pour reconnaitre les posit
74. devenir couteux    Le langage d interrogation sur les documents semi structur   tel que XQUERY ou le  langage XPATH peuvent   galement   tre utilis  s pour le d  veloppement d extracteurs car ils  tiennent en compte la structure arborescente de documents XML  Par contre  cette approche  pose de probl  mes parce que c est une t  che difficile  fastidieuse qui exige des connaissances  et de l expertise  En fait  si la structure d une page Web change  cela rend difficile la  maintenance d extracteurs con  us de cette facon  Exemples de ce type de syst  mes sont W4F   Sahuguet  amp  Azavant  2001  et XWRAP  Liu et al   2000      2 4 2 Approche par sp  cification assist  e       l aide d une interface conviviale  GUD  les syst  mes qui se servent de cette approche  tels  que OLERA  Chang  amp  Kuo  2004   IEPAD  Chang  amp  Lui  2001  et Lixto  Baumgartner et al    2001   guident l utilisateur dans la t  che de conception d extracteurs  Ils analysent la structure  de documents et indiquent    l utilisateur des   l  ments    extraire en lui proposant  en g  n  ral   des patrons d extraction  adresse   lectroniques  des prix  des URLs  valeurs num  riques  etc       base d expressions r  guli  res sur les informations pertinentes  Ensuite  c est l utilisateur qui  les choisit selon le type de donn  e    extraire    Pendant une interaction  un extracteur peut   tre d  fini sans que l utilisateur n ait besoin de  le manipuler directement ou de connaitre le formalisme d extraction empl
75. e   quivalentes aux meilleures  r  gles de LP   Ciravegna  2001   D ailleurs  au sein du BWI  la technique de boosting est  utilis  e pour mettre l accent sur des exemples sur lesquels l apprenant a une faible  performance afin d en tirer des r  gles suppl  mentaires  contrairement    l algorithme LP  qui  emploie une approche d apprentissage machine plus simple reposant sur un algorithme de  couverture  Ciravegna  2003b     Enfin  pour un ensemble de document moins structur  s  notamment en langage naturel   on peut conclure que l avantage de l algorithme LP  sur les autres r  side dans l effet combin    de l   tape d   tiquetage contextuel  de l   tape de correction et de l utilisation plus avanc  e  d information TAL  Ce dernier   tant le plus important d entre eux     TJ    6 CONCLUSION ET PERSPECTIVES    6 1 Conclusion    L un des objectifs vis  s de cette recherche a   t   d   tudier l utilisation de techniques d induction  d extracteurs permettant l extraction d information    partir de documents de diff  rents niveaux  de structuration  documents structur  s et non structur  s   Pour cela  il a   t   distingu   tout  d abord les concepts de base  comme  les types de documents  la repr  sentation de ces  documents et le types de sorties qui sont obtenues pendant une t  che d EL  Ensuite  diff  rentes  approches de conception d extracteurs ont   t     tudi  es et l approche par induction supervis  e a    t   retenue  approche n  cessitant qu un ensemble d exemples de do
76. e  POS tagging    gazetteer lookup  dictionnaires du domaine  et la reconnaissance d entit  s nomm  es  Named  Entity Recognition     Les r  gles d Amilcare sont apprises par la g  n  ralisation d un ensemble d exemples  trouv  s dans un corpus d apprentissage annot   avec des balises XML  Le syst  me apprend  comment reproduire une telle annotation par l extraction d information    Trois types de r  gles sont d  finis dans l  Amilcare   r  gles d   tiquetage  tagging rules    r  gles contextuelles  contextual rules  et r  gles de correction  correction rules   Une r  gle  d   tiquetage se compose d un ensemble de conditions sur une s  quence de mots reli  s  et  d une action d  terminant si la position actuelle est un d  limiteur d une instance  La Fig  19  montre un exemple d une telle r  gle  La premi  re colonne repr  sente une s  quence de mots   De la seconde    la cinqui  me colonne de cette figure repr  sentent  respectivement    tiquetage  POS  le type de mot  gazeteer lookup et la classe des entit  s nomm  es    laquelle le token  appartient  La derni  re colonne repr  sente l action  L action      Speaker      indique que si le  texte s assortie avec le patron  le token    Patrick    sera identifi   comme un d  limiteur de  d  but de    speaker       33    Pattern       Action  Word POS Kind Lookup Name Entity    Punctuation       Patrick   NNP Word Person s first name   Speaker    Person           Stroh NNP Word       Punctuation    assistant   NN Word Job title  
77. e  dates  num  ros de t  l  phone  pour en citer quelques uns   pr  sents dans des pages d int  r  t  Il est fort probable qu une   tape pr  alable    celle de la  tokenisation pourrait   tre tr  s utile  puisque l on pourrait obtenir une repr  sentation plus  homogene de tokens appartenant    ces cat  gories d informations qui sont assez courantes  Par  cons  quent  cela pourrait augmenter les performances de l algorithme BWI     79    4  Enrichissement de l   tape d extraction d attributs   Le syst  me M TIES repose sur une repr  sentation de documents par s  quence de tokens   Ainsi  pour identifier chaque token  il fait l usage d un ensemble de treize attributs  Un  enrichissement de la repr  sentation d un document pourrait   tre fait en rajoutant d autres  attributs pour aider le syst  me lors de l apprentissage de r  gles d extraction     5  Exp  rimentation avec d autres algorithmes d apprentissage   Dans le domaine de l apprentissage automatique  il existe de nombreux algorithmes  supervis  s  notamment SVM  Support Vector Machines et C4 5  arbre de d  cision   etc  Ces  derniers devraient pouvoir   tre utilis  s comme des modules d apprentissage automatique  ind  pendants dans M TIES     6  Evaluer le processus de filtrage Instance Filtering  SIE    Le syst  me SIE  Simple Information Extraction  utilise un algorithme de classification  supervis  e SVM pour classifier les tokens  apr  s un traitement de filtrage d attributs  Ce  filtrage est r  alis   par l algorith
78. e  tokens qui apparaissent avant ou apr  s un champ cible dans la s  quence lin  aire de tokens  dans un document  En particulier  BWI ne peut repr  senter ou apprendre aucune information  sur les noeuds de parent  les enfants de m  mes parents  ou la position d enfant dans l arbre  d un document XML  auquel les champs cible appartiennent implicitement     b  L apprentissage lent   L apprentissage d un seul champ avec quelques centaines de documents peut prendre plusieurs  heures  m  me sur un ordinateur performant  La lenteur dans l apprentissage rend l utilisation  de grandes valeurs pour le param  tre lookahead L  aussi prohibitif    Pour Kauchak  Kauchak et al   2002  cette lenteur est due    la boucle la plus interne de  l algorithme d apprentissage charg  e de trouver des extensions pour les s  parateurs  Toutes les  combinaisons de motifs possibles d au plus L tokens juste avant e apr  s un s  parateur  quelconque sont consid  r  es jusqu    ce qu aucune meilleure r  gle ne puisse   tre trouv  e   Trouver une extension de s  parateurs est exponentiel en L parce que chaque combinaison de  tokens est   num  r  e et   valu  e  m  me des valeurs modestes de L sont co  teuses    Dans  Freitag  amp  Kushemerick  2000  la valeur L   3 a   t   normalement employ  e pour  obtenir un   quilibre entre l efficacit   et la performance  Les auteurs d  clarent   galement que L    3 est g  n  ralement suffisant  mais pour certaines t  ches  une valeur jusqu    L   8 peut se  faire n  
79. e est correcte si  elle contient une donn  e    extraire  dans son int  gralit     Finalement  le troisi  me crit  re  le  plus strict   une donn  e extraite est correcte si elle correspond exactement  au caract  re pr  s      l   une des s  quences    extraire  C est ce dernier crit  re qui sera adopt   dans les  exp  rimentations de cette recherche     2 5 2 Pr  cision  Rappel et F Measure    La Pr  cision est d  finie comme la quantit   d informations correctement extraites sur toutes les   informations extraites  tandis que le Rappel est d  fini comme la quantit   d informations   correctement extraites sur toutes les informations    extraire contenues dans les documents    Ainsi  le rappel mesure la quantit   d informations extraites correctement parmi l ensemble  20    des informations    extraire  Un rappel de 100 signifie que l extracteur a bien reconnu toutes  les valeurs    extraire  La pr  cision mesure la qualit   des extractions  tandis que le rappel met  en   vidence la proportion d extractions correctes  Une pr  cision et un rappel de 100 indique  un extracteur parfait  dans le sens o   il ne commet aucune erreur sur le corpus consid  r      De ce fait  pr  cision   P   et rappel   R   peuvent   tre d  finis par les formules suivantes            pu  1   N   N   R       2  x  2     ou  N  est le nombre de slots qui ont   t   extraits correctement par le syst  me  N  est le nombre  total de slots qui ont   t   extraits par le syst  me  et N  est le nombre total d
80. e l algorithme Adaboost  Fig  15  est de  concevoir un classificateur final par la combinaison de classificateurs   l  mentaires  ces  derniers obtenus    partir d un algorithme d apprentissage supervis    appel   apprenant faible   Freund  amp  Schapire  99   Dans BWI  LearnDetector joue le r  le de l apprenant faible et  r  alise l apprentissage des classificateurs   l  mentaires  cd  cf     chaque   tape de boosting    AdaBoost it  re n fois l apprentissage en faisant varier la pond  ration des exemples  d apprentissage    chaque   tape  en amenant l apprenant faible LearnDetector    se concentrer  sur les exemples mal class  s  autrement dit  sur des portions de l ensemble d apprentissage o    les r  gles courantes n ont pas eu de bonnes performances lors de l   tape pr  c  dente  En m  me  temps  il construit it  rativement une hypoth  se  initialement vide  par extension des motifs     gauche et    droite du classificateur    Un motif est   tendu par l ajout d au plus L tokens    chaque it  ration  Cette valeur L  aussi  appel  e lookahead L ou la fen  tre L  est fournie    l algorithme en entr  e  Elle informe le  nombre de tokens pris en compte pendant l apprentissage de chaque d  tecteur  Si  par  exemple  nous avons la fen  tre L   3  cela veut dire que 3 tokens avant le d  tecteur de d  but  du champ    extraire et 3 tokens apr  s le d  tecteur de d  but du champ sont pris en compte  pendant l apprentissage d un d  tecteur de d  but  Le contexte appris comprend alo
81. e listes  le syst  me applique une r  gle d extraction pour  identifier les d  limiteurs gauche et droite de la liste  de fa  on similaire    celle pour  l identification de n  uds feuille  Ensuite  les r  gles de n  uds fils pour les d  limiteurs gauches    sont appliqu  es it  rativement par toute l extension de la liste  de fa  on    trouver tous ses  items  La m  me proc  dure est effectu  e vers la direction oppos  e  avec les d  limiteurs droits    32    des n  uds fils  Diff  remment    WIEN et SoftMealy  les r  gles d extractions de STALKER  peuvent exprimer des disjonctions    La principale limitation de STALKER est de d  l  guer la proc  dure de r  association des  valeurs des composantes en n uplets    l utilisateur  qui se voit alors charg   de la construction  de l arbre EC fourni    l algorithme d induction  L imposition de la conception de cette  proc  dure    l utilisateur est contraire    l esprit de l induction d extracteurs    partir d exemples  annot  s    Une mise en   uvre du STALKER a   t   d  velopp  e en  Cabral  2004  en utilisant  Document Object Model  DOM  pour impl  menter le formalisme ECT     3 2 4 Amilcare    Amilcare  Ciravegna  2003a  est un syst  me d induction de r  gles d extraction d  velopp   par  Fabio Ciravegna de l Universit   de Sheffield  Il repose sur l algorithme  LP    Learning  Pattern by Language Processing   un algorithme supervis   qui appartient    la classe de  syst  mes d induction d extracteurs utilisant LazyNLP  Ciraveg
82. e slot Multi slot  system system    Location  Capitol Hill Location  Capitol Hill  Location  Capitol Hill Bedroom  1  Bedroom  1 Price  675   Bedroom  3  Price  675  Price  995       Location  Capitol Hill  Bedroom  3  Price  995       Fig  10  Exemple d extractions single slot et multi slot d une  page HTML  adapt   de  Soderland  99       Sortie structur     Une sortie structur  e apparait quand le r  sultat d une t  che d extraction prend la forme  arborescente  Par exemple  soit la liste de livres illustr  e par la Fig  11 obtenue du code source  d un document XHTML  Ici la t  che d extraction consiste    obtenir  pour chaque livre  son  titre et ses auteurs ou  plus pr  cis  ment     extraire la liste des livres et  pour chacun d eux  la  liste de couples  titre  liste des auteurs     Le nombre d auteurs varie d un livre    l autre  Dans ce cas  une repr  sentation sous la  forme d un arbre semble plus ad  quate  La Fig  12 illustre que certaines balises du document  d entr  e ont disparus  html et body  et les autres balises ont   t   renomm  es  Par exemple  la  balise h1 est renomm  e en une balise titre dans le document de sortie  En plus  la balise li  devient livre  et la balise em devient auteur  Par contre  il existe de nouveaux   l  ments qui ne  correspondaient pas    aucune balise du document d entr  e  Cela est le cas que l on constate  que les balises auteurs d un m  me livre ont   t   regroup  es sous une nouvelle balise auteurs   De l expos   par cet exemp
83. e slots qui devraient    tre extraits par le syst  me    Ces mesures sont inversement li  es  en effet quand le rappel augmente  la pr  cision tend     diminuer et vice versa  Une nouvelle mesure a   t     tablie qui combine les mesures  pr  c  dentes et est appel  e la F Measure  La F Mesure   value la qualit   globale d   un  extracteur en combinant sa pr  cision et son rappel en une mesure unique  Cette mesure est  exprim  e par la formule       B   D R P    B   R P  e    F     Measure      o    le param  tre J quantifie la pr  f  rence du rappel sur la pr  cision  On fixe en g  n  ral 8 1  dans l   quation ci dessus avec l intention d   valuer des syst  mes d IE en   quilibrant les deux  mesures et alors la formule ci dessus calcule la moyenne harmonique entre la pr  cision P et le  rappel R     2 6 Conclusion    Pour cette recherche  quant    la conception d extracteurs  l approche manuelle ou l approche  par sp  cification assist  e nous sont apparues lourdes    mettre en   uvre car elles demandent  un investissement important d expertise humaine tant en ce qui concerne le syst  me  d extraction que le domaine d extraction  L induction non supervis   n est pas retenue non plus  en raison de son manque de pr  cision et de la n  cessit   d un post traitement pour filtrer ou  mieux structurer les donn  es extraites  En cons  quence  nous avons retenu une conception  d extracteur selon une approche par induction supervis  e  en nous limitant    des extracteurs  unaires pour
84. ecture du syst  me est illustr  e par la Fig  22  La t  che d EI est r  alis  e en deux  phases  dans la premi  re  le syst  me fait des hypoth  ses sur un ensemble de mod  les  d apprentissage    partir d un corpus   tiquet     dans la seconde  ces mod  les sont appliqu  s  pour   tiqueter de nouveaux documents  Dans ces deux phases  le module de filtrage  d instances est utilis   pour enlever certains exemples  fokens  du corpus en question afin  d acc  l  rer le processus entier  tandis que le module d extraction d   attributs  Feature  Extraction  est utilis   pour l extraction d un ensemble pr  d  fini d attributs    partir des  exemples    35    Lors de l   tape de classification  le module Tag Match est utilis   pour combiner les  pr  visions du module classificateur  Tous les modules sont impl  ment  s en langage Java      l exception des composants aux tiers  Pour voir une description compl  te de chaque module  pr  sent dans la figure ci dessous  nous renvoyons le lecteur     Giuliano et al   2006        B       TL Corpus New D  ese m        TEC TS  Filter Model  D  Frans c    c  e a       Extraction Lexicon Extraction  Script AF   Script   B Lesniing m   ssific   P  Algorithm 2 i  Data Model  Tag D   Matcher Tagged  Documents    Fig  22  Aper  u du syst  me SIE     3 2 6 TIES  Trainable Information Extraction System     Le syst  me TIES  Trainable Information Extraction System   ITC IRST  2004   d  velopp   en  2004 par le Centro per la Ricerca Scientifica e Tecnol
85. endant l apprentissage du mod  le sont   tablis  En plus  il a   t    d  cid   de reprendre les m  mes protocoles exp  rimentaux utilis  s par d autres travaux de  recherche en  EI afin d avoir des comparaisons plus pertinentes     5 3 1 Influence des Param  tres de l algorithme BWI et information POS    5 3 1 1 Nombre d it  rations de boosting   Corpus JOBS   L objectif vis   des exp  riences de cette section  dont les r  sultats sont pr  sent  s dans la Tab  6  et la Fig  34  est de mesurer la sensibilit   de l algorithme au nombre d it  rations de boosting   Le param  tre look ahead L   3 a   t   fix   tandis que nous faisons varier le nombre de boosting  de 10 jusqu    200     Tab  6  Influence du nombre d it  rations de boosting sur le corpus Jobs     Seeders O 20 30 40 70 100 200  application   0 544 0 593 0 656 0 666 0 690 0 685 0 695  area 0 383 0 455 0 492 0 534 0 581 0 618 0 631  city 0 965 0 964 0 967 0 964 0 965 0 968 0 967  country   0 987 0 991 0 986 0 988 0 988 0 984 0 982  language   0 773 0 821 0 847 0 859 0 881 0 883 0 898  plataform   0 737 0 795 0 823 0 848 0 864 0 869 0 871  post date 1 1 1 1 1 1 1  recruter   0 794 0855 0 872 0 869 0 885 0 868 0 879  state 0 967 0 974 0 964 0 977 0 973 0 977 0971  title 0 479 0 604 0 630 0 672 0 706 0 690 0 703  F1 macro   0 763 0 806 0 824 0 888 0 853 0 854 0 859       60    Jobs Corpus    applic  area  city  lang  plat  recr  state  title  All       10 20 30 40 70 100 200    Boosting Iterations    Fig  34  Performance 
86. ent principal de la  r  ussite de BWI  Grace    cette technique  l algorithme d apprentissage du BWI est capable de  faire la repond  ration d exemples afin d apprendre des r  gles sp  cifiques  conduisant    des  r  sultats plus pr  cis     De plus  Kauchak et al   Kauchak et al   2002  ont   valu   le syst  me BWI original sur des  collections de documents classifi  es en trois groupes   non structur  s  en langage naturel    partiellement structur  s et fortement structur  s  Ils l ont   galement exp  riment   sur une  collection de documents obtenue de la Libraire Nationale de M  dicine  MEDLINE  et  annot  s avec des indications de types de segment de phrases   par exemple  segment de  phrases pr  positionnelles  phrases nominaux  etc  De ce fait  ils sont arriv  s    la conclusion  que  m  me avec des informations grammaticales limit  es  le syst  me pourrait avoir une  sensible am  lioration dans les r  sultats    C est dans ce contexte que les objectifs et les contributions du pr  sent travail consisteront        e   tudier l utilisation de techniques d induction d extracteurs en mettant l accent sur  l algorithme d induction d extracteurs BWI afin de r  aliser l extraction  d information de documents de diff  rents niveaux de structuration et dans  diff  rents domaines     e analyser l influence de l information morphosyntaxique  Parties du Discours    en  suivant l axe des   tudes propos  es par  Kauchak et al   2002   induction  d extracteurs plus informations gram
87. ent r  guli  re  De plus  pour des slots    courts     des d  tecteurs individuels  m  morisent souvent des exemples du slot cible quand le contexte n est pas utile    La version actuelle du tokeniseur du M TIES est optimis  e pour identifier le plut t  t  possible des instances de dates  heures et abr  viations plus courantes  Cela pourrait expliquer  le meilleur r  sultat pour le slot etime qu il a obtenu    Enfin  le slot stime  il semble qu il faut plus de contexte pour obtenir un bon score   L approche d induction d extracteurs plus orient   au traitement linguistique du  LP  obtient  alors le meilleur score     b  Corpus Jobs   Dans la Tab  12  les meilleurs scores pour chaque slot sont en gras  il faut remarquer que le  score   all slots    de tous les syst  mes sont exprim  s en F measure micro  sauf pour le  GATE SVM qui emploie la F measure macro  Li et al   2004a  Ciravegna  2003b     D une facon g  n  rale  tous les syst  mes ont pr  sent   des performances uniformes sur ce  corpus  M TIES a atteint les meilleurs scores en 11 slots sur 17 tandis que le syst  me  Amilcare a   t   plus performant en 6 slots  Cependant  ces diff  rences de performance sont  tr  s faibles  D autres slot tels que id  identification du message  et post date sont fortement  r  guliers  ils font partie des m  tadonn  es de message   ce qui explique les r  sultats sup  rieurs  de tous les syst  mes  En particulier  M TIES et LP  ont obtenu un score parfait pour les slot  post date et id  r
88. es pourcentages      capitalized token  true pour des tokens qui commencent avec une lette en majuscule      lower case token  true pour des tokens qui contiennent seulement lettres en    minuscules        punc token  true pour des signes de ponctuation    43        upper case token   true pour des tokens qui contiennent seulement lettres en  majuscules       single char  token true pour un token compos   d un caract  re       date token  true pour des dates       time token  true pour des heures       abbr_token  true pour des abr  viations       symb token  true pour des symboles   Le feature extractor g  n  re seulement des attributs jug  s actifs  true  dans un exemple   Tous les autres attributs sont jug   inactifs  ou false     4 2 3 Configuration du syst  me TIES    TIES est impl  ment   en utilisant un ensemble de modules  Les modules ont un certain  nombre de propri  t  s param  trables et ils impl  mentent une ou plusieurs interfaces  Ces  modules peuvent   tre configur  s de fa  on flexible en employant des fichiers XML  Chaque  module est d  crit par un   l  ment XML avec des sous   l  ments et des attributs utilis  s pour  d  finir les propri  t  s de modules  En sp  cifiant quels modules et leurs attributs    employer  on  atteint    une grande flexibilit   dans le contr  le des caract  ristiques d une instance de TIES     4 2 3 1   tape d apprentissage   g  n  ration d   un mod  le    Le fichier de configuration pour l   tape d apprentissage est le fichier TIES
89. espectivement    Pour M TIES  le plus grand   cart positif de performance a   t   celui du slot title  Par  contre  le plus grand   cart n  gatif a   t   pour le slot des degree  En analysant les annotations  pour le premier slot  on voit quil a une taille tr  s variable et qui son contenu est plus    12    important que son contexte pour bien l identifier  D autre part  la faible repr  sentation  d occurrences du slot des degree  21 au total  explique ce score faible    Des tests de signification statistiques peuvent montrer que les syst  mes compar  s sur ce  corpus ne sont pas nettement diff  rents les uns des autres     5 44 Comparaison sur le corpus Call For Papers  CFP     La Tab  13 montre les r  sultats obtenus par les syst  mes SIE  Yaoyong  Amilcare et M TIES   Tous les syst  mes ont utilis  s la validation crois  e  k   4  comme m  thode d   valuations pour  la t  che de template  Pour les performances des syst  mes compar  s dans cette section  on  s appuie sur les r  sultats donn  s dans  Ireson et al   2005     Le corpus CFP a subi un pr  traitement par le syst  me GATE qui fournit la tokenisation   des attributs orthographiques  taggage POS et NER  Location  Person  Date  etc    Ces  attributs constituent un ensemble de base en termes de traitement linguistique    Les syst  mes SIE et Yaoyong utilisent des classificateurs SVM  chaque balise a   t    apprise ind  pendamment et elles sont ensuite combin  es  Le premier emploie la technique  instance filtering pou
90. eut ajuster la pr  f  rence entre pr  cision et rappel  ou T  0  d  signe la configuration avec le maximum rappel possible et 7 21 le maximum de pr  cision     3 1 4 5 Limitations de BWI    D apr  s les r  sultats montr  s par  Kauchak et al   2002   l apprentissage de l algorithme BWI  et des m  thodes similaires peuvent avoir de honorables performances quand elles sont  appliqu  es sur diff  rents types de corpora  Cependant  il identifie deux majeures limitations  de l algorithme BWI      a  Expressivit   limit  e de s  parateurs   Les s  parateurs sont con  us pour capturer le contexte plat et voisin d un champ    extraire en  apprenant de courtes s  quences de tokens qui les entourent  BWI obtient une haute pr  cision  gr  ce    la capture de l information s  quentielle et r  guli  re autour de la donn  e    extraire   Toutefois  pour des textes partiellement structur  s et en langage naturel  les s  parateurs ne  sont pas aussi efficaces    cause de r  gularit  s dans le contexte qui sont moins consistant et  fiables  Normalement  dans ces types de documents  de nombreux s  parateurs couvrent  seulement un ou quelques exemples  et collectivement  les s  parateurs peuvent avoir un faible  rappel    Une seconde limitation des s  parateurs est qu ils ne peuvent pas repr  senter la structure  grammaticale des phrases  ou la plupart des informations structurales dans les documents  libre  La raison de cette limitation est qu ils ne peuvent que capturer les informations sur l
91. faut rappeler que des  comparaisons vraiment justes et fiables sont probl  matiques en raison de crit  res  d   valuations d  j   pr  sent  s dans la section pr  c  dente     5 4 3 Comparaison sur les corpora Seminars et Jobs    Les corpora Seminars et Jobs ont   t   utilis  s par plusieurs syst  me d apprentissage  soit ceux  orient  s vers l induction d extracteurs  soit ceux plus orient  s au traitement linguistique  Les  comparaisons sur ces corpora deviennent probl  matiques parce que diff  rents syst  mes  suivent diff  rents protocoles exp  rimentaux    Pour les exp  riences avec le syst  me M TIES  la m  thode d   valuation hold out  avec  5096 de documents pour l apprentissage et 5096 pour le test  a   t   utilis  e  puis  le syst  me est  ex  cut    apprentissage et test  10 fois et le r  sultat final est la moyenne de tous les ex  cutions    random split  50 50  10 fois  De nombreux syst  mes d EI   valu  s sur ces corpora ont  employ   cette m  thode d   valuation  donc les r  sultats de cette section a suivi la m  me  m  thodologie avec l objectif d obtenir des r  sultats plus fiables et justes    Les tables 9 et 10 r  sument la configuration des syst  mes    comparer sur les corpora  Seminars et Jobs     Tab  9  R  sum   de configuration des syst  mes   valu  s sur le corpus SEMINARS     Syst  me M  thode d   valuation Attributs utilis  s W   LP  Random split  50 50    10 fois Word  capitalisation et POS 5      Word  capitalisation  token  GATE SVM   Random spli
92. formation over the Web using ontologies  RECIIS Journal  vol  2  no  1   pp  73 84  2008      Freitag  1997  Freitag D  Using grammatical inference to improve precision in information  extraction  In ICML 97 Workshop on Automation Induction  Grammatical Inference  and  Language Acquisition  Morgan Kaufmann  1997      Freitag  amp  McCallum  1999  Freitag D  McCallum A  K  Information Extraction with HMMs  and shrinkage  In Proc  Of the AAAI 99  Workshop on Machine Learning for Information  Extraction  1999      Freitag  amp  Kushemerick  2000  Freitag D   Kushmerick N  Boosted Wrapper Induction  In  Proceedings of the Seventeenth National Conference on Artificial Intelligence  AAAI 2000    2000      Freund  amp  Schapire  1990  Freund Y   Schapire R  E  A decision theoric generalization of on   line learning and an application to boosting  Proc  Of the 2th European Conf  on    Computational Learning Theory  Rochester  NY  ACM Press  pp  202 216  1990      Freund  amp  Schapire  1996  Freund Y   Schapire R  E  Experiments with a new boosting  algorithm  In International Conference on Machine Learning  pp  148 156  1996     84     Freund  amp  Schapire  1997  Freund Y   Schapire R  E  A decision theoretic generalization of  on line learning and an application to boosting  Journal of Computer and System Sciences   55 10  119 139  August  1997      Freund  amp  Schapire  1999  Freund  Y   Schapire R  E  A short introduction to boosting   Journal of Japanese Society for Artificial
93. g in the  preprocessing phase of the proposed IE system  In order to evaluate the  performance of the system  several experiments were carried out on three standard  corpora for the template filling task  Other experiments were also conducted  using various combinations of features in order to systematically study their  effects on the performance of the learning algorithm  Results obtained  experimentally showed that the perfomance of the proposed system is comparable  with other state of the art IE systems     Keywords  Information Extraction  Wraper Induction  Boosting  Supervised  Classification  Part of Speech Tagging  Machine Learning     xi    xil    Table de Mati  res    1  INTRODUCTION sitpieeiee ees ER oup PER needs sn ire tt nn entres eee 1  1 1 Contexte   Syst  mes de collecte d   information sur des domaines restreints      Master WebPACHA THE miniai nn sn eate eto tn in nt paras 4    2  Str  cture qu me HOIE 655 oo ARD Re Tr nn vee eee 5  2  EXTRACTION D INFORMATION 2   iciscacessseccsesscssseossecsescsossceesosensseacessdesesoosesessascseseos 7  2   Traitement Automatique de la Langue  TAL     9  2 1 1 Exemple d un syst  me d  EI reposant sur des techniques de TAL                         9  2 2   Types de Documents  ieu tan lient 10  2 2     Documents DON SIEUCIUTES cane ep aceite oie eda etui Cet estes 10  2 2 2     Documents semi sITUCtules c ce Sede I Ci sn 11  2 2 3  Documents SCUCDUFeS   ooo eod sol lel cae ede oi tuu eae eee 12  2 22   BIAN s oso triti A 
94. gna  2003a  Ciravegna  F  Designing adaptive information extraction for the semantic  web in Amilcare  In S  Handschuh and S  Staab  editors  Annotation for the Semantic Web   Frontiers in Artificial Intelligence and Applications  IOS Press  Amsterdam  2003      Ciravegna  2003b   LP   Rule Induction for Information Extraction Using Linguistic  Constraints  Technical Report CS 03 07  Departament of Computer Science  Univ  of  Sheffield  Sheffield  September 2003      Cohen et al   2003  Cohen W   Hust M   Jensen L  Web Document Analysis  Challenge and  Opportunities  World Scientific  2003      Cornu  jols  amp  Miclet  2002  Cornu  jols A   Miclet L  Apprentissage Artificielle  concepts et  algorithms  Eyrolles  2002      Cowie  amp  Lehnet  1996  Cowie J   and Lehnet W  Information Extraction  Communication of  ACM vol 39  1996      Cortes  amp  Vapnik  1995  Cortes C   Vapnik V  Support Vector Networks  Machine Learning   20 3  273 297  1995      Crescenzi et al   2001  Crescenzi V   Mecca G   Merialdo P  Roadrunner  Towards automatic  data extraction from large web sites  In Proceedings of 27th International Conference on    VLDB  2001      Crespo et al   1994  Crespo A   Jannink J   Neuhold E   Rys M   Studer R  A survey of semi   automatic extraction and transformation  Techinical report  1994      Cunningham et al   2002 4  Cunningham H   Maynard D  Tablan V   Ursu C   Bontcheva  K  Developing language processing components with GATE  www gate ac uk  2002     83     Cu
95. h  ma   d extraction et quelques statistiques pertinentes     5 1 1 Annotation de documents    A fin d utiliser des algorithmes d EI supervis  s du M TIES sur une collection de documents   il faut disposer d un ensemble d apprentissage d exemples positifs annot  s  Il faut r  aliser  cette annotation et faire en sorte que celle ci soit compatible avec le format TIESIF  le seul  format d entr  e accept   par M TIES  Par cons  quent  les exemples positifs qui serviront pour  l apprentissage du syst  me seront annot  s de la facon suivante  Fig  30         doc id  276  filename  cmu cs proj vision   273 0 581t 0 25 4 84 12 33 15     9    0 amp gt   Type  cmu cs proj vision  Topic  Sanderson group seminar  Dates  27 Apr 84  Time   lt stime gt 2 30 lt  stime gt   PostedBy      on 25 Apr 84 at 12 33 from      Abstract     lt speaker gt Alberto Elfes lt  speaker gt  will be speaking about  A Wide Beam  Sonar Mapping System  on Friday the 27th in  lt location gt WeH 4623 lt  location gt  at   lt stime gt 2 30 lt  stime gt     lt  doc gt    Fig  30  Exemple d   un document correctement annot   en XML     53    La Fig  30 illustre comment il faut annoter les exemples positifs  Ainsi  il faut signaler  chaque champs  slot  d information  en les entourant avec des balises ouvrantes   lt stime gt   et  celles fermantes correspondantes  lt  stime gt   en respectant la syntaxe XML  Bray et al   2008    Les balises   doc   et    doc    indiquant le d  but et respectivement la fin du document
96. ies du texte non pertinent  comme certains  mots utilis  s comme menu de navigation  l en t  te et le titre de bas de page commun dans  toutes les pages d un site  etc    Il   galement restructure le texte avec un codage de base de la  structure de la page    l aide d un ensemble minimum de symboles pour marquer le  commencement d en t  tes  de paragraphes et d   l  ments de listes    Cet outil peut   tre tr  s utile pour construire un corpus    partir des pages Web  Il a   t      valu   dans la premi  re comp  tition CleanEval en septembre 2007  CleanEval une  comp  tition d   valuation sur le th  me de nettoyage de pages Web arbitraires  avec l objectif de  pr  parer des donn  es Web comme un corpus  pour la recherche et le d  veloppement de la  technologie linguistique    Dans ce projet  HTMLCleaner a   t   utiliser comme outil de nettoyage de pages Web des  corpora et pour v  rifier et corrig  s les balises HTML manquantes  en les transformant donc   en fichiers XHTML bien form  s  En plus  il a fallu le d  veloppement d un programme  en  Java  pour adapter HTMLCleaner aux besoins de services de nettoyage de pages HTML et de  mise en forme en suivant le standard XML     4 3 2 Extension du module de tokenisation par l ajout de tagage POS    Le traitement de texte libre par TIES s est rendu possible en ajoutant un   tiqueteur POS    son  module de pr  traitement  Fig  27   L outil QTAG  Mason  amp  Tufis  1998  a   t   adopt   pour  r  aliser l analyse morphosyntaxique auto
97. ine et  les  syst  mes d IE n ont pas pour objectif de comprendre les textes trait  s  mais de r  duire les  informations textuelles    ventuellement non structur  es qui y figurent  aux structures  tabulaires de manipulation plus facile  Kushmerick  amp  Thomas  2003   Ainsi  il est possible  d extraire automatiquement des informations textuelles depuis des d  p  ts num  riques  tels que  les descriptions et les prix des produits dans les magasins virtuels et de les utiliser pour  construire la base de donn  es pour des analyses et comparaisons ult  rieures    Diverses recherches ont   t   men  es pour d  velopper des syst  mes d IE adapt  s     diff  rents types de textes  par exemple  en allant des pages HTML rigidement structur  es  cr    es    partir de bases de donn  es  Chang  amp  Lui  2001  jusqu aux des Call for Papers  CFP    Ireson  amp  Ciravegna  2005    crites en langage naturel  Pour ce second type de texte  en  particulier  de nombreux travaux ont   t   d  velopp  s qui montrent que de tels syst  mes sont  difficiles    d  velopper et exigent un investissement important de sp  cialistes dans le domaine  de l application et d EI  Siefkes  amp  Siniakov  2005     De ce fait  de nombreuses recherches ont   t   d  j   men  es dans le d  veloppement de  syst  mes d EI de plus en plus adaptables aux domaines les plus divers  Tang et al   2007   Ces  syst  mes d EI adaptatifs reposent sur induction de wrappers  extracteurs   Un extracteur  dans  le contexte d EI  es
98. int  gr  e   plus pr  cise et fine   afin d augmenter la performance du  sous syst  me d extraction de l architecture MasterWeb AGATHE  Espinasse et  al   2007  Freitas et al   2008   voir section 1 1   Suite    cette recherche  il sera  envisag   de combiner la t  che symbolique du syst  me MasterWeb AGATHE qui  r  alise actuellement une classification des pages Web    base d ontologies  avec  une t  che d extraction d information adaptative  permettant d extraire de  l information sur ces pages Web class  es  ceci par l usage de techniques  d apprentissage artificiel  machine learning  et traitement de langage naturel   Plus pr  cis  ment  il est attendu une am  lioration de la performance des sous   syst  mes d extraction de ces architectures en les dotant des techniques d induction  automatique d extracteurs d information et de traitement de langage naturel     travers l utilisation de l architecture d EI propos  e par ce travail     1 1 Contexte   Syst  mes de collecte d information sur des  domaines restreints   MasterWeb AGATHE    Le syst  me AGATHE  Espinasse et al   2007  Freitas et al   2008  est une architecture  logicielle g  n  rique permettant le d  veloppement de syst  mes de collecte d information sur le  Web sur un ou plusieurs domaines restreints  AGATHE met en   uvre une collecte  coop  rative d information    base d agents logiciels et d ontologies  Ce syst  me prend en  compte des contextes de recherche en consid  rant des regroupements de pages Web  rela
99. ions d  but  pd  et les positions fin  pf   En fait  on se  sert de la classification supervis  e  CS  pour classer les exemples de d  but qui jouent le r  le  des positifs et tous les autres exemples sont consid  r  s comme n  gatifs   Cela aboutit    un  classificateur qui d  termine les exemples de type d  but  De fa  on analogue  la CS caract  rise  les exemples de type fin jouant cette fois ci le r  le de positifs et tous les autres   tant  consid  r  s comme n  gatifs  Un classificateur qui identifie les exemples de type fin est  produit  Finalement  l algorithme construit un histogramme H 4 f de fr  quence des tailles  en  nombre de tokens  du champ    extraire permettant d associer les positions d  buts et fins dans  une   tape post  rieure  En d autres termes  pour chaque champ    extraire  l algorithme apprend  la distribution de probabilit   de la longueur d un champ  en consignant le nombre de tokens  dans chacun de ses exemples de corpus  et en normalisant cet histogramme en une distribution  de probabilit      la fin de la phase d apprentissage     procedure BWI example sets S and E   F    AdaBoost  LearnDetector  S   A   AdaBoost Learn Detector  E   H   field length histogram from S and E  return wrapper W      F  A  H     Fig  14  L   algorithme d apprentissage de BWI  Freitag  amp  Kushmerick  2000        L apprenant faible est celui qui fournisse une hypoth  se qui fasse mieux qu un classificateur al  atoire     26    Algorithme AdaBoost L id  e principale d
100. junction  JJ adjective  JJR adjective  comparative  JJS adjective  superlative  LS list item marker  MD modal  NN noun  singular or mass                   89    90    
101. le  une sortie structur  e r  sultante d une telle t  che d EI peut   tre  potentiellement complexe     17    hi    Harry Potter N  os   Nouveau  et les reliques Rowling    D  sordre  Finkelkraut Bruckner    dela mort   tte       Fig  11  Structure arborescente d   un document HTML contenant une liste  de livres  adapt   de  Marty  2007       livres  ue livre  titre ii i titre auteurs  man Puis auteur Nouveau auteur auteur  poc pes   D  sordre  e la mo Amoureux    Rowln    Finkelkraut Bruckner    Fig  12  Sortie structur   extrait du document HTML de la Fig  11  adapt   de  Marty  2007       2 4 Conception d extracteurs    Rappelons qu un extracteur est d  finit comme   tant un programme qui produit  automatiquement des informations structur  es    partir d un ensemble de documents    D apr  s  Chang et al   2006  on peut classifier les approches pour construire un extracteur  en 4 classes  quant au niveau d interaction entre le syst  me et l utilisateur    1  approches  manuelle   2  approche par sp  cification assist  e   3  approche par induction supervis  e  d extracteurs et  4  approche par induction non supervis  e     18    2 4 1 Approche manuelle    Dans cette approche  en employant des langages de programmation g  n  raux tels que Perl   Java ou des expressions r  guli  res pour l extraction de portions de textes  le d  veloppeur  programme manuellement un extracteur pour un site Web quelconque  Ainsi  une forte  comp  tence de programmation est requise et cela peut 
102. le corpus  mais  elle est fiable seulement si elle est utilis  e lors de la fermeture d un d  limiteur   speaker                Pattern  Action  Word POS Kind Lookup Name Entity  Punctuation  Word Person s first name   Speaker    Person       Word       Punctuation       assistant   NN Word Jobtitle       professor   NN Word             Fig  20  Exemple d une r  gle d   tiquetage g  n  ralis    Tang  2007      34    Enfin  les r  gles de correction sont identiques aux r  gles d   tiquetage  mais ses patrons  assortissent aussi des balises ins  r  es par des r  gles d   tiquetage et ses actions tout  simplement d  placent les balises mal positionn  es plut  t que d ajouter de nouvelles r  gles  Un  exemple d une r  gle de correction initiale pour le d  placement de    stime   dans    at   stime    4  lt  stime gt  pm    est illustr   par la figure suivante     condition action  word wrong tag  move tag to     lt  stime gt                   lt  stime gt     Fig  21  L action d  place la balise de la mauvaise position    la bonne  Ciravegna  2001      3 2 5 SIE  Simple Information Extraction     SIE  Simple Information Extraction   Giuliano et al   2006  est un syst  me d  EI fond   sur une  technique d apprentissage supervis   o   la t  che d EI est trait   comme un probl  me de  classification en appliquant des Machines    Vecteurs de Support ou S  parateur    Vastes  Marges  SVM   Cortes  amp  Vapnik  1995   pour   tablir un ensemble de classificateurs qui  d  tectent les d  
103. les  BWI  d extraction r  gles d extration   XML     Informations  extraites   XML        Fig  27  Nouvelle architecture du TIES  M TIES      48    4 3 1 Am  lioration du pr  traitement    4 3 1 1 Module d annotation de documents   MnM    Bien que ce module ne soit pas vraiment int  gr   dans l architecture de M TIES et pour cela il  ne soit pas illustr   dans la Fig  27  il a   t   retenu pour bien s adapter aux besoins de notre  recherche  MnM consiste d un outil d annotation automatique de documents qui int  gre un  navigateur Web et un   diteur d ontologie  Vargas Vera  2002   En plus  il fournit une API  pour faire le lien avec des serveurs d ontologies et pour l int  gration d outils d EI  Cet outil  peut   tre consid  r   comme un exemple pr  coce de la prochaine g  n  ration des   diteurs  d ontologies orient  s vers l   tiquetage s  mantique et  en plus  qui fournit des m  canismes  pour l   tiquetage automatique    grande   chelle de pages Web    La Fig  28 montre la fen  tre principale de l interface du MnN      gauche  il pr  sente  l ontologie de r  f  rence qui guide l utilisateur dans le processus d annotation  La fen  tre     droite affiche les pages Web du corpus    annoter avec les balises qui sont d  finies par les  classes de l   ontologie de r  f  rence  Des guides de l utilisateurs d  veloppeur qui pr  sentent  l outil MnM en d  tails peuvent   tre trouv   sur le site Internet d  die a son projet  MnN  2008         ll nM v2 Tool        lni xj    File Edi
104. limiteurs d entit  s    extraire  Il a   t   congu avec le but d   tre rapidement  portable    diff  rents domaines  Une s  rie d exp  rimentations sur plusieurs domaines ont  prouv   que SIE est comparable en performance aux syst  mes d  j   introduits dans l   tat de  l art  et plus performant que quelques syst  mes qui ont   t   congus pour des domaines  sp  cifiques  En outre  ce syst  me a   t   test   sur diff  rents domaines en utilisant la m  me  configuration de base sans employer aucune connaissance sp  cifique  telles que des gazetteers  et pr   post traitement ad hoc    Une caract  ristique majeure de SIE est de r  duire l effort du traitement de tokens en  exploitant une nouvelle technique nomm  e  nstance Pruning  Gliozzo et al  2005   filtrage  d instances  qui permet le traitement de nombreux documents en appliquant un filtrage sur les  tokens d un document  Cela s est av  r   tr  s efficace pour le traitement des donn  es en  bioinformatique    SIE a une architecture modulaire o   les composants du syst  me sont combin  s en  pipeline  o   chaque module restreint les structures de donn  es fournies par les modules  pr  c  dents  Cette architecture modulaire apportent des avantages significatifs  elle est  d abord plus simple    impl  menter  ensuite elle permet d int  grer facilement diff  rents  algorithmes d apprentissage  enfin  elle permet  si n  cessaire  un r  glage fin    une t  che  sp  cifique  en sp  cialisant simplement quelques modules    L archit
105. ll present a seminar entitled   Embedded Commitment   on Thursday  May 4th  from 4 5 30 in PH 223D     Laura Petitto  Department of Psychology  McGill University    Thursday  May 4  1995  12 00 pm  Baker Hall 355    Fig  31  Exemple d un document du corpus Seminars  Freitag  1997    54    5 1 2 2  D  finition du Template d extraction  Pour chaque document de ce corpus  il faut identifier et extraire les informations suivantes        location  endroit de la conf  rence        speaker  nom du conf  rencier         stime  heure de d  but         etime  heure de la fin de la conf  rence    La table suivante montre des statistiques sur le corpus Seminars     Tab  3  Nombre d exemples positifs pour les slots  location  speaker  stime  etime  et  d exemples n  gatifs non annot  s  non entity  du corpus Seminars     Location Speaker Stime Etime Non Entity       5 1 2 3 Exemples de sorties d extractions   La Fig  32 illustre deux sorties d une m  me t  che d extraction sur un document du corpus  Seminars  Nous pouvons noter que certaines instances du template peuvent   tre compl  tement  remplies et d autres  sont partiellement remplies        speaker   Prof  John Skvoretz speaker Mike Greenberg  location PH 223D location    stime 4  00 ou 4 stime 3 30 PM  etime 5 30 etime     a   b     Fig  32  Exemples de template d extraction compl  te rempli  a  et  partiellement rempli  b     la fin d une   tape d extraction     5 1 3 Corpus JOBS    5 1 3 1 Description du corpus  Le corpus JOBS c
106. lques unes     2 1 1 Exemple d   un syst  me d EI reposant sur des techniques de TAL    GATE  General Architecture for Text Engineering   Cunningham  amp  Maynard  2002 a  est un  ensemble d outils logiciels d  velopp  s en Java    l Universit   de Sheffield    partir de 1995 et  largement utilis   par de nombreuses communaut  s  scientifiques  entreprises  enseignants     tudiants  pour le traitement du langage naturel en diff  rentes langues  La communaut   de  d  veloppeurs et de chercheurs autour de GATE est impliqu  e dans plusieurs projets de  recherche europ  ens comme TAO  Transitioning Applications to Ontologies  et SEKT   Semantically Enabled Knowledge Technology   SEKT  2006     GATE offre une architecture  une interface de programmation d applications  API  et un  environnement de programmation graphique  Il comporte un syst  me d EI  nomm   ANNIE  A  Nearly New Information Extraction System   Cunningham et al   2002 b   lui m  me form   de  plusieurs modules  parmi lesquels  un analyseur lexical  un gazetteer  dictionnaire  g  ographique   un  parseur de phrases  avec d  sambig  isation   un    tiqueteur  morphosyntaxique  POS tagging   un module d extraction d entit  s nomm  es  et enfin un  module de d  tection de cor  f  rences    GATE est d  j   mis en   uvre en anglais  espagnol et fran  ais  Il existe de nombreux  plugins d apprentissage automatique  Weka  RASP  MAXENT  SVM light   d autres pour la  construction d ontologies  WordNet   pour l interrogation 
107. m   dernier acc  s en juin 2009      87     Seymore et al   1999  Seymore K   McCallum A   Rosenfeld  Learning hiddem Markov  Model strutucture for Information Extraction  In AAAI 99 Workshop on Machine Learning  for Information Extraction      Siefkes  amp  Siniakov  2005  Siefkes C   Siniakov  P  An overview and classification of  adaptive approaches to information extraction  Journal on Data Semantics IV  Berlin   Germany Springer  2005      Soderland  1999  Soderland S  Learning information extraction rules for semi structured and  free text  Machine Learning  34 1 3  233 272  1999      Tang et al   2007  Tang J   Hong M   Zhang D   Liang B   Li  J  Information Extraction   Methodologies and Applications  DCS Tsinghua University  2007      Thomas  2005  Thomas B  Machine Learning of Information Extraction Procedures   An  ILP Approach  PhD  Thesis  Universit  t Klobentz Landau  2005      Vargas Vera  2002  Vargas vera M   Motta E   Domingue J   Lanzoni M   Ciravegna F   MnM  Ontology Driven Semi Automatic and Automatic Support for Semantic Markup   Springer Verlag  pp 379 391  2002      Yang  amp  Liu  1999  Yang Y   Liu X  A Re Examination of Text Categorization Methods  In  Proceedings of ACM SIGIR Conference on Research and Development in Information  Retrieval  pp  42 49  1999      Wang  amp  Locovsky  2002  Wang J   Lochovsky F  H  Wrapper induction based on nested  pattern discovery  Technical Report HKUST CS 27 02  Department of Computer Science   Hong Kong  Univer
108. mas  2003  Kushmerick  N   Thomas B  Adaptive Information Extraction   Core Technologies for Information Agents  2003      Laporte  2000  Laporte M  Mots et niveau lexical  Pierrel  J M  ed    Ing  nerie des langues   Informatique et systemes d information  ch  1  pages 25 50  Hermes Science  Paris  2000      Lavelli A  et al   2004  Lavelli A   Califf M  E  Ciravegna F   Freitag D   Giuliano C    Kushmerick N   Romano L  IE Evaluation  Criticisms and Recommendations  In AAAI 2004  Workshop on Adaptive Text Extraction and Mining  2004      Li et al   2004a  Li Y   Bontcheva K   Dowman M   Roberts L  Cunningham  H  D2 1 1  Ontology Based Information Extraction  OBIE  v 1   SEKT deliverable  University of  Sheffield  2004      Li et al   2004b  Li Y   Bontcheva K   Cunningham H   SVM Based Learning System for  Information Extraction  Deterministic and Statistical Methods in Machine Learning 2004   319 339  2004      Li et al   2003  Li  Y   Shawe Taylor  J   The SVM with uneven margins and Chinese  document categorization  In Proceedings of The 17th Pacific Asia Conference on Language   Information and Computation  PACLIC17   pages 216 227  Singapore  Oct  2003      Liu et al   2000  Liu L   Pu C   Han W  XWRAP  An XML enabled wrapper construction  system for web information sources  In ICDE  pp  611 621  2000      Marty  2007  Marty Patrick  Induction d extraction n aire pour les documents semi   structur  s  Th  se Doctorat  Universit   Charles de Gaulle  Lille 3  2007      M
109. maticales      sur les extractions faites par  l algorithme d induction d extracteurs BWI en utilisant une collection de  documents en langage naturel pour   valuer quantitativement le gain que cette  information peut apporter    l algorithme       proposer une architecture logicielle reposant sur l   induction d extracteurs  supervis  e pour l EI    partir de pages Web  Cette architecture logicielle sera  pr  sent  e ainsi que les diff  rents modules sp  cialis  s qui la compose  dont le  module central mettra en   uvre l algorithme d apprentissage BWI et qui sera  modifi   pour la prise en compte du traitement du langage naturel  annotation  morphosyntaxique   Cela aboutira    l environnement d EI adaptatif M TIES   facilement configurable et convivial    l utilisateur par le biais d une architecture  modulaire destin      l utilisation sur plusieurs types de documents  structur  s et  non structur  s       comparer l architecture d EI propos  e dans cette recherche avec d autres syst  mes  de l   tat de l art au travers diff  rentes exp  rimentations sur trois collections de  documents de r  f  rence en suivant une rigoureuse m  thodologie d   valuation de  r  sultats bien   tablie dans la communaut   scientifique du domaine de l EI  Pour  cela  il sera d  fini un protocole exp  rimental pour bien mener les exp  riences afin  d avoir de r  sultats plus fiables et pertinents    utiliser le potentiel d induction d extracteurs dans le contexte d une extraction  d information 
110. matique d un corpus d entr  e apr  s l   tape de  tokenisation    Par d  faut  la tokenisation de TIES g  n  re un fichier en format TIESIF sans prise en  compte de l annotation morphosyntaxique  L id  e ici est de prendre ce fichier et y ins  rer les    tiquettes POS de chaque token propos  s par QTAG  tout en respectant le format TIESIF  De  ce fait  le module d apprentissage de TIES peut enfin exploiter un corpus enrichi avec des  informations morphosyntaxiques  Ci apr  s  nous d  crivons l   tiqueteur QTAG     4 3 2 1 Module d   tiquetage morphosyntaxique  POS tagging   QTag    QTag  Mason  amp  Tufis  1998  est un   tiqueteur POS  tagger  stochastique de parties du  discours  Il cr  e le lexique  l   ensemble d   tiquettes  fags   les probabilit  s lexicales et  contextuelles    partir du corpus manuellement   tiquet    Gr  ce    cette base d apprentissage   l   tiqueteur POS peut trouver les   tiquettes possibles avec leur fr  quence pour les assigner     chaque unit   lexicale dans un nouveau corpus d  j   segment    Enfin  l   tiqueteur POS effectue  la t  che de d  sambiguisation en utilisant les distributions probabilistes apprises    partir du  corpus  Cela signifie qu il lit le texte et pour chaque foken y pr  sent  il renvoie    partie du  discours qu il appartient  par exemple  nom  verbe  ponctuation  etc    Il fonctionne en  utilisant des m  thodes statistiques  d o   le   stochastique   vient  Par cons  quence  il peut  commettre des erreurs  comme tous les  
111. me  nstance Filtering  Gliozzo et al   2005  qui indique  avec  une valeur vraie ou fausse  si le token doit   tre consid  r   par l algorithme de classification  Il  a   t   d  montr   que cette approche donne de bons r  sultats en diminuant la quantit   de tokens     tenir en consid  ration par l algorithme d apprentissage lors de la g  n  ration des hypoth  ses  et  ce qui a   t   le plus important  que ce filtrage a tr  s peu d influence sur les r  sultats en les  comparant avec les approches qui utilisent toute l int  gralit   de tokens d un corpus     7  Am  liorer l   tape de tokenisation   Afin d am  liorer la tokenisation  il serait int  ressant d ajouter au syst  me un module  tokeniseur sp  cialis   dans les sous t  ches de lemmatisation  NER et chunking en anglais et  fran  ais  Dans l EVALITA 2007  une nouvelle initiative consacr  e    l   valuation des outils de  TAL  un l outil appel   TextPro  Pianta et al   2008  a obtenu le deuxi  me classement comme  outil plus performant dans quasiment toutes les sous t  ches de TAL  en anglais et italien     voqu   ci dessus  Pour le fran  ais  l outil TreeTagger  Schmid  1994  est un bon candidat en  tant qu     tiqueteur POS et lemmatiseur  On pourrait envisager ainsi l int  gration de ces  modules au M TIES afin d avoir d autres exp  rimentations sur des corpora en langage  naturel     8  Persistance de r  gles XML dans une base de donn  es   Afin de faire la mise en application des r  gles extraites  sous format XML a
112. mentos  Web  Wrappers s  o procedimentos para extrair dados de documentos  A indu    o  de wrappers    definida como uma t  cnica de extra    o de informa    o que usa  algoritmos de aprendizado de m  quina para automaticamente construir wrappers a  partir de um corpus previamente anotado e que tem mostrado bons resultados  quando aplicada em textos estruturados  semi estruturados e livres  em linguagem  natural   Este trabalho prop  e um sistema d EI baseado em Boosted Wrapper  Induction  BWI   um algoritmo de indu    o de wrappers supervisionado no qual  um outro algoritmo  o AdaBoost     usado para gerar um procedimento gen  rico de  extra    o que combina  no final do processo  um conjunto de wrapers espec  ficos  por voto ponderado  Alguns autores tem estudado como as t  cnicas de boosting  contribuem ao sucesso do algorithmo BWI e examinado sua perfomance tomando  a dire    o desafiadora de us   lo como um m  todo de extra    o de informa    o para  documentos n  o estruturados em linguaguem natural  Este fato foi a principal  motiva    o para se incluir Parts of Speech  POS  tagging na fase de pr     processamento do sistema d EI ora proposto  Afim de se avaliar o desempenho do  sistema  v  rios experimentos foram executados usando se tr  s corpora como  testbed para a tarefa de extra    o de informa    o no preenchimento de esquemas de  extra    o  template filling task   Outros experimentos foram tamb  m conduzidos  usando se diversas combina    es de atributos para 
113. mon  premier jour au LSIS  m a aid   plusieurs fois dans mon int  gration    la vie universitaire  et    son   poux Mathieu Detraux  pour les bons moments que nous avons tous v  cus ensemble     Finalement  je remercie tout particuli  rement la merveilleuse famille Espinasse  Bernard   Sabine  Sabrina  Vanessa et Valentin  qui m ont chaleureusement accueilli     vii       Je ne sais pas ce que je peux para  tre aux yeux du monde  mais pour moi m  me   il me semble que je n ai   t   qu un enfant jouant sur le rivage    et s y amusant    trouver de temps en temps    un galet plus lisse ou un coquillage plus beau que les autres    tandis que le grand oc  an de la v  rit   s   tendait  encore inconnu  devant moi       Isaac Newton     la fin de ces jours vers 1727     viii    Resumo    A Extra    o de Informa    o  EI  compreende t  cnicas e algoritmos que realisam  duas tarefas importantes  a identifica    o de informa    es desejadas a partir de  documentos estruturados e n  o estruturados  e o armazenamento dessas  informa    es em um formato apropriado para uso futuro  Este trabalho concentra   se nos sistemas d EI adaptativos que podem ser customizados para novos  dom  nios atrav  s de um processo de treinamento  Machine Learning  usando  cole    es de documentos anotados como entrada  Particularmente  t  cnicas de  indu    o autom  tica de wrappers s  o estudadas para extra    o de informa    o que  se baseiam na explora    o de regularidades estruturais encontradas em docu
114. n  avec ou non prise en compte de la syntaxe  du langage naturel  c est    dire  avec ou non   tiquetage morphosyntaxique     52    S EXPERIMENTATIONS    Ce chapitre r  alise une s  ries d exp  riences avec l objectif d   valuer la version modifi  e du  syst  me TIES  dor  navant M TIES  sur 3 corpora constitu  s de documents    diff  rents  niveaux de structuration  Apr  s la description de ces corpora  le protocole exp  rimental d  fini  par une m  thodologie d   valuation et quelques recommandations afin d avoir de r  sultats plus  fiables sont pr  sent  es  Tout d abord des exp  riences pour d  terminer les meilleurs param  tres  de l   algorithme BWI lors de la g  n  ration de mod  les sont r  alis  es  Ensuite  on   value les  mod  les appris sur ces corpora afin de v  rifier le gain que l information POS peut apporter     la performance du syst  me  Ce chapitre se termine en pr  sentant une   valuation comparative  de syst  me propos   dans cette recherche avec d autres syst  mes existants     5 1 Corpora choisis    Cette section pr  sente les corpora choisis pour   valuer le syst  me d EI propos   sans prise en  compte d analyse morphosyntaxique ou avec une telle prise en compte  Pour cela  trois  corpora de niveaux de structuration  Seminars  Jobs et Call For Papers ont   t   retenu  Dans  un premier temps  le processus d annotation de documents de ces corpora est d  cri   puis  ces  corpora sont examin  s en d  tail  notamment leurs descriptions  leurs templates  sc
115. n syst  me d EI d  velopp   dans le cadre du Project  SEKT qui utilise l algorithme SVM pour la classification supervis  e de tokens  Ce syst  me  emploie une variante du SVM  le SVM avec uneven margins qui a une meilleure performance  de g  n  ralisation que le SVM original sur un ensemble o   le nombre d exemples positifs sont  beaucoup moins repr  sentatifs que les n  gatifs  Li et al   2003   Il a   t   test   sur plusieurs  corpora  Seminars  Jobs  CoNLL 2003  pour en citer quelque uns  Il peut utiliser plusieurs  combinaisons d attributs  word  capitalisation  POS  gazeteers  lemmatisation  etc   L extraction d attributs est perform  e par GATE     Yaoyong Le syst  me Yaoyong  Ireson et al   2005  est le pr  d  cesseur du GATE SVM  et ses classificateurs utilisent une fen  tre de contexte de 10 tokens    gauche et    droite  Cette  version ci faisait l usage d attributs des tokens suivants  token  capitalisation  tokenkind et  informations des entit  s  Le tagage POS ne figurait pas dans cette liste  Cette version a    69    particip   dans las comp  tition Pascal Challenge sur l   valuation d apprentissage machine  pour TEI    Par la suite  le syst  me M TIES est compar  e avec les syst  mes SIE   LP    section 3 3    GATE SVM  Yaoyong et Rapier sur le corpora choisis en essayant de suivre les m  me  protocole exp  rimental  r  sultats rapport  s  m  thode d   valuation  etc   ou les plus proche  possible pour que l on puisse avoir de comparaisons plus pertinentes  Il 
116. na  2001   LazyNLP  aussi  nomm   Shallow NLP  faire l usage de TAL pour g  n  raliser des r  gles d extraction au del   de  la structure plate de mots  tout en conservant l efficacit   sur les textes fortement structur  s    Ce syst  me essaie d apprendre le meilleur  le plus fiable  niveau d analyse linguistiques  utile pour une t  che sp  cifique d EI en combinant des strat  gies peu ou tr  s profondes  d analyse linguistiques  L apprenant commence    induire des r  gles qui ne font aucune  utilisation de l information linguistique  comme dans les syst  mes d EI classiques  Puis  il  ajoute progressivement l information linguistique    ses r  gles  s arr  tant quand l utilisation de  telles informations devient incertaine ou inefficace    Les modules de TAL fournissent des informations linguistiques et de ressources d  finies  une fois pour toutes  ils ne peuvent pas   tre modifi  s par l utilisateur lors de son emploie dans  une application sp  cifique    Les apprenants LazyNLP  apprennent la meilleure strat  gie pour chaque  information contexte s  par  ment  Cela s est r  v  l   tr  s efficace pour l analyse de documents  avec un m  lange de genres  par exemple  les pages Web contenant    la fois du mat  riel  structur   et non structur    ce qui est fr  quent dans des documents Web  Ciravegna  amp  Lavelli   2001     L architecture d Amilcare est li  e avec ANNIE  un syst  me de TAL de l environnement  GATE  ANNIE effectue la tokenisation  l     quetage morphosyntaxiqu
117. ne     Abstract    Information Extraction  EI  comprises techniques and algorithms performing two  important tasks  identifying the desired  relevant information from structured or  non structured documents and storing it in appropriate form for future use   This work is focused on adaptive IE systems that can be customized for new  domains through training  machine learning  using annotated corpora as input   Particularly  automatic wrapper induction techniques are looked into for  extraction that rest on the exploitation of structural regularities present in  documents  Wrappers are procedures to extract data from information resources   Wrapper induction is defined as a technique that uses machine learning algorithms  for automatically construct wrappers from a previously annotated corpus and that  has shown good results when applied to structured  semi structured and free   natural language  documents  This work proposes a supervised IE system based  on Boosted Wrapper Induction  BWI   a supervised wrapper induction algorithm   in which the AdaBoost algorithm is used to generate a general extraction  procedure that combines a set of specific wrappers by weighted voting  Some  others authors have investigated how boosting contributes to the success of the  BWI algorithm and examined its performance in the challenging direction of  using it as an IE method for unstructured natural language documents  This fact  became the rationale for including Parts of Speech  POS  taggin
118. nes valeurs  sont manquantes     3 2 2 SoftMealy    Similaire    WIEN  SoftMealy est un syst  me d EI qui produit des r  gles d extraction en  utilisant un type sp  cial d automates appel  s Finite State Transducers  transducteurs      tats  finis   Hsu  1998   Un transducteur      tats finis comporte des alphabets d entr  e sortie  des    tats et des transitions  Hsu et Dung ont pr  sent   l id  e de transducteurs      tats finis pour  permettre plus de variation sur les structures d extracteurs con  ues par SoftMealy    Dans SoftMealy  un transducteur      tats finis est compos   d un    body transducer     qui  extrait la partie de la page qui contient les tuples  similaire    HLRT dans WIEN   et de  plusieurs transducteurs de tuples qui extraient it  rativement les tuples    partir de la portion de  textes d  finies par le body transducer  Les transducteurs de tuples acceptent un tuple et  renvoient ses attributs  Ils produisent une sortie  un mot de l alphabet de sortie  en fonction de  la lecture d un mot en entr  e et de l     tat dans lequel ils se trouvent    L algorithme d extraction de SoftMealy est congu dans un esprit similaire    celui des  extracteurs HLRT de WIEN  Il fait intervenir deux transducteurs   un pour d  terminer la zone  du document qui contient les n uplets et un autre pour extraire les n uplets de ladite zone   Chaque permutation distincte d attribut dans la page peut   tre encod  e comme un chemin  partant d un   tat de d  but    un   tat final d
119. nformations multi slot  reliant par le biais de sa structure hi  rarchique les donn  es extraites    La racine contient la s  quence de tokens S du document dans son int  grit    et chacun de  ses fils    une sous s  quence de S  Un document est vu par ce syst  me comme une s  quence de  tokens  Un token est une s  quence de caract  res alphanum  rique  non  alphanum  riques  ou  une balise HTML    L algorithme d induction consiste    d  terminer les r  gles d extraction des noeuds de  l arbre EC fourni par l utilisateur  Les valeurs des n uplets annot  s par l utilisateur sont  reli  es aux feuilles ad  quates de l arbre  Cet apprentissage est fait    partir de documents  annot  s  Il consiste    apprendre les r  gles d extraction en utilisant un algorithme de  couverture sp  cifique  Muslea et al   2001      L algorithme d extraction proc  de en parcourant l arbre et en appliquant    chaque n  ud  la r  gle d extraction  La s  quence de tokens extraite est le point de d  part de la r  gle  d extraction suivante  Il existe pour chaque n  ud de l ECT une r  gle single slot sp  cifique   form  e par une paire d automates finis non d  terministes pour la localisation des d  limiteurs  gauche et droit des n  uds du document d entr  e  Cette localisation se produit de mani  re  ind  pendante de ses noeuds voisins ce qui facilite ainsi la manipulation d attributs  d  sordonn  s et ou absents    STALKER sp  cifie deux types de r  gles   celles pour l extraction des n  uds feuille e
120. nier compos   de textes en langage naturel         Jess  Java Expert System Shell   Friedmann Hill 97  est un outil pour le d  veloppement de r  gles de production   syst  mes experts  fond   sur un moteur d inf  rence qui emploie l algorithme Rete  Forgy 82       libre   Ensuite  un protocole exp  rimental reposant sur une m  thodologie d   valuation  rigoureuse est mis en place afin d examiner l influence des param  tres sur l algorithme BWI   et analyser l effet de la prise en compte de la syntaxe du langage naturelle sur trois collections  de documents  Finalement  il est men   une   valuation comparative du syst  me propos   avec  d autres syst  mes d EI   tudi  s dans l     tat de l art    Enfin  le chapitre 6 conclut en faisant un bilan de ce travail de recherche en pr  sentant  plusieurs perspectives possibles     2 EXTRACTION D INFORMATION    Parmi les plusieurs d  finitions de l extraction d information  EI  on rencontre  d une part   celle qui affirme que l   EI consiste    extraire de la connaissance de documents  Crespo et al    1994   D autre part   Pazienza  1997  d  finit l EI en la comparant avec la recherche  d information  RI  o   la derni  re consiste    trouver un ensemble de documents pertinents   tandis que la premi  re consiste    trouver  dans ces documents  un ensemble de faits pertinents   Les documents dont on souhaite extraire de l information peuvent pr  senter un certain degr    dans la structuration des informations  mais ils peuvent aussi n en
121. nningham et al   2002 b  Cunningham H   Maynard D   Tablan V   Ursu C   Bontcheva    K  The GATE User Guide  2002  Disponible     http   gate ac uk  dernier acc  s en juin 2009       Douthat  1998  Douthat  A  The message understanding conference scoring software user s  manual  In Proceedings of the 7th Message Understanding Conference  MUC 7   1998      Eikvil  1999  Eikvil  L  Information Extraction form the World Wide Web  a Survey  In  Technical Report 945  Norweigian Computing Center  1999      Espinasse et al   2007  Espinasse B   Fournier S   Freitas F  AGATHE   une architecture  g  nerique    base d agents et d ontologies pour la collecte d information sur domaines  restreints du Web  CORIA 2007  Quatri  me conf  rence francophone en Recherche  d Information et Applications  2007      Finn  amp  Kushmerick  2004  Finn A   Kushmerick N  Multi Level boundary classification for  information extraction  In Proceeding of the European Conference on Machine Learning   Pisa  2004      Florescu et al   1998  Florescu D   Levy A   Mendelzon A  O  Database techniques for the  World Wide Web  A survey  SIGMOD Rec   1998      Forgy 82  Forgy  C  L  Rete  A Fast Algorithm for the Many Pattern  Many Object Pattern  Match Problem  Artificial Intelligence 19 1982   17 37  USA  1982      Fred Freitas et al   2008  Freitas F   Cabral L   Lima R   Espinasse B   Palmeira E   Fournier  S   Guilherme Bittencourt  From MASTER Web to AGATHE  the evolution of architecture  for manipulating in
122. nnouncements  sans traitement de  POS  et la Tab  2 pr  sente leurs significations      lt  xml version  1 0  encoding  IS0 8859 1  standalone  no   gt     wrapper label  speaker  gt    lt fore detector gt    lt detector gt    lt pattern type  prefix  gt     feature name  token  value  Who        feature name  single char token  value  true   gt      pattern      pattern type  suffix  gt     feature name  alpha token  value  true   gt      pattern     lt confidence value gt 2 7587264482323546 lt  confidence value gt    lt  detector gt    lt detector gt    lt pattern type  prefix  gt     feature name  token  value  speaker   gt     feature name  single char token  value  true   gt      pattern      pattern type  suffix  gt      pattern     lt confidence value gt 2 2216808574759974 lt  confidence value gt    lt  detector gt                  lt  wrapper gt     Fig  25  Un extrait d   un wrapper appris en XML     Tab  2  Un extrait du wrapper appris apr  s l application d une transformation XSL        P token  Who   single char token  true   S alpha token  true    2   Pftoken  speaker  single char tokenz true     S      Ainsi  la ligne 1 de la table ci dessus exprime une r  gle  ou le nom d un speaker peut   tre  trouv   juste apr  s les tokens    Who    suivi d un token constitu   d un seul caract  re  pr  fixe   et juste avant un token form   par des caract  res alphab  tiques  suffixe   Il en va de m  me    46    pour la deuxi  me ligne qui exprime une r  gle qui n a qu un pr 
123. ns ne se faire pas suffisante pour g  n  rer de bonnes r  gles pour ce type  d information  En plus  ce slot est le plus repr  sentatif de tout le corpus CFP  en ayant  seulement 100 exemples annot  s  Une fa  on d am  liorer ce r  sultat serait alors de faire le  tokeniseur    reconnaitre ce type information comme une entit    ou en augmentant les nombres  d exemples d apprentissage     75    Corpus CFP       1 0   0 8   0 6 BIB Amilcare  3 i  S53 Yaoyong  Q EN  SIE  2 DI  M TIES  a   0 4   0 2   0 0    w nam w_acro w dat w hom w loc w pap w not w cam c nam c acro c hom    Slots  Fig  46  Scores de Rappel des syst  mes par slot sur le corpus CFP     La Tab  14 est illustr  e par la Fig  47 qui montre que le syst  me M TIES a   t   le plus  pr  cis de tous les syst  mes participants    cette   valuation comparative  mais il a eu le plus bas  score de rappel  En somme  sa performance en terme de F measure a   t   comparable aux  syst  mes SIE et Yaoyong et un peu plus bas que le syst  me Amilcare sur le corpus CFP     Tab  14  Comparaison entre les 4 syst  mes sur le corpus CFP     Pr  c Rappel F1    Amilcare 84 3 70 3 76 7  Yaoyong 70 2 71 7 70 9   SIE 75 5 65 2 70 0  M TIES 89 6 59 1 71 2       76    Comparaison de R  sultats       0 8 4  o 064  o EN Amilcare  E   SIE  EEE Yaoyong  i 54  EI M TIES          0 2 4                0 0  Pr  cision Rappel F1 micro    Fig  47  Comparaisons des mesures de pr  cision  rappel et  F1 measure  micro  entre les 4 syst  mes    Bilan sur l
124. ntation de documents et d exemples                        sese 25  SAAD  Hypoth  ses se ens a res ME Foe E CADA pena 25    3 1 4 3 Algorithme      apprentissage aue eater epe Eee Be SURE Qe etes 26    3 1 4 4 Algorithme d extraction    eee ec eeecer testen tesoros e Renee tne Pea Ee Redde 28  SAS  Ciao deb NES en et itp ete eb Mur nt Ron Des 29  3 2 Autres syst  mes d induction supervis  e d extracteurs                  eee 20  EX WEN PE MEETS 30  F22 SONIA eS E LL M PE nn A 31  3297 STALKER  pianga ato ieie Er oa ata pe 31  Sd  AMIICAIO me  UE 33  3 2 5 SIE  Simple Information Extraction  ss 35  3 2 6 TIES  Trainable Information Extraction System                        seen 36  mo   nA AU Ets VIM MC Se ud a E tudes lode 37  do  E SO E E t E a 37  4 UN SYSTEME D EI ADAPTATIF PAR INDUCTION SUPERVISEE  DEXTRACTEURS  nn pe TUE SEDE ERU SECTOR PIRE EN SEI E GENS ASIE I 39  4 1 Architecture g  n  rale d un syst  me d EI adaptatif                              cee ceteeeeeeeeaeees 39  4 1 1    Pretraitement des textes d entr  e s    uo ne nr te on ne ne oio ne 39  4 1 2 Apprentissage et application du mod  le d extraction                           esses 39  AS   Postetratement de Ig SOFIe esi o e rho Eu pn pass Piae aat aceite FU baud  40  4 0 TIES  un syst  me d induction supervis  e d extracteurs                       sees 41  4 2 1   Description d  taill  e du syst  me TIES  version originale                                   41  42 2  Repr  sentation de documents sin nan nee Eae
125. obs en utilisant  un ensemble d attributs compos   d information de capitalisation et POS     Slot  LPP GATE SVM Rapier M TIES   id 100 0 97 7 97 5 98 1   title 43 9 49 6 40 5 67 4  company 71 9 77 2 69 5 78 9  salary 62 8 86 5 67 4 89 2  recruiter 80 6 78 4 68 4 86 1  state 86 7 92 8 90 2 96 9  city 93 0 95 5 90 4 96 5  country 81 0 96 2 93 2 98 8  language 91 0 86 9 80 6 88 5  plataform 80 5 80 1 72 5 86 9   application 78 4 70 2 69 3 73 1  area 66 9 46 8 42 4 51 6  req y exp 68 8 80 8 67 1 86 4  des y exp 60 4 81 9 87 5 89 9  req degree 84 7 87 5 81 5 78 6  des degree   65 1 59 2 72 2 47 6  post date 99 5 99 2 99 5 100 0  All slots 84 1 80 8 75 1 83 8       71    a  Corpus Seminars   En analysant les r  sultats de la Tab  11  o     all slot    est la F measure  micro   on note  que l   valuation du M TIES a   t   notamment sup  rieur sur trois slots tandis que pour les  syst  mes SIE  GATE SVM  qui utilisent l algorithme SVM comme leur composant  d apprentissage  et  LP  ont obtenu une performance globale similaire  Giuliano et al   2006   Li et al   2004a  Ciravegna  2003b   On veut remarquer que le systeme GATE SVM a utilis    un ensemble d attributs plus riche que les autres syst  mes  Li et al   2004b   Avec l   ensemble  d attributs complet du M TIES  ce atteint une performance de 96 7   De fa  on similaire   LP   obtient 89 796 sur ce corpus en employant NER et gazeteers  On n a pas de scores  d  taill   par slots du SIE  Giuliano et al   2006   ce qui explique les v
126. ogica  ITC irst   est un syst  me d EI  adaptatif  Il a   t   d  velopp   en langage Java et il met en   uvre l algorithme Boosted Wrapper  Induction  BWI  propos   par Dayne Freitag et Nicholas Kushmerik  Freitag  amp  Kushemerick   2000   section 3 2 2     L algorithme d apprentissage de BWI utilise lui m  me l algorithme de boosting  AdaBoost pour g  n  rer des extracteurs qui combine un ensemble sp  cifique d inducteurs  d extracteurs    partir de documents annot  s  L algorithme BWI a d  montr     tre tr  s  performant dans de nombreuses t  ches d EI    partir de documents structur  s et semi   structur  s  De plus  d apr  s  Kauchak et al   2002  l utilisation de l algorithme BWI donne  aussi de bons r  sultats pour le traitement de documents non structur    par exemple des textes  en langage naturel    TIES   tiqu  te les documents avec un ensemble de balises XML pr  d  finies  en exploitant  des r  gles apprises automatiquement gr  ce    un corpus pr  alablement annot    Ces balises  XML permettent d identifier les instances d entit  s qui proviennent d un ensemble d   l  ments  d  finis par l utilisateur  Ce syst  me a   t   retenu dans cette recherche et sera pr  sent   en d  tail  dans la section 4 2     36    3 2 7 Tableau de synth  se    Un r  sum   des caract  ristiques majeures de tous les syst  mes d  EI par induction supervis  e  d extracteurs  examin  s dans cette section est pr  sent   dans le tableau suivant     Tab  1  R  sum   comparatif de caract  risti
127. on veut extraire et  3  la  sortie d une t  che d EI est structur  e et d  finie selon un sch  ma  template     En d autres termes  l EI a pour objectif de construire des syst  mes qui trouvent et  combinent des informations pertinentes tandis qu ils ignorent des informations insignifiantes  et inutiles  Cowie  amp  Lehnet  1996   Ils mod  lisent une fonction qui re  oit un document  d entr  e et retourne un formulaire de sortie  pr  alablement d  finie  avec leurs champs remplis   De cette facon  des informations sp  cifiques peuvent alors   tre extraites de diff  rents  documents avec une repr  sentation h  t  rog  ne et peuvent   tre r  sum  es et pr  sent  es en un  format fix      l avance  Un exemple d une telle t  che est illustr   par la Fig  2  Dans cet  exemple  le document d entr  e est un article scientifique et le formulaire  template  de sortie  se compose des champs auteurs et emails    Il est important de noter que des informations extraites sont d  termin  es par un ensemble  de patrons ou de r  gles d extraction sp  cifiques    un certain domaine  La d  finition de telles  r  gles peut   tre effectu  e manuellement  par un sp  cialiste du domaine concern   ou avec  diff  rents degr  s d automatisation  supervis    semi supervis   ou non supervis  e     Ainsi  l EI peut concerner une collection de documents dont on veut extraire des faits  pr  cis  Le WWW est un bon exemple d une telle collection de documents  Ici  des  informations sur un sujet se trouvent f
128. oncerne des offres d emploi dans le domaine de l Informatique  Ce corpus  est compos   de 300 documents qui contiennent des informations sur des employeurs   entreprises  salaires et exigences d offres d emploi  Plusieurs slots  tel que ceux concernant les  langages et les plate formes logiciels requis pour l emploi  peuvent avoir plusieurs valeurs   Dans les exp  rimentations  il a   t   consid  r   le corpus propos   originalement par  Califf   amp  Mooney  1999   La Fig  33 pr  sente un document originaire de ce corpus et son template  d extraction rempli     55    Posting from Newsgroup    Telecommunications  SOLARIS Systems  Administrator  38 44K  Immediate need    Leading telecommunications firm in need  of an energetic individual to fill the  following position in the Atlanta  office     SOLARIS SYSTEMS ADMINISTRATOR   Salary  38 44K with full benefits   Location  Atlanta Georgia  no  relocation assistance provided    Filled Template    computer  science  job   title  SOLARIS Systems Administrator  salary  38 44K   state  Georgia   city  Atlanta   platform  SOLARIS   area  telecommunications    Fig  33  Exemple d une offre d emploi avec son template d extraction rempli  Califf  1999      5 1 3 2 D  finition du Template d extraction   Chaque document de ce corpus comporte 17 slots suivants    extraire   id  title  salary   company   recruiter  state  city  country  language  platform  application  area   req years experience  desired years experience  req degree  desire
129. onibilit   des corpora standards  annot  s ne garantissent pas que les exp  riences r  alis  es avec de diff  rentes approches et  algorithmes propos  s dans la litt  rature soient compar  es d une fa  on juste et fiable  Lavelli et  al   2004   Voici les points les plus importantes examin  es par Lavelli et al      D  finition exacte des partitions de corpus   Il est bien connu que diff  rentes partitions de corpus peut influencer les r  sultats  Ainsi il est  crucial que l on d  finisse le point de s  paration exacte entre l ensemble d apprentissage et  l ensemble de test  vu les proportions num  riques entre les deux ensembles  par exemple  un    68    random split de 50 50 contre un de 80 20  et la proc  dure adopt  e pour partitionner les  documents  par exemple  validation crois  e vs random subsampling     T  ches de pr  traitement   Certaines sous t  ches de pr  paration d un corpus  par exemple  tokenization  sont souvent  consid  r  es comme   videntes et non probl  matiques  mais il n est pas le cas ici et cela peut  influencer la performance des algorithmes d IE  Cette question importante distingue un  algorithme et les attributs qu il emploie dans leur contribution    sa performance  En EI  par  exemple  certains algorithmes ont utilis   des attributs orthographiques simples  tandis que  d autres emploient des attributs plus complexes tels que le tagage POS ou   tiquettes  s  mantiques extraites de gazeteers  Califf  1998  Ciravegna  2001  Peshkin  amp  Pfeffer  
130. ores individuels et la courbe  d apprentissage de l algorithme  La t  che d EI adaptative est requise pour concevoir un  mod  le initial    partir d un petit nombre d exemple  Dans ce cas  il est attendu que la  performance du syst  me s am  liore progressivement au fur et    mesure que de plus en plus  d instances soient disponibles pour l apprentissage  Par exemple  cela peut avoir lieu quand  l utilisateur annote de nouveaux documents  En fait  on veut ici simuler ce sc  nario avec  l objectif d   valuer l algorithme d apprentissage sur un nombre croissant d exemples  Le  param  tre L   3 et le nombre d it  rations en 100 ont   t   utilis  s  Ensuite  les documents du  corpus ont   t   r  partis al  atoirement en deux partitions   gales   une partition sera d  sign  e  l ensemble de test avec un nombre invariable de documents  De l autre partition  l ensemble  d apprentissage  il est choisi un nombre croissant de documents en faisant en sorte que les  documents choisis dans l   tape pr  c  dente soient compris dans l ensemble d exemples d une    tape post  rieure  De cette fa  on  il est simul   le sc  nario o   l utilisateur qui annote des plus  en plus de documents et les rajoutent au corpus   A chaque   tape on mesure la F mesure du syst  me  ce qui am  ne aux r  sultats suivants      Tab  8  R  sultats en F measure par slots du corpus  Seminars en augmentant le nombre de documents        Slots 10 20 40 60 80 100   stime 0 914 0 949 0 954 0 980 0 982 0 985   etime 0 940
131. orpus Seminars sans  a  et avec  b  POS                      sss 63  R  sultats sur le Corpus Jobs sans  a  et avec  b  POS    63  Compairaisons par slot de F measure avec et sans POS sur le corpus JOBS               64  R  sultats sur le Corpus CFP sans  a  et avec  b  POS    65  Influence du POS sur le Corpus CFP   sans  a  et avec  b  POS    65  Perfomance g  n  ral d extraction de M TIES sur les corpora                        ees 66  L effet de diferents ensembles d attributs utilis  s sur les corpora                               67  Courbe d apprentissage sur le corpus Seminars                     eese 68     Score F Measure des syst  mes par slot sur le corpus CFP    74  Scores de Precision des syst  mes par slot sur le corpus CFP                              sssss 75  Scores de Rappel des syst  mes par slot sur le corpus CFP    76  Comparaisons des mesures de pr  cision  rappel et F measure                        ssesss T11    xvii    xvili    Tab   Tab   Tab   Tab   Tab   Tab   Tab   Tab   Tab   Tab   Tab   Tab   Tab   Tab     Liste de Tableaux    1  R  sum   comparatif de caract  ristiques des syst  mes    37  2  Un extrait du wrapper appris apr  s l application d une transformation XSL               46  3  Nombre d exemples positifs pour les slots  location  speaker  stime  etime                55  4  Nombre d exemples pour chaque entit    slot  du corpus JOBS    56  5  Distribution de fr  quences des slot annot  s  Ireson  amp  Ciravegna  2005                     
132. oubek  amp  Rajman  2000  Paroubek  P   Rajman  M  Etiquetage morpho syntaxique   Pierrel  J M  ed    Ing  nerie des langues  Informatique et systemes d information  ch  5  pages  131 150  Herm  s Science  Paris  2000      Pazienza  1997  Pazienza M  T  Information Extraction  Towards scalable  adaptable  systems  In Lecture Notes in Artificial Intelligence  1997      Peshkin  2003  Peshkin  L   and Pfeffer  A Bayesian information extraction network  In  Proceedings of 18th International Joint Conference on Artificial Intelligence  IJCAI 2003    2003      Pianta et al   2008  Pianta E   Girardi C   Zanoli R  In Proceedings of LREC  6th edition of  the Language Resources and Evaluation Conference  28 30 May   Marrakech  Morocco  2008      QTag  2008   QTag  a portable POS tagger  2008  Disponible     http   morphix   nlp berlios de manual nodel7 html  dernier acc  s en juin 2009          Russel  amp  Norwig  2003  Russell S   Norwig P  Artificial Intelligence  A Modern  Approach Pearson Education  2003      Sahuguet  amp  Azavant  2001  Sahuguet A   Azavant F  Building intelligent web applications  using lightweight wrappers  Data Knowledge Eng  36 3   283 316  2001      Schmid  1994  Schmid H  Probabilistic Part of Speech Tagging Using Decision Trees  In  International Conference on New Methods in Language Processing  pp  44 49     Manchester  UK  1994      SEKT  2006  SEKT project  Semantically Enabled Knowledge Technologies  2006   Disponible      http   www sekt project co
133. oy   par l outil  De  facon analogue    l approche manuelle  mais dans une moindre mesure  lapproche par  sp  cification compte sur l expertise de l utilisateur pour les t  ches d extraction  sans  mentionner que c est lui qui doit   galement faire l analyse des documents     2 4 3 Approche par induction supervis  e d extracteurs    Dans cette approche  l induction d extracteurs  Kushmerick  2000  est effectu  e  automatiquement par un algorithme d apprentissage machine    partir de documents annot  s   aussi appel  s exemples  par l utilisateur  En plus  il est souhaitable de r  aliser l induction  d extracteurs en faisant en sorte que l utilisateur annote le moins nombre possible d exemples    Les algorithmes d induction d extracteurs reposent sur l exploitation des r  gularit  s  morphosyntaxiques et ou structurelles des documents HTML  XHTML et XML  qui  permettent de rep  rer les donn  es    extraire    Les pages obtenus par des moteurs de recherche sur de nombreux sites Web  comme des  sites de e commerce  ont une grande r  gularit   car elles sont construites  la plupart du temps      partir d une base de donn  es  Par cons  quent  d      une grande r  gularit   pr  sente dans ces  pages  les syst  mes d induction supervis  e d extracteurs peuvent exploiter le patron de mise en  page pour l EI  Un avantage de cette approche est qu on peut utiliser n importe quel algorithme  d apprentissage supervis   existant en tant que brique d apprentissage  Ici  l objectif est de  
134. pilation de code source    Le syst  me TIES a   t     crit en langage Java  Le code source de l un de ces packages  celui  responsable pour le pr  traitement  tokenisation et feature extraction  du corpus d entr  e   n   tait pas disponible directement  Ce package se pr  sentait comme un fichier JAR  Un fichier  JAR  Java ARchive  est un ensemble de code source java compil  s en bytecode  et group  s  dans un seul fichier pour distribution  Il a fallu alors  gr  ce    des outils de d  compilations de  bytecode java existants sur le Web  d  compiler ce package afin d acc  der au code source et  faire les modifications pertinentes aux besoins de la nouvelle version du syst  me TIES   D  sormais le code source r  vis   de ce module est disponible pour qu on puisse le changer en  futures versions du syst  me     4 3 5 Sortie de r  sultats en format CSV    Les r  sultats de l apprentissage exprim  s par les mesures de Pr  cision  Rappel et F Measure  sont affich  s par TIES    la fin d une session d apprentissage comme illustr   par la Fig  29   Afin de contr  ler la mise en page de la sortie du syst  me et faciliter l analyse ult  rieure des  r  sultats  on a d  velopp   de nouvelles classes Java qui produisent des fichiers en format CVS   permettant l usage de tableurs  spreadsheet  pour les exploiter          Bytecode est cr     lors de la compilation de code source java par le biais de compilateur javac de  l environnement JDK  Le compilateur javac produit alors un fichier  cl
135. pprentissage et extraction  La phase d apprentissage utilise un ensemble d exemples    tiquet  s pour produire un mod  le de classification capable de remplir les slots    extraire   tandis que la phase d extraction applique ce mod  le appris sur des documents non   tiquet  s  pour en extraire les donn  es  Ces deux phases partagent un m  me pr  traitement de  repr  sentation de documents afin de les segmenter en unit  s sur lesquelles portera la  classification    Cette recherche suit la m  me piste prometteuse de la CS appliqu  e avec succ  s    lEI  dans plusieurs travaux  Freitag  amp  Kushemerick  2000  Marty  amp  Torre  2003   Gilleron et al    2006   Finn  amp  Kushmerick  2004   Giuliano et al   2006   Li et al   2004 b     Dans ce contexte  ce chapitre pr  sent tout d abord la notion de la classification supervis  e  et puis explique comment le probl  me de l EI peut   tre formul   comme un probl  me de  classification supervis  e  Ensuite le syst  me BWI est examin   comme un syst  me de  r  f  rence qui emploie le mod  le de la CS pour induire les hypoth  ses d induction  Diff  rentes  approches et algorithmes utilis  es dans le domaine d EI sont abord  s au travers de la  pr  sentation de quelques syst  mes d EI existants  Ce chapitre se termine en pr  sentant un  tableau de synth  se comparant les caract  ristiques majeures des syst  mes d EI   tudi  s  et en  dressant quelques conclusions     3 1 Mod  le d Apprentissage de la Classification Supervis  e    3 1 1
136. pr  s cette valeur  la performance se stabilise  Les slots conference  homepage  et conference acronym atteignent la Fl measure optimale avec L   5 tandis que la valeur  optimale pour le slot workshop camera ready copy date a   t   L   4  Finalement  il a   t    constat   que  pour la presque moiti   de slots de ce corpus  notamment les slots workshop date   workshop location  workshop home  conference name  workshop date  L   3 donne la F1  measure optimale ou bien tr  s proche d elle    Le chois de corpus CPF pour la r  alisation de ces exp  riences a eu l objectif d   valuer  l influence du param  tre L sur un corpus moins structur    Pour les autres corpora  Seminars et  Jobs    tant donn   qu ils sont plus structur  s  les gains sont marginaux pour une fen  tre plus  large que 3 comme a   t   d  montr   par  Li  2004  et  Freitag  amp  Kushmerick  2000      Corpus CFP    w date   w home   w location  w not   conf name  conf acro  w acro   w came  conf home                   2 3 4 5 6 7 8  Look ahead L    Fig  35    volution de la F measure en fonction du look ahead L sur le corpus CFP     5 3 1 3 Information POS    Les exp  riences men  es dans cette section examinent l influence du tagage POS sur chaque  slot de tous les corpora  On a fix   le nombre d it  rations   100 et look ahead L   3 en suivant  les suggestions de r  sultats ant  rieurs de ce deux param  tres qu on vient d analyser  Il a   t    utilis   la validation crois  e avec k   10 dans les exp  riences men 
137. pr  sent  s ci dessus     3 1 4 Boosted Wrapper Induction    24    Boosted Wrapper Induction  BWT  est un syst  me d   EI  d  velopp   par Daniel Freitag  Freitag   amp  Kushmerick  2000     l Universit   de Pittsburgh  qui induit des extracteurs single slot pour  les documents structur  s et non structur  s  Il a   t   un des premiers syst  mes    se servir de la  classification supervis  e comme algorithme de base pour l apprentissage d extracteurs  Plus  tard  divers travaux notamment  Kauchak et al   2002  Marty  amp  Torre  2004  expliquent les  r  sultats honorables obtenus par le syst  me BWI  plus pr  cis  ment par les algorithmes qu il  met en ceuvre    Dans  Kauchak et al   2002   les auteurs ont analys   comment les composants  algorithmiques du BWI contribuent    son succ  s  Ils ont mis en   vidence que la technique de  boosting  Freund  amp  Schapire  1990  est l   l  ment principal de la r  ussite de BWI  Il a montr    que cela r  side dans la capacit   de l algorithme de faire la repond  ration des exemples afin  d apprendre des r  gles sp  cifiques  conduisant    une pr  cision   lev  e   combin  e avec la  capacit   de continuer l apprentissage des r  gles  m  me apr  s que tous les exemples positifs  aient   t   couverts  conduisant    un rappel   lev       D autre part   Marty  amp  Torre  2004  ont   tudi   l influence du langage de repr  sentation  choisi et de connaissances auxiliaires sur la performance du BWI  De plus  ils ont montr    qu un codage de
138. profiter de l existant en mati  re d algorithme d apprentissage et de faciliter son   volution  future  principalement si l on souhaite avoir un syst  me bien modulaire    L induction d extracteurs supervis  e peut   tre r  alis  e depuis les exemples positifs   donn  es que l utilisateur veut extraire  et les exemples n  gatifs ou contre exemples  donn  es  que l utilisateur ne veut pas extraire      19    2 4 4 Approche par induction non supervis  e    La conception d extracteurs par induction non supervis  e  contrairement    l approche  pr  c  dente  se passe compl  tement de l intervention de l utilisateur  G  n  ralement ces  extracteurs sont reposant sur des techniques d inf  rence grammaticale  Crescenzi et al   2001   ou sur des m  thodes d alignement  de chaines ou d arbres  des documents  Arasu  2003   De  cette facon  l induction non supervis  e produit un extracteur    partir des documents    extraire  en analysant leurs structures et r  gularit  s    Les extracteurs induits par ces syst  mes produisent en sortie des donn  es structur  es sous  la forme d une table avec d   ventuelles imbrications  Cependant les extracteurs non supervis  s  sont moins pr  cis que ceux induits par l approche supervis  e  Zhai  amp  Liu  2005   Mais les  extracteurs non supervis  s ont l avantage  comme l utilisateur n est pas n  cessaire    leur  fonctionnement  de pouvoir   tre int  gr  s    des chaines de traitements automatiques de  documents  RoadRunner  Crescenzi et al   2001
139. ques des syst  mes              Syste Type de Repr  sentation Type Algorithme Faire l usage  Ysreme documents de documents d extraction d apprentissage de TAL  Semi    WIEN structur   Token unaire ee Non   HTML   nemi Transducteurs     SoftMealy structur   Token unaire   tat finis Non   HTML   Semi Embedded Algorithme de  STALKER structur   Catalag n aire couverture Non   HTML   arborescence  ad hoc  Amilcare Te Token unaire moon Om  Libre      LazyNLP   s  quentiel  Classification  SIE Texte libre Token unaire Supervis  e Non   SVM   Texte   Classification    TIES libre Token unaire supervis  e Non   Adaboost        Ce tableau montre que la plupart de ces syst  mes   tudi  s adoptent une repr  sentation de  document    base de tokens  sauf STALKER   Except   STALKER  ces syst  mes font de  l extraction unaire  single slot   Ils mettent en ceuvre diff  rents algorithmes d apprentissage  pour traiter des textes semi structur  s  voire libre pour certains de ces syst  mes  SI  TIES   Amilcare      3 3 Conclusion    Dans ce chapitre  tout d abord il a   t     tudi   la classification supervis  e sur laquelle repose la  plupart des techniques d EI par induction supervis  e d extracteurs  Ainsi un extracteur a   t    d  fini comme un processus de classification o   le probl  me d induction d extracteurs se  ram  ne alors    un probl  me d apprentissage de classification supervis  e          TIES accepte des textes libres    condition qu ils soient constitu  s comme documents XHTML
140. r  Ce scenario plus avantageux du point de vue de  l utilisateur n existe plus car le module extracteur Amilcare  une mise en   uvre de  l algorithme LP   n est plus disponible    cause des droits r  serv  s de son cr  ateur    Ainsi  nous pourrions essayer de rajouter au MnM un algorithme d apprentissage  supervis    SVM ou C4 5   par exemple  pour remplacer ce module manquant     6 3 Perspectives relatives    l architecture Master Web AGA THE    En outre les perspectives pr  sent  es dans la section pr  c  dente  un autre travail envisag   dans  cette recherche repose sur l hypoth  se d utiliser le potentiel d induction d extracteurs  avec  tous les avantages d  j   list  s  dans le contexte d une extraction d information int  gr  e   plus  pr  cise et fine   afin d augmenter la performance du sous syst  me d extraction de  l architecture MasterWeb AGATHE  section 1 1     Dans les syst  mes MasterWeb AGATHE  les ontologies peuvent r  unir et combiner  sous  un m  me environnement  les trois types de connaissances n  cessaires    l extraction  d information   1  la connaissance destin  e    l identification des structures syntaxiques et  s  mantiques du texte  avec l aide du tagage POS    2  la connaissance pour identifier les  diff  rents formats de textes trait  s sans utiliser de techniques TAL   comme les wrappers  par  exemple  et enfin  3  la connaissance pour r  aliser les inf  rences avec un engagement  ontologique  c est    dire  en employant les faits connus sur le
141. r  l interrogation directe des donn  es  Malgr   tout  un texte en langage naturel poss  de une  structure dite grammaticale  que l on peut exhiber    l aide de techniques TAL    Les conf  rences MUC  Hirschman  1998  se sont focalis  es sur la compr  hension de  textes en langue naturelle  Cette t  che d extraction d information est faisable    l aide de  techniques de TAL  Les figures suivantes  Fig  3 et 4  pr  sentent  respectivement  l un des  textes consid  r  s par MUC 4 et les informations    extraire de ce m  me texte  Les  informations extraites sont structur  es sous la forme d un enregistrement avec plusieurs  champs    Les t  ches consid  r  es dans les conf  rences MUC sont l extraction depuis de r  cits  d attentats en Am  rique du Sud d informations comme la date  le lieu et le type d attentat ou  encore le nom et le type de l organisation revendiquant l attentat     LIMA  23 AUG 88  EFE     TEXT  TODAY PERUVIAN MILITARY OFFICIALS  ESTABLISHED A CURFEW IN TINGO MARIA BECAUSE OF THE STRIKE BY  PEASANTSAND COCA GROWERS TO PROTEST THE DESTRUCTION OF THEIR COCA  FIELDS    SINCE 20 AUGUST THE STRIKERS HAVE BEEN BLOCKING THE ROAD LINKING  HUANUCO WITH TINGO MARIA  HUANUCO DEPARTMENT  IN THE NORTHERN JUNGLE  WHERE THERE IS DRUG TRAFFIC ACTIVITY    THE STRIKERS ALSO BLOCKED THE MARGINAL DE LA SELVA HIGHWAY   ISOLATING TOCACHE  UCHIZA  JUANJUI  AND AUCAYACU  WHICH ARE WELL KNOWN  CENTERS FOR DRUG TRAFFICKING    THE STRIKE IS SUPPORTED BY THE SHINING PATH  ACCORDING TO 
142. r  quemment   parpill  es dans de diff  rents sites  sous de  divers formats de pr  sentation et donc  il serait tr  s souhaitable si ces informations puissent    tre extraites et int  gr  es de mani  re structur  e    Dans notre recherche  nous consid  rons que l  EI consiste    produire automatiquement des  informations structur  es    partir d un ensemble de documents  La t  che d EI sera r  alis  e par    7    des programmes nomm  s extracteurs  wrappers  que l on peut d  finir comme une fonction de  l espace des documents d entr  e vers l ensemble des structures de sortie     Template    Email Author 1    Email Author 2       Information  Document Extraction  System         An Architecture for  Knowledge Intensive CBR Systems                 Bel  m D  az and Pedro Calero Template  filling  Dep  Sistemas Inform  ticos y  Programaci  n    Universidad Complutense de  Madri  Spain         Pedro Calero  pedro sip ucm es     belen  pedro  sip ucm es Output    belen sip ucm es    Fig  2  Exemple d extraction d information   auteurs et emails  adapt   de  Cabral  2004      Dans ce chapitre nous abordons tout d abord l   EI    partir de documents non structur  s et  semi structur  s  gr  ce au Traitement Automatique de la Langue  TAL  et    la conception  d extracteurs  Puis nous examinons les diff  rents types de t  ches d extraction selon la  repr  sentation de documents et    la nature de sortie d extracteurs retenues  Ensuite  nous  pr  sentons une m  thodologie pour   valuer
143. r le test  On a fix   le  param  tre L  3 et le nombre d it  rations en 100    Comme le montrent les r  sultats de la Tab  7  les attributs concernant les informations de  tokenkind  cat  gorie de tokens  ont   t   utiles pour am  liorer le score du syst  me d environ  3  pour les corpus Seminars et Jobs par rapport    l information simple du mot  La Fig  42  montre aussi que  quand on consid  re seulement le corpus CFP  l information POS a   t    encore plus utile avec un   cart de performance de plus de 5  par rapport    la simple  information du token  Ces r  sultats sont explicables en raison de la nature moins structur  e du  corpus CFP et  cons  quemment  l avantage d avoir des patrons linguistiques fournis par le  l   tiquetage POS  Par contre  le corpus JOBS a obtenu le gain plus faible parmi les corpora     Tab  7  Influence de diff  rentes features sur le corpora r  sultats exprim  s  en F Measure  micro      Features Word d iid Ein de re    POS  Seminars 0 933 0 938 0 963 0 967  Jobs 0 822 0 832 0 853 0 853  CPF 0 656 0 670 0 696 0 712       66    Features Influence on Corpora       1 00                      0 95 NET Lu ee  0 90  0 85 os as oO    O  On EO Qu  iL 0 80  0 75  Dm v  0 70 copi wem  MeL   SIUS    e     Seminars  0654 Y O  Jobs     w    CFP  0 60 T T T T  W WC WCT WCT4POS  Features    Fig  42  L effet de diff  rents ensembles d attributs utilis  s sur les corpora     5 3 3 Courbe d apprentissage    La Tab  8 et la Fig  43 montrent  respectivement  les sc
144. r r  duire le nombre d instance n  gatives en supprimant jusqu    5096 des  instances    fin d all  ger le d  s  quilibre entre les classes et acc  l  rer le traitement  Une fen  tre  de 10 tokens  un contexte gauche droite de 20 tokens au total  a   t   utilis  e pour ces deux  syst  mes  En revanche  Amilcare et M TIES on utilis   une fen  tre de 5 et 3  respectivement    En consid  rant les attributs utilis  s  Yaoyong et SIE ont utilis   tous les attributs  disponibles  sauf l information POS  Par contre  M TIES se sert d informations sur word   token   capitalisation  token types  abr  viation  alpha num  rique  symboles  ponctuation    entit  s  date et l heure seulement  et taggage POS  Almicare utilise tous les attributs du  GATE    La Fig  44 r  sume les r  sultats de la Tab  13 en montrant la performance  en F measure   par slot des syst  mes Amilcare  LP   Yaoyong et SIE     Tab  13  Performance des syst  mes sur le corpus CFP par slot en termes de  PRE   Pr  cision  RAP   Rappel et FME     F measure      i WORKSHOP CONFERENCE  Systeme Sen  name  acto   ato  nome   loco ape   not  camo name are  home    Amilcare   LP      SIE    M TIES                                  Corpus CFP       1 0   0 8   0 6 Bl Amilcare   i  7  Yaoyong     EM SIE  LL C  M TIES   0 4   0 2   0 0    w nam w acro w dat w hom w loc w pap w not w cam c nam c acro c hom    Slots    Fig  44  Score F Measure des syst  mes par slot sur le corpus CFP     Tous les syst  mes ont pr  sent   une grande 
145. racteurs est vue comme un probl  me de Classification  Supervis  e  CS   Il pr  sente    la fois les techniques de CS utilis  es dans ce projet et quelques  syst  mes d induction d extracteurs qui utilisent des techniques semblables en se limitant au  cas de l extraction unaire sur les documents non structur  s avec prise en compte ou non de la  syntaxe de la langue naturelle  De l   tude de ces syst  mes existants pour cette t  che  sp  cifique  il est d  gag   une architecture logicielle et une d  marche g  n  riques adapt  es au  probl  me d extraction d information trait   comme un probl  me de classification    Le chapitre 4 d  crit la principale contribution de cette recherche qui est la proposition  d   un syst  me d EI reposant sur l induction d extracteurs supervis   pour l   EI    partir de pages  Web  L architecture logicielle de ce syst  me est pr  sent  e ainsi que les diff  rents modules  sp  cialis  s qui la compose  dont le module central TIES  TIES     Trainable Information  Extraction System  d  velopp   par IRST de Trento  met en ceuvre l algorithme d apprentissage  BWI  Freitag  amp  Kushemerick  2000  et qui a   t   modifi   pour la prise en compte du  traitement du langage naturel  annotation morphosyntaxique     Le chapitre 5 pr  sente les corpora utilis  s pour   valuer notre architecture logicielle d  EI   Il s agit de trois corpora de niveaux de structuration diff  rents   le premier corpus est  structur    le deuxi  me est semi structur    et le der
146. raction d un champ d information est r  alis  e en rep  rant ses d  limiteurs gauche et  droit  Un d  limiteur est une s  quence de caract  res qui se trouve soit avant la donn  e     extraire  dans ce cas  on parle de d  limiteur gauche et on le note     soit apr  s elle  il s agit  alors d un d  limiteur droit  not   r  Ainsi  une donn  e    extraire  composante  est repr  sent  e  par ses indicateurs de d  but b et de fin e dans la s  quence de caract  res du document    On trouve dans WIEN 6 classes d extracteurs    base de d  limiteurs o   la plus simple  d entre elles est la classe LR  Les extracteurs de la classe LR exigent alors que tous les  d  limiteurs indiquent correctement les limites    gauche et    droite des segments    extraire   Les autres 5 classes d extracteurs sont   HLRT  OCLR  HOCLRT  NLR et NHLRT  Nous  renvoyons le lecteur     Kushmerick  1997  afin de connaitre en d  tail ces autres classes  d extracteurs    Un exemple d un extracteur d  fini dans le WIEN est illustr   par la Fig  17  On veut  extraire    Country    et    Area Code    de deux pages HTML   D1 et D2     D1   lt B gt Congo lt  B gt   lt I gt 242 lt  I gt  lt BR gt     D2   lt B gt Egypt lt  B gt   lt I gt 20 lt  I gt  lt BR gt     Rule      B        amp  B                 amp  I      Output  Country Code  Country   1    AreaCode 22     Fig  17  Exemple d induction d extracteurs et extraction dans WIEN     La r  gle de la Fig  17 a la signification suivante   ignorer tous les caract  res
147. risent par exemple  simplement des caract  res individuellement consid  r  s  ou une s  quence de caract  res d  finie  par un crit  re syntaxique  par exemple une expression r  guli  re qui puisse exprimer des dates   des emails  des chiffres  etc  Pour l aspect s  mantique  des tokens caract  risent des unit  s  s  mantiques plus complexes  par exemple  les mots d  finis    l aide de dictionnaires ou  d outils de traitement du langage naturel  lemmatiseur  identificateur d entit  s nomm  es     Dans un document  un token repr  sente soit une balise ouvrante fermante  soit toute autre  s  quence de caract  res comprise entre deux caract  res blancs  espace  tabulation  retour  chariot      2 3 1 2 Repr  sentation par un arbre    L imbrication de balises  comme celles pr  sent  es dans les Fig  8 et 9  d  finissent  naturellement une structure arborescente intrins  que aux documents XHTML XML  En fait   chaque paire de balises ouvrante fermante peut d  finir n sous arbres dont la racine aura  comme label  le non de la balise en question  D autre part  les portions de textes qui ne sont  pas de balises  sont les feuilles de l arbre  Les donn  es se sont trouv  es dans les feuilles textes  tandis que l organisation de n  uds internes d  termine la structure des donn  es       html     body      b   Book Name    b   Data Mining    b   Reviews  lt  b gt     ol      li      b   Reviewer Name  lt  b gt  Jeff    b   Rating  lt  b gt  2    b   Text  lt  b gt        lt  li gt    lt li
148. riture de r  gles symboliques pour des t  ches d extraction reste tr  s difficile  et fastidieuse  m  me si on utilise ces outils pour les   crire  Une autre limitation est que les  architectures des syst  mes MasterWEB AGATHE ne sont pas munies de techniques de  traitement du langage naturel    Par cons  quent  en outre les objectifs et contributions majeurs d  j   mentionn  s  il est  envisag   d int  grer  dans le syst  me MasterWeb AGATHE  de techniques symboliques d EI  reposant sur l apprentissage artificiel  machine learning   Plus pr  cis  ment  il est attendu une  am  lioration des performances du sous syst  me d extraction de ces architectures en les dotant  des techniques d induction automatique d extracteurs d information et de Traitement de  Langage Naturel  TAL      1 2 Structure du m  moire    Apr  s ce chapitre introductif  le chapitre 2 donne un aper  u de la t  che d extraction  d information    partir de diff  rents types de documents Web  en expliquant notamment  comment repr  senter ces documents pour en extraire  par programme  de l information en  tenant compte ou non de traitement de la langue naturelle  Ensuite  diff  rents approches pour  la conception d extracteurs et une m  thodologie traditionnelle d   valuation de ces types de  syst  mes par trois mesures classiques d   valuation de performance sont pr  sent  es    Le chapitre 3 discute sur les fondements de l approche d extraction d information retenue  par cette recherche  o   l induction d ext
149. rpora choisis se oie iii ee UE EAE XXE UN ER RINT SR EH URS A ins Ee ANM gen PUR pores 53  Sl  uxnnotalonude documents oce ate nine ote pied alas 53  SL Corpus  SEMINARS esos Gn top Dora dada alo nie e ans aam 54   5 1 2 1      Deseriptiom du corpus  ocn e e ect doe a uto ada dpa tn 54  5 1 2 2 D  finition du Template d extraction                     eene 55  5 1 2 3 Exemples de sorties      extractions          sssssseesssssseseseeesseeesstessressersseessseeessees 55  541 3    Corpus JOBS siemens 55  13d Desenphon dU CORPUS eeren a noir teens st 55  5 1 3 2 D  finition du Template d   extraction                                                     56  5 1 4 Corpus CFP  CALL FOR PAPERS    Pascal Challenge 2005                         57  5 L4 1 Description du Corpus    eere t tete eret nena tare Pao eeu UU obesa PN UNE Gs 57  5 1 4 2 D  finition du template d extraction                                            57  5 1 5 Comparaison et sp  cificit  s des Corpora                    sse 58   2 2  vProtocole Experimental esse peo tales us sane te eue 58  5 2 1  Preparations des CORDOLO ES nan RAR Mec RS A n MUN 58  5 2 2    M  thodes d evaludtiOH Len mon st nee Dol oes nn UE SS a ca 59   Macroaverage et Microaverage a sainiinimniaialisnalnuninntneainsss 59   Deo JMERDERCACES O mnt rene E ni ane ans Re ac intra en 60   5 3 1 Influence des Param  tres de l   algorithme BWI et information POS                   60  5 3 1 1 Nombre d   it  rations de boosting   Corpus JOBS    60  5 3 
150. rs les 6  tokens entourant le d  but d un champ    extraire  Ce raisonnement est analogue pour un  d  tecteur de fin       ce point dans l algorithme AdaBoost  tous les motifs possibles    gauche et    droite sont    num  r  s  et celui qui am  liore le plus les performances de la classification de l hypoth  se est  conserv    Ce processus it  re tant qu il soit possible d am  liorer l hypoth  se courante  Ensuite   les classificateurs appris sont combin  s par vote pond  r    Les poids d un classificateur est  d  termin   par l exactitude de son ensemble d apprentissage pond  r    Finalement  BWI renvoie  deux ensembles de classificateurs  d  tecteurs  appris apr  s ces it  rations  appel  s fore  detector  F  et aft detector  A  ainsi qu un histogramme H de la longueur  en nombre de  tokens  du champ cible     procedure Learn Detector example set Y   prefix pattern p    O   suffix pattern s       loop  prefix pattern p    BestPreExt  p  s    Y   suffix pattern d E BestSufExt  p  s    Y   if score  p   s    gt  score  p  s     if score  p   s    gt  score  p  s    p   the last  p   1 tokens of p   else return detector  p  s   else  if score  p  s     gt  score  p  s    s   the first  s    1 tokens of s   else return detector  p  s     Fig  15  L apprenant faible LearnDetector de BWI  Freitag  amp  Kushmerick  2000      24    3 1 4 4 Algorithme d extraction   La phase d extraction de BWI est constitu  e de trois   tapes   1  la classification de  s  parateurs d  but  c4    2 
151. s     Le syst  me AGATHE  Le sous syst  me d extraction         Le sous       A Le sous     teweb  lt  gt  syst  mede systeme       gt      y recherche d utilisation                 EI       Fig  1  L architecture g  n  rique d AGATHE     Cette architecture logicielle tire profit du g  nie logiciel orient   agents afin d assurer  flexibilit   et r  utilisabilit    Le point de d  part de cette architecture est un prototype d  j    r  alis    le syst  me MASTER Web  Multi Agent System for Extraction and Retrieval over the  Web   Freitas et al   2000  2001  2003   Ce dernier propose un agent logiciel unique qui  utilise des ontologies pour r  aliser des t  ches de classification et d EI sur le Web  ceci sur un  seul domaine de recherche     Un des probl  mes auxquels les architectures de MasterWeb AGATHE    d   faire face  dans le d  veloppement de syst  mes de collecte d informations sur des domaines restreints  est  celui du probl  me classique de la sp  cification  de l   criture et de la mise    jours des base de  r  gles  en particulier  dans l   tape d extraction d information  Par cons  quent  afin de faciliter  l   laboration de telles r  gles en Jess     un   diteur intelligent qui aide l utilisateur    r  diger des  r  gles en langage Jess a   t   d  velopp    Cet   diteur respect la syntaxe sp  cifique de ces r  gles  et permet de se r  f  rer facilement    un   l  ment de l ontologie pr  sent dans une r  gle  par une  op  ration de glisser d  poser    Cependant l   c
152. s entit  s extraites    Suite    cette recherche  il est envisag   de combiner la t  che symbolique du syst  me  MasterWeb AGATHE qui r  alise actuellement une classification des pages Web    base  d ontologies  avec une t  che d extraction d information adaptative  permettant d extraire de  l information sur ces pages Web class  es  ceci par l usage de techniques d apprentissage  artificiel  machine learning  utilis  es dans M TIES avec l algorithme BWI    Cette combinaison de techniques symboliques et de techniques d apprentissage artificiel  devrait permettre d une part une am  lioration significative de la performance de ces  architectures en les dotant de techniques d induction automatique d extracteurs d information  et de techniques TAL   et  d autre part  de faciliter la mise en ceuvre de ces architectures sur  de nouveaux domaines du Web  en   vitant le d  veloppement fastidieux de bases de r  gles  symboliques d extraction d information     81    REFERENCES     Adda et al   1999  Adda G  M   Paroubek J   Leconte J  Metrique et premier r  sultats de  l   valution GRACE des   tiqueteurs morphosyntaxiques pour le fran  ais  Amsili  P   ed     Actes de TALN 99  pages 15 24  1999      Abiteboul  1997  Abiteboul S  Querying semistructured data  In ICDT  pages 1 18  1997      Aldea et al   2003  Aldea A   Bafiares Alc  ntara R   Bocio J   Gramajo  D   Isern D   Kokssis  A   Jim  nez L  Moreno A   Riafio D  An Ontology Based Knowledge Management Plataform   In CAI IIWEb 03 
153. s par mot cl  s se montrent inefficaces quand l utilisateur veut trouver des  informations pr  cises sur le Web  Ces techniques sont inefficaces car elles ram  nent souvent  une grande quantit   de document inutiles ou  dans le pire des cas  des documents pertinents ne  sont m  mes pas trouv  s  Aldea et al   2003     L extraction d informations dans ces documents ramen  s est r  alis  e actuellement  essentiellement par des humains  Il a   t   d  j   argument   que des techniques autour du format  XML et ses variantes  Bray et al  2008  ne seraient pas suffisantes pour accro  tre l efficacit    des moteurs de recherche existants sur Web  Espinasse et al   2007   Ainsi  bien que XML  puisse   tre utilis   dans la structuration de l information s  mantique des informations  il y a  toujours l h  ritage de t  raoctets de documents qui ne seront probablement pas convertis    ce  format   Kushmerick  amp  Thomas  2003  affirme que c est impossible de d  terminer un  sch  ma d annotation parfait qui int  gre diff  rentes sources d informations et qui fonctionne  correctement pour une grande vari  t   d applications  Ces probl  mes alors ont stimul   la  recherche de solutions qui donneraient    l Internet le m  me pouvoir de consultation    des  donn  es structur  es trouv  es dans des bases de donn  es actuelles    Dans ce contexte  l Extraction d Information  EI  consiste d un moyen d obtenir et  d int  grer les donn  es contenues dans une collection de documents d un m  me doma
154. s semi structur  s    Les donn  es du Web ne sont pas structur  es comme celles de bases de donn  es  Abiteboul   1997  Florescu et al   1998   Les pages Web sont en g  n  ral des documents semi structur  s   comme les documents HTML XHTML  Ces documents sont d  crits par les noms de balises  qui sont charg  es d un certain niveau de s  mantique et de mise en forme  Cette caract  ristique  rend les documents semi structur  s compr  hensibles par un humain    Le langage HTML est le langage de mise en forme de pages Web    l aide de paires de  balises de mise en forme  Chaque paire est constitu  e d une balise ouvrante  suite de  caract  res d  limit  s par les symboles    et  gt   et d une balise fermante  suite de caract  res  d  limit  s par les symboles     et     Tel langage permet la conception de documents plus  riches que du texte plat  en d  crivant    la fois la structure du document  son contenu et sa  pr  sentation  Par exemple  dans le document HTML de la Fig  5  la balise H1 indique un titre  et la balise P d  limite un paragraphe de texte    Les pages Web sont produites manuellement ou automatiquement par programme  Dans  ce cas elles int  grent souvent des informations provenant d une base de donn  es  par exemple  les pages de r  sultats d un moteur de recherche ou les pages d un site e commerce  Par    11    extension  on peut voir l EI comme la transformation inverse  mais inconnue  de celle qui ont  produit les pages en question       html      lt head gt   
155. ses XML permettent d identifier les instances  d entit  s qui proviennent d un ensemble d   l  ments d  finis par l utilisateur  Le syst  me TIES  fournit un ensemble d interfaces et de classes pour l apprentissage  le test et l application d un  mod  le d extraction aussi bien sur des textes libres que des textes fortement structur  s  Il  incorpore l algorithme BWI pour l apprentissage  L impl  mentation de TIES par d  faut  emploie seulement des attributs orthographiques mais des attributs plus complexes  par  exemple  des attributs morphosyntaxiques  peuvent   tre ajout  s pour am  liorer les  performances en utilisant un pr  processeur personnalis    Un des objectifs de cette recherche  sera d int  grer un module traitant l   tiquetage morphosyntaxique  POS tagging  int  gr  e dans  l architecture originale du TIES    Cette section montre comment la mise en   uvre de l algorithme BWI par TIES  s applique dans le cadre de notre recherche  En effet  il est examin   en d  tail comment utiliser  TIES pour g  n  rer des r  gles d extraction    partir d un corpora donn    Dans un premier  temps  l architecture originale de TIES est pr  sent  e  en pr  cisant comment les documents  sont y repr  sent  s  La proc  dure    suivre pour mettre en marche le syst  me    l aide de fichiers  de configuration est ensuite expliqu  e  ainsi que des r  gles induites et leurs correspondantes  informations extraites     4 2 1 Description d  taill  e du syst  me TIES  version originale    L ar
156. sistematicamente avaliar os  efeitos que esses   ltimos t  m no desempenho do algoritmo de aprendizado  Os  resultados obtidos experimentalmente mostraram que o desempenho geral do  sistema proposto    compar  vel a outros sistemas de EI do estado da arte     Palavras chave  Extra    o de Informa    o  Indu    o de Wrappers  Boosting   Classifia    o Supervisionada  POS Tagging  Aprendizagem de M  quina     IX    R  sum      Extraction d Information  EI  comprend des techniques et algorithmes r  alisant  deux t  ches importantes  l identification des informations d  sir  es  pertinentes     partir de documents structur  s ou non structur  s  et le stockage de ces  informations sous une forme appropri  e visant l usage future  Ce pr  sent travail se  concentre sur les syst  mes d EI adaptatifs qui peuvent   tre appliqu  s sur de  nouveaux domaines par l apprentissage artificiel  machine learning  en utilisant  une collection de documents en entr  e  En particulier  des techniques d induction  automatique d extracteurs sont examin  es pour l extraction d information qui  repose sur l exploitation de r  gularit  s structurales pr  sentes dans ces documents   Wrappers  extracteurs  sont d  finis comme des proc  dures pour l extraction  d informations d un document quelconque  L induction d extracteurs est une  technique qui utilise des algorithmes d apprentissage automatique pour la  conception d extracteurs    partir d un corpus pr  alablement annot    et qui donne  de bons r  s
157. sity of Science and Technology  2002      Zhai  amp  Liu  2005  Zhai Y   Liu B  Extracting web data usning instance based learning  In  Proceedings of Web Information Systems Engineering WISE  pages 318 331  2005     88    Appendice A   L  gendes d   tiquettes POS du QTAG  en anglais              Tag Meaning Tag Meaning  222 no tag assigned NNS noun  plural  is simple double quote NP proper noun  singular    pound sign NPS proper noun  plural    dollar sign PDT predeterminer  i right single quote POS possessive ending  left single quote PP personal pronoun    left parenthesis  round  square  curly or angle    PP  possessive pronoun    right parenthesis  round  square  curly or angle  RB adverb    comma RBR adverb  comparative  sentence final punctuation RBS adverb  superlative  i mid sentence punctuation RP particle  BE be SYM symbol  BED were TO infinitive marker  to   BEDZ was UH interjection  BEG being VB verb  base form  BEM am VBD verb  past tense  BEN been VBG verb  gerund or present participle  BER are VBN verb  past participle  BEZ is VBP  verb  non 3rd person singular present  CC coordinating conjunction VBZ verb  3rd person singular present  CD cardinal number WDT wh determiner  DO do WP wh pronoun  DOD did WP  possessive wh pronoun  DOG doing WRB wh adverb  DON done XNOT not and n t  DOZ does  DT determiner  EX existential    there     FW foreign word  HV have  HVD had  past tense   HVG having  HVN had  past participle   HVZ has  IN preposition or subordinating con
158. t  50 50    10 fois type  lemma et POS 5  Rapier Random split  50 50    10 fois Word  POS et wordnet    Word  capitalisation  lemma   SIE 2 fold cross validation   5 fois alpha numerique et 10  ponctuation  M TIES Random split  50 50    10 fois Word  capitalisation et POS 3       Tab  10  R  sum   de configuration des syst  mes   valu  s sur le corpus JOBS     Syst  me M  thode d   valuation Attributs utilis  s W   LP  Random split  50 50      10 fois Word  capitalisation et POS 5  Word  capitalisation  token  GATE SVM   Random split  50 50    10 fois type  lemma et POS  NERet 3  gazeteer  Rapier 10 fold cross validation Word  POS et wordnet    M TIES Random split  50 50    10 fois Word  capitalisation et POS 3       70    R  sultats comparatifs sur les corpora Seminars et Jobs    Les tables 11 et 12 pr  sentent les performances des syst  mes en termes de F measure sur le  corpora Seminars et Jobs  respectivement  Les meilleurs r  sultats  F measure  pour chaque  slot sont en gras  Pour les performances des syst  mes SIE  GATE SVM   LP   et Rapier  on  s appuie sur les r  sultats donn  s dans  Giuliano et al   2006  Li et al   2004a  Ciravegna   2003b      Tab  11  Perfomances par slot de 5 syst  mes sur le corpus Seminars        speaker location stime etime Peas T   SIE         86 6  GATE SVM 69 0 81 3 948 92 7 86 2   LP   77 6 75 0 99 0 95 5 86 0  Rapier 53 0 72 7 93 4 96 2 77 3  M TIES 86 2 88 8 93 9 96 7 91 4    Tab  12  Perfomances par slot de 4 syst  mes sur le corpus J
159. t  celles pour l it  ration de listes pour les n  uds non feuille  Les bases de ces r  gles d extraction  sont les commandes SkipTo et SkipUntil qui d  finit la transition de l automate d un   tat A     l   tat B    partir de la localisation d un landmark    A  gt  B  Un landmark est une s  quence de  tokens et ou classes s  mantiques dans un document  Parmi les classes s  mantiques qui sont  pr  d  finies par le syst  me  on peut citer des classes  num  rique  alphanum  rique   alphab  tique  en majuscules   des balises HTML  ponctuation  etc    ou celles d  finies par  l utilisateur lui m  me  telles que nom  email  num  ro de t  l  phone  etc  La r  gle suivante   illustr   par la Fig  18  sert    localiser un d  limiteur gauche du slot   r  sum     en HTML        SkipTo    Abstract     SkipTo     lt  b gt            Fig  18  Exemple d une r  gle par conjonction  Cabral  2004      Cet exemple est constitu   par la combinaison de deux SkipTo commandes  La premi  re  commande ira ignorer tous les caract  res    l int  rieur d un n  ud parent  jusqu    ce qu elle  trouve le token    Abstract    en s arr  tant au prochain token  De ce point  la seconde  commande SkipTo va effectuer la m  me proc  dure pour trouver     b     Dans le cas de r  gles  pour des d  limiteurs du c  t   droit  l id  e continue la m  me  en se modifiant seulement l ordre  qui tokens seraient cherch  s  c est    dire  de droite    gauche    l int  rieur d un n  ud parent    Dans le cas de l it  ration d
160. t un programme capable d extraire des informations    partir d un ensemble  de documents  corpus   Ainsi  l induction d extracteurs utilisent des algorithmes  d apprentissage machine pour la g  n  ration de r  gles d extraction    partir d un ensemble de    documents pr  alablement   tiquet  s annot  s    une   tape d apprentissage  au lieu d   tre  apprises manuellement par un ing  nieur de la connaissance  Kushmerick  1997  2000     Un des pionniers dans l   tude et le d  veloppement de techniques d induction d extracteurs  est le Prof  Daniel Freitag qui  en 2000  a con  u un syst  me d EI adaptatif reposant sur la  classification  supervis  e comme technique de base pour l induction d extracteurs  Sa  technique d induction d extracteurs  aussi appel   Boosted Wrapper Induction  BWI   Freitag   amp  Kushmerick  2000  induisait des extracteurs d information destin  es      tre appliqu  s sur  des documents semi structur  s comme XML et des pages HTML o   leur syst  me de balises  internes leur rend un certain d  gr  e de structuration    Plus tard  divers travaux notamment  Kauchak et al   2002  et  Marty  amp  Torre  2004   expliquent les bons r  sultats obtenus par le syst  me BWI  plus pr  cis  ment par les  algorithmes qu il met en   uvre  Cependant  dans le premier travail  les auteurs ont analys    comment les composants algorithmiques du BWI contribuaient    son succ  s  Ils ont mis en    vidence que la technique de boosting  Freund  amp  Schapire  1990  est l   l  m
161. tagging      4 1 Architecture g  n  rale d   un syst  me d   EI adaptatif    L architecture classique d un syst  me d EI adaptatif par l induction supervis  e d extracteurs  est illustr  e par la Fig  23  C est une architecture modulaire en pipeline qui comporte un  pr  traitement  linguistique   les   tapes d apprentissage et d application et  pendant l   tape  d application  un post traitement s  mantique comme les trois modules les plus importants   Fig  23   Un corpus de documents comprenant les textes du domaine d application et une  structure cible  template  qui d  finit les informations pertinentes    extraire constituent l entr  e  minimale pour un syst  me d IE     4 1 1 Pr  traitement des textes d entr  e    Un corpus est souvent constitu   de textes non structur  es  en langage naturel  Une grande  partie des informations pertinentes peut   tre caract  ris  e par une certaine r  gularit   trouv  e  dans les propri  t  s linguistiques des textes  Par cons  quent  l analyse linguistique peut donner  des suggestions utiles et d  terminer des attributs importants pour identifier le contenu  pertinent  Les composants linguistiques suivants se sont r  v  l  e utiles pour EI  tokenisation     tiquetage morphosyntaxique  POS tagging   reconnaissance des entit  s nomm  es  NER    segmentation en phrases  Sentence Spliting   reconnaissance de structures de phrases  grammaticaux  Chunking   et enfin r  solution d anaphores  Coreference Resolution      4 1 2 Apprentissage et 
162. tifs    des domaines sp  cifiques  par exemple la recherche acad  mique  le tourisme          L objectif de l architecture AGATHE est de permettre le d  veloppement de syst  mes de  collecte d information sur le Web sur des domaines restreints pouvant   tre progressivement    tendus  Pour le d  veloppement d AGATHE  le domaine restreint de recherche de d  part est  celui de la recherche acad  mique  plus pr  cis  ment la tenue d   v  nements scientifiques   conf  rences ou workshops internationaux     L architecture modulaire g  n  rale du syst  me est illustr  e par la Fig  1  Trois sous   syst  mes en interaction r  alisent les diff  rentes t  ches       Le Sous syst  me de Recherche  SSR    Il est responsable de l interrogation des moteurs  de recherche externes sur le web  comme Google   Il envoie les pages r  cup  r  es vers le  sous syst  me d extraction qui va en extraire les informations pertinentes      Le Sous syst  me d Extraction  SSE    Il consiste en plusieurs clusters d extraction  sp  cialis  s dans les diff  rents domaines  Chaque cluster r  alise la validation des pages web   leur classification et l extraction d informations    partir de ces pages en fonction d un  domaine sp  cifique  la recherche acad  mique  le tourisme  etc        Le Sous syst  me d Utilisation  SSU    Il stock les informations extraites envoy  es par le  sous syst  me d extraction  et fournit une interface permettant aux utilisateurs d ex  cuter les  requ  tes sur les donn  es stock  e
163. tor Settings Actions Help    4     QSearch  On Oln p              o   example ontology   KB   example ont    2     fi e   e   E visiting a place or people i                      Location  fileCAProgram FilesiMnM2wArchiveiDavidBrown html                   i   University for Industry visits       John Domingue  Relation  visitor   15 10 97                         Documentation  Relation visitor    mat  ws lis 1   University for Industry Design and Implementation Advisory Group  Namespace  2 b x   file AKTProject Ontologies example ontol    and Chairman of Motorola  visited  ogy rdff   2    Domains    as part of a fact    visiting a place or people      finding exercise  prior to drafting his initial 100 Days Report to HM    Ranges      Government  David was accompanied b  person     O OO      Ready      the Chairman of the                         Fig  288  Fen  tre principale de l outil d annotation MnM     4 3 1 2 Module de Nettoyage de pages HTML   HTMLCleaner      tant donn   que TIES exige des pages XHTM XML bien form  s et que l on a constat   des  probl  mes avec les pages Web dans les corpora choisis pour les exp  rimentations  on s est  servir de l outil de nettoyage et transformations de pages HTMLCleaner  Girardi  2007  pour    49    les r  soudre  La Fig  27 illustre que cet outil est appliqu   sur les documents d entr  e avant  toute chose    HtmlCleaner est un outil qui sert    nettoyer automatiquement des fichiers en  HTML XHTML  Il enl  ve des balises et des part
164. ue ce ne soit pas toujours le cas    Les documents en langage naturel du corpus CPF contiennent peu de structuration de  mise en forme  Les principales raisons du choix de ce corpus sont d      la connaissance du  domaine et parce qu il offre une gamme raisonnable de difficult    Une autre caract  ristique  souhaitable de ce corpus  c est que leurs documents ont un certain degr   de mise en forme  semi structur    Par cons  quent  les algorithmes d apprentissage devraient exploiter telle  r  gularit    En outre  il existe certaines diff  rences entre les types d annotation du corpus  Les  dates importantes du CPF  paper submission date  notification date et camera ready copy  date  sont g  n  ralement bien prescrites par les textes qui les entourent  tandis que les noms de  workshop et conference sont plus d  finis par leurs positions dans le document et ils ont une  longueur plus variable  De telles diff  rences influenceront   videmment la capacit   des  algorithmes d apprentissage    identifier les types d annotation     5 2 Protocole Exp  rimental    Tout d abord les travaux de pr  parations des corpora qui ont   t   n  cessaires pour mener les  exp  riences sont pr  sent  s  Les r  sultats accompagn  s de ses respectives discussions sont  finalement expos  s apr  s la pr  sentation de la m  thodologie d   valuation adopt  e     5 2 1 Pr  parations des corpora    Dans cette recherche nous avons utilis   HTMLCleaner pour v  rifier et corrig  s les balises  HTML manquantes 
165. ue tel  syst  me modulaire reposait sur l induction supervis  e d extracteurs  et qui permettait  l extraction d information    partir d un corpus d apprentissage manuellement annot   et qui  pouvait prendre en compte la syntaxe du langage naturel par le moyen d un nouveau module  responsable pour l   tiquetage morphosyntaxique sur ces documents    Un autre objectif de ce travail   tait de comparer l architecture de notre syst  me d EI avec  d autres syst  mes de l   tat de l art au travers diff  rentes exp  rimentations sur trois corpora de  documents de r  f  rence en suivant une rigoureuse m  thodologie d   valuation de r  sultats bien    tablie dans la communaut   scientifique du domaine de l   EL  Pour cela  il a   t   alors d  fini un  protocole exp  rimental pour bien mener les exp  riences afin d avoir de r  sultats plus fiables et  pertinents  Particuli  rement  ce protocole a consist    1     d  finir la t  che d EI sur les 3 corpora  de documents   ii     d  finir une m  thodologie d   valuation   ii     r  aliser diff  rentes  exp  riences visant    d  terminer les meilleurs param  tres du mod  le pour chaque type de  corpus  en prenant en compte l information POS ou non  et   iv  finalement faire une    valuation comparative parmi plusieurs syst  mes d EI existants    Les exp  riences ont montr   que  par rapport au gain effectif d   tiquetage POS sur les  corpora  le corpus CFP on a obtenu le meilleur r  sultat  On a obtenu une am  lioration de plus  de 596 pour
166. ultats lorsqu ils sont appliqu  s sur des documents structur  s  semi   structur  s et en langage naturel  libre   Nous proposons dans ce travail un syst  me  d EI par induction supervis  e d extracteurs reposant sur l algorithme Boosted  Wrapper Induction  BWT  dans lequel l algorithme d AdaBoost est employ   pour  g  n  rer une proc  dure d extraction g  n  rique qui combine un ensemble  d extracteurs sp  cifiques par vote pond  r    D autres auteurs ont   tudi   comment la  technique de boosting contribue au succ  s de l algorithme de BWI et ont examin    sa performance vers la direction ambitieuse de l employer comme m  thode d IE  pour les documents en langage naturel  Ce fait a motiv   l inclusion d   tiquetage  POS  Parties du Discours  dans le pr  traitement dans notre syst  me des  documents  Afin d   valuer la performance de ce syst  me  plusieurs exp  riences  ont   t   men  es sur trois corpora d  sign  s pour la t  che d extraction d information  classique par slot  D autres exp  riences ont   t     galement r  alis  es en utilisant  plusieurs combinaisons d attributs avec l objectif d   tudier syst  matiquement leurs  effets sur la performance de l algorithme d apprentissage  Les r  sultats obtenus  empiriquement ont montr   que les performances de notre syst  me   taient  comparables    d autres syst  mes de l   tat de l   art     Mots cl  s  Extraction d information  Induction d extracteurs  Classification  Supervis  e  Parties du Discours  Apprentissage Machi
167. ut    65    aussi remarquer que ces r  sultats sont semblables    ceux obtenus par  Li et al   2004   Li et al   ont r  alis   la m  me exp  rience qu on vient de discuter sur les corpora Seminars et Jobs en  utilisant l algorithme SVM et ils ont   galement constat   un gain tr  s faible sur le corpus  Seminars et m  me un impact n  gative du tagage POS sur le corpus Jobs  Plus pr  cis  ment  la  baisse de performance a   t   de moins de 1  pour ce dernier cas    De 17 slots qui constituent le sch  ma d extraction pour le corpus JOBS  on note que plus  de la moiti   des champs ont un contenu tr  s structur    voire r  gulier  C est le cas des slots  post date  country  id  state  city  req years experience  langage  salary et recruiter  Le  syst  me a eu un score parfait de 10046 sur le premier slot de la liste  post  date      Pr  c Rappel F1 Corpus   0 974 0 953 0 963 Seminars   0 945 0 778 0 853 Jobs 0 939 0 780 0 853   0 891 0 571 0 696 CFP 0 896 0 591 0 712   a   b     Pr  c Rappel F1  0 971 0 964 0 967    Corpus  Seminars  Jobs  CFP       Fig  41  Perfomance g  n  ral d extraction de M TIES sur les corpora    Seminars  Jobs et CFP sans  a  et avec  b  POS     5 3 2 Diff  rents ensembles d   attributs    Un autre aspect de grande importance    analyser est d     tudier l   influence des attributs  espace  d   hypoth  ses  sur le corpora  On a choisi la validation hold out en divisant chaque corpus en  deux moiti  s   la premi  re  pour l apprentissage   la deuxi  me  pou
168. variation concernant la capacit   d identifier  certains slots  Fig  44   Amilcare atteint les meilleurs scores en 6 sur 11 slots tandis que M   TIES le fait pour 4 slots  Le syst  me Yaoyong a obtenu la meilleur F measure juste pour 1  slot cible    Lors de l examen des F measures  la meilleure performance est observ  e sur les 4 dates  du corpus  workshop date  workshop papper submission date  workshop camera ready copy  date et worshop notification acceptance date   Ces dates sont relativement faciles    extraire  car elles sont sous en format bien d  fini et fortement prescrites par le texte qui les entoure   D autre part  la plus baisse performance de tous les syst  mes a eu lieu pour les 3 slots relatifs  aux Conferences  ceux ci ont un nombre d exemples relativement bas dans le corpus  Ce qui  indique un nombre insuffisant d exemples  baisse repr  sentation  pour s achever    de bonnes  g  n  ralisations    Amilcare a obtenu le plus bas scores par rapport aux autres syst  mes pour les slots  workshop name  workshop location et conference name  ce qui montre d une fagon claire que  leurs techniques ne garantissent pas la bonne performance sur tous les types de slots  En  examinant les documents  on peut noter que ces slots probl  matiques pour Amilcare ne sont  pas sp  cifi  s par leurs contextes  mais ils sont plut  t d  termin  s par leurs contenus et leurs  places dans le document  Au contraire  pour M TIES  il montre un grand   cart de performance  pour ces slots gr
    
Download Pdf Manuals
 
 
    
Related Search
    
Related Contents
Fleet33  QLA 2340/2340L User's Guide  Istruzioni per l`uso Instructions for use Instrucciones de - Tecno-Gaz  Samsung GT-I6410 User Manual  Technicolor - Thomson GPS 420 User's Manual    CR, CRI, CRN 1s, 1, 3, 5, 10, 15, 20 CR, CRN 32, 45, 64  integra 250 500 integra 250 500  Rapoo 8900P      Copyright © All rights reserved. 
   Failed to retrieve file