Home
        L`information biographique : modélisation
         Contents
1.   d  veloppement de ressources d   extraction  Enfin  dans une derni  re section  toujours sur la  base des concepts mis en   vidence dans la deuxi  me partie  le choix d   une m  thode de  stockage des donn  es sera sugg  r       2  Approche intuitive et d  finition    Une biographie est d  finie par le Petit Robert  2004  comme   tant un      crit qui a pour objet  l   histoire d   une vie particuli  re     Autrement dit  il s   agit des   v  nements survenant dans la  vie des personnes  Ces   v  nements sont en relation avec diff  rents   l  ments de leur vie  quotidienne  Ils font intervenir des personnes ou des organisations  sont caract  ris  s par des  dates et des lieux  impliquent divers    objets    plus ou moins abstraits avec lesquels ils sont  amen  s    interagir     Cette premi  re perception m  rite une formalisation plus pr  cise  Nous appellerons    entit       les   l  ments intervenant dans les donn  es biographiques  personnes  organisations  lieux   dates  etc    Ce concept est d  fini dans  Chinchor  1998   mais l   interpr  tation utilis  e ici sera  moins stricte  Les types d   entit  s seront plus nombreux et pourront inclure certains   l  ments  exclus dans cette d  finition  Nous appellerons      v  nement    toute action faisant intervenir  ces entit  s  L   analyse d   un   v  nement de la vie r  elle permet de d  composer celui ci en  plusieurs    relations     Une relation lie deux entit  s quelconques  L   une d   elle joue le r  le de    suje
2.  personne  Y  personne ou  organisation organisation organisation  X a d  pos   plainte aupr  s  X  personne ou  O  organisation X a   t   arr  t      L X  personne  L  lieu  de O organisation  X a d  pos   plainte le D X  personne ou  D  date Y a   t   arr  t   le D X  personne  D  date  organisation  Inculpation  0 N  Condamnation  0 N   relation sujet objet relation sujet objet  X a   t   inculp   pour I  X  personne ou  I  motif d   inculpation    X a   t   condamn   pour C  X  personne ou  C  motif de  organisation organisation condamnation       X a   t   inculp   par O    X  personne ou    O  personne ou    X a   t   condamn   par O    X  personne ou    O  personne ou                            organisation       organisation organisation organisation organisation  Y a   t   inculp   le D  X  personne ou   D  date X a   t   condamn      P X  personne ou  P  peine  organisation organisation  Y a   t   condamn   le D X  personne ou  D  date          RECITAL 2006  Leuven  10 13 avril 2006             684 LAURENT KEVERS  4  D  veloppement des ressources d   extraction    4 1  Processus g  n  ral    Le processus g  n  ral d   extraction d   informations biographiques pr  sent   ici constitue une  premi  re approche qui doit certainement   tre am  lior  e  Divers travaux peuvent   tre consult  s     cet effet  Par exemple   Grishman  1997  expose les principes g  n  raux des syst  mes  d   extraction d   informations et  Fourour  2004  propose un   tat de l   art ainsi qu   
3. Ev  nement   mariage  Termes possibles   union  unir    pouser    poux    pouse  marier  mari  femme  Motif d   extraction  simplifi           poux       G  lt PERSON gt  H  A Hae     lt PERSON gt        pl femme p2 p    pl                                              2   p1  p2 MARIAGE  PERSON     Exemple de r  sultat           prince TITLE  Ernst August de Hanovre NAME       princesse TITLE   Caroline de  Monaco NAME   PERSON   MARIAGE     PERSON       tant donn   la complexit   de cette   tape  il n   est pas   vident que celle ci pourra   tre men  e     bien au seul moyen de la technique d   extraction pr  sent  e ci dessus  En effet  on constate  qu   au moins l   information est localis  e    un seul endroit de la phrase au moins l   approche par  transducteurs  ou grammaires locales  semble pertinente  Pour les d  veloppements futurs  une       RECITAL 2006  Leuven  10 13 avril 2006    686 LAURENT KEVERS    autre approche encore    d  finir devra probablement   tre   tudi  e afin d     valuer les gains de  performance possibles  tant au niveau de la construction m  me des ressources que de la  qualit   de l   extraction     5  Vers une solution d   impl  mentation pour le stockage    5 1  Pr  cision des concepts de relation et d   entit      L   analyse partielle de la nature des informations biographiques r  alis  e permet de mettre en    vidence quelques caract  ristiques qui peuvent nous guider dans les choix d   impl  mentation  d   un syst  me de stockage de ces d
4. L  lieu  X est identifi   par R  X  personne  R  n   de registre national X est mari   avec Y X  personne   Y  personne  Divorce  0 N  Concubinage  0 N   relation sujet objet relation sujet objet  X a divorc   le D X  personne   D  date X est concubin de Y X  personne   Y  personne  X a divorc      L X  personne   L  lieu X est concubin depuis D  X  personne   D  date  X est divorc   de Y X  personne   Y  personne X est concubin jusque D     X  personne   D     date                            La cardinalit   de divorce est li  e    la cardinalit   de mariage  Pour divorce  la borne inf  rieure est toujours   gale    z  ro ou au  nombre de mariages moins un si le nombre de mariages est sup  rieur ou   gal    un  La borne sup  rieure est toujours   gale au    nombre de mariages     3 2  Informations relatives    la formation    Obtention d   un dipl  me  0 N                       relation sujet objet  X a obtenu le niveau d     tude Y X  personne Y  dipl  me  Y a   t   obtenu le D Y  dipl  me D  date  Y est un dipl  me d  livr   par O Y  dipl  me O  organisation             RECITAL 2006  Leuven  10 13 avril 2006       MOD  LISATION  EXTRACTION ET ORGANISATION EN BASE DE CONNAISSANCES    3 3  Informations professionnelles    Occupation une fonction  d   un poste  0 N     Cr  ation d   une entreprise  0 N     683                                  3 4  Informations relatives    des r  compenses    Obtention d   une distinction  r  compense  0 N     relation sujet objet relation suj
5. L information biographique    mod  lisation  extraction et organisation  en base de connaissances    Laurent Kevers    Universit   catholique de Louvain     CENTAL  laurent kevers Quclouvain be    R  sum      L   extraction et la valorisation de donn  es biographiques contenues dans les d  p  ches de presse est un processus  complexe  Pour l   appr  hender correctement  une d  finition compl  te  pr  cise et fonctionnelle de cette  information est n  cessaire  Or  la difficult   que l   on rencontre lors de l   analyse pr  alable de la t  che d   extraction  r  side dans l   absence d   une telle d  finition  Nous proposons ici des conventions dans le but d   en d  velopper une   Le principal concept utilis   pour son expression est la structuration de l   information sous forme de triplets  sujet   relation  objet   Le d  but de d  finition ainsi construit est exploit   lors de l     tape d   extraction d   informations par  transducteurs      tats finis  Il permet   galement de sugg  rer une solution d   impl  mentation pour l   organisation  des donn  es extraites en base de connaissances     Mots cl  s   information biographique  mod  lisation  extraction d   information  transducteur      tats finis  entit    nomm  e  relation  base de connaissances     Abstract    Extraction and valorization of biographical information from news wires is a complex task  In order to handle it  correctly  it is necessary to have a complete  accurate and functional definition  The prelimin
6. Leuven  10 13 avril 2006    MOD  LISATION  EXTRACTION ET ORGANISATION EN BASE DE CONNAISSANCES 681    biographique      Tout le monde sait intuitivement ce qu   est une biographie  mais il est assez  malais   d   en d  finir pr  cis  ment le contenu  Plusieurs ressources disponibles sur Internet   Davis  2004   Kanzaki  2003  proposent des nomenclatures  mais celles ci sont forc  ment  incompl  tes  Le niveau de g  n  ricit   est   galement peu   lev   car ces documents sont  construits dans une optique d   impl  mentation plut  t que de mod  lisation  Le flou en ce qui  concerne cette d  finition est assez g  nant  que ce soit pour le d  veloppement de la phase  d   extraction ou pour l   organisation du stockage des informations  Il est en effet impossible de  travailler efficacement si l   on ne conna  t pas avec pr  cision l   objet de l     tude  La clarification  du domaine d   application profite    l   ensemble du processus  depuis l   extraction d   information  jusqu      la phase d   accumulation des donn  es     La premi  re partie sera donc consacr  e    une approche intuitive de l information  biographique et    la d  finition des concepts sous jacents    ces intuitions     partir de ces  d  finitions  une nomenclature de l information biographique peut   tre construite  La  deuxi  me section s   attaquera    cette t  che  sans avoir la pr  tention de l   exhaustivit    La  troisi  me partie montre l   apport de l   analyse des   v  nements biographiques lors du
7. RG   gu  rilla marxiste  dans le nord de la  Colombie   PLACE COUNTRY    a annonc       l    AFP  ORG  le    commandant FCT   arm  e colombienne ORG  PRO   le g  n  ral TITLE  Reinaldo  Castellanos H NAME   PERSON     S     Figure 2  Annotation des informations en apposition    Certains regroupements ont d  j     t   effectu  s  Ce r  sultat  int  ressant en soi  facilitera  l   analyse de surface n  cessaire lors de la suite du processus d   extraction     4 4  Extraction d   informations par type d     v  nement    Au del   de l   exploitation des informations contenues dans les appositions  la t  che     accomplir ensuite devient plus complexe  Non seulement l   information    extraire sera    parpill  e dans toute la phrase  voire dans un paragraphe  mais elle sera aussi exprim  e de  fa  on plus vari  e  C   est    ce moment que le travail de d  finition de l   information  biographique men   en amont peut r  ellement aider    structurer et    orienter l   extraction  Sur  la base d   un type d     v  nement particulier  comparable    un sc  nario selon la terminologie  MUC  Grishman  1997   il est possible de d  river des    patrons d   extraction     La r  flexion  peut se faire en deux temps  Premi  rement  on s  lectionne un   v  nement et on recherche les  termes d  notant cette s  mantique  Ensuite  l     tude de ces derniers permet d   aboutir    un ou  plusieurs motifs d   extraction  Le but   tant ici de reconna  tre les contextes porteurs  d   informations     
8. ances  Cette architecture reste cependant      valuer et doit encore  prouver sa faisabilit   pratique     R  f  rences    BOUHAFS A   2004      Syst  me d   extraction d   information d  di      la veille  Qui est qui   Qui fait  quoi   O     Quand   Comment       In Actes de RECITAL 2004     BROEKSTRA J   KAMPMAN A   VAN HARMELEN F   2002      Sesame   A Generic Architecture for  Storing and Querying RDF and RDF Schema    In Proceedings of the International Semantic Web  Conference 2002  Sardinia  http   www openrdf org doc papers Sesame IS WC2002 pdf     CHARLET J   LAUBLET P   REYNAUD C   2002      Sur quelques aspects du Web s  mantique      In Assises du GDR I3  Nancy  http  www lalic paris4 sorbonne fr stic articles 03     WebSemantique  pdf  CHINCHOR N   1998      MUC 7 Named Entity Task Definition  Version 3 5      In Proceedings of  MUC 7  Fairfax     FAIRON C   WATRIN P   2003      From extraction to indexation  Collecting new indexation keys by  means of IE techniques     In Proceedings of EACL 2003  Budapest     FOUROUR N   2004   Identification et cat  gorisation automatiques des entit  s nomm  es dans les textes  fran  ais  Th  se de doctorat  Universit   de Nantes     FRIBURGER N   MAUREL D   2004      Finite state transducer cascades to extract named entities in  texts     In Theoretical Computer Science 313  1    93 104     GRISHMAN R   1997      Information extraction   Techniques and challenges     In M T  Pazienza    d     Information Extraction   techniq
9. ary analysis of the  extraction task reveals the lack of such a definition  This article proposes some conventions to develop it   Information modelling as triples  subject  relation  object  is the main concept used at this level  This  incomplete definition can be used during the information extraction step  It also allows to suggest some  implementation solutions for data organisation as a knowledge base     Keywords  biographical information  modelling  information extraction  finite state transducers  named entities   relation  knowledge base     1  Introduction    Les textes journalistiques se caract  risent souvent par une proportion   lev  e de noms propres   Selon  Fourour  2004   les anthroponymes en constituent la cat  gorie la plus importante  de  50      70   des formes en fonction des types de journaux   Notre travail sur l   information  biographique repose sur ces constats  Il se base sur un large corpus de d  p  ches de presse  fournies par l   agence de presse belge Belga et s   articulera en quatre points        la d  finition m  me de l   information biographique       le formalisme    utiliser pour exprimer les faits       l   apport d   une d  finition claire pour la phase d   extraction      la mani  re de conserver les informations extraites     Lorsqu il s   agit d   extraire  de mod  liser et de structurer des donn  es biographiques  on se  heurte rapidement    une question de taille    Qu   est ce que r  ellement l   information       RECITAL 2006  
10. complexe dans les phrases  Ce m  canisme s   inspire de l   approche par cascade  d   automates d  crite par  Friburger et al   2004   Ce processus d   applications successives de  transducteurs permet de simplifier l   expression des r  gles de plus haut niveau  c   est    dire  celles passant    la fin  Divers traitements peuvent   tre introduits entre certaines passes afin  d   am  liorer la couverture ou la pr  cision de l   analyse   recherche des variations graphiques et  de cor  f  rences des entit  s  r  solution des anaphores pronominales  etc  Il s   agit de t  ches  complexes qui n   ont pu   tre abord  es que de mani  re tr  s superficielle pour l   instant dans le  cadre de ce travail     Une fois toutes les ressources d   extraction exploit  es  le format de sortie doit d     tre  suffisamment g  n  ral afin d     tre exploitable par le plus grand nombre d   applications  Cette  exigence est remplie par un fichier XML qui reprend les   l  ments annot  s     4 2  Extraction des entit  s de base    Le travail men   sur des textes journalistiques en fran  ais par  Fairon et al   2003  et en anglais  par  Mallchok  2004  a prouv   l   ad  quation des transducteurs      tats finis pour le rep  rage des  entit  s de base  Le d  veloppement de quelques dizaines de graphes coupl      l   utilisation de  ressources lexicales sp  cialis  es permet d   obtenir une analyse telle que celle reprise ci   dessous      BOGOTA  PLACE TOWN   07 04   AFP  ORG     Dix sept militaire
11. des relations     3  Information biographique    v  nements et relations entre  entit  s    Pour chaque   v  nement  la liste des relations qui en d  coule est d  velopp  e  Une cardinalit    indique la fr  quence d   apparition des   v  nements par rapport    une personne  Si n  cessaire   des contraintes suppl  mentaires sont introduites  Toute relation implique l   existence de son  inverse  Pour l     v  nement    naissance     la relation X a pour parent Y implique que Y est  parent de X  Il n   est par cons  quent pas n  cessaire de pr  voir cette derni  re dans la d  finition   La sp  cification se situe    un niveau conceptuel et non linguistique  Elle d  finit ce dont  l   information est compos  e  mais pas la mani  re dont celle ci sera effectivement exprim  e  dans les textes                                                  3 1  Informations personnelles  Naissance  1 1  D  c  s  0 1   relation sujet objet relation sujet objet  X se nomme N X  personne   N  nom X est d  c  d   le D X  personne   D  date  X se pr  nomme P X  personne   P  pr  nom X est d  c  d      L X  personne  L  lieu  X est de sexe S X  personne   S  sexe X est d  c  d   de C X  personne  C  cause de d  c  s  X est n   le D X  personne   D  date Mariage  0 N   X est n      L X  personne   L  lieu relation sujet objet  X a pour parent Y X  personne   Y  personne X s   est mari   le D X  personne   D  date  X est de nationalit   N   X  personne  N  nationalit   X s   est mari      L X  personne  
12. es se nomme  Sesame  Boekstra ef al   2002   Aduna  2005   Il s   agit d   une architecture    open source      LGPL   ind  pendante du moyen d   enregistrement des donn  es  qui permet le stockage  persistent et l   interrogation de donn  es RDF et RDFS  Sesame propose aussi  parmi d   autres  choses  un module pour le dialogue avec un SGBD qui impl  mente la norme SQL92 et un  langage d   interrogation   tendant RQL  SeRQL     6  Conclusion    L   extraction d   informations biographiques ne peut se passer d   une d  finition pr  cise du  domaine d   application  Cette d  finition peut   tre effectu  e par la description  sous forme de  relations entre entit  s  des   v  nements qui constituent la vie des personnes  Il s   agit l   d   une  t  che de longue haleine  qui n   a ici   t   qu   effleur  e  mais qu   il est fondamental de continuer   La sp  cification ainsi obtenue sera extr  mement utile pour l   extraction d   informations par  sc  narios  la phase la plus complexe du processus  Les   v  nements biographiques d  j   d  finis  permettent   galement d   avancer des suggestions en ce qui concerne l   architecture logicielle          RECITAL 2006  Leuven  10 13 avril 2006    MOD  LISATION  EXTRACTION ET ORGANISATION EN BASE DE CONNAISSANCES 689    mettre en   uvre pour le stockage des donn  es  Une solution orient  e vers la repr  sentation de  donn  es sous forme de graphes doit permettre de stocker des triplets  sujet  relation  objet   dans une base de connaiss
13. et objet  X exerce le profession de M  X  personne   M  profession X a cr     O X  personne O  organisation  X fait partie de O X  personne  O  organisation O a   t   cr    e le D  O  organisation   D  date  X est engag   le D X  personne   D  date Cession d   une entreprise  0 N   X est remerci   le D    X  personne   D     date relation sujet objet  O a   t   vendu le D  O  organisation   D  date       X a vendu O    X  personne ou  organisation    O  organisation       O a   t   vendu    Y          O  organisation       Y  personne ou  organisation       Victoire lors d   une comp  tition  d   un concours  0 N                                                                                   relation sujet objet relation sujet objet  X a re  u la distinction R  X  personne R  r  compense  X a remport   C X  personne ou  C  comp  tition   prix  distinction organisation concours  R est attribu   par O R  r  compense   O  organisation C a lieu    L C  comp  tition    L  lieu  prix  distinction concours  R a   t   attribu   le D R  r  compense    D  date C a lieu le D C  comp  tition    D  date  prix  distinction concours  3 5  Informations juridiques  D  p  t d   une plainte  0 N  Arrestation  0 N   relation sujet objet relation sujet objet  X a d  pos   plainte pour A  X  personne ou  A  motif X a   t   arr  t   pour A  X  personne  A  motif  organisation d   accusation d   arrestation  X a d  pos   plainte contre Y  X  personne ou  Y  personne ou X a   t   arr  t   par Y  X 
14. n  es est g  n  ralement  souhaitable  elle se fait parfois quelque peu au d  triment de la richesse de celles ci          S est mari       s   est mari   le et s   est mari   avec sont des noms de relations  Ces noms ne s   accordent pas  selon le genre ou le nombre de l   entit   qui joue le r  le de sujet        RECITAL 2006  Leuven  10 13 avril 2006    688 LAURENT KEVERS    L organisation des donn  es autour d   un nombre restreint de relations bien d  finies implique  une certaine perte au niveau de la formulation originale  par rapport au texte de d  part  en  langage naturel   Lors de l   exploitation des informations  il faut   tre conscient qu   un certain  nombre d   applications n  cessiteront   ventuellement une reformulation vers le langage naturel   ce qui n   est pas une t  che des plus triviale     Le fait que les relations soient cod  es comme des valeurs dans une structure g  n  rique impose  une grande rigueur en ce qui concerne l   encodage de celles ci  Toute erreur    cet endroit  rendrait une partie de l   information inutilisable  Des m  canismes de contr  le  v  rification de  contraintes d   int  grit    doivent   tre mis en place pour s   assurer de l   emploi correct d   une  relation     Une cons  quence de la g  n  ricit   du syst  me est que toutes les informations seront stock  es  quasiment au m  me endroit  Cela va nous amener    cr  er et manipuler quelques objets   tables  tr  s volumineux  Comme toujours dans ce cas  la question de la perf
15. onn  es  Ce syst  me sera nomm   de mani  re g  n  rique    base de connaissances        D   une mani  re g  n  rale  on constate que les exemples d   informations biographiques  mentionn  s dans les sections pr  c  dentes sont effectivement bien exprimables sous la forme  d   une ou plusieurs relations entre des sujets et des objets  Il est cependant n  cessaire de  fournir des contraintes d   int  grit   afin de garantir la coh  rence des donn  es  Ces contraintes  doivent d  terminer quelles sont les relations utilisables pour d  crire l   information  biographique et entre quelles entit  s elles peuvent survenir  L   analyse intuitive donne d  j   une  assez bonne id  e des relations et des contraintes    exprimer  mais plusieurs points m  ritent  d     tre sp  cifi  s plus pr  cis  ment     En plus des relations porteuses d   informations biographiques directement inspir  es de la liste  donn  e plus haut  nous souhaiterons   galement stocker un ensemble de relations dont la  fonction est de donner de l   information sur l   information  m  ta donn  es   Les relations  peuvent donc appartenir    deux classes diff  rentes   les relations informationnelles et les  m  ta relations  On dispose par exemple de relations permettant d   indiquer un poids  ou indice  de confiance  attribu      une donn  e  d   indiquer la source et la date relatives    l   origine de  l   information  de fournir la langue dans laquelle elle a   t   exprim  e  de relier deux  informations synonyme
16. ormance se pose     5 3  Pistes retenues pour une impl  mentation    Un langage semble particuli  rement adapt   pour exprimer l   information selon les principes    voqu  s jusqu ici   RDF  Resource Description Framework  voir  W3C  2004   Il s   agit d   un  dialecte XML d  velopp   par le W3C  Son but est la repr  sentation de m  ta donn  es sous  forme de graphes     l   origine pr  vu pour des ressources Web  RDF peut n  anmoins   tre  utilis   avec n   importe quel type de donn  es  m  ta donn  es ou autres      RDF doit   tre coupl      RDFS  RDF Schema  si l   on veut pouvoir introduire de la s  mantique  et ainsi respecter les contraintes d   int  grit   dont nous avons d  j   parl    RDFS est un  m  canisme qui permet de d  finir un vocabulaire particulier pour des donn  es RDF et de  sp  cifier les types d   objets sur lesquels les pr  dicats peuvent   tre appliqu  s  En pratique   RDFS nous permet de d  finir les relations  les entit  s et la mani  re dont ces   l  ments se  combinent pour d  crire l   information biographique     Des langages tels que RQL  RDF Query Language  proposent une interrogation sous la forme  d   une requ  te    select from where     Celle ci permet de sp  cifier un chemin  caract  ris   par  certaines contraintes     parcourir dans les graphes RDF RDEFS  pattern matching   Le r  sultat    tant contenu dans la suite de n  uds du ou des chemins reconnus     Des plateformes mettant en   uvre ces technologies existent d  j    L   un d   ell
17. s  etc  Selon les besoins particuliers  on pourra encore ajouter  diff  rentes m  ta relations     Les entit  s peuvent   galement   tre r  parties en diff  rents types     l   instar des relations  il  existe des entit  s informationnelles et des m  ta entit  s  En pratique  il n   y a pas une grande  diff  rence entre ces deux types d   entit  s si ce n   est qu   une m  ta entit   est toujours associ  e     une m  ta relation  Les natures des entit  s informationnelles peuvent   tre d  riv  es de l   analyse  de la premi  re partie et celles des m  ta entit  s sont reprises dans la table ci dessous                                   m  ta relation nature de X  I a un indice de confiance de X Un entier ou un r  el  I est en langue X Un code repr  sentant une langue  I a   t   ajout   le X Une date  I provient de la source X Une valeur d  signant un document  I est un synonyme de X Une information reprise dans la base de donn  es       Figure 3  M  ta relations  Soit I une information contenue dans la base de connaissances    La difficult   qui appara  t avec la d  composition en relations telle que pr  sent  e au paragraphe  3 est la conservation de la coh  rence et de l   int  grit   des donn  es  Prenons l   exemple d   un       RECITAL 2006  Leuven  10 13 avril 2006    MOD  LISATION  EXTRACTION ET ORGANISATION EN BASE DE CONNAISSANCES 687    mariage entre monsieur Smith et mademoiselle Dupond  qui a lieu le 17 juillet 2007     Bruxelles  On peut d  composer cet   v  nemen
18. s colombiens ont   t   tu  s    mercredi   DATE  lors d   une embuscade de rebelles des  Forces arm  es r  volutionnaires de   Colombie  ORG    FARC  ORG   gu  rilla marxiste  dans le nord de la  Colombie   PLACE COUNTRY    a    annonc      l    AFP  ORG  le commandant de l    arm  e colombienne  ORG   le g  n  ral  Reinaldo  Castellanos  PERSON    S     Figure 1  Annotation des entit  s de base       RECITAL 2006  Leuven  10 13 avril 2006    MOD  LISATION  EXTRACTION ET ORGANISATION EN BASE DE CONNAISSANCES 685    Le format d   annotation adopte les conventions utilis  es pour les entr  es de dictionnaire  DELA d   Unitex     4 3  Extraction des informations contenues dans les appositions    Les contextes imm  diats des noms de personnes sont riches en informations biographiques   On y retrouve couramment  en apposition  des donn  es telles que l     ge  la profession  la  nationalit    un titre ou une tendance politique  Il est possible de regrouper tout ces   l  ments en  un seul groupe sans modifier la structure globale de la phrase     l   int  rieur de cette entit    complexe  on conserve l identification des diff  rents   l  ments reconnus     partir de l   exemple  obtenu suite    la premi  re passe  on pourra ainsi obtenir ce texte dans un deuxi  me temps       BOGOTA  PLACE TOWN  07 04   AFP  ORG     Dix sept militaires colombiens ont   t   tu  s    mercredi   DATE  lors d   une embuscade de rebelles des  Forces arm  es r  volutionnaires de Colombie  ORG     FARC  O
19. t     alors que la seconde constitue l      objet    de la relation  Un   v  nement est donc  formalisable sous la forme d   un ensemble de triplets  sujet  relation  objet   Cette approche   que l   on peut retrouver dans les travaux portant sur le Web s  mantique  Charlet et al   2002    a   galement   t   sugg  r  e dans le cadre de travaux en extraction d   informations  Bouhafs   2004   Le Priol  2001   Une entit   qui joue un r  le d   objet dans une relation peut   tre le sujet  d   une autre relation  et inversement  L   entit   centrale pour l   information biographique est bien  entendu la personne  Elle sera par cons  quent souvent utilis  e en tant que sujet des relations     La d  composition des faits biographiques en relations ne veut pas dire que l   on se d  barrasse  compl  tement de la notion d     v  nement  En effet  les relations d  coulant d   un   v  nement  doivent toujours   tre interpr  t  es conjointement  Prises individuellement ou en combinaison  avec des relations issues d   autres   v  nements  elles m  nent    des interpr  tations incompl  tes  ou erron  es        l   aide de ces concepts  il est possible de d  finir ce qu   est l information biographique  La  partie suivante est consacr  e au recensement de quelques   v  nements  Cette liste permet de       RECITAL 2006  Leuven  10 13 avril 2006    682 LAURENT KEVERS    prendre la mesure du probl  me et d     tablir concr  tement un format de sp  cification des    v  nements  des entit  s et 
20. t avec les relations suivantes       M  Smith s   est mari      Bruxelles Mile Dupond s   est mari      Bruxelles  M  Smith s   est mari   le 17 juillet 2007 Mile Dupond s   est mari   le 17 juillet 2007  M  Smith s est mari   avec Mlle  Dupond Mile Dupond s   est mari   avec M  Smith    Le probl  me de cette d  composition  c   est que Mile Dupond et M  Smith peuvent   tre  impliqu  s dans plusieurs mariages au cours de leur vie  Il sera alors impossible de savoir     quel mariage correspond quelle date et quel lieu  Pour mod  liser l   information de mani  re  correcte  il faut   noncer les relations de la mani  re suivante     M  Smith s est mari   avec Mile Dupond Mile Dupond s   est mari   avec M  Smith    Le mariage de M  Smith et de Mile Dupond a eu lieu le 17 juillet 2007  Le mariage de M  Smith et de Mile Dupond a eu lieu    Bruxelles    Dans cet exemple    le mariage de M  Smith et de Mlle Dupond    est une entit   compos  e     partir d   une relation  s est mari   avec  entre deux entit  s  deux personnes   Cela nous am  ne       largir le concept de relation en admettant qu   une premi  re relation peut jouer le r  le de  sujet dans une seconde     5 2    valuation de la pertinence du mod  le de donn  es en vue d   une impl  mentation    Un des avantages de la structuration de l   information sous forme de relations est qu   elle  pr  sente un haut degr   de g  n  ricit    La mod  lisation des donn  es  quelles qu   elles soient      l   aide d   un triplet perme
21. t de placer la s  mantique uniquement au niveau des donn  es et non  dans la structure de celles ci  Les bases de donn  es relationnelles sont souvent con  ues en  d  finissant des types d   entit  s et de relations  plus tard traduits en tables  Dans ce cas  la  structure des tables contient une partie de l   information   L   utilisation de ce genre de syst  me  n   est pas en soi un probl  me lorsqu on conna  t bien le domaine d   application  En ce qui  concerne les informations biographiques  tout porte    croire qu   il sera pratiquement  impossible d   arr  ter une structure compl  te et d  finitive avant toute impl  mentation   L adoption d   une structuration sous forme de triplets devrait nous apporter la souplesse  n  cessaire    l   adaptation continue de la mod  lisation du domaine d   application  En effet  dans  un syst  me de base de donn  es relationnelle classique  l   ajout de nouveaux attributs    une  entit   devrait se traduire par une alt  ration de la structure d   une ou plusieurs tables  alors que  le syst  me envisag   ne demandera que l   ajout d   un triplet     PERSONNE  id  num national  nom  pr  nom    Mna   RELATION    y RELATION ENTITE    id rel id_entite    sexe  date_naissance  lieu naissance  date_deces  lieu_deces    id_entite_1 valeur  id_entite_2 type_entite  type_relation       Figure 4  Base de donn  es relationnelle classique et base de donn  es    g  n  rique       Si d   un point de vue informatique  une forte formalisation des don
22. ues and challenges  Springer Verlag  Berlin     LE PRIOL F   2001      Identification  interpr  tation et repr  sentation de relations s  mantiques entre  concepts     In Actes de TALN 2001     MALLCHOK F   2004   Automatic Recognition of Organisation Names in English Business News   Th  se de doctorat  Universit   de Munich     MCDONALD D D   1996      Internal and External Evidence in the Identification and Semantic  Categorization of Proper Names     In B  Boguraev  J  Pustejovsky    ds   Corpus processing for  lexical acquisition   21 39     PAUMIER S   2004   Unitex 1 2 Manuel d utilisation  Universit   de Marne la Vall  e     POIBEAU T   Nazarenko A   1999      L   extraction d   information  une nouvelle conception de la  compr  hension de texte     In TAL 40  2    87 115     R  f  rences sur Internet  ADUNA B V   2005      User Guide for Sesame  v1 2 3      http   www openrdf org doc sesame users      DAVIS I   GALBRAITH D   2004      BIO  A vocabulary for biographical information     http   purl org   vocab bio      KANZARI  2003      Who   s who description vocabulary     http   www kanzaki com ns whois     W3C  2004     Resource Description Framework  RDF    Concepts and Abstract Syntax      http  www w3 org  TR 2004 REC rdf concepts 20040210         RECITAL 2006  Leuven  10 13 avril 2006    
23. une  impl  mentation d   un syst  me mixte    base de r  gles et d   apprentissage  Les premiers r  sultats  obtenus permettent d   avoir une id  e plus pr  cise de l   ensemble des traitements    effectuer  dans le cadre de l   extraction et de l   exploitation d   informations biographiques     La technique choisie  et pr  sent  e par exemple par  Poibeau ef al   1999   fait appel    des  transducteurs      tats finis  Ceux ci permettent une description et une annotation des motifs  que l   on d  sire retrouver  Il s   agit d   une analyse locale dont l   action se situe au niveau  subphrastique  Plusieurs traitements sont effectu  s au pr  alable sur les textes   d  coupe en  tokens et en phrases  application de dictionnaires  Ces manipulations sont effectu  s    l   aide  d   Unitex  Paumier  2004      Le processus g  n  ral se d  compose en plusieurs passes  chacune correspond    un niveau de  complexit   des   l  ments recherch  s  Les premi  res passes consistent en l   application de  graphes qui exploitent les informations lexicales ainsi que des indices internes  la structure  des entit  s  et externes  le contexte des entit  s  tels que ceux pr  sent  s dans  McDonald   1996   Le but est de retrouver et d   annoter des entit  s de base  souvent appel  es entit  s  nomm  es  telles que les personnes  les organisations  les lieux    Les passes suivantes  s   appuient sur cette premi  re analyse pour rechercher des informations dispos  es de mani  re  de plus en plus 
    
Download Pdf Manuals
 
 
    
Related Search
    
Related Contents
Varian Exhaust Filter DS-NW25 9499392    User's GUide  USER`S MANUAL and INSTALLATION GUIDE  Targus 15” Side Access Laptop Roller  2配器 2SPF  ^1 USER MANUAL ^2 Accessory 20    Copyright © All rights reserved. 
   Failed to retrieve file