Home
TEXTE ET CORPUS :
Contents
1. P riode Genre D tail Ann e Nombre de mots milliers 20 s 2 Hansard Les interventions en 1986 1988 3 300 fran ais dans le d bat au Parlement Canadien parl officiel journal 1997 et 13 000 Le Monde 2001 WordbanksOnline Lib ration 1992 1993 1 500 WordbanksOnline revue Actuel 1990 1992 2 000 WordbanksOnline Marie Claire 1990 1993 3 100 WordbanksOnline Forum de 323 Forums de 10 2000 21 200 discussion discussions abonn s s FD crit non officiel sur les r seaux lectroniques roman Frantext base 1951 2000 15 600 trait ou cat goris e 11 900 essai 20 s 1 roman Frantext base 1901 1950 20 600 trait ou cat goris e 13 500 essai 19 s 2 roman Frantext base 1851 1900 14 500 trait ou cat goris e 4 400 essai 19 s 1 roman Frantext base non 1801 1850 12 600 trait ou cat goris e 8 100 essai 18 s roman Frantext base non 1701 1800 12 000 trait ou cat goris e 11 200 essai 17 s roman Frantext base non 1601 1700 3 800 trait ou cat goris e 7 000 essai Tableau I Corpus 133 3 FACTEURS RELATIFS AU CHOIX ENTRE L ARTICLE DE ET DES 3 1 P riode La figure 1 montre Figure 1 Taux de des et p riode le changement taux de des chronologique dans le 25 choix de l article des 20 gt trait X devant les ADJ 15 L X roman 2 NOM dans les genres du trait ou de 10 ne l essai et dans les
2. partir du corpus textuel est indiqu en italique dans les exemples ci dessous XX 1 Coor skeletal bone lt lt skeletal survey and bone marrow examination XX 7 Coor T3 antibody lt t3 stsh and tsh receptor antibody XX 10 Coor heart muscle lt lt heart liver kidney and skeletal muscle tissue XX 28 Ins blood cell blood tumor cell lines Dans le second cas les modifications syntaxiques touchent principalement l expansion qui se r v le en corpus d pendante d une autre t te 279 XX 34 Perm primary hypothyroidism lt lt hypothyroidism primary myxedema XX 31 Perm membrane protein protein are membrane associated tranducers XXX 7 Ins biopsy of tongue biopsy of the tongue nodule Nous rencontrons des probl mes similaires lorsqu il s agit du contexte gauche Dans ce cas l l ment constituant la fronti re gauche du terme est principalement affect par des modifications de d pendance au d part expansion dans le terme initial il devient la t te d un autre syntagme en corpus XX 4 Coor thymus gland rat thymus and adrenal gland XX 10 Coor thyroid tumors follicular thyroid breast colon and skin tumors XX 7 Coor tumor cell pancreatic islet cell tumor paraganglioma or merkel cell XX 28 Ins disease markers lt autoimmune thyroid disease activation markers A travers ces diff rents exemples nous constatons qu il est souvent difficile de j
3. il se familiarise avec les noms des attributs forc ment redondants dans ce graphe 297 il s abstrait aussi du nom des valeurs oppos es qui lui sont cach es pour tre remplac es par les lexies qu elles d crivent sur chaque ligne L ensemble de ces op rations am ne finalement l utilisateur oublier au moins temporairement les noms qu il a d employer pour cr er certains l ments de structure et ne plus en voir qu un r sultat local pour sa description lexicale constater par exemple que les lexies vent et accalmie s opposent localement de la m me mani re que les lexies claircie et assombrir selon un attribut commun Direction C est ce genre de recul sur le mod le que nous cherchons obtenir travers les diff rentes repr sentations graphiques propos es dans l interface de LUCIABUILDER L objectif est de faire en sorte que l utilisateur puisse s approprier les notions sur lesquelles se fonde le mod le en exprimant son point de vue sur le lexique qu il d crit Dans le m me tat d esprit le panel Dispositifs propose une repr sentation sch matique de l ensemble des tables d un m me domaine notamment pour y cr er les liens d h ritage Dans ce panel et dans celui des Topiques il est possible d attribuer des couleurs aux tables L utilisation de ces couleurs est li e la pr sentation des r sultats d analyse et sera d taill e dans la section 8
4. ls Un traitement simple comme l limination du s final peut sembler tre la bonne solution mais il suffit de prendre un exemple comme It s a work after my own heart E A Poe A Tale of Jerusalem dans lequel s n a rien d un g nitif tant la forme contract e de is inflexion du verbe be pour comprendre que la seule solution est le rep rage et l encodage manuel t che extr mement lourde pour notre corpus qui compte 300 000 mots Les mots qui contiennent une apostrophe pr sentent de toute mani re une ambiguit graphique qui reste probl matique Un mot comme don t sera analys par Hyperbase comme 1 don lt solution logique mais qui multiplie les formes si nous pensons aux formes do et not qui s y ajoutent 2 2 2 TRAITEMENT DES HOMOGRAPHES Toutes les formes homographes des mots grammaticaux tels that there some de m me que les tr s nombreux homographes appartenant de classes morphosyntaxiques diff rentes nom verbe ou nom adjectif pr sentent une ambigu t que nous ne pouvons pas ignorer Le logiciel Hyperbase fait un classement global de ces formes int ressant certes mais qui reste grossier L unique solution pour d sambiguiser le corpus est l annotation 2 3 Etiquetages grammaticaux syst matiques Annoter le texte manuellement est une t che difficile et laborieuse quand il s agit de grands corpus Cette m thode peut s av rer aussi moins fiable et moins
5. Il est int ressant de comparer les conditions de pr sence des occurrences exceptionnelles de des dans les trait s ou essais textes acad miques et celles de de dans les textes parl s D abord on va traiter la question des adjectifs 23 occurrences de des sur 30 dans les textes acad miques sont accompagn es de l adjectif petit les noms qui le suivent sont bassins b timents chefs choses femmes gains gar ons gueules jobs n uds parties p doncules rougeurs spasmes tables toits traces travaux valeurs contre 617 de de Nous avons affirm dans Fujimura et al 2004 que l affinit extr mement forte entre des et petit e s s explique par la notion de poids lexical Petit est un adjectif lexicalement tr s l ger en m me temps que des est l article employ avec une pith te discursivement ou lexicalement l g re C est la raison pour laquelle petit e s appara t tr s souvent avec des La deuxi me observation concerne la question de la liaison dans les trait s 29 occurrences de des sur 30 se produisent avec les noms qui commencent par une consonne c est dire dans la condition o la liaison phonique ne se produit pas La tendance de cooccurrence entre l usage de des et les s quences sans liaison est statistiquement significative dans ce corpus X2 6 22 dl 1 p lt 05 SANS LIAISON des 29 de 478 AVEC LIAISON des 1 de 139 La seule exception de des sui
6. Relation Prorel Elle indique qu en francais le lien entre le nom et le verbe ne se fait pas de mani re directe mais par le biais d un pronom relatif The learned society comprises about 400 members and meets every three years Cette soci t scientifique qui regroupe environ 400 membres tient un congr s tous les 3 ans 8 DISCUSSION ET PERSPECTIVES Avec un taux de pr cision de 91 7 l appariement local par propagation offre un r sultat comparable voire sup rieur ceux obtenus par Daille ef al 1994 pr cision variant entre 70 et 80 selon le nombre d appariements valid s ou par Gaussier 1998 qui fait tat d une pr cision allant de 90 98 suivant le nombre de meilleures associations prises en compte Wu 2000 quant lui estime ce taux 81 5 et enfin Hull 2001 qui privil giant le taux de rappel se contente d une pr cision ne d passant pas les 56 Il reste v rifier si on arrive des r sultats similaires en propageant les liens d appariement l aide de relations syntaxiques autres que celle de SUJET OBJET C est l une premi re piste de recherche que nous nous proposons de suivre Parall lement nous menons une r flexion concernant les techniques de filtrage du lexique global et leur impact sur les taux de rappel et de pr cision de l appariement global mais aussi sur ceux de la projection et de la propagation Par ailleurs l analyse des cas o le principe de propagation
7. d montrer les donn es n ont pas t produites pour les besoins de la recherche linguistique ni suscit es par elle Elles n ont ainsi pas subi l influence du linguiste comme cela peut se produire lorsqu il forge ses exemples b L utilisation de corpus attest s pr sente toutefois des d savantages un corpus si vaste soit il ne comporte pas n cessairement toutes les donn es pertinentes par exemple toutes les manipulations permettant dans la suite Verbe Infinitif de distinguer entre semi auxiliaire va partir et verbe distributionnel d sire partir En revanche on peut y trouver des cas de figure auxquels on n aurait pas pens spontan ment Il faut dire aussi qu un cas de figure repr sent dans un corpus attest peut tout simplement ne pas tre remarqu par le chercheur il y a une longue tradition grammaticale et lexicographique qui s appuie sur des exemples attest s mais qui entre 211 autres n a jamais rep r certains emplois de dans ainsi tous les dictionnaires signalent ils le sens spatial le sens temporel le fait que dans puisse introduire un tat tre dans l embarras ou l approximation I a dans les trente ans mais aucun ne mentionne l interpr tation appositive Leeman 2000 Vaguer 2000 que peut prendre dans ce tableau JE vois dans ce tableau une preuve de sa folie compris comme Ce tableau est une preuve de sa folie Le recours des corpus attest s ne
8. l autre une hi rarchie s tablit entre les pi ces le th tre d en bas c est la com die en prose celui d en haut c est la trag die en vers et entre les deux c est la com die en vers que Corneille et Moli re se partagent 37 Britannicus hMithridate Bajazet Esther 5 s fndromaqpe Athalie ANALYSE ARBOREE de la distance lexicale B r nice TZ Ph dre formule de Jaccard partir des lemmes Iphig nie Alexandre Th ba de RACIN qa PAen re Si Sertonu gt N Sophonisbe CORNEILLE Clitandre Musion com dies Tuileries Mente prose CRITIO MOLIERE Figure 7 Analyse de la distance Jaccard appliqu e aux lemmes Le plus surprenant est peut tre que l aimantation du genre si puissante qu elle soit n ait pas domin davantage la personnalit des trois crivains et que le territoire de chacun soit si nettement d limit Les historiens de la litt rature nous ont appris que leur entente a t m diocre et que chacun avait sa fiert sa personnalit ses ambitions ses jalousies et aurait mal support qu on lui fasse de l ombre Et chacun a son originalit tr s reconnaissable sur le graphique Ainsi bien loin de conforter la th se de Pierre Lou s la statistique para t plut t l infirmer 5 NOTES 1 Il ne serait pas sans int r t de confronter la sagacit humaine l expertise de la machine La le
9. la langue crite est justifi par les raisons suivantes l enfant apprend parler dans des activit s langagi res dialogiques avec un adulte interaction doit avoir lieu dans une situation de parole spontan e pour garantir l authenticit des nonc s et comme le souligne Blanche Benveniste on ne peut pas tudier l oral par l oral en se fiant la m moire qu on en garde On ne peut pas sans le secours de la repr sentation visuelle parcourir l oral en tous sens et en comparer des morceaux 1997 Dans le cadre de travail du GARS avec Blanche Benveniste comme du CRALOE avec Lentin le syst me adopt est la transcription orthographique de fa on tenir un juste quilibre entre la fid lit de ce qui a t dit et la lisibilit de la transposition par crit Ringeard et Lorscheider 1977 1 4 Outils TAL Pour cette analyse automatique nous utilisons principalement deux logiciels Lexico3 et Cordial Lexico3 est un logiciel rassemblant des outils de statistiques textuelles et de lexicom trie labor s dans le cadre de l quipe Lexicom trie et textes politiques UMR 9952 CNRS cole Normale Sup rieur de Fontenay St Cloud puis dans l quipe LEXICO de l UPRES SYLED Syst mes Linguistiques Enonciation et Discours EA 2290 Universit de la Sorbonne Nouvelle Paris 3 par A Salem W Martinez C Lamalle et S Fleury Cordial est un corr
10. Il me semble vident que pour la linguistique de corpus il faut carter les deux derniers types de corpus Leur but est en effet largement syntaxique puisque le contexte est trop restreint pour analyser un sens textuel L tude 11 des inter relations entre la syntaxe et le lexique est impossible sans le contexte au sens large L outil de base en linguistique de corpus est le concordancier mais il n est efficace que sur des textes de taille suffisante pour m riter une analyse informatis e C est avec les deux autres types de corpus litt raires et corpus constitu s que les traditions linguistiques peuvent provoquer une confusion En France le prestige de la litt rature fran aise et des tudes litt raires est omnipr sent La grande archive textuelle FRANTEXT est largement litt raire et les deux grands dictionnaires Larousse et Robert utilisent des citations tir es des grandes uvres En ce qui concerne le lexique une certaine tradition prescriptive reste de mise De l autre c t de la Manche l approche est plus pragmatique La tradition litt raire reste importante dans les grands dictionnaires comme le Oxford English Dictionary mais depuis la guerre la mondialisation de la langue anglaise a cr une tradition de dictionnaires pour apprenants o la phras ologie et les exemples tir s de contextes non litt raires sont de mise Les dictionnaires comme le Oxford Advanced Learner s Dictionary dominent le marc
11. Le logiciel Hyperbase permet d sormais de distinguer et de regrouper les sous cat gories de verbes de fa on automatique Kastberg Sj blom 2002 L analyse regroupe les verbes selon leur statut de principal ou d auxiliaire selon le mode selon le temps exprim ou bien selon la personne Les modes verbaux Les modes du verbe fran ais se distinguent selon la tradition et les textes officiels en cinq ou en six classes infinitif participe subjonctif imp ratif indicatif et conditionnel La distribution des diff rents modes dans notre corpus est celle que l on trouve dans pratiquement tous les corpus litt raires c est dire avec un indicatif qui domine largement 63 3 et des participes et infinitifs qui occupent peu pr s un quart du groupe respectivement 19 2 et 14 4 Quant aux autres modes ils sont minoritaires conditionnel 1 6 imp ratif 0 8 et subjonctif 0 7 L analyse factorielle nous permet de situer les diff rents ouvrages de notre corpus par rapport la distribution des modes 52 Axe 1 45 Axe2 Voyage C di heur Quarantaine toile Mondo Rodrigues Inconnu Subjonctif Conditionnel Fi vre Imp ratif Proc s Figure n 8 Analyse factorielle des modes verbaux dans le corpus Le Cl zio Le premier axe du graphique met de nouveau en vidence l opposition des genres litt raires qui semble avoir une influence importante sur l usage des diff r
12. Les caract ristiques des non phrases rapidement voqu es ci dessus soulignent i que les caract ristiques morphologiques ne servent qu au rep rage des non phrases potentiellement th matiques ii qu il n existe plus de crit re op rationnel pour caract riser une non phrase th matique d une non phrase a th matique Par cons quent la prochaine tape devra d terminer les caract ristiques sp cifiques des non phrases par rapport aux phrases et les caract ristiques sp cifiques des non phrases th matiques par rapport aux non phrases a th matiques 2 3 2 LES CARACT RISTIQUES SP CIFIQUES AUX NON PHRASES TH MATIQUES Si la phrase et la non phrase sont d finies comme une suite de mots d limit e par une lettre majuscule initiale et par une ponctuation forte finale rien ne les distingue l une de l autre Il faut par cons quent trouver d autres propri t s sachant que les non phrases se d finissent uniquement l aide d un faisceau de crit res qui n ont de pertinence r elle que les uns par rapport aux autres la ponctuation leur position dans le texte l adverbial pr sent dans la non phrase et la nature de l extrait textuel Les signes de ponctuation sont une caract ristique propre aux textes crits et font partie des caract ristiques d un texte comme l ont montr des chercheurs en linguistique Catach 1994 V d nina 1989 Nunberg 1990 par exemple et en traitement automatique d
13. Microsoft Corporation juin 1999 4 D Willems in Bilger 2000 p 153 5 Le caract re peu op ratoire de ces concepts a cependant t relev par C J Anscombre 1992 et par J P Descl s 2000 130 OPPOSITION ENTRE DE ET DES DEVANT LES NOMS PR C D S D EPITHETE EN FRANCAIS PORT E DU POIDS Itsuko Fujimura Mitsumi Uchida Hiroshi Nakao Universit de Nagoya Universit f minine d Osaka Universit d A chi 1 INTRODUCTION Lorsque le nom commun au pluriel est pr c d d un adjectif pith te faut il employer comme article de au lieu de des des conditions gt de bonnes conditions des chiens gt de petits chiens Bien que cette r gle soit toujours enregistr e dans la grammaire fran aise et qu elle soit enseign e dans les classes de fran ais on sait bien que ce point n embarrasse pas les seuls trangers il fait question aussi pour bien des Fran ais c est une des difficult s de notre syntaxe Le Bidois amp Le Bidois 1967 Cette tude a deux objectifs d abord de donner une description la plus exhaustive possible de cette alternance au point de vue aussi bien stylistique qu historique bas e sur l analyse statistique de corpus de tr s grand taille et ensuite d examiner la port e de la notion du degr de poids que nous avons propos e dans Fujimura ef al 2004 en tant qu hypoth se expliquant de nombreux facteurs qui conditionnent ce ph
14. attributs communs peuvent tre regroup es dans une structure appel e fable dont chaque ligne correspond une actualisation sp cifique des valeurs mises en jeu Il est ainsi possible voir figure 1 de regrouper dans une m me table des Ph nom nes m t orologiques dynamiques les lexies vent accalmie assombrir claircie r chauffement fonte temp te de neige en les d crivant localement avec des actualisations diff rentes des deux attributs Axe agitation vs temp rature et Direction monte vs descend Enfin une notion d h ritage s mique peut s exprimer par un lien orient d une ligne vers une table Ainsi dans l exemple de la figure 1 la lexie vent est d crite sur une ligne de la table pr c demment propos e Dans une autre table h ritant de cette ligne i e des actualisations des valeurs des attributs d crivant la lexie vent des lexies employ es pour parler de vents sont diff renci es selon leur zone g ographique Ph nom nes m t orologiques Axe Direction dynamiques vent temp te de neige agitation monte accalmie agitation descend claircie r chauffement temp rature monte fonte assombrir temp rature descend Vents Zone g ographique Willy Willy Australie Mistral France Figure 1 H ritage s mique et lien de ligne table 291 Un ensemble de tables ainsi reli es et d crivant un domaine particulier est
15. bien ces enqu tes est aussi tr s importante la qualit de l enregistrement qui d pend la fois du support et du micro utilis s garantit celle de l coute Les avanc es technologiques 119 r centes mini disques format mp3 permettent de conserver un maximum de donn es dans un minimum d espace tout en garantissant une qualit stable et durable contrairement aux bandes magn tiques En outre leur reproduction sur CDRom s av re tr s simple pour qui poss de un graveur et sait s en servir 2 8 Mat riel utilis Nous avons utilis lors de nos enqu tes le mat riel suivant un enregistreur mini disque Sony MZ R700 un microphone de table Sony ECM MS907 un microphone cravate VIVANCO EM116 utilis lors des enqu tes dans les petits commerces o les personnes interrog es pouvaient continuer travailler sans tre trop g n es par l enqu teur Par la suite nous avons copi les enregistrements effectu s sur des mini disques sur des CD de donn es au format mp3 l aide d un logiciel gratuit disponible sur Internet Electronic Cosmo s MPEG suite et ajout cela les transcriptions au format Word2000 Les fichiers sons et textes tant r f renc s de mani re identique la consultation se r v le ainsi plus simple par exemple les corpus BIJOUV l doc et BIJOUV 1 mp3 sont respectivement la version transcrite et la version son du m me enregistrement 2 9 Enqu te
16. comme repr sentatif c est le cas de Riegel ef al 1994 qui sp cifient de surcro t que les donn es doivent tre attest es On peut rassembler un ensemble de textes ou d nonc s jug s repr sentatifs de la langue Une telle collection ne comprenant que des donn es attest es des nonc s effectivement produits constitue un corpus Le corpus retenu qui aura alors subi un jugement d acceptabilit de la part du linguiste puisque le linguiste trie les nonc s qu il va soumettre l analyse Dubois et al 1999 sera consid r comme un chantillon de la langue op cit que tout linguiste souhaite repr sentatif en ce sens qu il esp re qu il illustre l ensemble des possibilit s structurelles existantes par exemple de l emploi de la pr position dans tout en sachant qu il ne sera pas exhaustif puisqu on ne peut pr tendre rassembler tous les nonc s possibles 2 2 Les diff rentes attitudes a l gard des donn es Ainsi existe t il autant de corpus que d objets d tude mais aussi autant de corpus que de points de vue non seulement th oriques et m thodologiques ou encore selon que l on est lecteur ou chercheur Vaguer 2004b amp 2005b On peut en effet retenir le point de vue du lecteur qui prend connaissance d un certain travail d une part et le point de vue du chercheur qui op re le travail en question les deux corpus ain
17. expert face la validation Outre les caract ristiques linguistiques de la variation l expert va faire intervenir un autre crit re plus pragmatique qui concerne la pertinence du terme par rapport au domaine tudi Un terme va tre rejet s il est jug soit trop g n rique c est dire que son contenu informatif n est pas assez riche The Cell the adenoma cell soit sans int r t par rapport au domaine tudi Medical record medical and pathology records Les quatre combinaisons de ces deux types de crit res ont pu tre observ es dans notre corpus d tude et sont r sum es l aide du tableau suivant Validit Pertinence du terme linguistique Comportement 1 OUI OUI Comportement 2 OUI NON Comportement 3 NON NON Comportement 4 NON OUI Tableau 4 Comportement de l expert face la validation En observant les trois premiers comportements nous constatons que la validit linguistique d une variation ne suffit pas l acceptation d un terme La pertinence semble constituer un crit re d cisif pour l expert Le 277 quatri me comportement de l expert face au processus d indexation confirme ce fait mais nous am ne galement r fl chir plus g n ralement sur les fondements m mes de l indexation automatique en tant que m thode d extraction de connaissances En premier lieu face ces r sultats il appara t essentiel de pr server l
18. face lt ENTITY TYPE OF ENTITY quipe gt Cr teil lt ENTITY gt lt SPEAKER gt lt SPEAKER IDENTITY Pierre Louis Basse POST animateur studio principal gt un petit mot lt ENTITY TYPE OF ENTITY ville gt Bordeaux lt ENTITY gt lt SPEAKER gt lt SPEAKER IDENTITY Bernard Abbadie POST reporter terrain gt oui ballon bordelais avec lt REMARKABLE UTTERANCE gt lt TRANSCRIPTION OF REMA RKABLE UTTERANCE gt afolo lt TRANSCRIPTION OF REMARKABLE UTTERANCE gt lt SPELLING OF REMARKABLE UTTERANCE gt affolo lt SPELLING OF REMARKABLE UTTERANCE gt lt ANALYSIS OF REMARKABLE UTTERANCE gt apocope suppos e de affolement lt ANALYSIS OF REMARKABLE UTTERANCE gt lt REMARKABLE UTTERANCE gt suppl mentaire lt SPEAKER gt de la d fense troyenne qui se d gage malgr tout un z ro on est toujours dans le temps Figure 2 Extrait du Corpus foot de multiplex transcrits 2 3 Am liorations vis es Nous verrons au fil des sections suivantes qu en l tat le Corpus foot de multiplex transcrits permet d extraire des donn es de qualit Mais ne pouvons nous pas le rendre plus rentable encore exploiter pour l laboration de descriptions lexicales Son rendement serait il augment en synchronisant les transcriptions aux sources sonores Cette hypoth se semble hautement 152 plausible dans la mesure o l option de n introduire aucune ponctuation dans la transcription des
19. hui l institution premi re du code litt raire bien qu elle ait souvent t discut e et mise en question Les th oriciens la consid rent avec r serve affirmant que chaque genre litt raire en englobe plusieurs la nouvelle peut se pr senter en effet sous forme de fable de lettre de po me en prose etc Les h sitations terminologiques nouvelle conte r cit manifestent ce caract re d appartenance multiple et emboitante de tout crit litt raire En effet la codification des genres n est pas chose ais e ni stabilis e Le syst me traditionnel nous propose ou nous impose selon le code g n rique institutionnel certaines classifications reconnues romans nouvelles essais etc Pourtant les tudes ont montr que les genres existent qu on le veuille ou non et qu il serait inconcevable sur le plan purement linguistique de nier l existence des diff rentes typologies de textes Par ailleurs dans l tude lexicom trique l opposition g n rique est extr mement claire et permet de d finir des caract ristiques g n riques en s appuyant non sur des valeurs culturelles ou sociales mais sur les propri t s m mes des textes Les tudes lexicom triques et l analyse du corpus en situation montrent en effet que le lexique la morphosyntaxe la structure et la longueur des phrases entre autres varient avec les genres L opposition entre les diff rentes typologies est toujours pr sent
20. l ments pr fix s jouent un r le organisationnel ce que ne font pas ou pas la m me chelle les groupes pr positionnels en fin de phrase Si les non phrases ne suivent pas les r gles habituelles de la syntaxe afin de rendre un texte plus vivant il y a de fortes chances que certaines jouent un r le indentique celui des groupes adverbiaux pr fix s certains ouvrent vers la droite et d autres saturent s mantiquement un l ment morpho syntaxique c est dire qu ils focalisent ou ferment gauche La combinaison du crit re positionnel en d but de paragraphe vs dans le paragraphe combin celui de la ponctuation permet de pr ciser la nature de la non phrase dans les exemples 5 est une non phrase th matique et 6 une non phrase a th matique En d autres termes 5 en d but de paragraphe s ouvre sur la droite et joue un r le discursif organisationnel et coh sif Un telle combinaison ponctuation position fonctionne aussi dans la plupart des cas avec propos de d mocratie Jabotinski se d finissait comme un lib ral et d fendait avec fermet le syst me parlementaire AT vs Le bilan en est controvers et son ventuelle r vision est maintenant voqu e Non pas l gard de l Irak m me avec l application de la r solution 986 AJ et ne fonctionne pas avec et Ainsi dans va falloir que tu loges en ville chez une dame Polin qu il recommande A 257 propos de
21. labor une ontologie g n rale des actions de jeu afin qu elle permette de pointer les caract ristiques remarquables des circonstances de r alisation des actions nomm es et qu elle serve de cadre pour le stockage des premi res extractions faites en les rattachant au x descripteur s de circonstances de jeu dont elles rel vent Cette ontologie caract rise les actions r alis es par les joueurs durant les deux mi temps d un match en les d crivant selon les valeurs de quatre param tres d analyse sp cifiques cette pratique sportive orientation du jeu offensif ou d fensif nature du jeu individuel ou collectif jeu avec ou sans ballon s quence de jeu lors de la re mise en jeu dans le d roulement du jeu ou induisant une interruption de jeu partir de ces combinaisons de valeurs des quatre param tres la construction de l ontologie s est poursuivie par la mention des types d actions de jeu sous cat goris s en fonction de propri t s qui leur sont propres sous lesquels viennent prendre place les exemples lexicaux lemmatis s apr s extraction en corpus Dans l arborescence de la Fig 3 sont reproduites cinq combinaisons de valeurs des quatre param tres pertinentes pour les nonc s trait s ci apr s Elles dominent chacune un type d action de jeu dont les propri t s particuli res ne sont pas report es pour ne pas 157 surcharger cet extrait d ontologie et des exemples lemmatis
22. le latin Sylvie Mellet tienne Evrard le portugais Carlos Maciel Tomas de Vilhena mais aussi l espagnol l italien l anglais Les concepteurs du programme notent dans le guide d utilisation du logiciel Hyperbase s applique toute langue qui utilise l alphabet latin ce qui exclut notamment l arabe le cyrillique le grec et les id ogrammes chinois Le fran ais a cependant deux privil ges les dialogues et les messages visibles l cran sont dans cette langue et la comparaison externe est faite avec les donn es du Tr sor de la Langue Fran aise p 3 4 Depuis peu des comparaisons avec un corpus de r f rence sont possibles pour l anglais le BNC British National Corpus et le portugais corpus extrait du journal Publico Ces fonctions sont int gr es au logiciel et rendent les r sultats du travail d autant plus prometteurs la lumi re de ces exemples et de ces fonctionnalit s nous nous sommes propos e de soumettre l analyse d Hyperbase un corpus de langue anglaise Les fonctions statistiques du logiciel et surtout la perspective d avoir des r sultats d une grande finesse sont les autres raisons qui nous ont guid es dans nos choix m thodologiques Notre d marche n est pas la premi re et donc elle n est pas singuli re dans son genre Nous consid rons n anmoins que les sp cificit s internes de l anglais comme de chaque langue imposent une pr paration et des pr cau
23. les deux noms source et cible sont r gis par la relation SUJET et ou l appariement des verbes se fait ind pendamment de leur forme active ou passive 243 The fish are generally caught when they migrate from their feeding areas towards their spawning grounds G n ralement les poissons sont captur s lorsqu ils migrent de leur zone d engraissement vers celles de reproduction 2 Ceux o l un le nom source est r gi par la relation SUJET et l autre le nom cible est r gi par la relation OBJET et o l appariement se fait en fonction de la forme du verbe source avec la condition que ce dernier soit a la forme passive The predictor can then be constructed On peut construire le pr dicteur Activated sludge is submitted to anaerobic conditions En soumettant les boues des conditions d ana robie The value of the sawn products must be maximised Il faut maximiser la valeur des produits sci s Activities in the field of human nutrition have greatly developed Il s y est d velopp une activit importante dans le domaine de la nutrition humaine L appariement par propagation conduit tablir des liens d quivalence entre mots comme c est le cas de catch capturer construct construire mais aussi entre structures syntaxiques En effet partir de l appariement global fish poisson d une part et de l appariement local catch capturer d autre part il est possible d apparier les str
24. tant espac s d un mois 1 2 Recueil des donn es Pour ces corpus l adulte a utilis un livre illustr pour guider la discussion avec l enfant Dans un premier temps l adulte lit plusieurs fois l histoire l enfant Ensuite pour l enregistrement l adulte demande l enfant de raconter cette histoire Enfin apr s avoir recueilli les corpus une fiche de situation est tablie pour chaque enregistrement et les dialogues sont r crits suivant des conventions de transcription adapt es aux objectifs de recherche de la linguistique de l acquisition du langage 71 1 3 Objectifs de recherche La linguistique de l acquisition recherche les processus d laboration du fonctionnement cognitivo langagier en observant tout particuli rement la syntaxe dans les nonc s de l enfant partir d interactions verbales avec un adulte en situations de dialogues spontan s Cette approche s appuie sur les avanc es du courant interactionniste Kerbrat Orecchioni 1999 ainsi que sur les recherches sur le fran ais parl et crit Blanche Benveniste 1997 qui clairent l analyse du langage adress l enfant et le fonctionnement des interactions verbales En effet ces processus d laboration sont recueillis en contexte authentique de production langagi re dans des situations de vie quotidienne au cours de conversations famili res Lentin 1998 Le choix de la langue parl e par rapport
25. 17s des 26 de 241 18s des 23 de 853 19s_1 des 43 de 822 19s 2 des 103 de 1186 20s_1 des 213 de 1381 20s 2 des 227 de 862 5 Voici le texte int gral de l article De vs Des articles Je doutois si j en ferois une Remarque mon dessein n estant que d en faire sur les choses qui sont tous les jours en question amp en dispute mesme parmy les gens de la Cour amp nos meilleurs Escrivains Il ne me sembloit pas que celle cy deust estre mise en ce rang comme en effet il n y a gueres de personnes qui ayent tant soit peu de soin d apprendre bien parler amp bien escrire qui ne s achent ce que je vais remarquer N anmoins ayant consid r que dans la plus part des Prouinces on y manque amp que parmy ce nombre infini d Escrivains qui sont en France il y en a une bonne partie qui ne prennent pas garde j ay jug cette Remarque n cessaire Au nominatif amp l accusatif de se met devant l adjectif amp des devant le substantif par exemple on dit il y a d excellens hommes amp il y a des hommes excellens ce pays porte d excellens hommes vs porte des hommes excellents amp non pas il y a des excellens hommes ny il y a d hommes excellens amp ainsi de l autre C est une reigle essentielle dans la langue J ay dit que c estoit au nominatif amp l accusatif qu elle avoit lieu parce qu au g nitif amp a l ablatif il n en va
26. 1977 Le verbe d v nement n tant pas contraint d exprimer la trajectoire il est disponible pour exprimer avec une grande pr cision n importe quelle facette du mouvement Pour les seules constructions intransitives V ou V syntagme pr positionnel ou particule adverbiale pas moins de 43 verbes diff rents sont ainsi utilis s pr sent s ci dessous par nombres d occurrences d croissants 10 storm glide 7 drift hammer roll hurtle 5 pull loom blast nudge 4 struggle plug pop work pound 3 race run roar sail thunder scamper 2 chug scuttle churn shoot ease smoke hurry snake rumble steam stride stride 1 barrel strut charge swing climb trundle coast wheel fly whistle 106 Le plus fr quent est storm avec dix occurrences dont l emploi correspond de toute vidence au besoin de souligner l aspect mena ant bruyant et spectaculaire d une machine en plein effort Parmi les autres verbes du champ sonore on trouve blast 5 occurrences roar 3 thunder 3 chug 2 rumble 2 hammer pound pop le s mantisme de plusieurs de ces verbes ayant en commun avec celui de storm des traits de force et de violence Comme la photographie est incapable de repr senter les sons autrement qu indirectement et encore pas toujours il est clair que les l gendes correspondantes ont pour fonction de suppl er ce manque voire d apporter du spectaculaire Lorsque c est la seule mani re du mouvement qui est
27. 1997 Les linguistiques de corpus Paris Colin Kerbrat Orecchioni C 1999 L oral dans l interaction une libert surveill e Revue Fran aise de Linguistique Appliqu e Volume IV n 2 d cembre 1999 p 41 55 Lebart L et Salem A 1994 Statistique textuelle Paris Dunod Lentin L 1998 Apprendre a penser parler lire crire Paris ESF Lentin L et al 1984 Recherche sur l Acquisition du Langage tome 1 Paris Publications de la Sorbonne Nouvelle Lentin L ef al 1988 Recherche sur l Acquisition du Langage tome 2 Paris Publications de la Sorbonne Nouvelle Moreau M L et Richelle M 1981 L acquisition du langage Mardaga 4 dition Ringeard M et Lorscheider U 1977 Edition d un corpus de fran ais parl Recherches sur le fran ais parl n 1 p 15 24 Sansonetti L 2001 Le Projet ANACAL Paris M moire de Ma trise ILPGA Paris 3 non publi Sansonetti L 2002 Approche lexicom trique de corpus de dialogues adulte enfant dans le cadre de recherche en linguistique de l acquisition du langage Paris M moire de DEA ILPGA Paris 3 non publi Tissier C 2001 R le de l adulte dans l interaction langagi re adulte enfant entre 4 ans 9 mois et 6 ans 4 mois en situation de narrations dans deux corpus longitudinaux Paris M moire de Maitrise ILPGA Paris 3 non publi 5 NOTES 1 Ungerer T Crictor 1958 l cole des Loisirs pour l dition e
28. 2 chercheur fureteur indiscret inquisiteur investigateur 3 anxieux attentif avide int ress soucieux Nous voyons que les composantes 2 et 3 correspondent au sens int ress de notre adjectif tandis que la composante 1 refl te le sens int ressant Pour construire la repr sentation graphique laquelle nous voulons aboutir nous devons tablir une relation valu e entre les synonymes Brodda et Karlgren 1969 ont d j propos une m thode r pondant cette pr occupation mais elle est relativement d licate mettre en uvre car elle 182 doit s appliquer l ensemble du graphe form par le dictionnaire entier Notre d marche consiste partir de la matrice d adjacence du sous graphe et pour chaque paire de sommets A et B nous d finissons une similitude entre ces deux sommets par l indice de Jaccard S Legendre et Legendre 1998 Sad aS X Sa5 S4 Sa6 4 0333 a b c 4 2 6 Figure 2 Exemple de graphe illustrant le calcul de la similitude entre sommets Dans la formule de calcul a est le nombre de sommets en relation avec A et avec B b resp c le nombre de sommets en relation avec A mais pas avec B resp avec B mais pas avec A En effectuant ce calcul pour chaque paire de sommets nous obtenons une matrice de proximit s partir de laquelle par chelonnement multidimensionnel non metric multidimensional scaling nous pouvons construire une repr sentation bidimensionnelle
29. 2000 Corpus M thodologie et applications linguistiques Paris Honor Champion et Presses Universitaires de Perpignan Ducrot O 1979 L imparfait en fran ais Linguistische Berichte 60 p 1 23 Freyssinet Dominjon J 1997 M thodes de recherche en sciences sociales Paris Montchrestien Coll AES Gadet F 1971 Recherches r centes sur les variations sociales de la langue Langue Frangaise N 9 Linguistique et soci t Paris Larousse p 74 81 Giron S 2004 Corpus Allier Transcription de 7h30 de fran ais parl dans 1 Allier 03 en zones urbaines Th se de doctorat de l Universit Blaise Pascal Clermont Ferrand Labelle M 1987 L utilisation des temps du pass dans les narrations fran aises le pass compos l imparfait et le pr sent historique Revue Romane 22 1 p 3 29 5 NOTES 1 DELIC 2002 Projet Corpus fran ais parl de r f rence rapport final non publi L quipe DELIC Jeune Equipe JE 2328 s int resse la description des structures morphosyntaxiques et lexicales en fran ais en synchronie comme en diachronie Sa m thodologie repose sur l utilisation syst matique de grands corpus oraux et crits l aide d outils informatiques appropri s concordanciers tiqueteurs outils de gestion et de navigation etc Cf http www up univ mrs fr delic index html 2 http p2pfr free fr win convertisseur MPEGSuite exe 3
30. EQUIVALENCE L AIDE DE LA RELATION SYNTAXIQUE SUJET Sylwia Ozdowska ERSS Universit de Toulouse le Mirail 1 INTRODUCTION L appariement c est dire la mise en correspondance de mots ou expressions quivalente dans des textes qui sont une traduction l un de l autre repr sente un enjeu important notamment pour ce qui est de la construction de ressources terminologiques multilingues Divers syst mes visant automatiser cette t che ont vu le jour Nombreux sont ceux qui privil gient l utilisation de donn es statistiques dans leur strat gie de s lection du bon appariement Daille et al 1994 Gaussier 1995 Gaussier 1998 plus rares ceux qui exploitent des donn es linguistiques Wu 2000 Hull 2001 Dans cet article nous proposons une m thode d appariement de mots et de structures syntaxiques qui s appuie principalement sur des connaissances linguistiques et plus pr cis ment sur les relations de d pendance syntaxique identifi es pour les deux langues source et cible par les analyseurs syntaxiques de corpus SYNTEX Le choix de cette m thode est guid par les deux principaux objectifs que nous poursuivons a parvenir a un appariement pr cis un niveau de granularit fin c est dire celui des mots et des structures syntaxiques et b capter des appariements entre mots et structures syntaxiques peu fr quents et ou sp cifiques au corpus 2 HYPOTHESE DE DEPART Nous reprenons notre
31. En outre un deuxi me facteur se superpose au facteur g n rique le facteur chronologique qui divise Le Cl zio en trois p riodes principales Nous avons pu constater que la courbe r currente d un vocabulaire cro t de mani re significative au d but de l uvre et d cline brusquement partir de la fin des ann es 1970 pour s accro tre de nouveau vers la fin de l uvre sans que ces derni res valeurs atteignent les apports de la p riode initiale La chute que nous avons observ e dans nos diff rents histogrammes correspond bien la rupture dans l criture de notre auteur si souvent voqu e par les critiques litt raires Enfin la troisi me p riode apporte des th mes nouveaux partir de 1987 sans pour autant pr senter des apports lexicaux tr s importants sauf quand le genre l impose comme dans les ouvrages ethnologiques dans les essais et dans la biographie 47 Globalement l analyse de la structure lexicale du corpus permet de constater en premier lieu le r le tr s important du genre litt raire Les essais les ouvrages ethnologiques et la biographie pr sentent une richesse lexicale avec une grande sp cialisation du vocabulaire ainsi que des apports lexicaux importants dans notre corpus En deuxi me lieu les diff rentes analyses mettent en vidence le facteur chronologique et l volution de l uvre Les r sultats confirment les intuitions contradictoires que peut avoir le lecteur de Le
32. Il s agit de d terminer quels diff rents emplois de dans on a affaire dans les discours seuls observables les actualisations de la langue sont le passage oblig de tout travail linguistique comme on l a vu pr c demment de fa on essayer de construire une identit de la pr position en langue permettant en retour de rendre compte des nonc s concrets dans lesquels elle appara t Le corpus est donc une base incontournable ce partir de quoi on peut avoir un aper u des diff rentes possibilit s qui guident la recherche d une d finition ou qui en permettent la v rification lorsqu on a labor une hypoth se mais qui n est pas en lui m me l objet de la recherche notre objectif n est pas l analyse des discours C est en cela qu on se rapproche de la linguistique de corpus entendue comme a le travail que fait le linguiste qui constitue un corpus c est dire qui prend un texte au sens large crit oral transcrit etc l annote par l ajout d informations d ordre morphologique syntaxique s mantique et le traite informatiquement tiquetages arbres analyseurs syntaxiques pour le rendre utilisable par d autres outil d exploration puisque nous constituons un corpus informatis et non en tant que b le corpus serait l objet m me de notre tude puisque ce qui nous int resse c est un fait de langue En effet si l on se reporte l oppositi
33. Laporte et S bastien Paumier qui propage si on le demande les informations morphosyntaxiques contenues dans leurs dictionnaires les DELA et les codages en particulier s mantiques d clar s dans des dictionnaires personnels ajout s aux ressources DELA sur les mots des documents qui sont explor s avec eux Silberztein amp al 2001 Ce point m rite un d veloppement plus cons quent qui permette d valuer les qualit s respectives de ces proc dures et des outils mettre en uvre dans chaque cas Il n a pas sa place dans cette note mais a d j donn mati re une publication plus technique Gasiglia 2004 p 53 60 19 Je reviendrai dans la section suivante sur l importance qu il y a ce que les explorations automatiques soient men es avec une curiosit aff t e et que les extractions produites soient d pouill es en faisant preuve d une sensibilit linguistique qui exerc e sur ce qui est donn voir conduise envisager de nouvelles requ tes au fur et mesure que des faits semblent s observer afin de les valider ou pas S il est vrai que seul peut tre trouv ce qui a t cherch les motifs de recherche eux m mes demandent tre trouv s 20 Le rendement de consultation est am lior si l on balise les noms de joueurs en mentionnant en attribut l quipe pour laquelle ils jouent au moment o est enregistr e la retransmission radiophonique de chaque match Cette infor
34. M T 2003 La terminologia Teoria metodologia aplicaciones Barcelona Editorial Antartida Empuyries Coelho J S B et Silva R V M 2004 A sufixa o e a forma o do l xico portugu s arcaico ANPOLL Boletim Informativo n 32 p 234 Maroneze B O et Nascimento V C C 2001 A neologia do portugu s contempor neo do Brasil a deriva o sufixal 9 Simp sio Internacional de Inicia o Cientifica Universit de Sao Paulo Maroneze B O 2002 Neologismos formados por sufixos indicadores de a o 10 Simp sio Internacional de Inicia o Cientifica Universit de Sao Paulo McEnery T Wilson A Baker P 2000 Linguistic corpora and language teaching corpus based help for teaching grammar VI Jornada de corpus ling istics Barcelona IULA Universitat Pompeu Fabra p 65 76 Pl nat M Lignon S Serna N Tanguy L 2002 La conjecture de Pichon Meillet S dir Corpus et recherches linguistiques Nice Publications de la Facult des Lettres Arts et Sciences Humaines de Nice p 105 50 Sardinha T B 2004 Lingiiistica de corpus Sao Paulo Manole 97 5 NOTES 1 Celui qui subit de telles chirurgies ne commet aucun crime car il n y a pas de punition pour l lt autoflagela o gt Il arrive n anmoins que de nombreux transsexuels arrivent obtenir de faux documents 2 La soci t br silienne a toujours fait une lecture n gative de soi m me de I lt
35. P ka T Trie A n yana asad Wy icin IMeupas lee i 4 4Voitaire IN i N Vinee EON MART VA 2 POL TAIRE Voitaire VAUX f i 2Voitaire J SMarivau j _ 2Marivau j 1Zoia IR _ D J Marivau J N Saunas ER U 1Sand_ sd ee AFlauber NI e 48 Ted N 3Sand A an MAUPASSANT A te icine M LANGES f 4Zoia Tes ANALYSE FACTORIELLE 2Maupas ata ES a DES LEMMES NS distance Labb pour voir ses param tres Draauer une fiaure pour la d placer 4iQJUSC pour la modifier 0LT pour l effacer Draauer un point pour le d placer hd Figure 1 Analyse factorielle de la distance lexicale Formule de Labb appliqu e aux lemmes 2 2 Avec les m mes donn es et des m thodes semblables aux siennes nous obtenons les m mes r sultats Dans la panoplie des outils d analyse multidimensionnelle c t de la classification automatique et de l analyse arbor e dont D Labb a fait usage on dispose de l analyse factorielle qui est illustr e dans la figure 1 Confirmation est donn e du lien tr s fort qui unit les couples tout extrait portant l indice 1 se trouve proximit imm diate de l extrait correspondant qui en est la suite et qui est num rot 3 et il en est ainsi des extraits pourvus des indices 2 et 4 Mais encore les deux couples qui se rattachent au m me crivain ne sont jamais tr s loign s en sorte qu il est facile de circ
36. Preliminary recommendations on Corpus Typology Rapport Technique EAGLES Expert Advisory Group on Language Engineering Standards CEE Vaguer C 2000 I s est tromp dans l administration du m dicament Un ou des compl ments de structure Dans Nacion Naissance de la notion compl ment d apposition M moire de DEA Universit de Paris X Nanterre Vaguer C 2004a Constitution d une base de donn es les emplois de dans marquant la coincidence Revue Fran aise de Linguistique Appliqu e IX 1 p 83 97 Vaguer C 2004b Les constructions verbales V dans GN Approches syntaxique lexicale et s mantique Th se de doctorat Universit de Paris X Nanterre Vaguer C 2005a Une base de donn es comme moyen de communication scientifique Actas I ZX Simposio International de comunicaci n social organis par le Centro de ling istica Aplicada y El Ministerio de Ciencia Tecnologia y Medio ambiente Santiago de Cuba p 134 138 Vaguer C 2005b De l utilit d un corpus en syntaxe mais quel corpus in Vergely P d Role et place des corpus en linguistique Actes du Colloque JETOU 2005 p 101 114 Vandeloise C 1986 L espace en fran ais Paris Le Seuil 3 NOTES 1 Tel que Dubois et al 1999 p 123 le d finissent L univers est l ensemble des nonc s tenus dans une circonstance donn e tant que le chercheur n a pas d cid si ces nonc s
37. S Sa amp des 0 de 6 bonnes s T ae N Ko intentions des 0 de 11 Ce ph nom ne n est cependant pas si facile interpr ter qu il n y para t 137 On se demande d abord quel est le statut du facteur phonique dans les textes crits puisque les donn es dans les figures 3 et 4 sont toutes recueillies partir de textes r dig s except Hansard qui est la transcription des discussions au Parlement Canadien Il faut aussi se demander ensuite si la r gle pour la liaison entra ne r ellement et constamment une production phonique dans le langage externe ou interne chez les auteurs des textes Nous n avons pas de moyen dans les textes crits de v rifier si des liaisons se font v ritablement suivant la r gle Nous affirmerons tout de m me avec les deux arguments qui suivent que le crit re propos est appropri en tant que facteur du poids phon tique m me dans les textes crits Le premier argument repose sur les descriptions de phonologues ou phon ticiens D apr s Delattre 1966 la liaison est obligatoire entre l adjectif ant pos et le nom qui le suit dans la conversation soign e courante p 43 44 et en g n ral la liaison se fait davantage au pluriel qu au singulier p 41 On peut dire que nos s quences ADJ NOM au pluriel sont les cas o la r gle pour la liaison est la plus strictement appliqu e par exemple dans de grands a
38. ais Paris PUF Thompson S Langacker R 1985 Adverbial Clauses SHOPEN d Language Typology and Syntactic Decription Complexe Construction vol 2 Cambridge Cambridge University Press p 170 234 Turco G Coltier D Des agents doubles de l organisation textuelle les marqueurs d int gration lin aire Pratiques n 57 p 57 79 Vedenina L 1989 Pertinence de la pr sentation typographique Paris Peeters Selaf Virtanen T 1992 Discourse Functions of Adverbial Placement in English Abo Abo Akademi University Press Winter E 1978 A Look at the Role of Certain Words in Information Structure K P Jones V Horsnell ds Informatics n 3 Cambridge London Aslib p 85 97 NOTES 1 Je remercie Jean Luc Minel pour sa relecture de l article et ses suggestions 267 APPORT DE L ANALYSE LINGUISTIQUE POUR L EXTRACTION TERMINOLOGIQUE EN CORPUS APPLICATION AU DOMAINE DE LA G NOMIQUE Fabienne Ville Ometz Alain Zasadzinski Dominique Besagni INIST CNRS 1 INTRODUCTION L extraction de la connaissance exprim e principalement sous forme langagi re dans les documents repose sur des techniques issues du TALN traitement automatique du langage naturel et de la terminologie computationnelle La recherche en corpus des termes porteurs de l information pertinente est r alis e par notre plate forme d ing nierie linguistique ILC Infom trie Langage Con
39. analyse linguistique qui ne repose pas uniquement sur l intuition mais sur la confrontation avec des donn es parfois tonnantes que la simple intuition n aurait pas pu atteindre Bien que l exp rience du Fran ais Fondamental se soit av r e tr s utile m me si les donn es rassembl es dans les ann es 1950 1960 ne portaient pas le nom de corpus et que leurs objectifs taient diff rents ibid p 12 force est de constater l int r t que peuvent pr senter aujourd hui encore les liens entre corpus de langue parl e et recherche linguistique applicables notamment au domaine du Fran ais Langue Etrang re En effet l hypoth se pr sent e dans ce travail si elle est v rifi e pourra contribuer aider les apprenants et les enseignants de FLE Dans la premi re partie concernant le corpus nous pr sentons tout d abord la m thode utilis e pour le recueil des donn es pour l chantillonnage et pour la transcription puis les int r ts que pr sente son utilisation Dans la seconde partie nous proposons une paire de valeurs distinctives g n ralis e opposant les emplois de l imparfait ceux du pass compos 113 et nous la confrontons aux usages observ s dans le corpus en nous appuyant sur des exemples qui en sont issus 2 LE CORPUS ALLIER 2 1 Pr sentation du corpus Nous avons constitu durant l ann e 2001 un corpus d environ 100 000 mots partir
40. anim s et dont 13 sont justement am ricaines on constate que sur les quatre comportant un anaphorique deux ont un f minin donc 1 sur 2 contre 1 sur 8 86 pour l ensemble Tout autant que l attitude affectueuse de Quirk et al 1985 l animisme fait de style pr sent dans le corpus constitue une explication des f minins Certes pour le francophone lisant l anglais les noms fran ais locomotive et machine tant grammaticalement f minins il n y a pas de choc s mantique majeur ce qu une locomotive soit l objet d une anaphore par un f minin Mais de quel sexe sont les locomotives pour les anglophones Les anaphoriques y r f rant peuvent tre f minins comme on vient de le voir et nous n avons aucun cas de masculin dans le corpus En outre l anglais n ayant pas de lex me de langue g n rale d notant fr re ou sceur on est oblig de choisir et c est sister qui d signe des machines du m me type 9 A sister 2 8 2 X shoves hard at the rear 103 3 occurrences de sister uniquement dans cet emploi aucune de brother Ceci est il spontan ou bien contraint par la pr existence des reprises de ship au f minin et du lex me sister ship En fait sister est employ phoriquement plus largement que pour des ant c dents reprenables au f minin ce dont le sens 5 du Collins COBUILD English Dictionary rend parfaitement compte You can use sister to describe something that is o
41. appui financier du Conselho Nacional de Desenvolvimento Cientifico e Tecnol gico CNPq est int gr aussi par des tudiants de Ma trise et de Doctorat La Base de N ologismes du Portugais Br silien Contemporain a l objectif g n ral de fournir des l ments pour l tude du lexique portugais variante br silienne ainsi que pour l laboration de r pertoires d unit s lexicales n ologiques part ces objectifs g n raux la Base a galement pour objectif d tudier les proc d s de formation les plus usuels dans la p riode et dans le corpus tudi s les formants affixaux pr fixes et suffixes les plus productifs dans la p riode et dans le corpus tudi s la concurrence entre emprunts et l ments vernaculaires dans l volution du lexique portugais la circulation des termes des sciences et des techniques dans la presse br silienne 89 Ce projet de veille n ologique s appuie sur un corpus informatis recueilli sur Internet et concernant la presse crite br silienne journaux Folha de S Paulo FSP et O Globo G et revues Veja V et Isto IE qui sont les plus diffus s dans le territoire br silien Ce choix n est pas fortuit Les revues Isto et Veja publi es S o Paulo et les plus diffus es au Br sil traitent de divers domaines des langues de sp cialit Elles correspondent un corpus de vulgarisation o des questions concernant plusieurs d
42. apr s le crit re de position de la non phrase dans le texte 258 lorsqu une pr position est potentiellement un introducteur th matique elle se trouve en d but de paragraphe ou de r plique Dans les dialogues les pr positions en d but de r plique apr s un tiret cadratin introduisent le plus souvent une r ponse une question ou une demande de pr cision 8 Z ajouta un peu plus haut comme Joseph traversait la rue pense la r ponse que tu dois me donner Joseph se retourna quelle r ponse au sujet de la chambre Frantext ou bien encore introduisent une phrase laiss e en suspens interrompues par 9 Vivian les sermonna d un ton de ma tresse d cole Vous trainez ici passant votre temps inventer des histoires Je ne dirais pas cela Viv Il y eut un froissement de tissu tandis que Trueblood essayait de recroiser les jambes propos de la famille de Franco Sa m re n est pas une matrone la moustache noire R Il s agit alors d ellipses et de fragments donc de non phrases a th matiques Toutefois dans un exemple comme 10 la pr position n introduit pas un compl ment dans la continuit syntaxique et s mantique de la r plique pr c dente 10 J ai encore une ou deux questions avec votre permission Si je connais les r ponses vous les aurez A propos de votre p re Un grand nombre de ministres de l glise r form e accorden
43. c dentes l imparfait du c t droit du graphique est attir par les romans de la deuxi me p riode de Le Cl zio Le pass simple est employ dans la p riode nouveau roman les ouvrages ethnologiques semblent favoriser le futur Quant au pr sent sa position est plus difficile expliquer il semble que ce temps soit beaucoup employ par Le Cl zio dans les romans de la deuxi me p riode de l uvre Le deuxi me facteur de l analyse factorielle rend compte de la temporalit et de l volution chronologique de l emploi des diff rents temps verbaux chez Le Cl zio Nous trouvons les premiers livres en bas du graphique une grande partie des ouvrages au milieu et tout en haut du tableau sont rassembl s les derniers romans Hasard La quarantaine Poisson d or Onitsha et Etoile errante L usage des diff rents temps verbaux dans un corpus est en effet un facteur qui part la fonction premi re de nous situer dans le temps est souvent d terminant pour le style d un crivain et change avec l volution d une uvre litt raire Dans l uvre lecl zienne nous avons pu constater que l emploi du verbe change au fur et mesure que l uvre progresse et que la fr quence des verbes est plus ou moins dominante selon l poque ou les genres litt raires Nous avons galement vu qu l int rieur de la cat gorie verbale il y des variations importantes quant au mode aussi bien qu
44. c dents des pronoms relatifs PROREL ainsi que le rattachement des pr positions PREP et des compl ments pr positionnels PREP D celui des pith tes ADJ des adverbes ou encore des d terminants DET L analyse se fait de mani re ind pendante dans chacune des deux langues Les traitements n en restent pas moins homog nes tant donn que les deux analyseurs reposent sur un m me principe de base que les relations identifi es dans les deux langues sont les m mes et leur repr sentation identique Ce sont les principaux avantages de ces deux outils pour une tude comme la n tre portant sur des corpus parall les partir des r sultats de l analyse syntaxique SYNTEX extrait un ensemble de mots et de syntagmes qui servent de point de d part l ensemble du processus d appariement que nous allons d tailler dans les sections qui suivent 5 PROCESSUS D APPARIEMENT Le processus d appariement tel que nous le concevons comprend deux tapes La premi re consiste apparier les mots et syntagmes dits candidats termes sources CTs et cibles CTc extraits par les outils SYNTEX en se basant sur leur fr quence d apparition dans des phrases align es on parlera dans ce cas d appariement global au niveau du corpus La seconde qui s appuie sur les r sultats obtenus l tape pr c dente consiste mettre en correspondance des CTs avec des CTc un niveau local c est dire phrase phras
45. cifique Introduites en cascade ces modifications vont permettre de ne ramener que des variations correctes ou ambigu s et de r partir ces variations selon 282 plusieurs degr s de confiance Dans tous les cas nous avons interdit l introduction d une ponctuation Tous les exemples de telles structures rencontr s dans notre corpus d tude ont montr que la pr sence d une ponctuation rompt les relations de d pendances initiales 1 modification X2 N3 X2 lt A N Np V 0 2 gt A4 CS lt A N Np V gt N3 Dividing cell dividing follicular and stroma cells Cette premi re sous m tar gle autorise uniquement l insertion d un adjectif la gauche de la coordination C5 En raison des propri t s syntaxiques de l anglais une telle structure implique obligatoirement que A4 soit rattach N3 ce qui permet l introduction de n importe quelle unit lexicale la droite de cette coordination La coordination s applique aux expansions de la t te N3 La m tar gle g n re ainsi des ST dont les rapports de d pendance ne sont ni ambigus ni modifi s 2 modification X2 N3 X2 lt A N Np V 0 2 gt N4 C5 N3 lt N4 agr num gt plu lt N3 agr num gt plu Endocrine cell endocrine tissues and cells Lorsque l unit lexicale introduite gauche de C5 renvoie un substantif il faut interdire l insertion de toute unit droite de la coordination sous peine d cla
46. conditions d enregistrement devraient tre identiques pour chaque locuteur nous avons eu quelques difficult s d applications pratiques dans les cas notamment o nous enregistrions des locuteurs sur leur lieu de travail Ceci est sans doute un des reproches qui pourront nous tre adress s nous en avons bien conscience Concernant notre corpus voici les conditions d enregistrement 2 11 Lieu d enregistrement Lorsque l enregistrement se d roule chez l enqu t ce dernier propose g n ralement la pi ce habituelle de r ception la plus calme cuisine bureau ou jardin 24 corpus sont enregistr s ainsi Lorsque l enregistrement ne se d roule pas chez l enqu t il est effectu soit sur son lieu de travail l aide d un micro cravate pour ne pas g ner l accomplissement de certaines t ches 2 corpus enregistr s ainsi James 30 et Monov 42 soit la terrasse d un caf en zone pi tonne avec le microphone traditionnel Mumon 44 121 2 12 Position enqu teur enqu t L enqu teur fait face l enqu t sauf pour James 30 et Monov 42 o la situation d enregistrement sur le lieu de travail n a pas permis cette position Ainsi en essayant d unifier au maximum le contexte et les conditions d enregistrement nous pouvons comparer diff rents objets ayant ce trait commun l id al tant bien s r de pouvoir tablir une r elle constante partir de ce contexte et de ce
47. dire des l ments facultatifs Notre corpus ne comporte pas d exemple concernant les introducteurs th matiques dans les non phrases ce qui ne signifie pas qu une telle configuration soit impossible Elle a donc t prise en compte et pour ce faire nous avons utilis les r sultats de Porhiel 2001a la longueur des insertions autoris es dans les pr positions compos es se limitent 3 mots La plupart des adverbiaux instaurent par nature diff rents types de relations Selon la nature de l adverbial une non phrase aura une lecture th matique ou a th matique La d sambiguisation des adverbiaux d passant le cadre de ce projet nous n avons pas cherch r soudre les erreurs de rep rage Nous venons d voquer quatre cas de figure de donn es linguistiques qui s cartent dans l absolu des propri t s prototypiques des non phrases th matiques expliqu es au point 2 3 Sur le plan informatique les propri t s prototypiques pr sentent l avantage d tre born es ici par exemple la limite orthographique les insertions et de pouvoir tre traduites en donn es chiffr es si besoin ici par exemple la longeur des compl ments Par ailleurs les donn es prototypiques satisfont la fois le linguiste et l informaticien ce qui n est pas toujours le cas avec les configurations non prototypiques Dans ce dernier cas la r alit linguistique et la r alit informatique ne trouvent pas toujours fa
48. du premier texte De la terre la lune extraits 19 et 41 soulign e par D Labb est bien confirm e par la position extr me en haut gauche des points Verne et 3Verne la liaison est rompue avec l autre texte de Verne qui se situe au centre du graphique points 2Verne et 4Verne recouvrant le Secret de Wilhelm Storitz Ces deux textes de Verne se trouvaient aussi tr s distants dans l analyse de D Labb L explication tient non seulement la distance chronologique qui s pare les deux textes 40 ans mais aussi l volution d un crivain qui commence par crire des romans d aventure pour enfants et qui finit candidat l Acad mie fran aise avec des r cits fantastiques et psychologiques crits la mani re du Horla de Maupassant En pr sence du graphique 1 l il peut tre sensible en outre au mouvement d ensemble qui de la droite la gauche semble soumettre les textes et les auteurs la d rive du temps On observe une sorte de croissant caract ristique des donn es s rielles o prennent place successivement et dans l ordre chronologique Marivaux Rousseau Chateaubriand Balzac Flaubert Maupassant et Zola Cette d cantation du temps est pareillement observable dans les deux graphiques de D Labb Rien de tr s surprenant en deux si cles la langue a volu le mouvement des id es et des sensibilit s s est pr cipit et le progr s technique a chang le monde Pourtant le
49. e un seul texte si la contrainte de taille suffisante est respect e L important est de pouvoir comparer des textes afin de voir autrement Les Journ es de la Linguistique de Corpus 2003 ont cherch mettre l honneur les deux types de corpus et les deux approches aux textes que sont la linguistique de corpus per se et la lexicom trie Il n y a pas de rupture 12 entre les deux mais un continuum dans lequel nous pouvons trouver d autres disciplines de la linguistique qui utilisent des corpus Il faut ajouter galement des tudes qui sont plus tourn es vers l analyse informatique Afin de montrer la grande vari t des tudes sur corpus nous avons choisi de diviser ces actes en trois sections lexicom trie et corpus linguistique et corpus et TAL et corpus Il va de soi que ces coupures ne sont pas parfaites la cat gorisation simple ne fonctionne jamais dans les domaines pluridisciplinaires Les travaux d Etienne Brunet illustrent parfaitement les objectifs de la lexicom trie litt raire Son texte traite de deux controverses la relation entre Corneille et Moli re et la m thodologie adopt e par Labb Il s agit donc d une analyse litt raire et d une discussion approfondie des positions m thodologiques L article de Margareta Kastberg Sjoblom s attaque la notion de genre litt raire vue travers une analyse factorielle Cependant au lieu d tudier une gamme d auteur elle analyse l
50. en particulier pour ne pas g n rer d interpr tations s lectives voire fautives pas de normalisation et des transcriptions orthographi es selon l usage courant respectueuses des normes typographiques habituelles et de l orthographe enregistr e dans au moins l un des trois dictionnaires de r f rence cf note 10 sauf au sein des l ments destin s notifier des variations jug es remarquables cf supra et Fig 1 dans la DTD D finition de Type de Document mais ces informations sont isol es par leur balisage puisqu il s agit ici d j d analyse Pour ce qui concerne la structuration en XML l en t te non d velopp ci dessous est conforme aux pr conisations du Corpus Encoding Standard CES Ide amp V ronis 1996 mais faute de trouver dans les propositions relevant de la TEI Text Encoding Initiative le jeu de balises permettant de rep rer au sein des transcriptions les l ments dont nous jugions avoir besoin j ai mis en ceuvre un balisage sp cifique dont les noms d l ments et d attributs sont propos s en anglais pour les harmoniser avec ceux de l en t te et permettre plus ais ment leur r emploi par d autres ventuels utilisateurs Dans la DTD pr sent e ci dessous sous forme indent e les noms d l ments sont suivis des noms d attributs dont ces l ments sont porteurs noms encadr s de puis lorsque cela s av re utile des op rateurs de r p tition
51. entraient en totalit ou en partie dans la mati re de sa recherche 2 La repr sentativit est pour Gleason 1969 p 158 un des probl mes essentiels li s la constitution et l utilisation d un corpus de mat riaux fournis par un ou plusieurs informateurs et partir duquel le linguiste doit crire sa description de la langue Le probl me li la repr sentativit d un chantillon de langue que forme le corpus c est que certains traits grammaticaux ne sont pas fr quents ils risquent de ne pas tre repr sent s de fa on valable dans un corpus r uni au petit bonheur D autres traits au contraire sont tr s courants m me une quantit restreinte de mat riaux suffit les illustrer bien plus qu il n est n cessaire pour tablir ou confirmer une analyse Normand 1972 p 34 r sumait ainsi les propos de Gleason des traits importants de la langue peuvent ne pas tre repr sent s et des traits ordinaires l tre trop souvent 3 Un corpus ne peut tre clos et exhaustif que dans le cadre d une monographie Il sera tudi en tant que tel sans pouvoir pr tendre tre repr sentatif d autre chose que de lui m me ni ouvrir sur aucune forme de g n ralisation ou mod lisation Mellet 2002 p 6 4 Cf la caricature propos e par Fillmore 1992 p 35 Armchair linguistics does not have a good name in some linguistics circles A caricature of the armchair l
52. es Ainsi nous ajoutons plus de 500 nouveaux locuteurs en essayant d quilibrer le pourcentage des locuteurs du sexe masculin et du sexe f minin Dans la premi re tape il y a eu un fort biais sur le nombre des locuteurs masculins voir Tableau 7 5 R F RENCES Martins C Mascarenhas C I Meinedo H Neto J P Oliveira L Ribeiro C Trancoso I Viana M C 1998 Spoken Language Corpora for Speech Recognition and Synthesis in European Portuguese Proc of the 10th Conference on Pattern Recognition RECPAD 98 Lisbon mars 1998 p 357 364 Winski R 1997 SPPECHDAT Definition of corpus scripts and standards for Fixed Networks Tech Rep LE2 4001 SD1 1 1 jan 1997 Iskra D Grosskopf B Marasek K van den Heuvel H Diehl F and Kiessling A 2002 SPEECON Speech databases for consumer devices Database specification and validation Proc 3rd International Conference on Language Resources and Evaluation LREC 2002 Las Palmas mai 2002 p 569 572 Boite R Bourlard H Dutoit T Hancq J Leich H 2000 Traitement de la parole Lausanne Presses Polytechniques et Universitaires Romandes Combescure P 1981 20 listes de dix phrases phon tiquement quilibr es Revue d Acoustique n 56 jan 1981 p 34 38 Seara I C 1994 Etude Statistique des phon mes du portugais parl dans la capitale de l tat de Santa Catarina pour l laboration de phrases phon
53. es textuelles SPELLING OF ACCIDENTAL PRONUNCIATION lt segment orthographi gt donn es textuelles OU AMBIGUOUS PRONUNCIATION lt quand la prononciation d un segment est ambigu qu elle peut donner lieu a plusieurs transcriptions concurrentes ou que ce qui est prononc est per u de mani re diff rente par le transcripteur et les relecteurs mise en correspondance de la transcription en API de ce qui est per u et de la ou des diff rentes versions orthographi es possibles avec ventuellement r p tition de l ensemble si lors des relectures des transcriptions les relecteurs n entendent pas la m me chose et donc ne proposeraient pas la ou les m mes transcriptions gt TRANSCRIPTION OF AMBIGUOUS PRONUNCIATION lt segment prononc transcrit en API gt donn es textuelles SPELLING OF AMBIGUOUS PRONUNCIATION lt segment orthographi pouvant correspondre ce qui a t entendu avec autant de r p titions de cet l ment qu il y a de mani res d orthographier le segment prononc gt donn es textuelles y OU INDISTINCT PRONUNCIATION lt prononciation que l on peut transcrire en API quand elle est discernable mais que l on n a pas su mettre en correspondance avec un mot ni donc orthographier gt TRANSCRIPTION OF INDISTINCT PRONUNCIATION lt transcription en API de ce qui a t effectivement prononc quand cela est discernable gt donn es textu
54. est le jugement que les phrases appartiennent la grammaire Autrement dit on retombe dans le probl me pos par le recours l acceptabilit pour laborer une grammaire on a besoin de savoir ce qu est une phrase grammaticale avant m me que la grammaire soit labor e sur quelle base alors d cide t on que la phrase est a grammaticale Sur une intuition dont les conditions d exercice ne sont pas claires la preuve on ne fait pas de partage net entre acceptabilit et grammaticalit Cette confusion relev e par Normand 1972 explique que l on ait souvent reproch aux g n rativistes de se fonder en fait sur un sentiment linguistique reposant sur la norme traditionnelle le bon usage de l crit il est vident que l on ne construira pas les m mes r gles disant ce qui appartient la grammaire qui se confond en l occurrence avec la langue elle m me selon que l on part par exemple dans le cas de l interrogation d un corpus rassemblant comme phrases grammaticales l exclusion des autres jug es agrammaticales ou bien Ou vas tu et O est ce que tu vas ou bien Ou vas tu Ou tu vas Tu vas o et Ou est ce que tu vas O c est que tu vas C est o que tu vas dans le premier cas mais non dans le second Ou tu vas et C est o que tu vas entre autres seront jug es non conformes la grammaire 2 4 3 Mais pour beaucoup de linguistes d finir
55. et d en pallier les manques en portant l observation des nonc s auxquels le chercheur ne pense pas spontan ment donc de limiter le risque de circularit lorsque le chercheur muni d une certaine hypoth se secr te les observables qui vont dans le m me sens En effet ainsi que le signale Blanche Benveniste 2000 comme ils les corpus contiennent des donn es attest es dont on peut v rifier les sources ils engagent faire un travail d analyse linguistique qui ne repose pas uniquement sur l intuition mais sur la confrontation avec des donn es parfois tonnantes que la simple intuition n aurait pas pu atteindre 3 1 3 L objectif de notre recherche n est pas de quantifier les emplois de la pr position dans mais bien d avancer dans son identification syntaxique et s mantique Notre objectif est donc descriptif et concerne la caract risation de dans en langue et non pas en discours c est dire dans les productions orales ou crites telles que rassembl es dans les corpus attest s autrement dit il ne s agit pas de voir comment les locuteurs utilisent dans ou tel type 215 de compl ment en dans plut t l oral qu l crit ou inversement plut t dans la description que dans la narration ou l argumentation ou r ciproquement plut t dans tel genre que dans tel autre etc ni donc de voir quel emploi est le plus repr sentatif ou le plus fr quent dans les performances
56. galement dans le but de naturaliser les informations racont es en les transposant au registre familier en oralisant l crit et en m me temps dans le but de r duire la distance sociale L crit n est pas une simple repr sentation de l oral mais il offre une certaine mise en sc ne de la parole Les combinaisons sont nombreuses et nuancent la dichotomie rigide oral crit Rosier 2000 Dans les parties suivantes du travail nous pr sentons la d finition du discours direct analysons ses formes et les diff rentes manifestations de l oralit dans le DD de la presse politique 2 LE DISCOURS DIRECT LE DIALOGUE ET LE PSEUDO DIALOGUE Le DD tant une des formes du DR est d fini comme le rapport dans sa forme originale sans termes de liaisons apr s un verbe de parole et dans la langue crite plac entre guillemets Le petit Robert 1 1978 ou comme la restitution des paroles exactes de l nonciateur cit Maingueneau 2000 DLKZ 2000 marqu es typographiquement dans le texte Labutis 2002 En fait le discours direct ne rapporte pas n cessairement des paroles effectivement dites il peut s agir d une nonciation r v e future prescrite etc mais ces derni res ne sont pas r p rables dans des textes de la presse Le DD se caract rise en effet par le fait qu il est suppos indiquer les mots m mes de l nonciateur cit Le DD est interpr t parfois comme une th tralisation la mise en s
57. guli res et deux crit res morpho d rivationnels qui sont exploit s au niveau des expressions r guli res et des conditions qui sont associ es chaque m tar gle Le crit re syntaxique permet d interdire certaines structures qui clatent obligatoirement les relations initiales Les crit res morphologiques sont flexionnels par la marque du pluriel sur les noms t tes notamment lors de 281 coordination et grammaticaux par l appartenance une partie du discours sp cifique tant donn les propri t s linguistiques propres chaque type de transformation il est impossible d appliquer ces crit res uniform ment toutes les m tar gles quelque soit leur type Ainsi les transformations par coordination sont particuli rement propices ce genre de manipulation alors que les transformations par insertion sont beaucoup plus probl matiques de ce point de vue D autre part les crit res sont exploit s afin d assurer que les relations de d pendances soient pr serv es de mani re interne i e au niveau de la ST et de mani re externe i e au niveau de la d limitation de la ST Une m tar gle exploitant l ensemble de ces param tres sera beaucoup plus filtrante et pr cise qu une m tar gle qui ne les introduit que partiellement Pourtant celle ci est tout fait en mesure de produire de bonnes variations telles que thyroid vein lt thyroid artery and vein C est pourquoi il faut pr serv
58. l emploi des diff rents temps verbaux qui refl tent bien le changement perp tuel et la recherche de renouvellement de notre crivain tout en 55 gardant certaines constantes qui contribuent donner au r cit lecl zien son caract re particulier redondant incantatoire et myst rieux Dans notre corpus ce deuxi me crit re morphologique montre que la premi re p riode nouveau roman se d marque grammaticalement toujours du reste par son usage important du substantif et de l adjectif mais aussi par l emploi de l imp ratif et paradoxalement pour une criture exp rimentale par l usage de formes temporelles tr s traditionnelles comme le pass simple La rupture bien connue de l uvre lecl zienne entra ne un changement vers une criture qui privil gie l action et par cons quent les cat gories verbales narratives notamment les formes conjugu es l imparfait et les temps compos s L tude des temps verbaux et de l usage tr s personnel qu en fait Le Cl zio permet de mieux cerner une technique qui consiste donner au r cit cette valeur universelle tant appr ci e par ses lecteurs Une criture qui change est une des caract ristiques fondamentales de notre corpus En effet il n y a pas de stabilisation du style mais au contraire des carts grandissants chez Le Cl zio Toutefois bien que les proc d s morphosyntaxiques ne soient pas statiques que les techniques d express
59. mettre en uvre dans les outils qui instrumentent nos mod les Nous pr cisons ainsi des besoins relatifs la navigation dans une collection de documents et d autres relatifs la repr sentation diff rentes chelles d un m me document pour un rep rage rapide ou une analyse approfondie Nous analysons le caract re g n rique de ces besoins et leur d pendance ventuelle vis vis du mod le de la t che et de l utilisateur En conclusion nous revenons sur l tude de cas pr sent e et ouvrons notre r flexion en questionnant la pertinence de standards pour la repr sentation l change de donn es ou encore pour l int gration d outils au sein de plates formes d ing nierie linguistique 2 CADRE DES EXP RIENCES MOD LE SOUS JACENT Les besoins d interactions sp cifiques ou de repr sentations visuelles particuli res que nous discutons dans cet article mergent avant tout de nos propres exp riences C est pourquoi nous pr sentons dans cette section les grandes lignes du mod le LUCIA sur lequel se fondent nos travaux de recherche la crois e du TAL et de la linguistique de corpus Nous pr cisons d abord la mani re dont les ressources sont structur es pour rendre compte d l ments de sens communs ou proches entre des entr es lexicales Nous pr sentons ensuite le principe d analyse automatique mis en uvre pour fournir une aide l interpr tation de documents textuels 3 RE
60. mots vedettes du dictionnaire et dont les ar tes sont les relations existant entre ces mots pour la terminologie relative aux graphes voir Berge 1958 La relation ainsi d finie est r flexive et sym trique ce formalisme a t utilis en premier par Kahlmann 1975 Pour tudier une unit on se limite au sous graphe dont l ensemble des sommets est compos de l unit tudi e et de ses synonymes et dont l ensemble des ar tes est constitu par toutes les relations existant entre ces sommets la variabilit du sous graphe se rencontre dans Manguin et Victorri 1999 Pour l adjectif curieux le sous graphe ainsi d fini poss de l allure suivante soucieux bizarre I P A N inquisiteur wue Es attentif _ A _ trange s M N v TAN X fureteur tonnant XN VA NS int ressant indiscret Figure I Structure simplifi e du sous graphe de synonymie de curieux Dans la r alit de notre dictionnaire curieux poss de 34 synonymes adjectivaux que l on peut si l on exclut du graphe les ar tes passant par le mot vedette tudi s parer en trois composantes connexes que nous donnons ci apr s 1 amusant attachant bizarre drolatique dr le d concertant extraordinaire extravagant incompr hensible inconcevable incroyable inoui int ressant original paradoxal piquant pittoresque plaisant rare singulier surprenant unique tonnant trange
61. nom ne Espace Temps o trouver des informations sur tel ph nom ne dans tel espace telle p riode l une des composantes tant videmment susceptible de faire d faut Exemples de telles requ tes retard scolaire dans l Ouest de la France dans les ann es 1950 volution de la scolarisation entre 1960 et 1970 ou encore politiques de s curit maritime dans la manche Une r ponse sera un ensemble de passages dans le corpus reliant ces trois crit res 231 De 1965 1985 le nombre de coll giens et de lyc ens a augment de 70 mais selon des rythmes et avec des intensit s diff rents selon les acad mies et les d partements Faible dans le Sud Ouest et le Massif central mod r e en Bretagne et Paris l augmentation a t consid rable dans le Centre Ouest en Alsace dans la r gion Rh ne Alpes et dans les d partements de la grande banlieue parisienne o les effectifs ont souvent plus que doubl Figure 3 Extrait du corpus g ographique Un ensemble de m thodes sont mises en uvre dont nous retiendrons ici deux aspects En premier lieu il convient de proc der une analyse s mantique des expressions spatiales et temporelles les crit res de forme pure d j tr s rigides pour des requ tes th matiques classiques ne sont ici l vidence d aucune pertinence En second lieu il nous faut tablir les relations existant dans le texte entre les trois
62. nombre comme dans petites villes ou mauvais gar ons On peut donc aussi dire que les s quences avec liaison en z sont moins l g res que celles sans liaison parce que les premi res sont plus informatives que les derni res 138 5 GENRE GRAMMATICAL DE L ADJECTIF LONGUEUR DU MOT Nous examinons en dernier lieu le genre grammatical au point de vue phonique Afin de bien mener cette tude nous avions besoin de r soudre au pr alable le probl me de l h t rog n it de r partition entre le genre grammatical et ses r f rents Le genre grammatical n est pas s mantiquement neutre car par exemple les noms humains au pluriel sont le plus souvent masculins tandis que les deux tiers des noms abstraits sont f minins Pour ne traiter que l aspect formel du genre grammatical et liminer autant que possible des facteurs s mantiques bref pour assurer une homog n it s mantique dans les donn es nous avons analys dans les textes contemporains 1 791 exemples constitu s de 153 noms abstraits trouv s dans le Dictionnaire fondamental de la langue fran aise Le jugement de cat gorisation pour abstrait a t fait par nous m me Ce sont des noms exprimant une notion ou un fait plus ou moins abstrait telle que raisons probl mes projets travaux gestes changements incidents conditions aventures raisons connaissances surprises baisses etc qui s opposent aux noms dont le r f rent est un ob
63. notre tude Parmi les nano genres d j analys s on peut citer les annonces matrimoniales Stubbs 2001 les lettres de r dacteurs en chef de p riodiques scientifiques aux auteurs imp trants pour leur indiquer le r sultat de leur soumission Flowerdew amp Dudley Evans 2002 ou encore les remerciements en t te d ouvrages ou articles scientifiques dont Giannoni 2002 montre que dans certaines disciplines ils servent en fait surtout 99 l auto promotion des auteurs ce qui ne sauterait pas n cessairement aux yeux du non initi Notre nano genre est loin des productions du monde universitaire tr s tudi es depuis Swales 1990 en partie pour des raisons sociologiques les chercheurs tant souvent des linguistes en poste dans des tablissements de sciences dures ou technologiques En particulier on y chercherait en vain des actes de langage vis e sociale sauf dans d assez rares cas de l humour pouvant tablir une connivence avec le lecteur Les publications d pouill es r parties typologiquement entre ouvrages et magazines et dialectalement entre Grande Bretagne Australie et Nouvelle Z lande d une part et tats Unis d autre part afin d quilibrer le corpus ont en commun de comporter de nombreuses photographies occupant une proportion importante des pages Dans certains cas le seul texte est celui des l gendes dans d autres cas certaines sections comportent du texte non directement li au
64. ographique qui appara t dans le Fran ais de R f rence mais de mani re moins quilibr e 27 corpus pour Paris et sa banlieue 49 pour le nord de la France et 55 pour le sud En effet nous avons enregistr 9 locuteurs dans chacune des trois villes de l Allier ce qui fournit ce corpus un quilibre pouvant permettre pour des recherches futures une tude de la variation linguistique dans ce d partement qui est situ au c ur de ce que les dialectologues nomment le croissant c est dire la zone o passe la fronti re entre langue d oil et langue d oc et o l on trouve au sud est un peu de franco proven al Lorsqu il y a enregistrement de discours plusieurs m thodes sont possibles selon l tude que l on veut mener bien car les diff rents types de corpus de langue parl e se d finissent g n ralement par les objectifs qu ils se donnent faciliter l enseignement faire de la recherche linguistique collaborer de plus larges recherches statistiques participer des recherches de sociolinguistique etc C Blanche Benveniste in Bilger 2000 Notre enqu te est donc libre si ce n est qu un th me est d fini auparavant ce qui permet au locuteur de parler relativement facilement Nous entendons par libre le fait que l entretien n est pas directif nous n avions pas labor de questionnaire comme l avaient fait les enqu teurs travaillant sur le Corpus d Orl ans B
65. plus fr quemment un objet ou v nement consid r l int rieur d une certaine p riode du pass Lorsqu un nonc est l imparfait l tat ou l v nement constituant son propos sont pr sent s comme des propri t s comme des caract ristiques du th me et qualifient celui ci dans sa totalit Ainsi appara t la fonction qualificatrice de l imparfait les faits d crits par les verbes l imparfait servent selon Ducrot caract riser une p riode pass e ou un objet ou un v nement consid r pendant cette p riode et les v nements pr sent s l imparfait ne constituent pas vraiment l objet du r cit p 10 123 x J C Anscombre d veloppe partir de la description en deux propositions de Ducrot une analyse contrastive des emplois de l imparfait et du pass compos en se servant des notions d espace discursif temporel et d espace discursif intemporel au lieu de th me et de propos Premi rement selon cet auteur alors que l imparfait nous pr sente des tres temporels dont les p rip ties v nementielles sont conf r es comme autant de propri t s constitutives le pass compos l inverse fait intervenir des tres intemporels identit permanente dont il nous d crit l histoire v nementielle p 47 Voici en guise d illustration comment l auteur commente les deux exemples suivants
66. t employ es ant rieurement qui apparaissent dans ce segment Pour effectuer cette mesure on d coupe le corpus en tranches La repr sentation graphique ci dessous rend compte de l accroissement du vocabulaire dans l ordre chronologique Ici le calcul fait appel un ajustement des deux s ries parall les vocabulaire cumul et tendue cumul e gr ce une fonction puissance de type y ax pour x vocabulaire cumul et y tendue cumul e th orique L cart entre tendue th orique et tendue r elle est alors calcul pour chaque texte puis pond r par l tendue de chaque texte 46 Accroissement lexical seuil 5 Figure n 4 Accroissement lexical du corpus Le graphique qui de gauche droite s oriente selon la chronologie nous permet de constater que les carts autour de la moyenne l axe horizontal sont de tr s grande ampleur avec des ruptures et des reprises Le seuil 5 est d pass de nombreuses fois avec des pics importants dans le sens positif aussi bien que dans le sens n gatif L tude de l accroissement fait en effet tr s clairement appara tre comme dans l tude de la richesse lexicale et des hapax l opposition g n rique tr s importante du corpus les uvres qui contribuent le plus fortement l accroissement lexical sont les livres ethnologiques au sens large alors que les romans et nouvelles classiques le ralentissent
67. une double annotation La premi re de nature linguistique visait mettre en valeur des faits r currents dans le rejet d une variation Ceci a permis de faire merger deux principaux ph nom nes linguistiques l origine d une mauvaise transformation que nous commenterons plus en d tail dans la 276 section suivante i un probl me de d limitation de la ST en corpus et ii des rapports de d pendance initiaux entre la t te et son expansion modifi s lors de la transformation Dans les deux cas la s quence textuelle et le terme ne renvoient plus au m me concept Lorsque le rejet de la ST ne s appuyait pas sur des crit res linguistiques l expert est intervenu pour effectuer une seconde annotation afin de justifier son choix 4 VARIATION TERMINOLOGIQUE DISCUSSION SUR LA DEMARCHE DE L EXPERT ET ANALYSE LINGUISTIQUE 4 1 Validation humaine la d marche de l expert Dans la proc dure de validation de l indexation l expert n acc de qu au premier jeu de donn es et ne peut consulter le r sum Cette d marche se justifie par le fait qu il s agit bien d un processus d indexation automatique et non d une indexation manuelle Lorsque l on g re un nombre aussi important de documents il serait beaucoup trop co teux en temps de se reporter au texte pour valider chaque terme extrait par le syst me L tude du corpus doublement annot a permis de mettre en vidence la d marche de l
68. 04 01 96 Comme cons quence de cette concurrence les exemples recueillis semblent montrer une pr f rence pour l emploi de l adjectif au d triment de la pr position Cette perte des pr positions est aussi remarqu e dans la formation de compos s form s par deux noms tels que saldrio maternidade o l on remarque un effacement de la pr position de Parlamentares mulheres foram ao STF pedir o fim do limite para o lt sald rio maternidade gt V 31 03 99 3 CONSID RATIONS FINALES Nous avons essay de montrer dans cet expos que l exploitation de corpus pour la description des aspects morphologiques d une langue est aussi une des applications possibles de la linguistique de corpus Les exemples pr sent s ne sont en fait qu un petit chantillon de tous les apports que cette discipline peut procurer la description morphologique d une langue 4 R F RENCES Alves I M Maroneze B O et Rosiska P 2002 Met fora e cria o lexical num corpus jornalistico Conference on metaphor in language and thought Sao Paulo PUC SP p 24 Battaner M P 2000 Un corpus para la ensenanza Corpus PAAU junio 1992 VI Jornada de corpus ling stics Barcelona IULA Universitat Pompeu Fabra p 41 64 Boulanger J C 1979 N ologie et terminologie N ologie en Marche N 4 p 9 127 Bowler L et Pearson J 2002 Working with specialised language London New York Routledge Cabr
69. 1997 La relation de d claration politiques h t rog n it et mise en sc ne de la parole Pratiques n 94 p 62 74 Lorda C U 2000 Les articles dits d information la relation de d clarations politiques Semen n 13 p 119 134 Maingueneau D 1994 Syntaxe du fran ais Paris Hachette p 39 43 p 133 135 Maingueneau D 1996 Les termes cl s de l analyse du discours Paris Editions du Seuil Maingueneau D 2000 Analyser les textes de communication Paris Nathan HER p 115 147 Marcinkevi ien R 2002 Palyginamieji tekstynai altinis tarptautini od i vartosenai tirti Kalbotyra n 51 3 p 81 93 Monville Burston M 1993 Les verba dicendi dans la presse d information Langue fran aise n 98 p 48 66 Paulauskien A 1994 Lietuvi kalbos morfologija Vilnius Mokslo ir enciklopedij leidykla p 416 420 Rosier L 1993 De la stylistique sociologique suivie d une application pratique discours direct presse et objectivit Revue belge de philologie et d histoire n 71 3 p 625 644 Rosier L 1996 Ces mots qui ne vont pas de soi et ces mots qui ne sont pas de soi Travaux de linguistique n 32 p 155 167 Rosier L 1997 Entre binarit et continuum Une nouvelle approche th orique du discours rapport Mod les linguistiques n 35 XVIII p 1 p 7 16 Rosier L 2000 Interjection subjectivit expressivi
70. 44 ceil 45 1 27 esprit 42 1 19 m lange 39 1 10 histoire 35 0 99 b te 30 0 85 cas 29 0 82 Tableau I Les 12 premiers substantifs associ s pr f rentiellement a curieux Pour notre tude nous avons en d finitive retenu 25 substantifs qui sont chose regard fait ph nom ne spectacle d tail ceil esprit m lange histoire b te cas exemple livre type exp rience personnage tude objet t te travail figure conversation sp cimen et page On peut noter au passage que cette liste contient plusieurs noms comme regard il esprit ou b te avec lesquels curieux pourra changer de sens suivant sa position comme signal en introduction Munis de cette liste de substantifs et de la liste des synonymes nous cr ons tout d abord deux listes adj et nom puis nous interrogeons nouveau la base Frantext afin d obtenir cette fois les cooccurrences n cessaires notre m thode Cette fois les requ tes sont de la forme amp e g A c amp ladj amp e g S c amp lnom ant position amp e g S c amp lnom amp amp e g Adv amp e g A c amp ladj postposition Nous recueillons ainsi un total de 6547 cooccurrences dont 1 095 concement curieux et dont le d pouillement automatique selon la m me m thode que pr c demment nous permet d aboutir un tableau synonymes x substantifs o chaque case contient le nombre de cooccurrences rencontr es pour la paire env
71. BDVOX est une base de donn es qui a t cr e visant le d veloppement d un syst me de reconnaissance de la parole spontan e ind pendant du locuteur et robuste vis vis des variabilit s acoustiques et linguistiques c est dire le d veloppement d un syst me pour la compr hension l aide d un ordinateur des mots nonc s par la voix humaine L objectif de ces syst mes de reconnaissance de la parole est l interaction homme machine par exemple dans les services bancaires automatis s t l phoniques appels automatiques services de la voix agenda personnel soutien la liste t l phonique etc Les performances d un tel syst me d pendent non seulement de la qualit des mod les linguistiques et des param tres du mod le acoustique mais aussi de la base de donn es mise au point pour ce syst me Cependant pour aboutir un syst me de reconnaissance de la parole qui soit ind pendant du locuteur et de la t che remplir il y a la n cessit d une norme quantit de voix car le syst me doit s entra ner le mieux possible D autre part la base de donn es doit tre tr s bien con ue pour que tous les sons de la langue reconna tre les r gles des formations de syllabes et d autres contraintes linguistiques y soient consid r s Cette base est une collection de documents sonores qui n cessitent partir de ses finalit s une organisation structur e des l ments de la base et d
72. CST conjonction de subordination DDI d terminant En sollicitant les boutons Initial et Final des fonctions Concordance ou Liste d Hyperbase nous avons pu obtenir les index et les listes affin s de ce mot 66 J T9Z20S7b Iw absoluteJJ spontaneity NN1 thatREX41 isREX4Z toREX43 sayREX44 T92092c omII outRP itsAPPGE centreNNl thatREX4l isREX42 toREX43 sayREX44 T9216lal RR theaAT categoryNN1 AriesNPl thatREX41 isREX4Z toREX43 sayREX44 T92168al KeplerNPl quessedVVD NN1 thatREX41 isREX42 toREX43 sayREX44 T9217Sal yPPHS2 calledVVD itPPHL JJ thatREX41 isREX42 toREX43 sayREX44 T92186al outIIZ1 of1122 mindNNl NNl that REX41 isREX42 toREX43 sayREX44 T92222a GE TheAT AlexanNPl GE NN1 thatREX41 isREX42 toREX43 sayREX44 Z4al ItPPH1 isVBZ howeverRR trueRR thatRG muchDAl of10 thisDD1 habitual 108d IPPIS1 assertVVO howeverRR thatRG muchDAl ofIO ourAPPGE incredu 470a1 IPPIS1 hadVHD expectedVVN andCC thatRG muchDAl of10 theAT painNNl en Ss cl of10 mePPIOL IPPISL amVBM thatRG veryJJ SignoraNNl PsycheNNl Zen 721b JJ briefJJ asII theAT ruinNN1l thatRG overwhelmedJJ ForIF aATl kVVI whatDDQ wasVBDZ itPPH1 thatRG soRR wmervedVVD mePPIOL inII t houghCS withIW hesitationNN1 thatRG muchDAl ofIO theAT peculiarJJ g ISl endeavoredVVD toTO believeVVI thatRG muchDAl ifCS notXX explainVVI butCCB evenRR atII thatRG earlyRR momentNN1 thereEX s soRG earlyRR aAT1 periodNNl asCSA thatRG ttin
73. Ceci permet pour disposer d un corpus r unissant toutes les 162 transcriptions faites ce jour balis es de mani re coh rente et en attendant l alignement des fichiers XML du Corpus foot de multiplex transcrits avec leurs sources sonores de rendre compatibles avec la DTD pr sent e Fig 1 les nouvelles transcriptions celles du Corpus foot de multiplex transcrits sous Transcriber 14 A ma connaissance il n existe pas d outil disponible offrant l acc s au son partir d une concordance compilant les segments textuels extraits d un corpus XMLis comme ceux g n r s par Transcriber o sont mentionn es en attribut dans les balises de chaque tour de parole les informations utiles la synchronisation de la transcription et d un extrait du fichier son Si Context le concordancier d velopp par Jean V ronis permet bien d acc der aux sources sonores partir des concordances il n est pas con u pour extraire les r f rences des segments sonores align s du balisage XML des transcriptions il impose la cr ation d un troisi me fichier d crivant les alignements Ainsi avant de pouvoir pleinement valuer les b n fices tirer du Corpus foot de multiplex transcrits sous Transcriber il conviendra d laborer une interface de consultation capable de traiter des transcriptions XMLis es align es leur source sonore ou de formater nos donn es pour les rendres exploitables avec Context 15 Le
74. Cl zio d un c t celle d un vocabulaire riche de l autre celle d un style pauvre d une criture quelque peu r p titive La bipolarit de la structure lexicale confirm e par l analyse statistique avec un vocabulaire qui tend soit vers l abondance soit vers le d pouillement est le fid le t moin du paradoxe de l criture lecl zienne et oppose ainsi le genre nouveau roman au genre roman traditionnel Ces oppositions observ es l tude de la structure lexicale d un corpus ne sont pas ind pendantes de la syntaxe Par exemple le d ficit dans les basses et moyennes fr quences n est pas un choix d lib r mais la cons quence d un emploi intensif des mots grammaticaux qui se concentrent dans les fr quences tr s lev es C est donc un choix syntaxique dont nous relevons les effets dans le lexique Il semble que Le Cl zio fasse moins appel un style recherch au point de vue de la syntaxe dans les ouvrages o il emploie beaucoup d hapax comme dans les ouvrages ethnologiques o la richesse d hapax correspond souvent la d couverte d une nouvelle culture Inversement dans les livres qui sont pauvres en hapax comme dans les romans de la fin des ann es 1970 la richesse en hautes fr quences pourrait tre un indice d une plus grande complexit de la syntaxe L opposition g n rique est en effet galement constater au niveau syntaxique et l analyse quantitativ
75. Elle d pend en effet de certaines options toutes pareillement justifiables qui commandent le toilettage du texte le comptage des mots et la lemmatisation Labb a des exigences particuli res quant la pr sentation des textes les hors texte et didascalies par exemple sont cart s quant au traitement des mots compos s il en rel ve un minimum dans les textes classiques quant la prise en compte des ponctuations dans le d nombrement des occurrences et surtout quant aux principes de lemmatisation Le logiciel dont il est l auteur et qui a quelque m rite ayant t construit par un homme seul se contente d un codage minimum qui n envisage pas la fonction des mots et n approfondit gu re leur nature ni le temps ni le mode ni la personne des verbes ne sont rep r s Il permet cependant de r duire les homographies condition que des retouches manuelles viennent suppl er aux embarras de la machine Ces retouches vitent certes bien des erreurs grossi res qu on constate dans les r sultats des lemmatiseurs automatiques comme ceux de Cordial Mais le prix payer en temps est lev sans garantir la constance des d cisions qui varient d un chercheur l autre et parfois m me d un moment l autre Sauf confier Labb le traitement de tout texte que l on veut soumettre son calcul de distance d autant que son lemmatiseur n est pas commercialis on voit mal comment on pourr
76. Labb Cette convergence des deux approches jusque dans les d fauts est rassurante et c est pourquoi nous avons tenu mettre en parall le les deux programmes de distance dans notre logiciel Le programme de Jaccard est d une simplicit et d une rapidit extr me quand on dispose du TLE L algorithme de Labb est pareillement simple mettre en uvre mais le temps du calcul est nettement plus long et augmente exponentiellement avec le nombre de textes du corpus Aussi avons nous rendu cette fonction facultative Quelques lignes de code suffisent la traduire on les d chiffrera ais ment si l on sait que pour un mot donn les sous fr quences sont catalogu es dans le tableau TABLE nb tant le nombre de textes du corpus tandis que dista et disma re oivent la sommation du num rateur et du d nominateur de la formule La boucle est r p ter pour chaque lemme 33 step k from 1 to nb 1 step from k 1 to nb end if taille k lt taille 1 if table k 0 and theo lt 1 if table k 0 and coef taille k taille l continue step table 1 0 end continue step theo table 1 coef ecart abs table k theo if ecart lt 0 5 continue step disma k 1 disma k 1 table continue step end 1 theo end ecart abs table I end else theo end coef taille if ecart lt 0 5 taille k continue stepend
77. Ladourd Voici la barri re qui fut blanche voici la route goudronn e Frantext la non phrase est th matique bien qu elle se trouve dans le paragraphe N anmoins les non phrases ne sont caract risables qu avec un faisceau de deux crit res au moins Reste d terminer quels sont ces crit res et comment ils se combinent aux pr c dents ou un des crit res pr c dents Pour arriver d terminer si une non phrase est th matique ou a th matique on peut prendre en consid ration la nature de l adverbial car certains adverbiaux favorisent une lecture th matique des non phrases ce sont les marqueurs d int gration lin aire MIL d abord premi rement ensuite etc Turco Coltier 1988 les marqueurs d interjection h dis donc etc et les marqueurs discursifs ef justement mais etc d autres adverbiaux initient une lecture non th matique ce sont des marqueurs additifs ef ou etc des marqueurs s lectifs notamment tout particuli rement etc des marqueurs d exception sauf des marqueurs de n gation non pas ni etc des marqueurs aspectuels toujours jamais des marqueurs illustratifs par exemple etc et des r ponses courtes oui non absolument pas La prise en compte de ce crit re sugg re trois remarques 1 la nature de l adverbial ceux qui favorisent une lecture th matique de la non phrase pr vaut sur la position de la non phrase dans le texte comme le mon
78. Le corpus sur lequel se fonde notre analyse est compos de 85 extraits les non phrases ne sont donc pas isol es de journaux et de romans Nous y avons relev manuellement 88 occurrences d unit s lexicales qui ont la potentialit d tre des introducteurs th matiques En fait 33 37 5 de ces unit s lexicales introduisent des non phrases th matiques et 55 62 5 des non phrases a th matiques Les r sultats montrent que les segments th matiques du corpus ont t dans l ensemble correctement rep r s 1 sur 33 unit s lexicales qui mtroduisent des non phrases th matiques 4 n ont pas t reconnues i les configurations sont peu r currentes ou ii les r gles n ont pas encore t crites 2 sur 55 unit s lexicales qui n introduisent pas des non phrases th matiques 9 ont t extraites Toutefois ce ne sont pas les r gles concernant les non phrases th matiques qui ont t d clench es mais les r gles concernant les non phrases a th matiques i dans 6 cas les compl ments sont expans s par une coordination une subordonn e ou une apposition Ainsi le subordonnant tant pr c d d une virgule le programme informatique indique que la non phrase est en fait une phrase th matique De nombreux cas exemplaires de cette interd pendance plan taire ont t mis en vidence lors du congr s En particulier propos de la destruction des for ts tropicales qui pourtant repr senten
79. Longman Grammar of Spoken and Written English London Pearson Education Collins COBUILD English Dictionary Sinclair J ed in chief 1995 London Harper Collins Concise Oxford Dictionary Pearsall J ed in chief 2001 Oxford O U P 10th ed Flowerdew J Dudley Evans T 2002 Genre analysis of editorial letters to international journal contributors Applied Linguistics 23 4 2002 pp 463 489 Francis G Hunston S Manning E 1996 Grammar Patterns 1 Verbs London Harper Collins Giannoni D S 2002 Words of gratitude A contrastive study of ackowledgement texts in English and Italian research articles Applied Linguistics 23 1 2002 pp 1 31 Huddleston R Pullum G K 2002 The Cambridge Grammar of the English Language Cambridge C U P Larreya P Rivi re C 1999 Grammaire explicative de l anglais Harlow Addison Wesley Longman Macmillan English Dictionary for Advanced Learners Rundell M ed in chief 2002 London Bloomsbury Oxford English Dictionary 2nd ed on CD ROM 1994 Oxford O U P Quirk R amp AL 1985 A Comprehensive Grammar of the English Language London Longman Stubbs M 2001 Words and Phrases Corpus Studies of Lexical Semantics Oxford Blackwell Swales J M 1990 Genre Analysis English in Academic Research Settings Cambridge C U P Vinay J P Darbelnet J 1977 Stylistique compar e du fran ais et de l anglais Paris Did
80. N Np V 0 3 gt N4 20 2 22 N2 PREP3 N4 N2 PREP3 lt ART A N Np V 0 3 gt XXX 7 Ins IN4 135 43 178 Permutation XX 31 Perm X2 N3 N3 V4 X2 avec lt V4 lem gt be 41 22 63 XX 34 Perm X2 N3 N3 PUNC4 X2 avec lt PUNC4 lem gt 116 30 146 N2 N3 N3 lt V gt PREP4 lt ART A N Np V 0 3 XX 37 Perm NINp C ART gt gt N2 2445 522 2967 XXX 10 Perm N2 PREP3 N4 N4 lt A NINp V 0 3 N2 156 22 178 Coordination X2 N3 X2 lt A NINp V 1 3 PUNC gt C4 lt XX 1 Coor A NINp V gt N3 405 164 569 X2 N3 X2 PUNC4 lt A N Np V PUNC5 gt lt XX 10 Coor AININpIV PUNC gt C6 lt A N Np V gt N3 16 3 19 X2 N3 X2 lt A NINp V 0 3 NINp PUNC gt C4 XX 13 Coor N3 0 1 1 XX 4 Coor IX2 N3 X2 C4 lt A N Np V 0 3 gt N3 736 148 884 X2 N3 X2 PUNC4 lt A N Np V PUNC gt C5 lt XX 7 Coor A N Np V gt N3 76 16 92 N2 PREP3 N4 N2 PREP3 lt ART A N Np V 0 3 XXX 1 Coor N6 C5 lt PREP ART A N Np V 0 3 gt N4 15 1 16 XXX 19 Coor IX2 A3 N4 X2 C4 lt A N Np V 0 3 gt A3 N4 6 0 6 XXX 22 Coor IX2 A3 N4 gt X2 lt A N Np V 0 2 gt A3 N6 C5 N4 1 0 1 XXX 25 Coor IX2 A3 N4 gt X2 A3 C4 lt A N Np V 0 3 gt N4 6 1 7 N2 PREP3 N4 N2 C4 lt PREP ART AJNINp V XXX 4 Coor 0 3 gt N6 PREP3 N4 7 0 7 Tableau 2 Type de m tar gles l origine des variations dans le processus d indexation Nous remarquons que les m tar
81. Pourtant m me en voulant transgresser un syst me social tabli les diff rentes typologies de textes restent pr sentes et leurs variations sont observer tous niveaux Les oppositions g n riques sont premi rement constater dans la structure du vocabulaire et dans son volution c est l tude de la richesse lexicale de la diversit du vocabulaire de l accroissement lexical ainsi que des hapax qui permet de tirer des conclusions de ce ph nom ne L tude des parties du discours et de la syntaxe a travers une analyse grammatico m trique possible gr ce aux versions lemmatis es et tiquet es du corpus permet de relever aussi certains aspects morphologiques et syntaxiques qui diff rencient les types de textes L opposition g n rique op re aussi au niveau du contenu lexical et th matique d une uvre L tude de la distance lexicale entre les diff rents livres du corpus ainsi que celle des sp cificit s lexicales met en exergue les variations th matiques ou isotopiques r currentes dans ce corpus multig n rique 2 LE CORPUS La production litt raire de Le Cl zio est vaste s tend sur plus de quarante ans et englobe plusieurs genres litt raires Le corpus informatis dans la version qui s appuie sur les formes graphiques contient 2 281 659 occurrences et 51 009 formes r parties sur les trente et une uvres du corpus Le corpus est constitu tout d abord des six premi
82. Une extension en cours de r alisation permet d avoir un aper u plus complet sur plusieurs dispositifs figure 4 selon un format vectoriel permettant de zoomer sur les repr sentations La figure montre comment un zoom arri re rend compte de la structure globale d h ritage sur les tables de deux dispositifs distincts ainsi que la mani re dont deux couleurs dominantes rouge et vert ont t employ es pour distinguer les lexiques des deux domaines correspondants 298 Figure 4 Dispositifs au format SVG Les technologies XML XSLT permettent de transformer les ressources pour en proposer diff rentes repr sentations Ici une repr sentation SVG langage XML pour les graphiques vectoriels permet de donner un aper u de 2 dispositifs Une couleur a t affect e chaque table avec une dominante rouge pour celles du dispositif La Bourse en haut et une dominante verte pour celles de La M t o en bas D autres applications graphiques sont l tude afin de faciliter plus encore la prise en main par diff rents types d utilisateurs du mod le et des ressources qu il permet de d crire Nous cherchons ici mettre en vidence la n cessit de combiner d s la phase de constitution des ressources une description telle que le mod le la pose et une repr sentation telle que les interactions l imposent Dans notre cas cela se traduit par une fusion entre structuration
83. XX 37 Perm et XX 16 Ins alors que d autres se montrent beaucoup plus sensibles au domaine trait les coordinations XX 1 Coor et XX 4 Coor Les premi res semblent refl ter des transformations linguistiques du langage courant alors que les secondes r v leraient une d pendance plus grande par rapport au langage du domaine concern Pour l analyse des variations produites par FASTR nous nous sommes appuy s sur deux corpus d analyse distincts Le premier corpus rassemble les donn es issues de l indexation la s quence textuelle le type de m tar gle qui a engendr la variation le terme ramen par la ST et son synonyme lorsque la variation porte sur lui et qu il joue le r le d interface entre la ST et le terme cf tableau 2 Le second corpus renvoie aux notices bibliographiques titres et r sum s et nous a t utile afin de v rifier en contexte la structure linguistique et la s mantique des ST Terme Synonyme S quence textuelle M tar gle Polyomavirus Polyoma virus polyoma murine XX 16 Ins leukemia virus Free graft free pancreas graft XX 16 Ins Liver Neoplasm TUMOR LIVER tumor development in the XX 19 Ins liver Inbred NOD NOD mouse nod mouse XX 22 Ins Mice Polyclonal polyclonal rabbit XX 25 Ins antibody antibody Tableau 3 Extrait du corpus de r sultats de l indexation Le corpus comprenant les r sultats de l indexation a fait l objet d
84. adresse Lexico3 permet de proc der des analyses factorielles L analyse factorielle des correspondances fait partie de la famille d analyse multidimensionnelle qui s applique des tableaux double entr e Cette m thode est caract ris e par le calcul de la distance chi 2 Lebart et Salem 1994 Quand nous faisons l analyse factorielle des correspondances AFC du corpus Julien en se basant sur la partition locuteurs Graphique 14 nous remarquons deux groupes distincts Julien gauche et l adulte droite mais un rapprochement des dialogues vers le centre Nous observons le m me ph nom ne de rapprochement avec les corpus tiquet s ainsi que chez Mathilde Graphique 15 82 Graphique 14 AFC de Julien par locuteurs ad2 1 ma3 LE ad23 Graphique 15 AFC de MATHILDE forme cat par locuteurs Avec le corpus JulienMathilde nous observons plusieurs choses L AFC par dialogues Graphique 16 nous montre que le dernier dialogue de Julien est le plus proche du centre et que le premier de Mathilde aussi Mais il est noter que dans la chronologie de Mathilde il y a un rapprochement qui se fait dans le dernier dialogue Si nous utilisons la partition locuteurs Graphe 17 nous observons un rapprochement tr s distinct qui
85. al 2001 Il s agit par cons quent d un corpus bilingue de traduction avec le fran ais pour langue source et l anglais pour langue cible qui de plus a t align automatiquement au niveau des phrases Il compte environ 300 000 mots et comprend par ordre d croissant d importance des articles de recherche des articles de vulgarisation un manuel d utilisation de logiciel des plaquettes de pr sentation un contrat de licence des r sum s de monographies Par ailleurs il couvre diff rents domaines dont les plus repr sentatifs sont l agronomie les sciences du sol l hydrobiologie l environnement la biom trie et la mod lisation la g n tique et l am lioration des plantes la pathologie v g tale et la malherbologie Ce corpus pr sente donc une certaine h t rog n it tant du point de vue des th mes abord s que des types de textes qui le composent 240 4 OUTILS Pour analyser le corpus d tude notre choix s est port sur les outils SYNTEX Bourigault et Fabre 2000 Il s agit de deux analyseurs syntaxiques de corpus l un pour le fran ais l autre pour l anglais qui prennent en entr e un corpus tiquet et effectuent une analyse en d pendance de chaque phrase du corpus SYNTEX prend en charge le rep rage des sujets et objets des verbes relations SUJET et OBJET avec une distinction au niveau de la relation lorsque le verbe est un verbe d tat ATTRIBUT le rep rage des ant
86. argumentales de ces verbes relativement restreint et descriptibles avec souvent une bonne approximation par les patrons d extraction En r sum plut t qu une LS unique l analyse fait donc appara tre un ensemble de classes d expressions poss dant leur propre structuration syntaxique et s mantique L homog n it plus ou moins grande d un corpus par rapport ces classes s value la fois en termes de structure structures syntaxiques et op rations s mantiques associ es qui peut tre relativement simple d s lors que ces expressions sont extraites de leur contexte et en termes de lexique qui peut tre riche et n cessite des m thodes de constitution et de structuration appropri es mais en m me temps d limit et relativement ferm par la classe d expressions vis e 2 2 3 VARIATION 2 AUTRES FORMES LINGUISTIQUES MISES EN JEU Le second groupe de remarques concerne le fait que le seul type de structure vis e par la notion de LS est de nature syntaxique ou syntaxico s mantique Or d autres formes de r gularit apparaissent tr s clairement notamment au niveau du discours ou du texte Ce point peut tre illustr par plusieurs exemples dont nous retiendrons ici quelques uns issus de nos propres travaux e La notion de cadres de discours introduite par M Charolles Rappelons que l auteur d signe sous ce terme des segments homog nes par rapport un crit re s mantique par exe
87. autoflagelamento gt Comme si aux tats Unis il n y avait pas d hypocrisie par rapport au travail 3 La revue Time pr voit parmi d autres v nements l arriv e de l homme sur Mars en 2017 et la construction dans les prochains 20 ans d un lt hiperavi o gt qui transportera mille passagers dans un parcours de 10 000 Km 900 Km h 4 Le premier espace lt eco cultural gt de Rio sera inaugur l angle de la rue Garibaldi avec la rue Conde de Bonfim Tijuca pr sentant des projets de l environnement 5 lt Ciberguerra gt titre Nouvelle tape dans la lutte pour le domaine des logiciels de navigation sur le Net 6 Le nouveau genre qui inclut d autres r ussites telles que Matrix est pr sent appel lt e cinema gt cin ma lectronique ou num rique 7 Ce qui b n ficie galement au lt mercado de c mbio gt sont les missions de titres br siliens l tranger 8 Dans le lt mercado cambial gt le dollar commercial a atteint vendredi une nouvelle cotation record vendu R 2 245 9 Des femmes du Parlement sont all es au STF pour demander la fin de la limite pour le lt salario maternidade gt 98 OBSERVATIONS LINGUISTIQUES SUR UN CORPUS DE L GENDES EN ANGLAIS DE PHOTOGRAPHIES DE TRAINS Pierre J L Arnaud Fran ois Maniez Universit Lumi re Lyon II CRTT 1 INTRODUCTION La recherche pr sent e ici est l intersection de la linguistique de co
88. cette notion de grammaticalit ne peut se faire sans passer par celle d acceptabilit elle en serait d ailleurs une partie dans l acceptable il y a du grammatical ainsi pour Riegel ef al 1994 la grammaticalit ne regrouperait que la partie de l acceptabilit qui est d termin e par les r gles de bonne formation intrins que des nonc s ou chez Picabia amp Zribi Hertz 1981 la grammaticalit est la composante linguistique de l acceptabilit En fait l utilisation des termes para t renvoyer des niveaux diff rents dans le cas de Milner le jugement intuitif est dit d acceptabilit c est celui qui permet de trier les formes et d laborer par hypoth se une grammaire laquelle produira des formes dites donc grammaticales dans le cas de Riegel ef coll la grammaticalit rel ve de la structure tandis que l acceptabilit a trait aux compatibilit s distributionnelles Le soleil nage est grammatical mais inacceptable Soleil le brille est agrammatical Le probl me est dans la circularit de la d marche si l on juge Est ce que le soleil brille t il inacceptable on construira une grammaire de telle sorte qu elle ne produise pas cette s quence dite donc agrammaticale 214 3 LA CREATION D UN CORPUS INFORMATISE UNE BASE DE DONNEES LINGUISTIQUE 3 1 Corpus forg ou corpus attest Dans le cadre de notre recherche centr e sur la pr positio
89. choisi plus elle est longue ou moins l ger plus de est pr f r Cette extension de la notion de poids n est d ailleurs pas arbitraire mais bien au contraire c est l origine m me de la notion de poids qui a t propos e en premier lieu par des phon ticiens en tant que crit re explicatif de l ordre des mots Hag ge 1982 Abeill amp Godard 2000 Arnold ef al 2000 Wasow 1997 2 CORPUS ET DONN ES Cette tude est fond e sur une base de donn es constitu e d environ 14 500 exemples de de des adverbe ADJ NOM au pluriel tablie partir des corpus mentionn s dans le tableau 1 Ce sont toujours des s quences qui se trouvaient suivre un lemme des verbes avoir tre et prendre et les pr positions avec dans par pour et sur les adjectifs tant anciens beaux bons grands gros jolis mauvais nouveaux petits et vieux ou leur forme f minine Nous y avons aussi inclus des exemples qui taient sujets des verbes avoir tre et prendre Nous avons galement consult deux corpus du fran ais parl Corpus Allier Giron 2001 et Choix de textes de fran ais parl 36 extraits Blanche Benveniste et al 2002 Nous pr senterons les r sultats de l enqu te statistique dans ce qui suit et prouverons que le degr du poids joue un r le d terminant dans le choix entre l article de et des 132
90. citations en dialogue pseudo dialogue cr ent l effet de conversation et la pol mique dans la presse politique La pr sence de l oral dans le discours direct t moigne aussi le conversationnalisme des textes analys s Dans le corpus comparable sp cialis l oral dans le DD se manifeste le plus souvent deux niveaux linguistiques la syntaxe et le lexique 3 LA MANIFESTATION DE L ORALITE DANS LE DISCOURS DIRECT 3 1 Les particularit s syntaxiques la ponctuation Un des traits les plus remarquables de l oralit est la diff rence syntaxique des phrases du DD par rapport aux phrases du discours citant du journaliste Le discours direct s exprime par des phrases courtes souvent lliptiques exclamatives interrogatives dont l intonation les pauses et le ton illustrent le caract re sp cifique l oralit 9 Sirven dit qu il est en train de relire Un testament espagnol d Arthur Koestler journal d un condamn mort pendant la guerre d Espagne Je ressens les choses comme dans ce livre dit il 76 ans qu est ce qui est important L avenir Qui suis je Ou vais je Le reste Basta Vulgaire L avocat g n ral interrompt la conversation Lib ration 30 01 03 10 Devant la Credit Bank of Irak leur employeur Ali Faleh et ses deux fils adultes Hassan et Maitham observent la sc ne de loin Ceux l refusent de participer la f te Membres du Baas Fid les du dictateur
91. coh rente que l annotation automatique Pour l annotation du corpus nous avons recours au logiciel CLAWS Lancaster University UCREL L tiquetage des cat gories grammaticales est notre avis plus productif que la lemmatisation pour les objectifs de notre recherche et pour une langue comme l anglais qui pr sente peu d inflexions Le fran ais a une 65 morphologie flexionnelle beaucoup plus riche que l anglais ce qui justifie un traitement de lemmatisation Prenons comme exemple la cat gorie des adjectifs laquelle nous nous int ressons tout particuli rement pour l tude de la subjectivit Le fran ais d ploie quatre formes flexionnelles pour la plupart de ses adjectifs bon bonne bons bonnes L anglais au contraire enregistre une forme unique good Les deux formes qui s y ajoutent le comparatif better et le superlatif best portent les traces du jugement subjectif du locuteur et m ritent toute notre attention en tant que telles Le logiciel CLAWS cat gorise les degr s de comparaison des adjectifs fonctionnalit plus appropri e pour notre analyse que la lemmatisation good JJ better JIJR best JJT La forme s sera tiquet e avec CLAWS en fonction de son contexte comme il suit GE pour le g nitif VBZ pour le verbe be VHZ pour le verbe have Un mot comme that sera tiquet de la fa on suivante BCL conjonction de subordination dans les compos s comme so that
92. combien la com die combien la trag die combien au genre versifi combien au XVII si cle Labb se d clare pr t mener des enqu tes dans ces directions Que n a t il commenc par l avant de proposer imprudemment une chelle absolue 3 2 Nous ne contestons pas l int r t de la mesure de Labb sans quoi nous ne nous serions pas pr t l exp rience pr c dente Mais faute d essais suffisants nous refusons l id e d une chelle fixe d un bar me arbitraire attach une seule mesure globale et indiff renci e appliqu e qui plus est un seul aspect lexical du langage Nous croyons m me que la formule de Labb vaut mieux que l usage qu il en fait et nous nous sommes attach s dans les pages qui pr c dent diversifier son emploi en l appliquant d autres objets linguistiques que le lemme aux graphies aux codes grammaticaux aux structures syntaxiques ou aux r seaux s mantiques Naturellement l chelle des valeurs obtenues varie selon l objet tudi et le bar me pour les lemmes ne vaudrait plus pour les graphies J M Viprey a fort bien observ un d calage approximatif de 4 points Bien entendu pour les codes et les structures on pourrait songer aussi aux mesures rythmiques ou prosodiques l chelle exigerait des accommodements plus importants Mais m me dans les conditions pr cises o se place Labb une chelle absolue est impraticable
93. courant n emporte pas tous les crivains vitesse constante il peut se rencontrer des obstacles des r sistances et des remous et certains crivains semblent remonter le courant C est le cas de G Sand et plus nettement encore de Proust qui sur le graphique s loigne autant que possible du naturalisme et pr f re en haut et droite la compagnie de Rousseau et Chateaubriand S agit il des th mes proustiens ou de la phrase proustienne Les effets sont m l s car la mesure propos e par D Labb tient compte de la fr quence de tous les vocables et est sensible aux faits stylistiques autant que th matiques 2 3 Pour y voir plus clair et distinguer le th me de la syntaxe nous avons entrepris d autres investigations en poursuivant l enqu te en de ou au del du lemme On gardait la mesure de la distance telle que la propose D Labb 23 mais en l appliquant d autres objets isol s dans le m me corpus des graphies des codes grammaticaux des structures syntaxiques ou des tiquettes s mantiques Mais d autres mesures de la distance taient aussi propos es et compar es celle de Labb Comme on a rendu compte de cette exp rience dans une autre publication nous nous bornerons a reproduire la carte des distances tablie sur les graphies Cette fois nous utiliserons le programme d analyse arbor e que nous avons incorpor notre logiciel HVYPERBASE parall lement l analyse fac
94. d taillons dans la suite celle que nous avons retenue pour chaque application tudi e en continuant d en analyser la d pendance vis vis d autres facteurs 301 10 D PENDANCES VIS VIS DU MOD LE DE L UTILISATEUR ET DE LA T CHE Le mod le sur lequel se fonde une application de TAL constitue un premier facteur de d pendance potentielle pour les interactions et les repr sentations visuelles Dans notre tude de cas ce facteur est fixe et ne peut tre modifi Pour les deux applications il est possible d afficher les r sultats d analyse conjointement au texte d origine une partie de ces r sultats est superpos e au document affich pour la lecture Cette possibilit n est pas syst matique elle tient en partie l existence d analyses locales qu il devient donc possible de situer dans le document D autres approches globales synth tiques produisent des r sultats qui ne peuvent tre mis en relation avec un l ment particulier du texte Il convient donc de noter que le mod le influence les moyens d interaction m me si la pr sente tude n en permet pas l analyse L utilisateur constitue un second facteur de d pendance que la dimension centr e utilisateur de notre approche rend pr gnant En effet c est lui que revient la phase finale d interpr tation du mat riau textuel Les deux applications tudi es ont l avantage de faire intervenir des utilisateurs dont les niv
95. dans le discours direct Tous les cas trouv s de l oralit transcrite dans le discours direct expriment un rapport imm diat au v cu donnent au lecteur l impression d tre pr sent dans la situation et conf rent un caract re oral spontan aux phrases guillemet es et conversationnalisent les textes 177 5 R F RENCES Authier J 1981 H t rog n it montr e et h t rog n it constitutive l ments pour une approche de l autre dans le discours DRLAV n 26 Authier J 1981 Paroles tenues distance Mat rialit s discursives Lille Presses Universitaires de Lille p 127 142 Bakhtine M 1984 Esth tique de la cr ation verbale Paris Gallimard Barb ris J M 1995 L interjection de l affect la parade et retour Faits de langues n 6 p 93 104 Cermak F 1999 Kalbos tyrimo metodai Kaunas Vytauto Did iojo universiteto leidykla Dabartin s lietuvi kalbos odynas Vilnius Mokslo ir enciklopedij leidybos institutas 2000 Ducrot O 1984 Esquisse d une th orie polyphonique de l nonciation Le Dire et le dit Paris Minuit p 171 233 Fairclough N 1995 Media Discource New York Edvard Arnold Kristeva J 1970 La Po tique de Dosto evski Paris ditions du Seuil Labutis V 2002 Lietuvi kalbos sintaks Vilnius Vilniaus universiteto leidykla p 137 138 p 356 364 Le petit Robert 1 Paris S N L 1978 Lorda C U
96. dans tous les cas des m tar gles totalement filtrantes Ce constat r v le les limites de notre approche il faut pouvoir contourner l impossibilit d appliquer les crit res internes certaines m tar gles en utilisant des indices externes qui permettraient de contr ler la correcte d limitation des ST en corpus Nous souhaitons explorer cette voie en testant la possibilit d introduire dans les traitements mis en uvre lors de la reconnaissance de la variation une analyse syntaxique partielle type chunking qui permettrait de d finir les fronti res des syntagmes nominaux en corpus et ainsi de v rifier l identit syntaxique entre la ST extraite et le segment nominal en corpus L augmentation du pouvoir filtrant des m tar gles se r v le indispensable pour obtenir une indexation linguistiquement fiable Elle permet parall lement de r duire au maximum les possibilit s de pr server de l information implicite partir de techniques TALN 7 R F RENCES Basili R Moschitti A Pazienza M T Zansotto F B 2001 A constrative approach to term extraction Actes des 4 mes Rencontres Terminologie et Intelligence Artificielle TIA 01 Nancy 3 4 mai 2001 p 119 128 Bourigault D Jacquemin C 2000 Construction de ressources terminologiques J M Pierrel ed Ing nierie des langues Paris Hermes p 215 233 Bourigault D Jacquemin C L gt homme M C 2001 Recent Advances in Computational T
97. de cette phase qu ont t d finies la longueur des insertions dans les pr positions compos es et la longueur des espaces de recherche des compl ments de fa on optimiser les r sultats Cette tape peut s av rer d licate Ainsi un linguiste ne s attarde pas sur la longueur d un compl ment Comment 263 d ailleurs trouver la longueur id ale d un compl ment Quelles sont les implications de donn es fixes Il faut donc accepter qu une r gle pr sentera des lacunes car elle ne consid re pas des configurations peut r currentes Troisi me tape dialogue r gles corpus la troisi me tape consiste i valuer valuation qui peut par la suite tre revue le co t la pertinence de certaines modifications dans les r gles ii ne pas chercher impl menter des configurations peu courantes Ces trois tapes ont permis d crire des r gles aux configurations syntaxiques diff rentes dans la plate forme ContextO Les septs cat gories de r gles ci apr s permettent de rep rer les non phrases th matiques en d but de paragraphe non expans et expans apr s un tiret non expans et expans apr s un tiret et un adverbial non expans et expans apr s un adverbial non expans et expans apr s un adverbial suivi d une virgule non expans et expans suivi d un adverbial non expans et expans suivi de trois points non expans et expans
98. de concordances Les unit s lexicales inventori es sont transcrites dans une fiche lexicale l aide du logiciel Access de Microsoft qui pr sente les champs suivants unit lexicale sigle ou acronyme r f rences grammaticales contexte s r f rences du des contexte s domaine sous domaine notes linguistiques notes compl mentaires synonymes variantes auteur de la transcription date de la transcription Les champs obligatoirement remplis sont les suivants unit lexicale r f rences grammaticales contexte s r f rences du des contexte s notes linguistiques notes compl mentaires auteur de la transcription date de la transcription 2 QUELQUES R SULTATS La Base pr sente actuellement 11 900 unit s lexicales n ologiques r sultats concernant la p riode comprise entre 1993 et 2000 Ces unit s lexicales pr sentent une deux ou plusieurs occurrences On constate donc que quelques unit s lexicales constituent des hapax c est dire des unit s qui ne pr sentent qu une seule occurrence tandis que d autres se montrent tr s fr quentes en pr sentant plusieurs occurrences le long de la p riode tudi e ce qui montre qu elles sont en train de s int grer la langue portugaise Le nombre d occurrences de la Base repr sente pr s de 19 300 contextes Les donn es d j collect es nous permettent d observer quelques faits concernant les aspects morphologiques des un
99. des discours pr alablement crits et qui par cons quent forment un ensemble coh rent avec un d but et une fin clairement d finis ou est ce que des conversations avec des voix multiples peuvent aussi tre consid r es comme texte C est un peu comme le mot mot nous acceptons ce que nous voulons dire et l ambigu t inh rente Le texte est forc ment transcrit d passe de pr f rence l nonc et est authentique Nous sommes oblig s d accepter que les textes prennent des formes tr s variables selon les contextes d emploi C est pour cette raison que dans sa c l bre d finition du terme corpus Sinclair 1996 a pr f r parler de pieces of language La d finition du terme corpus est compliqu e par une vari t d emplois et des diff rences importantes dans les cultures de recherche en langues entre les mondes anglo saxon et fran ais Nous pouvons d gager quatre grandes familles de corpus e en litt rature un recueil d uvres souvent d un m me auteur e en linguistique de corpus une collection de textes s lectionn s par le linguiste selon des crit res pr cis afin de repr senter une langue e en linguistique nonciative une collection d nonc s authentiques s lectionn s par le linguiste pour les besoins de son tude e En linguistique g n rative un ensemble de phrases non authentiques cr es par le linguiste pour les besoins de ses tudes
100. des moyens mis en uvre pour adapter les repr sentations visuelles et les interactions pour les deux applications pr sent es de mani re satisfaire les objectifs qui viennent d tre mis en avant pour chacune d entre elles Nous commen ons par pr senter dans la section 5 la fa on dont s op re la phase commune ces deux applications celle qui concerne la constitution des ressources 5 INTERACTIONS POUR LA CONSTITUTION DES RESSOURCES Le mod le LUCIA repose sur quelques principes simples de description s mantique du lexique et d analyse des redondances d attributs Ceci tant malgr leur simplicit ces principes ne sont pas n cessairement connus d un utilisateur novice Or un des objectifs de nos travaux consiste proposer une aide des utilisateurs novices pour les t ches qu ils peuvent tre amen s r aliser sur des documents et qui n cessitent une interpr tation du mat riau textuel C est pourquoi nous pr sentons dans cette section le logiciel d tude que nous avons d velopp pour permettre la sp cification de ressources lexicales selon les crit res du mod le LUCIA Nous commen ons par une comparaison des fonctionnalit s attendues avec celles offertes par d autres outils informatiques vis e plus g n rique en expliquant en quoi ces outils ne sont pas satisfaisants ici Nous montrons ensuite quelles interfaces nous utilisons pour commencer apporter une solution aux probl me
101. des phrases Ces syst mes reconstruisent les informations manquantes dans les non phrases en utilisant deux types d information i une information langagi re et du domaine et ii une information contextuelle prenant en compte le discours pr c dent imm diat L auteur souligne les faiblesses de ce type d approche fond e sur des propri t s syntaxiques particuli res tout en tant troitement li es un domaine particulier 2 3 Une analyse linguistique descriptive plus approfondie Comme notre connaissance les non phrases n ont pas fait l objet d une tude approfondie nous avons entrepris de les analyser uniquement d un point de vue linguistique Nous exposons ci dessous les r sultats d une recherche de nature descriptive Celle ci liste les crit res caract risant les non phrases th matiques des non phrases a th matiques c est dire que dans ce dernier cas la pr position potentiellement introducteur th matique n instancie pas de cadre Cette analyse se fonde sur un corpus crit compos de 87 extraits de romans R de la base de donn es Frantext de journaux Le Monde Diplomatique Le Point Le Figaro AJ et d articles scientifiques A Nous n voquerons donc pas les crit res typiquement oraux tels l intonation 2 3 1 LES PHRASES TH MATIQUES ET LES NON PHRASES TH MATIQUES PARTAGENT ELLES DES PROPRI T S Avant d entreprendre l analyse des non phrases th matiques nous avons d
102. dimensions de l information Ph nom ne Espace Temps ce qui peut se faire parfois au niveau de la phrase mais n cessite souvent une analyse discursive locale Ainsi dans l extrait de la figure 3 le crit re de 1965 1985 porte sur les deux phrases cit es et peut tre au dela Ces m thodes et les r sultats obtenus sont d crits dans Bilhaut ef al 2003 a et b 2 2 1 CORPUS HOMOGENES ENTRE INFORMATION ET LANGUE partir de ce rapide examen de quelques applications et des m thodes mises en uvre une premi re r flexion peut s op rer sur la question qui nous int resse Remarquons d abord que la notion d homog n it est abord e en r f rence un type de t che extraction et recherche d information en ce qui nous concerne Deux aspects deux facettes apparaissent imm diatement e Homog n it de l information v hicul e par les textes du corpus La d finition m me des informations extraire leur format leur codage symbolique est d pendante d un domaine de connaissance sp cifique Restreindre drastiquement le domaine des connaissances n cessaires est une condition sine qua non de faisabilit e Homog n it des formes linguistiques La technique des patrons syntaxico s mantiques illustre bien le fait que l on s attend a trouver l information cherch e sous certaines formes constituant un ensemble relativement ferm Mais nous le verrons l exploitation
103. documents primaires principe de codage adopt titre conservatoire pour ne pas risquer de surinterpr ter les donn es peut g n rer des ambiguit s que le retour la source l verait Nous testons actuellement la plus value que pr sente effectivement le fait de pouvoir revenir aux documents d origine cette fin une seconde phase de transcription est actuellement en cours elle concerne le m me type de documents sources mais est faite de mani re pouvoir consulter simultan ment la source sonore et la transcription Le logiciel Transcriber est utilis cette fin il s agit d un diteur XML d di la transcription d missions radiophoniques http www etca fr CTA gip Projets Transcriber Il est param tr pour permettre le codage d un certain nombre d v nements dont seulement certains sont n cessaires dans le cadre de la constitution du corpus qui nous occupe Il g n re un document XMLis o le premier niveau de structuration des transcriptions est de nouveau le tour de parole prise de parole d un locuteur ou chevauchement des propos tenus par plusieurs personnes avec identification et caract risation du ou des locuteur s impliqu s et o les l ments balis s dans le premier corpus sont galement rep r s mais des contraintes li es l interface de saisie m ont amen e r viser leur balisage et les int grer dans ce que Transcriber propose comme commentaire Il est
104. dont des copies d cran sont propos es en illustration dans cette section L interface se d compose en panels d interaction dont certains offrent des fonctionnalit s correspondant des tapes obligatoires pour la cr ation des ressources et ne peuvent donc tre ignor s par l utilisateur En se r f rant la figure 2 des onglets permettent d acc der aux panels les cinq visibles sur la figure correspondent aux fonctionnalit s suivantes Attributs cr ation modification suppression d attributs Tables ajout modification suppression d entr es lexicales dans les tables Topiques point de vue diff rentiel sur les donn es d une m me table Dispositifs cr ation des liens d h ritage DictLex association de formes graphiques aux entr es lexicales exploitant en outre la base de donn es lexicales MHATLEX de l IRIT 16wb2 al waicez gontai COB scovomiess ingie suges boiseelou rienx Teup qS chauds obsigyerk IISLAIGUE bioyseelou x fudeure veega SUg AZIs SUS A26L JUS SSJLUSOU inqis suges higie oplese N F EUG qn QOWIWE NI bep boysni scU6j6L ICHEJENL ICHOVUIILE SCHOUUSUS IJSLAIGUE 1916 Sp i Dowswe vid VCEMLE YCLIAILES WCRI Babbar S LCA r62 19pI62 r9 ponies Dizbozyue Y reevaupue Kreeispiee p reeiobdnee reepieboeme picrex E a P ECHI
105. du point de vue de l analyse de l nonc lui m me son analyse syntaxique par le biais de manipulations quel type de constituant quelle structure de phrase quelle fonction des constituants dans la phrase etc et l analyse de chacun de ses constituants quelle classe distributionnelle appartiennent ils son identit s mantique locatif approximatif l heure actuelle notre base de donn es nomm e Z phyr V V comme Verbe rassemble 1 200 nonc s pourvus de leurs analyses syntaxique lexicale et s mantique 4 REFERENCES Arriv M Gadet F Galmiche M 1986 La grammaire d aujourd hui guide alphab tique de linguistique fran aise Paris Flammarion Blanche Benveniste C 2000 Corpus de fran ais parl in Bilger M d Corpus M thodologie et applications linguistiques Paris Honor Champion et PUP p 15 25 Bonami O 1999 Les constructions du verbe le cas des groupes pr positionnels argumentaux Paris Th se de l Universit Paris VII Builles J M 1998 Manuel de linguistique descriptive Le point de vue fonctionnaliste Paris Nathan Chomsky N 1969 Structures syntaxiques Paris Le Seuil Chomsky N 1971 Aspects de la th orie syntaxique Paris Le Seuil 220 Corbin P 1980 De la production des donn es en linguistique introspective Th ories linguistiques et traditions grammaticales Villeneuve d Asq PU de Lille p 121 179 Delaveau A 2001 Synta
106. en place de liens entre les tables n est pas vidente Mais cette formalisation permet d avancer dans la compr hension du ph nom ne tudi puisqu il faut ce moment l se demander ce qu on cherche mettre en vidence ce qu on veut voir appara tre etc Si des efforts sont investis dans la constitution d une base de donn es il y a ensuite un retour sur investissement Habert 2002 non n gligeable 13 Or tout linguiste travaillant sur un corpus comme nous l avons mentionn en premi re partie de cet article il y a beaucoup de donn es riches qui restent inaccessibles 223 TAL ET CORPUS 225 QU EST CE QU UN CORPUS HOMOGENE REFLEXIONS A PARTIR D EXPERIENCES EN EXTRACTION ET RECHERCHE D INFORMATION Patrice Enjalbert Universit de Caen GREYC CNRS 1 EXTRACTION D INFORMATION ET CORPUS Cette communication propose une r flexion m thodologique sur la constitution et l tude de corpus pour un type sp cifique d applications TAL l Extraction d Information ED Rappelons bri vement en quoi consiste cette technologie Piacenza 1997 Poibeau 2003 Dupont et al 2002 Il s agit d extraire un ensemble d informations factuelles troitement cibl es partir d un ensemble de textes relevant d un domaine d termin Des exemples couramment donn s sont op rations financi res extraites partir de d p ches d agences nouveaux pr
107. en privil giant un ou deux joueurs parmi les 75 en jeu En focalisant son attention sur les Menteurs qui se situent la fronti re il a rassembl sous le m me drapeau tous ceux qui se trouvaient dans le voisinage et les a soumis au m me suzerain il a choisi Corneille mais Moli re aurait pu tout aussi bien revendiquer la conqu te en annexant son territoire les com dies de Corneille de M lite l Illusion comique L erreur d interpr tation r side dans ce parti pris que rien ne justifie Quand on a 2775 mesures de proximit synth tiser cela ne peut se faire qu en prenant du recul pour les embrasser du regard sans en fixer aucune en particulier Les m thodes multidimensionnelles l analyse factorielle des m mes donn es est aussi claire servent pr cis ment largir le champ de la vision en vitant la myopie et faire appara tre dans le paysage les massifs et les lignes de partage Menteur distance sur N d ficits exc dents B TOURDI 199 hes MARIAGE CRITIQUE Ivar ESCA PRECIEUSES MALGR LU POURCEA M fe Psych Danoin BOURE ci M d e Pomp e aol N litandre Horace GARCIE Cie Androm de Toi ila sd Tullgfies ae Poe Doud MISANTHH 243 Rodogune 5angh t eepto p Pulchene euve ui sic EN I MALGR L 287 Placd o i E FEET En M LICERT 242 e Palleuctdll H r FACH SICILIEN 251 AMPHITR 238 Hri Is DANDIN 285 i FE POURCEAI 284 AMANTS 275 h BOUR
108. es Mais lorsqu il n est familier ni du mod le ni des outils les interactions et les repr sentations visuelles utilis es doivent avoir autant l objectif de l aider dans sa t che que celui de le former Il est donc indispensable d offrir l utilisateur la possibilit de s approprier pleinement toutes ces notions pour terme am liorer son efficacit dans la r alisation de la t che concern e Le mod le LUCIA pr voyant un retour sur les ressources l issue d un cycle d exp rience la familiarisation avec le mod le passe aussi par un lien fixe entre les ressources et la mani re dont il peut y tre fait r f rence lors de la pr sentation de r sultats d analyse C est pourquoi l association de couleurs aux tables est faite de mani re permanente et non pas uniquement lors de chaque phase d analyse Pr voir la mani re dont il sera fait r f rence aux ressources lors de la pr sentation interactive des r sultats l utilisateur utiliser d s leur constitution des m thodes similaires pour pr senter ces ressources am liore selon nous la lisibilit des mod les et leur prise en main Les interactions et les repr sentations visuelles v hiculent une grande partie de l information que la machine communique l utilisateur leur coh rence avec les notions des mod les mis en uvre aide donc l utilisateur se les approprier 11 CONCLUSION PERSPECTIVES L tude pr sent e dans cet arti
109. es permet aussi de r cup rer des informations selon des crit res de s lection par exemple on peut extraire la liste de tous les noms pr sents dans les SN introduits par dans on peut aussi s lectionner tous les nonc s issus d une m me source c est ce que permet la table Source notamment si l on veut faire une tude sur un journal particulier sur un auteur particulier Le traitement automatique des requ tes vite donc des manipulations fastidieuses la main et offre un gain de temps qui permet d approfondir la recherche et de mieux voir d un coup d il les r gularit s Il permet galement d op rer des analyses quantitatives par les requ tes les tris les d comptes qui permettent alors de s ins rer davantage dans le courant de la linguistique de corpus On peut par exemple s interroger sur le type de nom qui est le plus fr quemment employ avec dans et les verbes de mouvement b L int r t scientifique d une circulation de la recherche et le fait qu il existe relativement peu de corpus lectroniques disponibles On peut diffuser l information contenue dans une base de donn es chaque linguiste face la sp cificit de sa recherche forge son propre corpus Par la saisie d un corpus dans une base de donn es nous souhaitons rendre celui ci accessible d autres linguistes pour plusieurs raisons la premi re c est que nous nous sommes rendue compte au fil de nos
110. est quant lui destin tous types d utilisateurs en particulier des utilisateurs novices Pour faciliter la navigation dans les listes de r sultats de leur recherche nous proposons une repr sentation sch matique des documents int grant une coloration des parties de texte correspondant aux th mes attendus Cette repr sentation au format SVG figure 7 permet l insertion de liens hypertextes pointant directement vers les parties int ressantes des documents Elle peut tre compl t e par d autres informations concernant la langue principale du document la taille du fichier correspondant l URL laquelle il a t trouv etc comme cela se fait habituellement sur les moteurs de recherche 303 ASE Paris Bordeaux Paris Nice manselle ED Figure 7 Visualisation d un document pour la recherche documentaire gauche un article du journal Lib ration format HTML droite la repr sentation sch matique SVG produite automatiquement avec coloriage de certaines parties du texte Cette repr sentation peut tre r duite et ins r e dans une page HTML avec celles des autres documents de la liste envisag e Dans la repr sentation graphique il est important de conserver l aspect visuel g n ral du document d origine afin que Putilisateur puisse par exemple reconna tre les sources dont il est familier En revanche il ne nous a pas sembl primordial de projeter ce sta
111. etc 116 2 5 Crit re g ographique Le crit re g ographique est celui favoris par les dialectologues Il permet d observer les variations linguistiques potentielles d un lieu un autre si l on choisit plusieurs lieux d enqu tes h t rog nes Nord Sud par exemple ou au contraire il permet d annuler cette variable si l on choisit des lieux d enqu tes situ s dans une m me r gion dans un m me d partement ou dans une m me ville Comme le note F Gadet 1971 dans un article consacr aux variations sociales de la langue L tude syst matique des diff rences qu elles les variations g ographiques d terminent est du ressort de la dialectologie Elle ne nous int resse ici que dans la mesure o nous voyons la n cessit de choisir des sujets de m me origine r gionale pour viter l interf rence des variations linguistiques attribuables des causes sociologiques avec celles dues des vari t s r gionales Cependant il est important de noter que le lieu de notre enqu te peut tre consid r comme non homog ne du fait de sa situation g olinguistique le d partement de l Allier situ en partie dans la zone que les dialectologues nomme le croissant est la fronti re entre langue d oil langue d oc et francoproven al Les enqu tes tant men es en zones urbaines nous pensons avoir limit ainsi les influences dialectales tant il est vrai que un des principaux fact
112. examiner 3 1 Observons tout d abord d un point de vue th orique que la statistique peut emprunter deux voies l une est inf rentielle l autre descriptive La premi re s appuie sur les lois probabilistes et permet partir d observations r alis es sur un chantillon de confirmer ou d infirmer des hypoth ses et de projeter des conclusions sur la population dont l chantillon est extrait tout en mesurant la pr cision et la s ret de cette projection La seconde est plus modeste comme le note le math maticien Barth l my auquel on doit l analyse arbor e et qui s indigne de l usage qui en est fait Cette utilisation des m thodes que j ai contribu mettre au point est un non sens On ne peut faire passer pour des statistiques inf rentielles avec lesquelles on peut prouver des hypoth ses des statistiques descriptives d abord destin es faire r fl chir des sp cialistes Or les techniques multidimensionnelles dont on fait usage en lexicom trie qu il s agisse d analyse factorielle d analyse arbor e ou de classification hi rarchique ne sont que des repr sentations analogiques qui peuvent fournir des indices des pr somptions mais non des preuves Tout est affaire d interpr tation et la n tre avec les m mes donn es et les m mes r sultats est assez diff rente de celle de Labb ce que nous montrerons plus loin L essentiel du d bat dans la presse comme
113. exprim e la vari t est aussi consid rable drift 7 roll 7 race 3 ease 2 barrel charge coast fly glide hurtle run scamper scuttle shoot snake strut Cette vari t est contraster avec la r p titivit des photos Il n y a la rien d tonnant au fond puisqu il s agit d elegant variation une contrainte stylistique g n rale mais il s agit en plus d viter la monotonie entra n e par le caract re li du nano genre Cette vari t dans les verbes d v nement est tr s caract ristique de celui ci Comme cette elegant variation op re forc ment sur des l gendes successives chacune constituant un nano texte on peut consid rer que l ensemble des l gendes d un recueil est un super texte Une d marche onomasiologique plus large est galement possible La liste reproduite en Annexe contient toutes les phrases noyaux r f rant d une mani re ou d une autre l ascension d une rampe Les segments concern s y sont soulign s Cette liste permet de constater quel point l information visuelle des photographies est sensationnalis e la mont e tant souvent d crite comme un combat Ceci montre bien en quoi le nano genre l gendes de photographies de trains n a rien de technique ou industriel Dans le domaine d analyse difficile de la phras ologie variable Stubbs 2001 pr sente une int ressante analyse de la construction SN V one s way SP Il s agit d une con
114. football 155 4 QUELLES STRATEGIES D EXTRACTIONS AUTOMATIQUES D INFORMATIONS POUR QUELS RESULTATS 4 1 Des extractions simples Certaines extractions sont courantes ce sont les listes de lemmes et de collocations qui peuvent ventuellement tre produites avec mention de leurs fr quences relatives mais pour lesquelles cette derni re information sera interpr ter avec prudence i parce que l expression en fran ais d exp riences du football ne se limite pas Corbin para tre Gasiglia 2004 au vocabulaire technique que ces listes mettent particuli rement en valeur et que m me pour les unit s lexicales les plus terminologiques la fr quence pour un lexique sp cialis qu il est raisonnable de consid rer comme fini et puisable dans les limites d un volume de format honn te n est pas un crit re de s lection ii parce que la fr quence mentionn e est seulement repr sentative de ce que contient le corpus explor ce qui nous renvoie aux questions classiques de repr sentativit des corpus et surtout iii parce que ces listes sont g n r es par des programmes parfois d routants qui peuvent ne pas identifier les unit s polylexicales pour ce qu elles sont et les d couper en mots simples qui rep rent parfois de potentiels collocateurs sans tenir compte de la ponctuation dont la pr sence invalidera leur r union au sein de collocations voire sans traiter les apostrophes donc en c
115. g ographiques diff rents modes de pr sentation se succ dent et s articulent expos du probl me ou du ph nom ne observ descriptions comparatives de type historique d une part et spatiales de l autre ventuellement hi rarchiquement organis es synth ses etc Des proc dures de recherche d information utilisant des crit res spatiaux et temporels ou encore des proc dures de r sum automatique peuvent exploiter cette structure On devrait encore mentionner ici les questions de mise en forme mat rielle indices pr cieux de l organisation de l information au sein du texte Bref les corpus trait s pr sentent tout un ensemble de traits caract ristiques bien au del du syntagme facteurs d autres formes d homog n it 2 4 SYNTH SE QU EST CE QU UN CORPUS HOMOG NE Nous pouvons maintenant revenir sur notre question titre et synth tiser les analyses pr c dentes autour de trois remarques 1 2 3 x La notion d homog n it doit s entendre relativement a une t che particuli re du type EI RI pour ce qui nous concerne D autres pourraient sans doute appeler le m me type d analyse autour de l extraction de terminologie par exemple On pourrait aussi imaginer un prolongement relatif des faits de langues particuliers le calcul de cor f rence pourrait tre un cas pertinent Mais nous nous en tiendrons ici aux t ches pr cit es objet de nos exp riences L
116. garantit donc pas lui seul la compl tude ou la repr sentativit de la description De plus l objectivit qu ils procurent n est pas enti re Si le corpus c est par exemple la liste des compl ments en dans que l on peut extraire de Frantext c est un recensement neutre Ce qui n est pas neutre c est ce que l on fait de ce recensement on va op rer une s lection selon ce que l on cherche tudier par exemple les compl ments temporels on s loigne de l objectivit dans la mesure o c est le linguiste qui d cide de ce qui est ou non temporel et donc fait intervenir une certaine intuition par cons quent n cessairement une certaine subjectivit m me s il applique des crit res le r sultat qu il affecte au test d pend de son sentiment linguistique Dans ces compl ments temporels on ne va en garder qu un certain nombre sur la base l aussi de jugements personnels on limine ce qui para t redondant du m me type on garde ce qui semble le plus propre illustrer ce que l on veut dire mais on ne signale pas ce sur quoi on n a rien de particulier observer etc 2 3 3 CONCLUSION Dans les deux cas donc il y a le risque que le chercheur manque des donn es pertinentes du fait que aussi bien lorsqu il forge des phrases que lorsqu il recherche des nonc s attest s il est plus ou moins inconsciemment guid par une certaine chose a d couvrir ce que masquent les
117. hypothesis hypoth sel qui a t reconnu par erreur comme couple amorce au d triment des couples condition hypoth sel et hypothesis hypoth se2 En effet le lexique global propose pour hypothesis un seul quivalent possible hypoth se D s que l algorithme de projection a rep r la pr sence de hypothesis et hypoth sel il s lectionne hypothesis hypoth sel comme couple amorce sans v rifier s il y a ou non d autre possibilit s ici hypothesis hypoth se2 Il s agit l d une limite de l algorithme de propagation qui demande tre am lior Seuls 11 des checs relev s viennent d une erreur de l algorithme de propagation m me ces checs ayant pour origine la pr sence de reformulations qui interviennent lors du processus de traduction et dont nous pr sentons ci dessous quelques exemples The radio transmitter is composed of an electronic part and a battery and emits a pulsating signal 245 L metteur radio compos d une partie lectronique et d une pile met un signal puls The Jouy Research Center employs 11 of all INRA staff and as in the past will continue to play a major role Rassemblant plus de 11 des moyens humains de l Institut le Centre de Recherche de Jouy est appel jouer comme par le pass un r le majeur The multiplicative model sometimes contained only three testers when it was run for the elementary diallels Le mod le multiplicat
118. il y a la variabilit intra et inter locuteurs Apr s il faut consid rer galement les liaisons parce que dans la parole continue les mots dans les phrases sont fortement articul s c est dire que la prononciation de chaque mot est affect e par le mot qui pr c de ainsi que par celui qui suit Boite ef al 2000 Finalement il faut observer aussi la variabilit touchant la lecture ou spontan it du langage naturel savoir si le texte est lu ou parl librement Diverses bases de donn es ont d j t tablies toutefois avec des objectifs diff rents Elles se distinguent par la langue le nombre de locuteurs la forme et les donn es enregistr es Voici quelques exemples 1 EUROM 1 parole contr l e par la lecture 60 locuteurs salle sp ciale plusieurs langues cette base de donn es repr sente le travail conjoint de huit pays europ ens Italie Angleterre Allemagne Hollande Danemark Su de France Norv ge et ult rieurement Gr ce Espagne et Portugal Martins ef al 1998 2 BDFALA parole contr l e par la lecture 10 locuteurs salle preuve de son langue portugaise europ enne Martins et al 1998 3 BD PUBLICO parole contr l e par la lecture 120 locuteurs salle preuve de son langue portugaise europ enne presque dix millions de mots Martins et al 1998 4 SPEECHDAT parole contr l e par la lecture et parl librement 5 000 locut
119. illustr es dans leurs articles respectifs par des exemples fabriqu s ainsi que chez O Ducrot par quelques extraits litt raires se d fendent vis vis d nonc s attest s du fran ais parl et peuvent tre utiles pour le domaine de la didactique du FLE Nous allons d abord analyser trois fragments contenant des verbes l imparfait et ensuite trois autres avec des verbes au pass compos Nous nous int resserons plus loin aux sch mas pragmatico discursifs auxquels les formes de l imparfait et du pass compos participent ce qui nous permettra de mieux ancrer les fonctions retenues de ces formes 124 Imparfait Observons les trois exemples suivants provenant de deux enregistrements 1 quand les enfants taient plus grands et qu ils taient l cole euh bon il partait le mardi et il rentrait le vendredi donc c tait moi qui m occupais de de tout ce qui pouvait se passer euh au cours de l ann e scolaire FRAMO 18 10 8 10 12 2 nous tions trois ou quatre euh grandes bijouteries euh malheureusement aujourd hui euh nous restons que quelques uns BIOUV 6 2 12 2 14 3 on fabriquait euh trois quatre bagues par semaine euh a la main alors que maintenant euh en l an deux mille euh si on v on vend des petites bagues d un gramme cinquante deux grammes BIJOUV 6 8 3 8 7 On peut se demander dans un premier temps si le th me ou ce
120. impression de communication entre le journaliste et les lecteurs sur le rapport entre les interlocuteurs En plus l interaction des voix t moins ou de la voix t moin et ses auditeurs est renforc e par la cr ation de la situation communicative dans le discours du journaliste Elle sert montrer que les paroles du DD introduites dans le texte par les marqueurs typographiques ont t vraiment prononc es la mani re dont elles ont t prononc es et les r actions des interlocuteurs ou des auditeurs suscit es Le commentaire journalistique cr e la situation d nonciation Soient des exemples 7 Turime engti priek nes kitaip atsiliksime sak Zeminis Jo atid iai klaus si auk iausi Kinijos vadovai skaitant viceprezident Hu Jintao is kaip manoma per suva iavim tur t perimti vadovavim partijai i pasitraukian io Zeminio Lietuvos inios 09 11 02 soulign par moi 8 Pourtant le dernier mot revient au sp cialiste Brown chauffeur de camion citerne Les Etats Unis la France l Angleterre l Allemagne sont les pays les plus riches et les plus puissants du monde Mais quoi sert cette puissance si on ne s en sert pas pour faire le bien pour lib rer les peuples comme les 169 rakiens qui vivent dans la peur et la mis re Un silence puis le sp cialiste Brown est ovationn Le Monde 17 03 03 La situation communicative ainsi que le regroupement des
121. intervention de l expert afin d liminer le bruit produit par le processus d indexation automatique En second lieu l acceptation d un concept issu d une mauvaise variation traduit clairement l utilisation par l expert de ses connaissances pour conserver de l information implicite Ses connaissances l am nent r cup rer de l information qui semble pertinente par rapport au domaine d tude alors m me que cette information n est pas explicitement exprim e dans le texte La question que nous pouvons nous poser est de savoir s il faut tol rer cette part d implicite voire d inf rence dans un processus d indexation automatis e faisant appel des traitements linguistiques tels que ceux mis en uvre ici En d autres termes ne devons nous pas interdire dans une approche d extraction de connaissance reposant sur des techniques de TALN que l expert produise lui m me une part de cette connaissance En effet ces techniques sont elles r ellement appropri es pour extraire de l information implicite L analyse des termes issus d une mauvaise variation mais valid s par l expert nous am ne prendre une position stricte sur ce sujet Il est apparu que ces termes bien qu ils v hiculent la connaissance du domaine n expriment pas n cessairement la connaissance contenue dans le texte m me implicitement Au contraire dans de nombreux cas le concept ramen par une mauvaise variation s a
122. it du corpus Poibeau 2003 mais sans que cette notion tr s pragmatique ne soit vraiment d finie et tudi e Or la d limitation d un corpus ad quat est fondamentale pour d terminer la faisabilit de la t che et traiter les probl mes de portage que ce soit sur de nouveaux textes pour une t che d finie ou pour r utiliser un ensemble de connaissances et de proc dures linguistiques sur une nouvelle t che Les enjeux pratiques sont donc tout fait significatifs La pr sente tude s appuie sur un ensemble d exp riences men es dans notre quipe pour tenter de caract riser plus pr cis ment ce que peut tre un corpus homog ne pour ce type de t che Les travaux en question seront rapidement pr sent s dans la section 2 On voit imm diatement se dessiner les deux facettes de la notion d homog n it en termes d information et de domaine de connaissances sous jacent d une part et de formes linguistiques qui la portent de l autre section 3 La notion harissienne de Langue de Sp cialit en fournit une premi re illustration de r f rence mais beaucoup trop restrictive une analyse plus approfondie fait appara tre un riche d ploiement de formes linguistiques sp cifiques mises profit dans la pratique en ET RI section 4 et 5 Nous pourrons alors tenter une synth se et requalifier le principe d homog n it sans doute trop global au profit d une sorte de pr cepte op rat
123. l crit Les exemples fournis par le corpus comparable sp cialis montrent son aspect motionnel La pr sence de l interjection exprimant les motions signale l existence de la situation d interlocution G n ralement le DD est utilis dans la presse pour reproduire les paroles r elles qui n ont pas le caract re fictif propre aux textes litt raires Par cons quent l interjection y joue un r le important en mimant la spontan it du locuteur qui nonce et en souligne la relation avec l oral L emploi de l interjection dans la presse crite ne se limite pas la manifestation de la spontan it ou de l expressivit mais on y conna t un certain taux d informativit L analyse des exemples de la presse nous permet de constater que dans le discours direct l interjection exprime la subjectivit vis e argumentative mais elle peut aussi tre utilis e comme un morph me d s mantis et purement intonatif propre l oral En plus l interjection authentifie l acte de parole et sert de garant de la v rit informative ou selon Rosier 2000 elle est mentionn e pour faire vrai pour montrer qu une parole existe a t prononc e Le nombre d exemples trouv s dans le corpus m ne des r flexions sur la fr quence basse d interjections ainsi que d autres particules nonciatives des mots qui pr tent un ton oral au discours direct de la presse politique 4 CONCLUSION L ana
124. l aide du mod le LUCIA est la constitution des dispositifs pour les deux domaines envisag s Leur apparence globale est celle pr sent e dans la figure 4 deux couleurs dominantes ayant t associ es aux deux domaines a Bourse en rouge la M t orologie en vert L analyse automatique consiste essentiellement d tecter les lexies support de redondances d attributs L observation des r sultats n cessite de parcourir la collection la recherche des documents les plus susceptibles de receler des emplois de la m taphore analys e Pour faciliter ce rep rage nous avons cr une interface figure 5 regroupant l ensemble des repr sentations des documents trait s par les modules d analyse oe E ve article4 mc html La Bourse La M t o 78 9 Peres Ts Ph n dynamiques 27 m 1 LEUR Figure 5 Visualisation du corpus analys pour le projet IsoMeta Une m me page HTML regroupe l ensemble des repr sentations en histogrammes des documents Le document article4 contient 78 lexies du domaine de a Bourse et 9 du domaine de la M t orologie Dans le projet d aide a la recherche documentaire les dispositifs sont utilis s pour filtrer et r ordonner des r sultats provenant de syst mes classiques tels que les moteurs de recherche de l Internet Le pr alable est la constitution d un ou plusieurs dispositifs relatifs aux domaines de la recherche L analyse automatique
125. l indication ind pour indistinct Ces marques ne sont pas importantes pour notre analyse 13 Enfin nous retirons les marques de chevauchements de paroles Ce qui est nonc simultan ment est pr sent avec des espaces inutiles et parfois un objet graphique comme les accolades 1 5 2 PHASE DE REMPLACEMENT Nous proc dons au remplacement des doutes par l estimation Quand le transcripteur n est pas s r de la traduction il y a la forme entendue suivie de ce qu elle pourrait signifier ce qui est not pa r ce que zaime j aime se r crit dans un premier temps pa r ce que j aime De plus dans le cas de mots o certaines lettres ou syllabes ne sont pas prononc es le transcripteur les fait appara tre entre parenth ses pour la compr hension du corpus pa rce que Nous retirons aussi les pour r crire le mot enti rement ouv r e se r crit ouvre En effet Lexico3 constitue un dictionnaire de formes utilis es Et dans notre cas nous aurions compt deux formes diff rentes ouvre et ouv alors qu il s agit de la m me Enfin toute majuscule est remplac e par sa minuscule pour ne pas avoir deux formes distinctes alors que c est la m me sauf pour les noms propres o la majuscule est conserv e 1 5 3 PHASE DE BALISAGE Les cl s not es entre chevrons lt xxx gt peuvent partitionner le corpus en dialogues 1 2 3 et en locuteu
126. le nom de Jaccard Il faut bien se persuader que le programme d analyse arbor e place automatiquement tous les textes en s arrangeant pour que s assemblent ceux qui se ressemblent comme ferait avec ses invit s une ma tresse de maison avis e Les routes et les chemins sont galement trac s de sorte que le travail d interpr tation ne consiste gu re qu reconna tre circonscrire et d signer les agglom rations Elles sont trois l encore et faciles nommer la premi re s appelle Racine en haut la seconde Corneille au centre et la troisi me Moli re en bas Impossible de r partir autrement la population Les trois circonscriptions sont ind pendantes et franchement s par es Si le r sultat avait ressembl la carte des Balkans avec des ethnies dispers es et entrem l es le regroupement aurait pu se justifier Mais ici tout est en ordre et les trois crivains r gnent sur des terres que nul ne conteste mis part les trois exceptions qu on a relev es pr c demment et qui jouissent de l exterritorialit du genre litt raire Ce n est pas que le genre s efface On voit bien qu il sugg re une bipartition toutes les trag dies sont en haut et toutes les com dies en bas et cela sans aucune exception On voit aussi qu une d cantation se fait qui chez Corneille ne m le pas les com dies et les trag dies et chez Moli re les vers et la prose On voit enfin que d un bout du graphique
127. le terrain qui d crit un d placement dans le cadre d une action offensive n appara t que 154 rarement dans le corpus mais pr sente un patron r gulier de construction en langue commune et ce titre ne devrait pas tre prioritairement relev e Contrairement nos attentes au sein des relev s effectu s nous trouvons r guli rement la construction remonter le terrain alors que remonter le ballon est marginalement pr sent Il semble donc que dans ce type d exercice le lecteur scripteur bien qu il soit attentif est trop immerg dans l expression d exp riences footballistiques pour en percevoir nettement les particularit s les moins spectaculaires 3 3 Explorations outill es Pour ce qui est du d pouillement du Corpus foot de multiplex transcrits dans sa version transcrite sur support lectronique au moyen d outils informatiques par exemple des concordanciers accessibles tout lexicographe travaillant sur des textes pour lesquels nous disposons d informations morphosyntaxiques associ es aux mots les r sultats obtenus sont minemment li s aux strat gies de recherche mises en place Si ces outils permettent ventuellement de viser une certaine exhaustivit tant du point de vue des occurrences relever que des ph nom nes observer ils r clament une r flexion pr alable sur les moyens d optimiser les investigations Manipul s trop m caniquement ils font courir le risque pl
128. lectures articles revues de linguistique que nous n avons pas acc s aux corpus sur lesquels ces crits ont t produits Or cela nous aurait permis de v rifier les dires de certains linguistes de compl ter leur analyse sur le m me corpus de base et de le compl ter par de nouveaux nonc s pour confirmer ou infirmer ces dires Ainsi nous n avons pas acc s aux corpus analys s par Gross par exemple or il nous a sembl que certaines de ses analyses et conclusions n taient pas tout fait exactes mais seulement par rapport aux extraits de corpus qu il nous donne et par rapport notre propre corpus La th orie n est donc pas reproductible puisqu on peut ne pas arriver aux m mes conclusions Chaque corpus construit par un linguiste meurt donc avec lui Tant d heures de recherche d occurrences qui se perdent L acc s au corpus des autres linguistes permettrait de gagner du temps et d approfondir davantage la recherche Ainsi ce que nous avons recueilli pour la pr position dans peut servir d autres linguistes leur permettre de mettre en vidence d autres ph nom nes que nous n avons pas analys s par exemple quelqu un qui travaille sur les temps grammaticaux pourra peut 218 tre y trouver des choses De ce fait les informations contenues dans une base de donn es sont consultables et r utilisables par d autres personnes De plus il existe en France tr s peu de corpus lectroniq
129. les critiques aient souvent soulign le m lange des genres dans un m me ouvrage nos analyses ont montr que l appartenance un 57 genre pr cis de chacun de ses livres est bien r elle L analyse statistique permet ici par des tapes diverses d une part de confirmer de fa on formelle et impartiale les tudes ant rieures classiques plus subjectives d un corpus litt raire d autre part d apporter des claircissements nouveaux avec l aide de ces outils informatiques qui permettent de prendre en consid ration simultan ment l int gralit de l uvre litt raire La distinction de typologies de textes n op re nous semble t il ni un niveau conscient lors de la production ni un niveau interpr tatif L op ration de classification par laquelle un lecteur donne une certaine coh sion une suite textuelle est certes une op ration de lecture interpr tation qui conf re au discours une certaine structure compositionnelle r gi par la finalit des textes Mais comme l crit Jean Marie Adam 1992 on a parfois un peu trop tendance s parer lecture et production La nature textuelle des faits de langue a pour cons quence la production d un agencement de formes une structure compositionnelle donn e qui guide la lecture certes d un nonc achev mais qui guide aussi la premi re de toutes les lectures celle op r e par le producteur lui m me au cours du processus
130. leur acceptabilit ou puissent leurs attribuer un jugement d acceptabilit diff rent La notion d acceptabilit est fluctuante dans la langue on n est donc jamais s r que ce qu une autre personne qualifie d acceptable le soit pour les m mes raisons selon les m mes facteurs que soi C est en cela que l tablissement d un corpus est toujours marqu de subjectivit car qu on le forge ou qu on le rel ve c est toujours suivant ses propres int r ts de recherche en ayant d j une id e dans certains cas du type de structure que l on cherche L objectivit revendiqu e par les tenants du corpus attest n est qu apparente cachant un jugement d acceptabilit refoul 2 4 Les diff rents jugements que l on produit sur les donn es l acceptabilit et la grammaticalit Le jugement que porte le linguiste sur les nonc s est le seul outil dont il dispose pour s parer dans les donn es qu il observe ou qu il construit celles qui peuvent fonctionner comme illustration de ce que la langue permet de celles qui montrent ce que la langue interdit c est partir de cette base fondamentale que l on peut saisir les diff rences entre les deux ordres d nonc s qui vont justifier la formulation d une r gle le fait que l on puisse affirmer qu en fran ais le d terminant se trouve devant le nom repose sur l observation que si est possible entre autres Le soleil brille ne le ser
131. lexicale et propri t s de repr sentations graphiques La section suivante pr sente deux applications qui illustrent ce principe 8 INTERACTIONS POUR L AIDE L INTERPRETATION Comme il a t vu en 4 lors de la pr sentation du mod le LUCIA dans les diff rentes applications envisag es l objectif principal est de fournir une aide l interpr tation Ceci se traduit dans les faits par la d finition d un mod le interactif plut t qu un outil enti rement automatis Dans les deux applications que nous pr sentons ici le projet ISOMETA et la recherche documentaire il nous semble possible de distinguer parmi les besoins d interaction des aspects g n riques et des aspects envisag s comme 299 sp cifiques et dont nous tudions la d pendance tant vis vis du mod le que de la t che et de l utilisateur 9 G N RICIT ET CADRES APPLICATIFS Dans le projet ISOMETA pr sent plus en d tails dans Perlerin ef al 2002 et Beust ef al 2003 nous nous int ressons la m taphore conceptuelle de la M t orologie boursi re faisant intervenir deux domaines lexicaux le domaine source de la M t orologie et le domaine cible de la Bourse Cette analyse est men e sur un corpus constitu d environ 600 articles de Bourse issus du journal Le Monde sur CDROM et fait suite aux travaux sur la m taphore pr sent s dans Ferrari 1997 et Ferrari et al 2000 Le pr alable l tude de ce ph nom ne
132. liste des occurrences extraites en fonction des patrons de constructions N JOUEUR EQUIPE d gager le ballon la balle en touche en corner N DEFENSE EQUIPE se d gager N GARDIEN DE BUT EQUIPE d gager le ballon la balle pour N JOUEUR DE CHAMP EQUIPE N EQUIPE j Pitau qui lobe Penneteau sorti sa rencontre et c est Ferreira sur la ligne qui d gage en catastrophe en corner k Dugarry tente de donner un ballon en profondeur et Ferreira pour Bastia parvient d gager en touche 1 deux corners cons cutifs et chaque fois eh bien la d fense corse s est d gag e avec beaucoup beaucoup de f brilit m un attaquant troyen mais qui ne trouve personne ce qui va permettre la d fense alsacienne de se d gager n une nouvelle fois Pagis signal hors jeu cela va permettre aux Havrais de se d gager o Ferreira qui d gage pour tr s loin devant lui pour Piocelle p Alexander Vencel qui peut d gager loin devant pour les Havrais partir de ces regroupements syntaxiques et de leur insertion dans l ontologie la partition s mantique de ce verbe devient plus ais ment perceptible les formes pronominales nonc s 1 n expriment des actions 159 qui rel vent du jeu d fensif comme les formes non pronominales N JOUEUR EQUIPE d gager le ballon la balle en touche en corner nonc s j et k alors que celles dont l agent est un N GARDIEN DE BUT EQUIPE qui
133. me La plate forme ILC exploite trois types de variations 1 la variation flexionnelle genre et nombre 2 la variation syntaxique d insertion neural tissue neural crest derived tissues de permutation metabolism studies studies of iodine metabolism de coordination residual tumor lt residual recurrent or metastatic tumors 3 la variation morpho d rivationnelle hormone production produce some others hormones Les m tar gles d finies dans la m tagrammaire autorisent des transformations linguistiques uniquement sur des pluritermes compos s de deux ou trois unit s tumor cells the cell thyroid function test cell of bone Ainsi la m tar gle de coordination formul e a partir de l expression r guli re suivante X2 N3 X2 PUNC4 lt A NI Np V PUNC gt C5 lt A N Np V gt N3 va permettre de retrouver en corpus la variante syntaxique residual recurrent or metastatic tumors a partir du terme residual tumor enregistr dans l UMLS La premi re expression indique que le terme de la ressource est compos de deux unit s lexicales X2 et N3 appartenant respectivement n importe quelle partie du discours et la classe des substantifs La seconde expression 273 exprime toutes les possibilit s transformationnelles du terme avec insertion d une coordination de ponctuations la seconde tant optionnelle et d unit s adjectivales nominales verbales ou co
134. ne mentionnent pas l objet d gag mais ont un compl ment pr positionnel humain r f rent des actions offensives pour les unes comme o ce compl ment sp cifie le destinataire du d gagement pour N JOUEUR DE CHAMP EQUIPE pour les autres comme p il indique quel en est le b n ficiaire pour N EQUIPE Les premiers d pouillements effectu s en suivant ce protocole fournissent des donn es dont la qualit est tout fait appr ciable Il semble que les analyses produites m me par les plus n ophytes en football soient mieux canalis es et par cons quent les descriptions du sens des mots plus conformes aux r alit s du jeu qu ils permettent de d crire Mais il convient de rester circonspect et m me si ces premiers travaux sont encourageants la promotion de la d marche suivie ne pourrait tre envisag e qu apr s de nouvelles mises l preuve 5 CONCLUSION Ce t moignage parvient son terme Il a t pour moi l occasion de revenir sur la notion de corpus haut rendement et de mani re d taill e de pr senter les options adopt es pour la constitution de ce corpus d oral transcrit destin l tude d unit s lexicales employ es dans une langue sp cialis e de grande diffusion l expression en fran ais d exp riences du football Le Corpus foot de multiplex transcrits est le premier grand chantier de ce type mis en place l universit Lille II D autres corpus d
135. non Lib ration 11 04 03 168 5 Lietuvos politikai mano jog neigiamas Airijos referendumo rezultatas politi kai tur t labai rimtas pasekmes ta iau nesukurty visi kos aklaviet s Tai yra rimtas neai kumas pl tros kelyje kuri reikia pa alinti sak Lietuvos vyriausiasis euroderybininkas Petras Au trevi ius Neabejoju kad pl trai tai nesutrukdys bet neigiamas referendumo rezultatas jos ir nepagreitins teig U sienio reikal ministras Antanas Valionis Lietuvos inios 19 10 02 6 Lietuva tuoj duos pa ad i tek ti vakar vakare pasibaigus galutin ms m s alies deryboms su Europos S junga juokavo Lietuvos vyriausiasis euroderybininkas Petras Au trevi ius Jaunikis atrodo atne a rimt kraitj Santuoka bus ipareigojanti bet adanti idomu ir prasming gyvenim Esame nuvarg bet patenkinti Derybos baigtos s kmingai Esame tarp trij ali gausian i daugiausia l vienam gyventojui kiek sant riau ta iau taip pat d iaugsmingai kalb jo diplomatijos vadovas A Valionis Lietuvos rytas 14 12 02 Les exemples tir s du corpus comparable sp cialis illustrent la simulation des changes conversationnels et montrent les traits communs aux textes des journaux fran ais et lituaniens la lumi re des exemples donn s on remarque que la mise en sc ne du DD sous forme du pseudo dialogue peut faire na tre la pol mique et cr er l
136. o da liga o e n mero do telefone chamado inclusive com rela o aos pulsos gratuitos inclu dos na franquia La Telesc Brasil Telecom doit faire parvenir aux abonn s dans un d lai de 30 jours des renseignements d taill es des dates horaires dur e de l appel num ro du t l phone appel les impulses et minutes utilis es dans les appels t l phoniques locaux de t l phones fixes m me pour les impulses qui sont gratuits Texte long Tableau 2 Exemple d un corpus de parole continue 2 3 pellation des mots Un troisi me facteur concerne l pellation des mots Ce facteur sert entra ner le syst me pour des applications n cessitant l nonciation de noms propres trangers comme les noms de famille ou des villes En effet la correspondance graph me phon me dans ces contextes est celle de la langue trang re concern e Pour cette raison ces noms seront peller N anmoins il y a des personnes qui vont les peller par syllabes au lieu de le faire par lettres ainsi nous attendrons d avoir dans les enregistrements toutes leurs possibilit s d nonciation Les mots qui ont t selectionn s pour ce corpus composent les groupes des mots orthographiquement quilibr s c est dire un corpus qui repr sente tous les graph mes du PB et dans la m me proportion que chacun d eux appara t dans la langue Seara 1994 Le Tableau 3 pr sente un corpus de mots orthographiquement quibilibr
137. occurrences stand 5 wait 3 sit 2 auxquels on peut rajouter simmer 1 occ verbe r f rant indirectement a l immobilit via la chauffe de la chaudi re et sun oneself 1 touche d animisme 104 L examen des photos ainsi d crites ne permet pas de d celer de diff rences entre les situations r f r es qui correspondraient aux diff rents verbes Devant une situation identique l nonciateur a le choix entre diverses conceptualisations ici comme une attente une pause donc une interruption momentan e ou une position attitude Il y a donc une ind termination conceptuelle qui n a d ailleurs rien de bien remarquable Plus remarquable est la concurrence entre sit et stand car il s agit de deux verbes d attitude immobile rapprocher d ailleurs de Jie non attest dans le corpus et on sait que l anglais contraint bien plus que le fran ais l indication explicite du type de position Stand et sit sont deux verbes dont l analyse s mantique est d licate en raison de leur grande polys mie Il est clair que les points de d part de ces polys mies sont la d notation des attitudes humaines tre debout et tre assis et que par m taphore on en arrive la d notation de la position de r f rents inanim s incapables d tre debout ou assis ce qui rend impossible une traduction litt rale vers le fran ais La locomotive est debout dans la gare Le Macmillan English Dic
138. ou d optionnalit portant sur chaque l ment consid r dans sa globalit balises et contenu Des commentaires assurent enfin une bonne compr hension de chaque particularit de codage mise en place dans la DTD CORPUS HEADER TYPE lt en t te de corpus conforme au CES gt DOCUMENT HEADER TYPE lt en t te de document conforme au CES gt TEXT SPEAKER IDENTITY POST lt pour l l ment SPEAKER on sp cifie en attribut l identit IDENTITY et la fonction POST de la personne qui parle durant le tour de parole gt donn es textuelles 148 OU ENTITY TYPE OF ENTITY lt les noms de joueurs de clubs ou de stades de football mais plus largement de personnes de villes d entreprises ou d tablissements sont rep r s comme tant des entit s nomm es ce sera galement le cas des titres d missions diverses qui pourront tre mentionn s etc gt donn es textuelles OU SPELLED INITIALS lt sigles pel s gt OU READ INITIALS lt acronymes c est dire sigles dont les lettres sont lues contin ment comme dans un mot ordinaire gt OU REMARKABLE PRONUNCIATION lt sigle ou nom prononc de mani re remarquable et transcrit en API cf tefese note 9 gt y OU REMARKABLE UTTERANCE lt quand la prononciation d un segment est remarquable mise en correspondance de la v
139. p 515 521 Debili F Zribi A 1996 Les d pendances syntaxiques au service de Vappariement des mots Actes du 10 Congr s Reconnaissance des Formes et Intelligence Artificielle RFIA 96 Debili F 1997 L appariement quels probl mes Actes des 1 JST 1997 FRANCIL de L AUPELF UREF D jean H Gaussier E 2002 Une nouvelle approche l extraction de lexiques bilingues partir de corpus comparables Lexicometrica num ro sp cial Alignement lexical dans les corpus multilingues Gale W A Church K W 1991 Identifying Word Correspondences in Parallel Text Proceedings of the DARPA Workshop on Speech and Natural Language Gale W A Church K W 1993 A program for aligning sentences in bilingual corpora Computational Linguistics 19 3 p 75 102 Guillemin Flescher J 1981 Syntaxe compar e du fran ais et de l anglais Ophrys Fr rot C Rigou C Lacombe A 2001 Approche phras ologique d une extraction automatique de terminologie dans un corpus scientifique bilingue align Actes des 4 mes rencontres Terminologie et Intelligence Artificielle Nancy p 180 188 Gaussier E 1995 Mod les statistiques et patrons morphosyntaxiques pour l extraction de lexiques bilingues Th se de doctorat Paris VII Gaussier E 1998 Flow Network Models for Word Alignment and Terminology Extraction from Bilingual Corpora Proceedings of the joint 17 International Confer
140. planifier alors que le lecteur forgera facilement d ailleurs pr c d par Gross 1977 entre autres Dans les trente personnes sont venues ou acceptera les nonc s incrimin s De plus tant donn que nul n est parfait on n est jamais s r de penser a toutes les possibilit s qu offrent tous les items et on peut fausser les tests plus ou moins consciemment en fonction de l hypoth se qui se fait jour Enfin un autre d savantage des corpus forg s est qu ils ne permettent pas de d crire qualitativement et quantitativement la repr sentativit des donn es dans l usage effectif de la langue l introspection est impuissante d crire leur les variations dans les pratiques langagi res distribution dans la population le social lui chappe par d finition Corbin 1980 2 3 2 CORPUS ATTEST AVANTAGES ET D SAVANTAGES Les corpus attest s se d finissent par le fait que les donn es ont t produites ind pendamment du travail linguistique qu elles rel vent de sources diverses romans article de presse etc et qu elles peuvent tre de natures diverses crites ou orales a Les corpus attest s pr sentent certains avantages par rapport aux phrases forg es l auteur du roman de l article de presse etc fait un usage spontan de tel terme ou de telle structure il n y a donc pas de risque que la phrase qu il produit soit fauss e par une hypoth se d ordre linguistique
141. pouvoir tre exploit es dans le domaine de l enseignement apprentissage du Fran ais Langue Etrang re Les sch mas pragmatico discursifs impliquant ces formes que nous avons pu observer au sein du corpus jouent un r le important dans la d monstration et dans l illustration des valeurs pr conis es Les diff rents fragments du corpus mettant en uvre ces sch mas outre l int r t qu ils repr sentent pour un travail de recherche pourraient servir tels quels en classe de FLE pour des activit s combinant la compr hension orale de la parole spontan e et la r flexion sur les fonctions de l imparfait et du pass compos Concernant la g n ralit de la valeur pragmatique pr conis e pour chacune de ces formes elle pourra le mieux tre prouv e par une d monstration la situant par rapport aux valeurs donn es par d autres auteurs Le but d une telle analyse que nous exposerons ailleurs consistera montrer que les diff rentes valeurs de nature s mantique discursive ou stylistique peuvent tre ramen es la paire de valeurs pragmatiques que nous avons formul e ici 4 R F RENCES Anscombre J C 1992 Imparfait et pass compos des forts en th me propos L information grammaticale 55 p 43 53 Biggs P et Blanc M 1971 L enqu te sociolinguistique sur le fran ais parl Orl ans Le fran ais dans le monde N 85 d cembre 1971 p 16 25 129 Bilger M ed
142. productifs pour la formation de nouvelles unit s lexicales sont ismo ista o et ano tableau 2 92 ista 13 d autres 27 3 ismo 10 dade 2 s lt o 2 N 8 mento o 2 dor ano 2 PA 6 2 ada gem 3 izar ar eiro 6 4 5 5 Tableau 2 Suffixes Les pr fixes les plus productifs concernent la n gation et l opposition anti n o et l intensit super n o d autres sub 2 rec m 3 pr 3 re lt 3 neo 3 Lite micro pr des 3 3 4 Mini mega 4 5 5 Tableau 3 Pr fixes 93 Les unit s lexicales trang res les plus employ es dans ce corpus de presse analys sont d origine anglaise 79 concernant surtout la musique les sports l conomie et les technologies Les autres langues dont le portugais br silien emprunte des mots sont le fran ais 6 suivi du japonais 3 de l espagnol 2 et de l italien 2 9 Ao ki H anglais H francais K NY s japonais Oitalien E espagnol B d autres 76 Tableau 4 X nismes Un autre r sultat concerne les langues de sp cialit Les unit s lexicales du domaine de l conomie sont les plus employ es 31 dans le corpus tudi Aussi fr quentes sont les unit s lexicales qui repr sentent la musique la gastronomie et les technologies tableau 5 94 d autres 24 conomie 31 Culture 2 Info
143. rentielle comme un intervalle entre deux dates Cette r gularit s tend d ailleurs bien au del du corpus de documents g ographiques dans des articles de presse g opolitique par exemple Les expressions spatiales sont susceptibles d une analyse et de traitements similaires Leur structure g n rale combine des op rateurs de positionnement g om trique et de caract risation sociologique appliqu s sur des r gions d sign es par des toponymes Mais le lexique est videmment d un autre ordre de grandeur et d une plus grande variabilit selon les textes Enfin dans la composante ph nom ne on trouve la 233 situation ordinaire de l analyse th matique en recherche d information et des structurations de type terminologique champs lexicaux structure t te expansion et ontologies associ es Des remarques similaires peuvent tre faites sur la t che d EI standard Les expressions nominales pertinentes d crivant les entit s consid r es comme int ressantes pour l application vis e forment un ensemble relativement ferm Par exemple positions dans une soci t pour le corpus mutations et parties de v hicules ou encore description des lieux pour le corpus accidents Nous avons par ailleurs analyser des syntagmes propositionnels Mais l encore la limitation des informations extraites permet de d limiter ensemble de verbes et d verbaux et de constructions
144. res uvres class es par leur style particulier et innovant comme appartenant l cole du nouveau roman Le proc s verbal les nouvelles de La fi vre Le d luge Le livre des fuites La guerre et Voyages de l autre c t Les romans qui suivent cette p riode consid r s par les critiques comme plus traditionnels sont au nombre de neuf D sert Le chercheur d or et 42 Voyage Rodrigues crit sous forme de journal personnel Angoli Mala Onitsha Etoile errante La quarantaine Poisson d or et Hasard Mydriase et Vers les icebergs sont difficiles classer dans un genre pr cis ce sont plut t des r cits po tiques Lorsque certaines critiques les rapprochent de la po sie en prose d autres parlent de textes anecdotiques Le corpus inclut ensuite les recueils de nouvelles Mondo et autres histoires La ronde et autres faits divers ainsi que Printemps et autres saisons Les essais litt raires sont de diff rentes poques L extase mat rielle et L inconnu sur la terre traitent de th mes g n raux tandis que Trois villes saintes et Le r ve mexicain ou la pens e interrompue s int ressent exclusivement la culture am rindienne La culture am rindienne est galement le principal int r t des ouvrages vocation ethnologique Les proph ties du Chilam Balam et La f te chant e tandis que Sirandanes s int resse a la culture de l le Maurice En outre deux livres pour enfants sont inclus
145. retrouver et d extraire en corpus de la connaissance d j acquise et stock e sous forme de base terminologique Extraire l information dans les textes par reconnaissance terminologique pr sente l avantage d obtenir une indexation de meilleure qualit par rapport une indexation par extraction libre Elle se r v le moins bruit e plus pertinente et surtout plus homog ne La qualit de l indexation se r percute au niveau des traitements post rieurs d di s une analyse des donn es bas e sur des m thodes symboliques et ou statistiques Polanco ef al 2000 Toutefois une des difficult s auxquelles nous sommes confront s dans ce type d approche est l absence de figement d un terme motiv linguistiquement Bien que dans le langage scientifique et technique le terme se caract riserait par une tendance au figement et la lexicalisation il reste n anmoins sujet certaines variations Les termes peuvent se r aliser en corpus sous diff rentes variantes en premier lieu parce qu ils subissent les contraintes de la langue tout comme les groupes nominaux ordinaires mais galement en raison d un manque de consensus entre les experts La variation serait alors r v latrice de l volution des concepts scientifiques et techniques Ibekwe SanJuan 1998 Daille amp al 1996 Le principe de la variation conserve la s mantique du terme de d part et renvoie ainsi au m me concept En d autres termes le se
146. revanche la variable chronologique ignor e pr c demment entre en ligne de compte puisque deux si cles s interposent entre le texte le plus ancien La Vie de Marianne Marivaux 1731 et le texte le plus r cent Le Temps retrouv Proust 1927 L objectif propos au programme tant de reconna tre la paternit des textes il suffit pour chaque auteur de traiter deux textes qui lui appartiennent et de v rifier si l algorithme les attribue la m me plume Pour corser la difficult on a choisi pour chaque crivain d associer deux uvres situ es aux deux extr mit s de sa carri re pourvu qu elles partagent le m me genre narratif Il y a ainsi dix huit ans entre le premier grand succ s de Balzac Les Chouans 20 1829 et le dernier roman publi de son vivant Le Cousin Pons 1847 Un laps de temps plus grand encore s pare le premier roman naturaliste de Zola Th r se Raquin 1867 et l un des derniers titres des Rougon Macquart La B te humaine 1890 Entre l un des tout premiers titres de Jules Verne De la Terre la lune 1865 et le dernier manuscrit qu il ait remis son diteur Hertzel quelques jours avant sa mort Le secret de Wilhelm Storitz 1905 c est une carri re de quarante ans qui s est d roul e modifiant l inspiration et l criture Cet cart syst matique recherch entre les deux sp cimens des onze crivains retenus tendait dilater au maximum dans les limites du g
147. ricit de l interaction Chaque document doit tre repr sent pour permettre l utilisateur d appr cier rapidement sa pertinence tant absolue que relative la collection Nous d taillons en 10 les repr sentations choisies pour les deux applications en analysant leurs sp cificit s Dans les deux applications la phase de navigation est suivie d une phase de lecture d un document Qu il s agisse de rep rer les emplois m taphoriques ou les zones du document en rapport avec le th me de la recherche effectu e cette phase pr sente elle aussi des aspects g n riques et des aspects sp cifiques La g n ricit concerne ici les fonctionnalit s de navigation et de lecture pour un document qui se retrouvent dans de nombreuses applications de TAL et pour lesquelles nous n apportons pas de solution nouvelle ici La sp cificit des interactions mettre en uvre dans cette phase concerne la pr sentation des r sultats d analyse Pour le projet ISOMETA pr senter le document pour en permettre la lecture n est pas suffisant en soi les emplois m taphoriques doivent tre rapidement rep r s et donc mis en vidence au sein du document En ce qui concerne la recherche documentaire rep rer les zones pertinentes est aussi un besoin mais ces zones n ont a priori pas la m me port e que celles qui sont int ressantes pour les emplois m taphoriques La pr sentation des r sultats est donc d pendante de la t che Nous
148. rio da lingua portuguesa Rio de Janeiro Nova Fronteira 1 ed 1975 pour le corpus correspondant la p riode comprise entre 1993 et 1999 __ 3 ed 1999 Novo Aur lio S culo XXI o dicion rio da lingua portuguesa Rio de Janeiro Nova Fronteira 1 ed 1975 pour le corpus recueilli partir de 2000 ___ 2001 Dicion rio houaiss da lingua portuguesa Rio de Janeiro Objetiva pour le corpus recueilli partir de 2002 MICHAELIS 1998 Moderno dicion rio da lingua portuguesa Sao Paulo Melhoramentos pour le corpus recueilli a partir de 1999 Le corpus d inclusion comprend aussi le vocabulaire orthographique publi par l Academia Brasileira de Letras qui pr sente dans sa 90 macrostrucure un grand nombre d unit s lexicales qui ne sont pas int gr es des dictionnaires de langue g n rale ACADEMIA BRASILEIRA DE LETRAS 1981 Vocabul rio ortogr fico da lingua portuguesa Rio de Janeiro Bloch pour le corpus correspondant la p riode comprise entre 1993 et 1997 ACADEMIA BRASILEIRA DE LETRAS 2 ed 1998 Vocabul rio ortogr fico da lingua portuguesa Rio de Janeiro Academia 1 ed 1981 pour le corpus recueilli partir de 1999 Cet ensemble de corpus de presse est d pouill l aide du logiciel Folio Builder 4 2 logiciel am ricain qui nous permet d effectuer des recherches par pr fixes par suffixes par des radicaux ainsi que d tablir des listes de fr quences et
149. romans articles de presse entretiens radiophoniques etc 2 3 1 CORPUS FORG AVANTAGES ET D SAVANTAGES L une des fa ons pour un linguiste de constituer les donn es sur lesquelles il va travailler repose sur ce que l on appelle les corpus forg s corpus bas s sur la pratique exp rimentale et dynamique qui consiste utiliser la comp tence des locuteurs pour obtenir des donn es selon les besoins de l tude Riegel et al 1994 Le linguiste peut alors s adresser des informateurs pour savoir quels sont leurs jugements d acceptabilit sur l ensemble des nonc s pour leur faire produire des nonc s et ainsi v rifier la repr sentativit de ses propres r actions a Le principal avantage de l exemple forg est qu il permet les manipulations dont le linguiste a besoin pour proc der son analyse et observer celles qui ne sont pas possibles ventualit peu probable dans les nonc s attest s Soit par exemple l nonc J est dans les dix heures il peut tre soumis diverses commutations permettant de conclure rapidement et conomiquement par rapport au temps que repr senterait la recherche effective des phrases attest es correspondantes que la pr position peut se voir substituer vers mais non de pour et que le d terminant est incommutable est dans ces mes des quelques plusieurs dix heures De m me si l on cherche quels compl ments de verbe da
150. s avec renvois aux nonc s sources COMBINAISONS PERTINENTES DES VALEURS DES PARAMETRES TYPES D ACTIONS EXEMPLES LEXICAUX xoxc s D ANALYSE DES TYPES DE JEU LEMMATIS S D ACTIONS N JOUEUR DE CHAMP EQUIPE tacler 5 DET ballon N JOUEUR DE CHAMP EQUIPE tacler N b d fensif individuel sans ballon ____ intercepter 7 JOUEUR DE CHAMP EQUIPE dans le d roulement du jeu la balle N JOUEUR DE CHAMP EQUIPE tacler dans les pieds de N JOUEUR DE c CHAMP EQUIPE tacle gliss d tacle dangereux e tacle relativement O appuy f d fensif individuel sans ballon ____ faire une faute tacle absolument O assassin 2 induisant une interruption de jeu avec le pied tacle par derri re h i tacle sur N JOUEUR DE CHAMP EQUIPE h 1 tr s O vilain tacle 1 d fensif individuel avec ballon ____ faire sortir la balle N JOUEUR EQUIPE d gager en corner a induisant une interruption de jeu du terrain N JOUEUR EQUIPE d er en touche k la d fense A ETHNIQUE s tre d gag e 1 d fensif collectif avec ballon se d gager de o ais permettre la d fense A m esse ER ETHNIQUE de se d gager dans le d roulement du jeu l emprise adverse FE Rota Renny a EVENEMENT permettre aux N GENTILE n de se d gager N GARDIEN DE BUT EQUIPE d gager offensif individuel avec ballon ____ i nr pour N JOUEUR DE CHAMP EQUIPE to g donner la balle dans le d roulement du jeu N GARDIEN DE BUT EQUIPE d gager
151. s pour le PB Categoria Cat gorie Problematica Probl matique Fazendeira Fermi re Javan s Langue de Java ile d Indon sie Xadrezista Joueur d checs Tableau 3 Exemple d un corpus de mots orthographiquement quilibr s 201 2 4 Les nombres Le quatri me facteur s adresse aux nombres Dans ce corpus toutes les fa ons de dire les nombres dates sommes en argent heures carte de cr dit t l phone soient ils isol s ou en groupes doivent apparaitre Par exemple il faut essayer d avoir toutes les mani res de prononcer le num ro d une carte de cr dit Avec ce crit re nous cherchons a obtenir une grande couverture des possibilit s de production de ces items lexicaux Les consignes employ es pour la lecture des nombres sont pr sent es dans le Tableau 4 Commande Item lu Leia este numero por extenso 754 678 Lisez ce num ro pour les Ce num ro doit tre lu comme sept cents numeros avec 3 4 5 et 6 cinquante quatre mil six cents soixante dix chiffres huit Leia este numero 7 Lisez ce num ro pour les num ros avec un seul chiffre Leia esta quantia em dinheiro R 234 67 Lisez cette somme en argent Leia este numero do cart o de 1123 2345 4567 6516 cr dito Lisez ce num ro de la carte de cr dit Leia esta data 20 06 04 Lisez cette date Leia este numero de telefone 2344 3992 Lisez ce num ro de t l phone Leia a hor
152. sans avoir lire les 271 documents de mani re s quentielle La plate forme repose sur le postulat maintenant bien tabli que l information est v hicul e de mani re privil gi e par des groupes nominaux plus ou moins complexes La plate forme ILC constitue un environnement ouvert pour le traitement du langage naturel Elle accueille et int gre dans des shells UNIX un ensemble d outils TALN et de ressources linguistiques pour la reconnaissance des termes et de leurs variantes en anglais partir du texte int gral Elle s appuie sur une d marche onomasiologique en partant du concept pour rechercher toutes ses expressions linguistiques dans la langue de sp cialit Etiquetage ORNE Module de lemmatisation Th saurus formatage Tree Tagger tiauet Etiquetage Textes Module de Sn Textes TreeTagger Th saurus G n rateur de r gles PATR II R gles sur les mots simples R gles sur termes M tar gles ns j F F Validation humaine Termes extraits et leurs variantes linguistiques de l indexation Figure 1 Architecture de la plate forme ILC Ainsi que le montre la figure 1 l identification des termes et de leurs variantes repose sur deux grandes phases de traitement La premi re phase concerne le traitement des ressources terminologiques Les termes termes simples et complexes sont tiquet s information grammaticale puis lemmatis s avec le Tree
153. se s parent les parall les quand deux s ries sont li es et parall les Comme les deux s ries peuvent avoir un poids tr s in gal la seconde est d abord ramen e la dimension de la premi re proportionnellement pour que le total des deux s ries soit le m me Le quotient est calcul ensuite terme terme et s quilibre n cessairement autour de la valeur 1 5 Il convient ici de souligner la difficult des ambigu t s et la relative opacit d une analyse automatique qui ne permet pas l utilisateur de faire son choix et de trancher selon son propre jugement dans les cas ambigus 6 L application fonctionne en accueillant des exc dents de chaque partie du corpus par rapport aux autres et la sp cificit est d termin e par le calcul de l cart r duit pour chaque forme dans chaque partie du corpus Rappelons que ces diff rences de taille entre les unit s de comparaison dans le corpus sont nivel es gr ce une pond ration statistique 59 LE LOGICIEL HYPERBASE PR PARATION ET PR SENTATION DES CORPUS APPLICATION UN CORPUS DE LANGUE ANGLAISE Vasilica Milea Universit de Metz 1 INTRODUCTION Hyperbase logiciel documentaire et statistique qui fonctionne sa pleine capacit pour les textes en fran ais nous pensons particuli rement aux fonctions d tiquetage et de lemmatisation a attir depuis sa cr ation l int r t des chercheurs travaillant avec des corpus de langues diverses
154. termin quelles taient les caract ristiques des phrases th matiques qui les concernaient 1 caract ristiques morphologiques les non phrases th matiques sont introduites par des unit s lexicales sp cifiques Seules les pr positions list es dans Porhiel 2004 sont concern es 2 caract ristiques syntaxiques ce sont des phrases sans verbe au compl ment prototypiquement court et dont la pr position peut se trouver apr s un adverbial Bien s r maitre Hsueh bien s r dit vivement Ti Mais propos de l historien Shu Continuez je vous prie R Toutefois la diff rence des introducteurs th matiques des phrases th matiques ceux des non phrases th matiques ne pr fixent pas de proposition s De ce fait le crit re syntaxique de la pr fixation fortement discriminant dans les phrases th matiques est neutralis dans les non phrases th matiques Sur la base d un tel crit re il est impossible d affirmer si les exemples 1 2 ou 3 sont des non phrases th matiques ou a th matiques 3 caract ristiques ponctuationnelles l introducteur suivi de son compl ment n est pas s par des propositions par une virgule En revanche le compl ment peut tre d limit par divers signes de ponctuation E 4 caract ristiques s mantiques les introducteurs des non phrases th matiques pr sentent les m mes caract risitiques s mantiques que ceux des phrases 255 th matiques Cf 1
155. tiquement quilibr es en portugais Master of Science UFSC Florianopolis Brasil 206 CORPUS VOUS AVEZ DIT CORPUS DE LA NOTION DE CORPUS LA CREATION D UN CORPUS INFORMATISE C line Vaguer UMR 7114 MoDyCo Universit Paris X Nanterre 1 INTRODUCTION On ne peut mener un travail linguistique sans r f rence a des donn es ainsi toute grammaire ou tout dictionnaire arbore des exemples on ne parle pas pour autant dans ces cas de corpus il semble que la notion soit entendue en particulier dans les d buts de la grammaire g n rative comme un ensemble de donn es produit ind pendamment du linguiste et de la recherche linguistique par opposition aux donn es que le linguiste est susceptible de produire lui m me Chomsky s oppose l id e que l tude d un corpus puisse mener la construction d une grammaire appropri e comme l id e que le corpus des nonc s que l enfant entend autour de lui soit la base de sa comp tence de la grammaire qu il se construit mentalement Ainsi le raisonnement linguistique de Chomsky s op re bien sur des donn es concr tes mais qu il n appelle pas corpus Donc le d bat instaur par Chomsky tant donn le sens qu il donne corpus comme disons un ensemble de discours produit ext rieurement au linguiste et au travail linguistique c est celui de la pertinence du corpus
156. trop t t pour valuer plus concr tement les b n fices effectifs de cet alignement dans la suite de ce t moignage Je ne vais donc plus parler que du Corpus foot de multiplex transcrits existant en 2002 2003 le seul sur lequel les explorations relat es ci dessous ont effectivement port 3 PR SENTATION DES PROC DURES D EXTRACTION EXPERIMENTEES ET DE LEURS QUALITES REMARQUEES Trois types de proc dures d extraction d informations ont t test s sur un chantillon d une quinzaine de lexicographes en formation i au vol lors d une coute attentive et renouvel e autant que souhait e en notant ce qui est per u comme m ritant de l tre ii en lecture de transcriptions avec surlignage et prise de notes iii avec un outillage informatique en laborant des strat gies de recherche cibl es 3 1 Relev s au fil de l coute Lors du relev au vol durant l coute m me en r p tant et en fractionnant l coute autant que d sir la quantit d informations pertinentes entendues est telle que tout ce qui m riterait d tre not ne l est pas le corpus propos semble trop riche pour tre ainsi exploit l oreille et aucun des auditeurs ne constitue un relev identique celui des autres partir d un m me extrait 153 analys cela s ajoute une propension bien partag e reformuler voire r interpr ter les preneurs de notes lemmatisent souvent ce qui est en
157. uvre d un seul Le Cl zio afin d analyser l volution de genres dans ses crits Le point commun entre les trois premiers textes de la section Lexicom trie et Corpus est l outil Hyperbase cr l origine pour l analyse de textes en fran ais mais repris par la suite par d autres chercheurs travaillant surtout sur des langues romanes Dans le cas des tudes de Vasilica Milea il s agit d un corpus litt raire anglais 67 nouvelles d Edgar Allen Poe Son article constitue une analyse des fonctions statistiques de Hyberbase et des contraintes pour la pr paration d un corpus en anglais Le quatri me article dans cette section celui de Luigi Sansonetti applique la lexicom trie l analyse d un corpus oral Il s agit d une transcription de trois dialogues entre un adulte et un enfant Lexico 3 est employ afin regarder le discours des trois enfants puis l analyse factorielle permet de comparer leur discours et celui de l adulte La section Linguistique et Corpus est beaucoup plus vari e Nous n entrons pas dans le d bat sur la diff rence entre la linguistique de corpus o le corpus est central et o la m thodologie est la base d une discipline ind pendante et la linguistique sur corpus o diff rentes disciplines de la linguistique appliqu e ou formelle ont recours un corpus num rique L important ici est la vari t des approches et des domaines tudi s La lexicographie et l
158. voir que quand l pith te est plus longue avec une liaison phonique son poids devenant plus lourd l usage de de tend augmenter Au contraire si l pith te est courte donc l g re sans liaison l usage de des est pouss sans liaison 8719 1477 avec liaison 2879 254 Tableau 2 Liaison et choix entre de et des Nous montrons avec la figure 3 que les s quences o l adjectif et le nom sont sans liaison ont une affinit plus forte avec des que celles avec liaison et cela dans toute l histoire Figure 3 taux de des et liaison dans toute depuis le d but de ce tauxdedes l histoi it gt 8 F 2 edes l histoire trait s et romans ph nom ne la ligne qui 0 sans liaison avec liaison correspond aux sans 15 liaison est constamment au dessus de celle des groupes avec liaison 5 f Nous pouvons galement voir la m me tendance dans la figure 4 qui signale le 10 f 0 17s 18s 19s 1 19s 2 20s 1 20s 2 taux de des dans les textes contemporains de la 2 moiti du 20 si cle les Figure 4 taux de des et liaison dans tous les genres 2e moiti du 20e si cle 40 ho s quences sans liaison ex 30 avec liaison grands projets des 5 de ome 15 bonnes nouvelles des 3 de 14 ont plus de 10 f chances d appara tre avec 0 des que celles avec liaison ex grandes ambitions x N v gt
159. 1 R partition par locuteurs avec MATHILDE lemme cat 80 l aide des formes lemmatis es nous pouvons rechercher le temps des verbes et comparer l utilisation du pr sent par rapport l imparfait comparer l emploi des modes Graphique 12 Fr quences absolues Graphique 12 R partition par dialogues avec JULIEN lemme cat 2 4 Corpus de Julien Mathilde Nous regroupons les corpus de Julien et de Mathilde en un seul corpus JulienMathilde Cela permet de comparer directement les enfants entre eux et l adulte lui m me Nous pouvons alors rechercher par exemple les marques d h sitations Nous remarquons que l adulte dans le corpus de Mathilde ad2 a de plus en plus de marque d h sitation Mathilde a galement une croissance constante d h sitation Graphique 13 81 1 1 ad1 2 adt 3 ad2 1 ad2 2 ad2 3 jut jut 2 jut 3 mat ma2 mas Graphique 13 R partition par locuteurs Il faut ensuite revenir au texte par les concordances pour v rifier s il s agit d une r p tition de la forme d un t tonnement sur une construction ou d une tentative aboutie ou non d une construction complexe 3 ANALYSES FACTORIELLES DES CORRESPONDANCES Lorsque nous regroupons les corpus en un nous pouvons comparer les enfants entre eux ainsi que l adulte lui m me et observer comment son discours peut voluer en fonction de l enfant qui il s
160. 1 et 43 22 et 44 respectivement Il n a pas cherch les identifier m me si des indices assez clairs surtout les noms propres pouvaient aider au d cryptage Pour d jouer toute tentative de cet ordre un pi ge avait t tendu dans les six derniers extraits num rot s de 45 50 Car ce ne sont pas des textes suivis mais des agr gats constitu s de pages emprunt es aux 44 textes du corpus raison d une page par texte Le texte 45 r unit la premi re page de chaque texte le texte 46 la dixi me etc Cela donne des clones qui ne se distinguent pas les uns des autres mais aussi des portraits robots qui font la synth se de tous les textes du corpus et en constituent une sorte de moyenne ou d chantillonnage raisonn Ce pi ge a fortement intrigu Labb sans l garer et nous invitons le lecteur lire son commentaire qui ne manque pas de perspicacit 21 2m C HYPERBASALABBE 2 EXE ioj x uleur d un Taille OVALE Y gt Ase FA Zoom Loi amp D nde Wider LS T a oe rg AL Axe 1 59 Axe2 129 AVERNE P wi LC ausse Liverme Sven gt v k A rf ates t Chatea f 2Baizac X N aA Proust nn ROUSSEAU Y j scndtea ES PAL HATEAUBRIAND ame bee va PROUST 3Rousse Xe Rousse EN geast 7 an lt Pi Fi Fiadeer Xe PA Proust Sous Proust eX 4B izac Rs FLAUBERT NA p Mataire pe tere Y f en
161. 1999 CNRS ATILF Analyse et traitement informatique de la langue fran aise UMR CNRS Universit Nancy2 http www inalf fr atilf 192 Kahlmann A 1975 Traitement automatique d un dictionnaire de synonymes Stockholm Universit de Stockholm Kruskal J B Wish M 1978 Multidimensional scaling Beverly Hills Sage Publications Legendre P Legendre L 1998 Numerical Ecology Amsterdam Elsevier Manguin J L 2004 a paraitre Regroupements de synonymes par indices de similitude exemple avec l adjectif ancien Colloque Les adjectifs non pr dicatifs 28 29 novembre 2002 Universit de Paris Nord Villetaneuse A paraitre dans Les Cahiers de Lexicologie Manguin J L Victorri B 1999 Repr sentation g om trique d un paradigme lexical actes de la conf rence TALN 1999 p 363 368 Ploux S Victorri B 1998 Construction d espaces s mantiques l aide de dictionnaires de synonymes TAL Vol 39 1 p 161 182 Rey A 1992 d Dictionnaire historique de la langue fran aise Editions Le Robert 193 sanbnew ipesed sapnyiyiuts sa squde p jauuorsuaupapnu juawauuonisod sed xnana ap onbaueus aoedss 4 ap uoneuasaudoy amiy amaysimbur maam snayansaau mayday assau Pe XNAIXUE xnamnos Jue jauosiput queuaiduns arqeAouout ajqRaaouoout uuu e g ro Buen Pxopewd 1UBJ129U099pP amp Fad Roe saundurs DUPUIPIORNNA anbiun aut yuedeae
162. 22 6 12 6 14 Giron 2001 tu vois c est un petit peu euh un peu comme a on a bu de bons coups l bas MUSIK 46 16 9 16 10 les FNAC n existaient pas les choses comme a bon les l les libraires taient de petits libraires ind pendants PHYMO S54 6 10 6 12 Giron 2001 all6 maman c est Julien a va pass de bonnes f tes bon moi a va B B p 114 1 4 en face de moi un tapis roulant euh qui menait directement euh a des jolies demoiselles qui mettaient de b belles tiquettes de toutes les couleurs sur nos sur nos petits poulets B B p 158 1 27 c tait un h tel euh tr s exotique on nous a conduits euh notre bungalow l h tel avait euh de petits bungalows B B p 161 1 20 mais c est tr s difficile r conforter cette cette personne qui est d ailleurs souffre physiquement norm ment et bon ben les nerfs em l emportent euh dans de dans de grandes discussions euh savoir euh qu est ce qu elle a fait ou qu est ce qu elle a pas fait de bien mais elle elle a du mal nous l expliquer on a eu norm ment de mal lucider ce probl me B B p 184 1 599 voil donc trois types un petit peu de de de de personnes rencontr es les personnes ind pendantes les les personnes d pendantes qui sont en maison et les personnes qui sont en situation pr caire et qui eux qui elles bon ben ont quand m me de de grosses difficult s s ins rer d
163. 5 f romans de Frantext 0 Nous pouvons 17s 18s 19s1 19s2 20s1 20s2 d abord y remarquer que alternance entre de et des est observable depuis le tout d but de Phistoire de cette r gle Par exemple dans les trait s dat s du 17 si cle le taux de des est 16 31 tandis que celui de de 83 69 La premi re remarque cet effet a t faite par Vaugelas Remarques sur la langue fran aise 1647 La lecture de ce texte l analyse de nos donn es ainsi que l tude bibliographique Bourciez 1976 Beaulieux 1927 etc nous am nent supposer qu il s agissait principalement des dialectes r gionaux cette poque Le choix de l article d pendait largement des auteurs de texte au d but du 17 si cle Par exemple Olivier de Serre agronome n Villeneuve de Berg Ard che en 1539 utilise majoritairement des 65 occurrences et l oppos 11 occurrences de de dans son ouvrage Le th tre d agriculture et mesnage des champs En revanche Antoine de Montchrestien auteur du Traict de l oeconomie politique n en 1576 Falaise Normandie emploie 15 fois de sans aucune occurrence de des Apr s le 18 si cle on ne trouve plus de divergence aussi importante suivant les auteurs si ce n est la variation d pendant du niveau de langue 3 2 Genre de texte niveau de langue Nous v rifions ensuite avec la figure 2 que le niveau de langue est un des param tres tr s importants de notre ph
164. C SEARA R SEARA Mitsumi UCHIDA C line VAGUER Fabienne VILLE OMETZ 10 Universitas Vytauti Magni Lituanie niversit de Caen CRISCO CNRS MR 6170 GG Universit Lumi re Lyon II CRTT Universit de Metz Universit d Aichi Japon Universit de Toulouse le Mirail niversit F d rale de Santa Catarina Br sil LINSE Universit de Caen GREYC CNRS UMR 6072 niversit de Chypre Nicosie Universit aris IV LaLLIC CNRS UMR 8139 yc Universit Paris III EA 2290 SYLED EA 1701 CALIPSO ILPGA Universit F d rale de Santa Catarina Br sil LINSE Universit F d rale de Santa Catarina Br sil LINSE Universit f minine d Osaka Japon Universit Paris X MoDyCo UMR 7114 Unit de Recherche et Innovation URI INIST CNRS UPS76 INTRODUCTION Geoffrey Williams Universit de Bretagne Sud Corpus et texte texte et corpus Quels sont les liens entre ces deux termes En r alit la r ponse est compliqu e par le choix m me des termes corpus et texte Tout le monde sait que texte n est pas un concept simple Est ce qu un chapitre ou un article de presse doit tre consid r comme une unit part enti re ou par rapport un ensemble qui est lui m me le texte Est ce qu un simple nonc peut tre vu comme texte La situation se complique dans le cas de l oralit Est ce que le texte se limite uniquement
165. DETDPIG autres _ADJPIG pour_PREP en PREP cadeau 1 NCHS 1 _PREP anniversaire NCMS pour PREP en PREP hiver NCMS pour PREP pas ADV qu PREP faire VINF les DETDPIG noeuds NCMP mm NCMIN en_PREP hiver NCMS pour _PREP pas ADV qu _PRI il PPER3S al PREP 1 _DETDFS arriv e _NCFS de_PREP la DETDFS al PREP la DETDFS _PCTFAIB f NCHIN _PCTFAIB de_PREP la_DETDFS main NCFS trois ADINUM comme_SUB dans PREP la DETDFS neice NCFS ren NCMIN euh INT madame NCFIN Graphique 7 Concordance des Pr positions r partis par dialogues avec un tri par ce qui suit Avec MATHILDE forme cat nous nous apercevons que l emploi des pr positions est en progression constante Graphique 8 et que cette progression se v rifie galement pour chaque locuteur Graphique 9 Fr quences absolues maz mas Graphique 8 R partition par dialogues 79 Fr quences absolues 2 ad2 1 aa2 2 ad2 3 mat maz mas Graphique 9 R partition par locuteurs partir de JULIEN lemme cat nous recherchons les emplois des verbes tre et avoir Nous remarquons que le verbe tre est toujours plus utilis que le verbe avoir Graphique 10 La m me recherche avec MATHILDE lemme cat nous montre que les fr quences sont crois es Graphique 11 Savor tres adi adit 2 act 3 jut juz Fr quences absolus fosnosoo ved R aaz aa2 3 en maz mas Graphique 1
166. Ferret O Grau B Minel J L Porhiel S 2001 Rep rage de structures th matiques dans des textes TALN 2001 Tours 2 5 juillet 2001 p 163 172 Fries C C 1952 The Structure of English An Introduction to the Construction of English Sentences New York Harcourt Goutsos D 1997 Topic sequential relations and strategies in expository text Advances in discourse processes vol 9 Grisham R 1986 Computational Linguistics An introduction Cambridge University Press Hollerbach W 1994 The Syntax of Contemporary French A Pedagogical Handbook and Reference Grammar New York University Press of America Jackiewicz A 2002 Rep rage et delimitation des cadres organisationnels pour la segmentation automatique des texts CIFT 02 Hammamet Tunisie p 95 107 Jackiewicz A Minel J L 2003 L identification des structures discursives engendr es par les cadres organisationnels TALN 2003 Batz sur Mer 11 14 juin 2003 Knott A Sanders T 1998 The Classification of Coherence Relations and their Linguistic Markers An Exploration of Two Languages Journal of Pragmatics n 30 p 135 175 Mann W Thompson S 1988 Rhetorical Structure Theory Toward a Functional Theory of Text Organization Text n 8 p 248 281 Marcu D 2000 The Theory and Practice of Discourse Parsing and Summarization Cambridge The MIT Press 266 Marcu D 1998 A surface based approa
167. GEO 284 SAVANTES 247 p MALADE 289 Menteurt Figure 6 Distance du Menteur aux 74 autres pi ces Au besoin avant ou apr s cette synth se rien n interdit de concentrer son attention sur une ligne ou une colonne du tableau par exemple celle qui correspond au Menteur comme dans la figure 6 On constate en effet que cette com die a des accointances fortes non seulement avec les autres com dies de Corneille mais aussi avec celles de Moli re pourvu qu elles soient en vers Et comme on l a vu avec les deux premi res pi ces de Racine l influence de Corneille est la plus forte au d but de la carri re dans 36 les premiers essais de Moli re l tourdi et le D pit amoureux ce qui n en fait pas n cessairement des chefs d uvre Ce gros plan sur une pi ce est certes riche d informations mais les 74 autres contiennent autant de renseignements parfois concordants parfois divergents La difficult des taxinomies et des calculs de proximit vient de l absence de transitivit Si A ressemble B et C il ne s ensuit pas que B ressemble C C est le n ud gordien des 2775 coefficients entrelac s qu il faut d nouer et il ne suffit pas de tirer sur un fil Beaucoup d autres analyses viennent renforcer l interpr tation qui s impose dans la figure 6 Celle qui suit figure 7 reprend le m me corpus en lui appliquant un calcul de distance diff rent expliqu pr c demment sous
168. ITEMENT AUTOMATIQUE DES LANGUES ET EN LINGUISTIQUE DE CORPUS TUDE DE CAS St phane Ferrari Vincent Perlerin Universit de Caen GREYC CNRS UMR 6072 1 INTRODUCTION Dans cet article nous cherchons montrer par le biais d exemples en quoi certaines pratiques de Traitement Automatique des Langues TAL et de linguistique de corpus font merger des besoins d interaction entre les utilisateurs et les machines Nous illustrons nos propos par l analyse de divers travaux fond s sur un m me mod le linguistique Il appara t ainsi que parmi des t ches aussi loign es que la construction de ressources lexicales et l analyse de r sultats de traitements automatiques sur corpus des r gularit s peuvent se d gager en ce qui concerne les interactions mises en jeu Dans une p riode o rena t la r flexion sur l instrumentation de la linguistique nous proposons un regard sur la nature de ces r gularit s en interrogeant les relations entre mod les et outils informatiques Nous pr sentons dans une premi re partie le cadre de nos exp riences en TAL et en linguistique de corpus et plus sp cifiquement le mod le LUCIA sur lequel se fondent nos travaux Ce mod le permet de repr senter et d organiser des connaissances lexico s mantiques pour les exploiter ensuite lors d analyses instrument es de documents textuels Apr s avoir expos les grandes lignes de notre approche la deuxi me partie de cet article est pl
169. Jamais crache Hassan Deux de mes oncles ont t ex cut s en 1979 par ce fils de p Qu il cr ve Le Monde 10 04 03 11 Jr as alia j Nacionalbolsevikas Visi kas absurdas Provokacija vakar sureagavo A Kubilius i Lietuvos ryto i gird s kur atsid r jo pavard Lietuvos rytas 24 09 03 Les exemples de Lib ration Le Monde Lietuvos rytas Lietuvos Zinios analys s montrent les aspects syntaxiques mentionn s de l oralisation du DD Comme les deux langues analys es diff rent le lituanien a le syst me de cas alors les formes syntaxiques manifestant l oral diff rent aussi En fran ais la dynamique de l change verbal am ne produire des formules phatiques qui contribuent maintenir le contact bon coute etc ou encore 170 des constructions disloqu es gauche ou droite l extraction c est qui c est que certaines phrases sans verbes etc Dans le corpus analys nous avons remarqu l abondance des constructions syntaxiques mentionn es surtout des constructions disloqu es si fr quentes l oral du fran ais ainsi que les phrases lliptiques atypiques et incompl tes propres l oral du lituanien La construction disloqu e est d finie comme un syntagme qui se trouve la droite ou la gauche d une proposition et qui est repr sent dans cette proposition par un pronom ou un adjectif cor f rentiel Une telle construction est omn
170. La France s appelait autrefois la Gaule La France s est appel e autrefois la Gaule La pr sence de l imparfait dans le premier nonc fait que l espace discursif consid r est temporel Il s agit de la France autrefois dont on dit que le nom est la Gaule Dans le second nonc l inverse le pass compos introduit un espace discursif cette fois intemporel la France dont on affirme qu autrefois elle avait pour nom la Gaule p 48 Deuxi mement comme cela est d ailleurs d j sugg r dans le premier point la diff rence de ce qui se passe avec l imparfait on n exprime pas une propri t intrins que l aide du pass compos p 51 Ainsi un nonc l imparfait comme le premier exemple ci dessous est un nonc propri t tandis qu un nonc au pass compos comme le deuxi me exemple est un nonc v nement Enfant Marie tait maladroite Toute sa vie Marie a t maladroite Selon l auteur le premier exemple parle de Marie enfant espace discursif temporel et lui attribue la maladresse comme caract ristique tandis que le second s int resse a la maladresse de Marie espace discursif intemporel dont il d clare qu elle accompagne la vie de Marie p 51 3 2 Confrontation avec des exemples du corpus x r Nous allons pr sent v rifier dans quelle mesure les propositions de ces linguistes
171. Miguet H Pery Woodley M P Sarda L 2003 Indexation discursive pour la navigation intradocumentaire cadres temporels et spatiaux dans l information g ographique Actes de TALN 2003 Tome 1 p 315 320 b Dupont M Vuillaume J M Victorri B Enjalbert P Mathet Y 2002 Nouvelles tendances en Extraction d Information Techniques et Sciences Informatiques Vol 21 n 1 2002 p 37 64 236 Gaizauskas R Humphreys K Azzam S Wilks Y 1997 Concepticons vs Lexicons An Architecture for Multilingual Information Extraction in Piacenza 1997 p 28 43 Habert B Nazarenko A Salem A 1997 Les linguistiques de corpus Armand Colin Harris Z 1991 A theory of meaning and information A mathematical Approach Clarendon Press Poibeau T 2003 Extraction automatique d information Herm s Piacenza M T d 1997 Information Extraction Springer Verlag Voorhees E 2001 Overview of the TREC 2001 Question Answering Track http trec nist gov pubs trec10 t10_proceedings html 4 NOTES 1 Objet d une collaboration entre le GREYC le laboratoire ESO Caen g ographie PERSS Toulouse linguistique et le groupe MEDIA document lectronique et technologies ducatives de l cole Polytechnique F d rale de Lausanne Soutenu par le programme pluridisciplinaire Soci t de l information du CNRS 237 APPARIEMENT DE MOTS PROPAGATION DES LIENS D
172. Nous v rifions en m me temps s il s agit syst matiquement d une r ponse une question de type pourquoi Nous obtenons alors un lien tr s troit entre ces deux formes Graphiques 1 2 parce pourquoi Fr quences absolues jui ju2 ju Graphique 1 R partition par dialogues 75 Fr quences absolues adt 1 ad1 2 adt 3 jut ju2 jus parce pourquoi Graphique 2 R partition par locuteurs l aide de ce graphique nous remarquons que l enfant ne prononce pas de pourquoi Avec la carte des paragraphes nous pouvons revenir au texte et v rifier que le parce que de l enfant fait syst matiquement suite imm diatement ou non une question de la part de l adulte Graphique 3 dial jul 50 150 200 ju2 250 300 iu3 350 400 BBO ia Onn m E808 oOo a 100 B BEBO es an a a dial BBO a Bn dial a a fi a B lt ju 121 gt p euh non mais c est ce que je c est parce que l avais envie Occurence gt i G
173. PUS TH MATIQUE A HAUT RENDEMENT Nathalie Gasiglia Universit de Lille III SILEX CNRS UMR 85287 1 CONTEXTE DE TRAVAIL Je reprends ici la notion de corpus haut rendement afin de mettre en perspective l valuation des diff rentes proc dures d exploration de ces ressources documentaires Des corpus de ce type sont plus int ressants constituer pour certaines vis es lexicographiques que des corpus plus al atoires pour lesquels le co t de consultation serait inutilement lev dans la mesure o les documents int gr s et explor s ne r pondraient pas des besoins tr s pr cis ment exprim s analys s et crit ris s si le corpus consult est de taille importante l avalanche de donn es extraites pourra noyer le lexicographe qui les consulte sans garantir ni l exhaustivit ni la qualit les documents trouv s sur le Web par exemple sont selon les sites consult s d une tenue linguistique discutable s il est de taille plus r duite le consultant sera moins submerg par la quantit d extractions produites mais la part de silence risque d augmenter au del de ce qui peut tre acceptable c est dire au del du seuil de rentabilit qui fait qu un lexicographe accepte de passer du temps consulter un corpus alors que le travail de r daction presse J ai argument ailleurs pour que ces corpus haut rendement se concr tisent sous la forme de corpus plurith ma
174. RP RRP PROP RP RP Re RNR Re O Figure 1 Liste des mots en italique 63 De cette mani re nous avons pu mettre en vidence l insistance de l metteur sur certains mots ayant une importante charge s mantique subjective comme because did is must could no not very Ce type d encodage ne peut pas tre maintenu lors d un deuxi me encodage automatique un mot comme thinkq ne serait pas reconnu par les lemmatiseurs ou les cat goriseurs n anmoins ces r sultats pr liminaires m ritent toute notre attention 2 1 3 TRAITEMENT DES MAJUSCULES Une situation similaire de marquage graphique sp cial que nous interpr tons comme trace du sujet parlant ou de l metteur dans son texte appara t dans l emploi des majuscules L exemple suivant montre un nom commun et l adjectif qui le pr c de qui sont crits avec une majuscule And this I did for seven long nights every night just at midnight but I found the eye always closed and so it was impossible to do the work for it was not the old man who vexed me but his Evil Eye E A Poe The Tell Tale Heart Tout comme les italiques les majuscules ponctuent le discours et fonctionnent comme de v ritables p les de signification dans le texte Nous avons conserv les majuscules pour ces mots marqu s graphiquement Le traitement des noms propres et des majuscules avec Hyperbase nous a permis de mettre en vidence la pr dilection de l metteur pour ce
175. Ranc ny Unevie FLAUBERT Chouans Bouvard CATEAUBRIAND Figure 3 Analyse de la distance lexicale dans les textes complets Les distances sont tablies sur les lemmes selon la m thode Labb 3 LIMITES DE LA FORMULE DE LABB Fort de cette exp rience D Labb a cru que la cl pouvait ouvrir d autres portes et r soudre des probl mes d attribution plus difficiles que l exercice d cole qui pr c de L intention est louable car on ne peut r duire toujours la statistique linguistique un r le subalterne et ne solliciter son t moignage que lorsque l affaire est d j jug e L affaire Corneille Moli re tardivement suscit e par Pierre Lou s trois si cles apr s la mort des int ress s n avait pas fait long feu et semblait class e depuis longtemps par les historiens de la litt rature Mais Labb a fait appel de ce jugement en invoquant non pas des faits nouveaux mais une m thode d expertise nouvelle celle que nous venons de mettre l preuve Depuis que le recours 26 l ADN est autoris devant les tribunaux bien des affaires ont t claircies que les t moignages et les autres indices n auraient pu lucider ADN empreintes digitales carbone 14 ces techniques de d pistage scientifique ont t voqu es dans le proc s litt raire o Labb s est engag Mais la mesure de distance qu il propose peut elle jouer ce r le C est ce que nous nous proposons d
176. S DONN ES SYNTAGMATIQUES Pour tudier l adjectif curieux en pith te et en contexte nominal nous faisons appel un corpus qui nous permet de rep rer simplement les groupes Nom Adjectif ou Adjectif Nom nous avons utilis la base Frantext cat goris e en excluant le genre po tique entre 1830 et 1999 ce qui correspond un corpus de 1 711 textes et 120 millions de mots Le recueil des donn es se d roule en deux tapes Tout d abord nous recherchons dans la base Frantext cat goris e les occurrences de curieux avec un substantif quelconque au moyen des requ tes suivantes amp e g A c amp mcurieux amp e g S ant position amp e g S amp amp ke g Adv amp e g A c amp mcurieux postposition On peut remarquer au passage qu il est n cessaire d inclure dans la requ te des occurrences de curieux postpos un adverbe ventuel entre le substantif et l adjectif Apr s rapatriement des 3 500 r sultats donn s par Frantext nous effectuons un traitement local par des programmes labor s au laboratoire par nos soins et qui permettent de lemmatiser les substantifs rencontr s afin d tablir la liste des substantifs les plus fr quents employ s avec curieux et que nous donnons dans le tableau suivant 184 nom nb d occurrences sur 3531 occurrences chose 262 7 42 regard 100 2 83 fait 66 1 87 ph nom ne 65 1 84 spectacle 54 1 53 d tail 51 1
177. SL Eqwou id BEER Figure 2 Construction de tables Dans le dispositif La Bourse les attributs Action et Rapport l activit permettent ici de diff rencier le lexique des acteurs boursiers petit porteur analyste agent de change et conomiste Le panel Attributs est utilis pour la d finition obligatoire des l ments de structure qui permettent d organiser les ressources Le panel Tables est tout autant n cessaire pour pr ciser quelles sont les lexies d crites par les l ments de structure Pour la cr ation d une table l utilisateur pr cise quels attributs sont utiliser localement et le logiciel calcule automatiquement les combinaisons des valeurs d attributs pour offrir une repr sentation en lignes et en colonnes figure 2 ce stade il est possible qu un nombre de lignes lev perturbe l appr ciation des oppositions locales C est pourquoi le panel Topiques propose un point de vue d une autre nature sur les tables figure 3 Dans la repr sentation en 296 topique chaque ligne d une table est repr sent e par un rectangle contenant le premier mot de la ligne et chaque rectangle est reli aux autres par des arcs indiquant quels attributs diff rent dans les descriptions des lignes correspondantes Lorsqu une ligne ne contient aucune entr e lexicale le rectangle qui la repr sente contient les valeurs des attributs la d crivant Lorsqu une table est constru
178. SSOURCES LEXICO S MANTIQUES Le mod le LUCIA s inspire d une lign e de travaux autour du mod le ANADIA Coursil 1992 Beust 1998 et de la S mantique Interpr tative Rastier 1987 En tant que mod le de repr sentation lexicale LUCIA permet de d crire des l ments de connaissance propres un utilisateur ou un groupe d utilisateurs partageant dans le cadre d termin d une t che commune une m me vision sur le lexique d un domaine 290 La description des entr es lexicales se fait de fa on componentielle travers l utilisation de la notion de s me telle qu introduite dans Beust 1998 Le s me est ici envisag comme un attribut constitu d un jeu d oppositions de valeurs Cette notion s loigne l g rement de la notion classique pour une raison essentielle d op rabilit elle permet en effet de d finir des crit res organisationnels qui tiennent compte la fois des points communs et des diff rences entre les entr es lexicales Par exemple les lexies anticyclone et d pression peuvent tre toutes deux en partie d crites l aide de l attribut Pression basse vs haute anticyclone actualisant la valeur haute tandis que d pression actualise la valeur basse Cette opposition locale permet de diff rencier finement les deux lexies Plusieurs attributs peuvent par ailleurs tre combin s pour d crire un ensemble de lexies proches Les lexies d crites par un jeu d
179. TEXTE ET CORPUS Actes des Troisi mes Journ es de la Linguistique de Corpus TEXTE ET CORPUS Actes des Troisi mes Journ es de la Linguistique de Corpus Sous la direction de Geoffrey Williams SOMMAIRE SOMAT Ei a ea ment ee A E E E e 5 Pr sentation des auteurs 9 Introduction Geoffrey Williams ss 11 Lexicom trie et corpus nn Re RE PT 17 O l on mesure la distance entre les distances tienne Brunet Lois A a Et sent ane NEA tete 19 Analyse lexicom trique de l opposition g n rique dans une perspective endog ne Margareta Kastberg Sj blom ss 41 Le logiciel Hyperbase pr paration et pr sentation des corpus Application un corpus de langue anglaise Vasilica Milea A ER Rd Re hath Ou tas ee 61 Approche lexicom trique de corpus d interactions verbales entre un adulte et un enfant en cours d acquisition du langage R sultats d exp rience Luiggi Sansonetti ss 71 Linguistique et corpus 87 N ologie du portugais br silien Pdi Mana AVS nn At nn ten aie Arte MERE Ant 89 Observations linguistiques sur un corpus de l gendes en anglais de photographies de trains Pierre J L Arnaud Fran ois Maniez cccccccccsceesseceescecesseeesecessseceseeeees 99 Le corpus et la pragmatique une hypoth se sur l emploi contrastif de l imparfait et du pass compos Lidia Fraczak St phanie Giron ce eceeceseeseeeeceseeeeeeeceaecaeeeeeeseceeeeaeeaeeeees 113 Opposition entre de et de
180. Tagger Schmid 1994 Sur ces informations le programme FASTR qui utilise le formalisme PATR II et repose sur une grammaire d unification g n re un ensemble de r gles sur les mots simples composant les termes et sur les termes eux m mes Prenons 272 l exemple du pluriterme residual tumor enregistr dans le th saurus de VUMLS utilis dans cette exp rimentation word residual lt cat gt A lt root gt residue N word tumor lt cat gt N lt root gt tumor N Les informations concernant les liens morpho d rivationnels des mots avec leur famille morphologique sont extraites de la base CELEX base de donn es lexicale con ue par le Centre of Lexical Information Max Plank Instutitute for Psycholinguistics Nijmegen Dutch Rule N1 gt A2 N3 lt N1 lex gt N3 lt N1 lab gt 008590 lt A2 lem gt residual lt N3 lem gt tumor La deuxi me phase de traitements linguistiques porte sur le corpus qui est galement tiquet et lemmatis avec TreeTagger puis transform en PATR IL Ces deux types de donn es termes et corpus servent ensuite de donn es d entr e FASTR qui extrait les termes et leurs variantes textuelles par une analyse locale du groupe nominal partir de patrons syntaxiques L analyseur int gre une m tagrammaire en anglais qui permet d identifier l ensemble des variations linguistiques autoris es par le syst
181. Un journaliste qui se trouvait dans la salle s est fait l cho plus sonore que fid le des propos que j ai cru devoir tenir dans l affaire Corneille Moli re qui s talait alors sur la place publique et ou mon nom avait t imprudemment cit L article paru le 11 avril 2003 dans l hebdomadaire Le Point passait sous silence les longs d veloppements que j avais consacr s la m thode pr n e par Dominique Labb pour n en retenir que la conclusion laquelle contestait l interpr tation donn e aux faits observ s mais non pas leur mesure L affaire s est envenim e dans les m dias et sur Internet au point que le mod rateur du Forum sp cialis LITOR a d suspendre un d bat que la suspicion la violence et la mauvaise foi avaient d natur Si pour la premi re fois nous confions la publication plut t qu au silence notre id e sur cette affaire longtemps apr s avoir t mis en cause c est pour garder et d fendre la mesure pour emp cher qu on ne profite de cet chec pour condamner sans appel la lexicom trie et m me pour d fendre Labb et son uvre contre ses propres exc s Sans tre un sp cialiste du XVII si cle il se trouve que j ai t amen m int resser bien avant que Labb ne s en pr occupe des rapports entre Moli re et Corneille Un de mes coll gues l Universit s tait laiss convaincre par la th se de Pierre Lou s en y ajoutant un argumentaire d
182. _PPER3S attache VINDP3S _NCMP les_DETDPIG deux_ADJNUM mains_NCFP use VSUBP3S comme SUB un DETIMS fou NCHS Nombre de contextes 159 PREP qui _ PRI p_NCMIN comment _ADV on PPER3S faisait _VINDI3S PREP quoi _PRI avec _PREP les DETDPIG gar ons NCMP PREP quoi _PRI et _COO euh_INT d autres PIPIG de_PREP quoi _PRI pourquoi SUB tu PPER2S as _VINDP25 avec PREP sa DETPOSS cabane NCFS il PPER3S pourrait VCONP3S PREP sa DETPOSS place NCFS tu PPER2S aurais VCONP2S pour _PREP sa_DETPOSS propre ADJSIG nature NCFS sa DETPOSS pour PREP sa_DETPOSS r compense NCFS il_PPER3S eut _VINDPS3S de_PREP son DETPOSS physique NCSIG de _PREP ouais ADV avec _PREP tes _DETPOSS parents NCMP pourquoi SUB _PREP un_DETIMS serpent _NCMS m me s _SUB il PPER3S de_PREP vivre VINF dans la nature ADV avec ADV lui PPER3S pour_PREP voir VINF si_ADV c _PDS est_VINDP3S pas _ADV en_PREP vrai NCMS ce PDS qui PRI me _PPER1S fait _VINDP3S en PREP vrai NCMS mais COO par _PREP exemple NCMS de_PREP Crictor_NPI le DETDMS serpent _NCHS et_COO de _PREP Crictor NPI p NCMIN s _SUB il PPER3S te _PPER2S _PREP O _NCMIN et_COO puis _ADV mm NCMIN un_DETIMS PREP anniversaire NCMS le DETDMS facteur NCHS _PREP autre PISIG avec _PREP le DETDMS serpent _NCMS en _PREP cadeau NCMS d _PREP anniversaire NCMS PREP cause _NCFS euh_ INT de_PREP leur _DETPOSS PREP compter _VINF S_NCMIN comme SUB 5 S_NCMIN PREP compter_VINF comme SUB les
183. a Lisez l heure Leia esta seq ncia de n meros 51 58 74 26 Lisez cette sequence de nombres Tableau 4 Exemple d un corpus pour la lecture des nombres 202 2 5 Parole spontan e Le cinqui me facteur concerne les questions qui am nent des r ponses spontan es sur le temps ou sur une affaire quelconque Le terme spontan es sert d signer les productions orales dans lesquelles le sujet labore son message l instant o il le produit Il y a de grandes diff rences entre les textes lus et ceux parl s spontan ment Ces diff rences sont dans l intonation et m me dans les pauses qui sont faites et les r p titions que les gens font quand ils ne sont pas en train de lire c est dire des ph nom nes propres la parole spontan e h sitations respirations reprises syntaxe de l oral etc D ailleurs comme la plupart de ces syst mes de reconnaissance de la parole servent l ex cution de commandes travers les r seaux t l phoniques il a t important aussi d enregistrer un corpus avec des mots de commande par exemple d crocher appel temps Pour avoir toutes les possibilit s de variation d intonation ces mots de commande ont t introduits dans des phrases qui font les demandes par exemple s il vous plait vous pouvez faire l appel ou s il vous pla t d crocher l appareil ou quel sera le temps demain Ces mots de commande doivent tre choisis pour env
184. agme nominal 4 2 1 ERREUR DE DELIMITATION DE LA SEQUENCE EN CORPUS Les possibilit s de transformation sur un terme sont exprim es dans les m tar gles sous forme d expressions r guli res Ici toutes les m tar gles reposent sur le m me principe les l ments qui d limitent les fronti res du terme bornent l expression renvoyant la variation tel que par exemple X2 N3 X2 C4 lt A NINp V 0 3 gt N3 D s lors que le syst me reconna t dans la phrase le motif d crit par la m tar gle il extrait la s quence textuelle et renvoie au terme de r f rence Ce qui signifie qu il n y a pas obligatoirement de correspondance syntaxique stricte entre la ST retrouv e et le syntagme nominal qu elle est cens e recouvrir en corpus Les erreurs de d coupage du syntagme en contexte constituent un des probl mes majeurs de la reconnaissance automatique des termes que les expressions r guli res ne peuvent r soudre Ces probl mes de circonscription du SN touchent la fois les contextes droits et gauches Au niveau du contexte droit une mauvaise d limitation de la ST en corpus peut alt rer de deux mani res les relations de d pendances initiales entre une t te et son expansion Dans le premier cas l unit ayant la fonction de t te de syntagme dans la structure de d part devient l expansion d une autre t te en corpus et perd en m me temps toute relation avec son propre d pendant le contexte r cup r
185. aient pas Soleil brille ni Soleil le brille ni Soleil brille le Cependant pour tiqueter ces possibilit s et impossibilit s deux termes existent les uns parlent de grammaticalit les autres d acceptabilit d autres encore des deux 2 4 1 Ainsi pour Milner 1978 le jugement d acceptabilit est le seul donn sur lequel le linguiste peut raisonner pour construire en terme de grammaticalit sa th orie Mais ce jugement n est pas objectif en ceci qu il n est pas port pour constater le r sultat d une exp rimentation mettant en jeu des outils ind pendants de lui comme dans le cas du chimiste qui constate que l addition de tel acide dans telle solution la fait virer au bleu ou a pour effet un bouillonnement etc d o les tentatives de saisir ce qui est en jeu dans le jugement afin de l objectiver d en faire la base d un crit re reproductible du fait que les locuteurs n ont pas forc ment les m mes r actions face un m me nonc 2 4 2 Pour Picabia amp Zribi Hertz 1981 sera dite grammaticale dans la langue L une s quence conforme aux principes et contraintes linguistiques qui constituent la grammaire de L La grammaticalit rel ve donc de la comp tence La d finition de Picabia amp Zribi Hertz semble totalement 213 circulaire puisque pour constituer une grammaire on se fonderait sur le jugement de grammaticalit et que la grammaticalit c
186. ait appliquer son chelle si 28 les conditions de mesure ne sont pas semblables Tous les linguistes appellent de leurs v ux une standardisation minimale dans la saisie le codage la lemmatisation et le traitement des textes mais cela ne peut r sulter que d un consensus international fixant des normes pr cises ce que l entreprise de Text Encodage Initiative s emploie r aliser d autant que le codage XML en donne les moyens ou tout le moins sur une tradition nationale qui en France est repr sent e majoritairement par FRANTEXT et l Institut de Linguistique Fran aise Toute tentative individuelle m me excellente est vou e l chec La cons quence de cette situation est que les m thodes et les r sultats de Labb sont infalsifiables puisqu on doit passer par lui pour les approuver ou les combattre Il est certes facile de trouver des contre exemples o le bar me invite consid rer deux textes comme appartenant la m me plume alors qu on sait de fa on s re qu il n en est rien Mais Labb peut toujours les r cuser en pr tendant que les conditions du calcul n ont pas t remplies puisqu il est le seul pouvoir les remplir Dans une base publi e il y a cinq ans et distribu e par l ducation nationale sous le nom de Batelier nous avions appliqu le calcul de Labb a une soixantaine de textes dont le Menteur et une trentaine de pi ces classiques Certes la proximit du Mente
187. al d 2002 Choix de textes de fran ais parl 36 extraits Honor Champion Beaulieux Ch 1927 Histoire de l orthographe fran aise tome premier formation de l orthographe des origines au milieu du XVIe si cle Librairie Ancienne Honor Champion Bourciez E amp J 1976 Phon tique fran aise tude historique Klincksieck Delattre P 1966 Studies in French and comparative phonetics selected papers in French and English Mouton Encrev P 1988 La liaison avec et sans enchainement Phonologie tridimensionnelle et usages du fran ais Seuil Fujimura I Uchida M amp Nakao H 2004 De vs des devant les noms pr c d s d pith te en fran ais le probl me de petit in Le Poids des mots vol 1 Actes des 7 mes Journ es internationales d Analyse statistique des Donn es Textuelles Presses Universitaires de Louvain p 456 467 Giron S 2001 Corpus Allier Gougenheim G 1958 Dictionnaire fondamental de la langue fran aise Nouv d revue et augment e Didier Hag ge CI 1982 La structure des langues PUF Le Bidois G amp Le Bidois R 1967 Syntaxe du fran ais moderne Tome 1 d A Picard 141 Manguin J 2004 L volution en fran ais de l adjectif pith te vers la postposition r alit syntaxique ou trompe l ceil lexical in Le Poids des mots vol 2 Actes des 7 mes Journ es internationales d Analyse statistique des Donn es Textuelles Presses Universitai
188. alogue Une telle mise en texte du DD reproduit une conversation ordinaire Le journaliste se met en sc ne comme l interlocuteur ou bien il prend ses distances et laisse parler les autres cr e un dialogue ou un pseudo dialogue de deux ou de plusieurs sources Les paroles des voix t moins DD regroup es en dialogue sous la forme de citations manifestent l oralit et la pratique orale citer des dialogues l oral au cours d un r cit est une strat gie narrative tr s courante Cette forme de pr sentation du DD peut tre appel e la simulation d une interaction Tuomarla 1999 car il ne s agit pas d un dialogue oral r el entre les porte parole Les citations repr sentant le DD simulent des changes conversationnels 3 De hauts fonctionnaires am ricains ont estim que la voix de l homme tait probablement celle de Ben Laden sans que l authentification soit certaine C est probablement lui mais nous ne le savons pas avec certitude a dit l un d eux On dirait Oussama Ben Laden mais nous ne sommes pas parvenus cette conclusion a dit un autre haut fonctionnaire Le Monde 13 11 02 4 Wahid montre la cuisine Dans un coin de la bouse s ch e Ils m langeaient notre nourriture des excr ments et de l urine de chien souffle Wahid Il n a plus d ongles Comment a t il tenu Grace Allah 86 fr res ont t rafl s avec moi On est 55 en tre sortis C est bien
189. am tres Draguer une figure pour la d placer MAJUSC pour la modifier ALT pour l eflacer Figure 5 Analyse factorielle de la distance lexicale 69 Comme nous pouvons le constater les tests statistiques d montrent une volution au niveau du vocabulaire la distance qui s pare Txt les textes crits de 1832 1834 et Txt9 les textes crits de 1845 1849 en est la preuve L volution constat e par les litt raires devient ainsi un fait prouv statistiquement 4 CONCLUSION En conclusion nous aimerions souligner l int r t des fonctions statistiques calcul des corr lations distribution des fr quences analyse factorielle qui sont les atouts incontestables d Hyperbase Cependant il ne faut pas perdre de vue l importance primordiale de la bonne pr paration du corpus la fiabilit des r sultats en d pend directement Bien que le logiciel puisse traiter les corpus a l tat brut l analyse gagne en qualit et pr cision lorsqu elle s exerce sur un corpus annot Plus importante que l annotation est notre avis la mise en forme du corpus et sa taille L absence d encodage est pr f rable 4 un encodage m talinguistique d fectueux qui peut tr s facilement bloquer le programme Cette observation est valable pour tous les corpus En ce qui concerne les corpus d anglais une version pour les donn es tiquet es voire un cat goriseur int gr au logiciel am liorerait consid rabl
190. ans la presse politique officielle Le lexique les d clarations ou g n ralement les paroles 174 d autrui qui soulignent le conflit provoquent leur tour le conflit Lorda 2000 La mise en relief des mots ou des propos choquants et agressifs suscite imm diatement des r actions et contribue cr er de nouvelles pol miques L exemple lituanien ici pr sent i d r 21 peut tre consid r comme l illustration de l l ment provocateur lexical Introduit par le journaliste entre les guillemets pour ne pas trop choquer le lecteur et appartenant l oral argotique ce mot ainsi que les phrases environnantes prononc es par le premier ministre lituanien ont suscit une r action importante des lecteurs et la pol mique dans les m dias la t l vision la presse au mois d avril 2003 Nos recherches du corpus comparable sp cialis montrent que les voix des personnes au pouvoir sont parfois repr sent es dans la presse dans une forme de langue de tous les jours Selon Fairclough 1995 ce m lange des pratiques du domaine priv avec celles du domaine public naturalise les informations racont es conversationnalise le texte et r duit la distance sociale entre le locuteur et des lecteurs La repr sentation des paroles des politiciens en registre familier comprend souvent des l ments particuliers l oral Le choix et l utilisation des mots concrets trahissent le caract re individuel de l acte de parol
191. ans la soci t actuellement B B p 174 1 205 10 Les semi voyelles sont souvent aspir es comme petits week ends grands yachts 11 Les occurrences en nombre r el 17s sans liaison des 93 de 521 avec liaison des 25 de 191 18s sans liaison des 50 de 1302 avec liaison des 13 de 562 19s 1 sans liaison des 44 de 1044 avec liaison des 8 de 349 19s 2 sans liaison des 103 de 1090 avec liaison des 15 de 338 20s_1 sans liaison des 210 de 1603 avec liaison des 34 de 492 20s_2 sans liaison des 961 de 2989 avec liaison des 157 de 920 12 trait sans liaison des 29 de 477 avec liaison des 2 de 139 journal sans liaison des 107 de 630 avec liaison des 38 de 250 roman sans liaison des 204 de 679 avec liaison des 23 de 168 revue sans liaison des 100 de 293 avec liaison des 15 de 74 Hansard sans liaison des 61 de 151 avec liaison des 17 de 50 FD sans liaison des 460 de 759 avec liaison des 62 de 239 13 Delattre sugg re d autre part que la liaison est conditionn e par la longueur des mots 1962 p 41 La liaison se fait d autant plus que le premier des deux mots est plus court En un jour depuis un jour Tr s utile extr mement utile On constate ici que le poids phon tique semble aussi pertinent dans l a
192. ante d exploitation des ressources Comme il sera vu dans la section 8 la visualisation des r sultats lors de la phase d exploitation am nent finalement prendre en consid ration une dimension graphique d s la constitution des ressources en plus du mod le lexical Cet aspect est absent de la pr sentation du mod le en 3 parce qu il d pend essentiellement d un choix d interaction pour l aide l interpr tation Nous montrons comment nous l avons int gr notre interface dans la suite de cette section 7 LOGICIEL D TUDE LUCIABUILDER Les besoins de cr er des structures d y ins rer des donn es puis de modifier tant les structures que les donn es au fur et mesure des usages peuvent tre satisfaits par une interface ind pendante du choix des repr sentations informatiques des donn es Bien qu ayant choisi le standard XML pour le stockage et l change nous avons en l occurrence fait d autres choix techniques pour la repr sentation interne dans nos interfaces et nous n exploitons pas directement l ensemble des possibilit s offertes par la sph re des technologies XML en particulier les arbres DOM Ainsi pour mettre en uvre les fonctionnalit s voqu es plus haut bien que d velopp en Java le logiciel d tude LUCIABUILDER utilise une repr sentation interne des donn es adapt e au mod le LUCIA Il exploite en outre la librairie de 295 composants Swing pour l interface graphique
193. ante en fran ais qu en anglais research team in Quebec has shown that the amount of herbicide residue in drainage water is linked to annual rainfall levels Les travaux d une quipe qu b coise montrent que la quantit des r sidus herbicides dans les eaux de drainage est li e au taux de pluies annuelles c une modulation Vinay et Darbelnet 1958 In order to be able to visualise the inside of the logs the researchers used a medical scanner Pour visualiser l int rieur des billons de bois un scanner m dical a t utilis par les chercheurs Relation Attribut Cette relation qui lie un nom son attribut peut indiquer la pr sence en frangais d une locution verbale compos e d un verbe 247 d tat suivi d un adjectif Cette locution est mettre en correspondance avec un verbe simple en anglais The intensity of diffraction reflections varies with the orientation of the sample On sait que l intensit des raies de diffraction est variable suivant l orientation de l chantillon Relation Objet La pr sence de cette relation peut tre li e une opposition construction personnelle construction impersonnelle It seems that the allis shad has never completely disappeared from the Rhine and that a small population still exists today Bartl et Troschel in Roche semblent consid rer que la grande Alose n a jamais compl tement disparu du Rhin et qu il existerait actuellement une petite population
194. appel un dispositif Nous renvoyons Perlerin ef al 2002 pour plus de d tails sur ces notions qui seront illustr es dans la section 0 o nous pr sentons plus sp cifiquement l interface d velopp e pour la construction interactive de telles ressources La pertinence des descriptions obtenues avec ce mod le leur coh rence et leur justesse sont la discr tion de l utilisateur On peut ainsi questionner dans l exemple pr c dent la description de la lexie temp te de neige une baisse de temp rature peut tout autant d crire cette lexie qu une mont e en agitation ce qui d une certaine mani re interroge le choix du jeu d oppositions initial des axes agitation et temp rature De telles remises en question font partie du mod le centr utilisateur il a t montr dans Perlerin et al 2002 comment int grer au cycle d utilisation du mod le un processus de r vision des ressources lexicales Nous consid rons pour la suite de cet article que les ressources utilis es en illustration s inscrivent dans une telle d marche elles sont susceptibles d tre r vis es apr s utilisation et ne sont que des instantan s sortis d un cycle d exp rimentations 4 AIDE L INTERPR TATION Le mod le LUCIA poss de un second volet qui concerne l interpr tation En tant que mod le de l interpr tation il propose d exploiter des connaissances lexico s mantiques d crites comme indi
195. approche de la langue qui se dessine dans ces travaux selon nous consiste en fait observer et d crire pour les besoins de la t che tout un ensemble de microsyst mes Ceux ci peuvent tre de nature tr s diverses locaux comme les syst mes de localisation spatiale et temporelle g ographique ou globaux en tant que formes d organisation du discours cor f rence cadres Ces microsyst mes int grent indissolublement une structure particuli re d information et une forme linguistique Tous les exemples des sections pr c dentes ont t analys s dans ce sens expressions spatiales et 235 temporelles g ographiques ou expressions nominales cibl es dans les premi res phases de EI formes propositionnelles analys es pour lEI par exemple par la m thode des patrons d extraction jusqu aux cadres de discours qui dans le document g ographique reprennent si troitement si fid lement la structure sp cifique de l information g ographique Que dire dans ce cadre de la notion d homog n it En premier lieu on pouvait s en douter que c est ainsi formul e une notion beaucoup trop globale Ce qui compte en pratique est la possibilit de d crire de mani re uniforme toute une vari t de microsyst mes forme et sens choisis en fonction d un objectif donn La notion d homog n it doit donc tre con ue de mani re relative la classe de structures consid r es comm
196. ar Cordial Nous voyons que le premier facteur oppose le long de l axe horizontal la cat gorie verbale la cat gorie nominale Le substantif gauche attire les 49 pr positions les d terminants et les adjectifs tandis que le verbe en haut droite attire les pronoms et les adverbes Le second facteur parcourt la chronologie de l crivain du bas vers le haut du graphique Les premiers ouvrages Le proc s verbal La fi vre Le d luge La guerre et Le livre des fuites se trouvent en bas du graphique autour des cat gories secondaires qui t moignent d une criture foisonnante adjectifs adverbes et interjections Les derniers romans La quarantaine Poisson d or Etoile errante Le chercheur d or et Hasard se situent en haut du tableau autour des cat gories fondamentales t moignant peut tre d un assagissement de l criture d un travail de simplification du style L analyse factorielle rend ici galement compte de l opposition g n rique Les ouvrages ethnologiques se regroupent l extr me gauche du graphique les premiers romans appartenant l cole du nouveau roman en bas droite tandis que les uvres fictionnelles se trouvent au centre sup rieur du tableau Les ouvrages qui se trouvent au milieu sont les plus courts tous genres confondus On observe souvent dans un corpus clos comme nous venons de le faire que deux camps la cat gorie nominale et la cat gorie verbale s affro
197. ar la distance notion famili re et abstraite dans l esprit des math maticiens peut pr ter dans d autres esprits des confusions engendr es par la m taphore g ographique Et il arrive Labb de tomber dans ce pi ge La distance est une mesure physique Par exemple St Germain en Laye et Paris forment aujourd hui une seule agglom ration alors que Rouen est suffisamment loign e pour tre consid r e comme une 30 entit urbaine distincte I est absurde d objecter cela que nous devons d abord mesurer Paris Lyon Paris Lille et pourquoi pas Paris Oulan Bator Or la distance entre deux textes c est comme la proximit entre deux tres ou deux cultures elle suppose d autres textes plus ou moins proches un espace o les accointances ou r pulsions r ciproques puissent se d ployer La distance intertextuelle est relative et n a pas de sens si les points de rep res manquent Et surtout la distance est multiple Il y a bien des fa ons de rapprocher deux textes ou deux objets Les math maticiens en ont invent des centaines Et il y a une chance que celle qu on croit trouver a d j t imagin e par quelqu un d autre A nsi nous avons eu la surprise de retrouver r cemment dans une revue datant de 1989 la formule de Jaccard que nous avions am nag e notre fa on pour la rendre ind pendante de l tendue Cette formule figure avec vingt autres pareillemen
198. ar les documents Partant de ce postulat l extraction de termes dans les textes constitue depuis le d but des ann es 90 une probl matique de recherche et de d veloppement tr s riche tant dans le domaine du TALN que dans celui de la terminologie computationnelle Du point de vue des applications la recherche de termes dans les textes repr sente galement un enjeu important par rapport a des domaines aussi vari s que la recherche d information la cr ation de lexiques dictionnaires ou ressources terminologiques la traduction automatique l aide la traduction l acquisition de connaissances a travers les ontologies la gestion documentaire etc De nombreux outils d extraction terminologique ont ainsi t d velopp s dont la majorit repose sur une approche par acquisition de candidats termes tel que Termino David et Plante 1990 application pionni re dans ce domaine suivi rapidement d autres syst mes tels que Acabit Daille 1994 Lexter Bourigault 1994 Ana Enghenhard 1992 Xtract Smadja 1993 Un large tour d horizon de ces diff rents travaux est propos par Jacquemin 1997 et Bourigault et al 2000 2001 L approche par acquisition de termes a partir de corpus concerne principalement la construction de ressources terminologiques repr sentant la connaissance d un domaine et d di es a une application 270 sp cifique Rastier 1995 L approche par reconnaissance terminologique permet de
199. araison est mise en uvre il s agit de comparer les situations pass e et pr sente dans le domaine de la bijouterie Vichy en g n ral exemple 2 et pour une bijouterie particuli re exemple 3 127 Dans un autre sch ma repr sent au sein du corpus on exprime la transition entre les situations pass e et pr sente au moyen d expressions verbales au pass compos comme dans les exemples 7 et 8 ci dessous 7 nous tions euh l lite des bijoutiers de Vichy enfin malheureusement maintenant a a chang BIJOUV 6 3 5 3 7 8 en moins euh c est au mois de juillet et ao t il y avait en permanence euh cent cinquante mille personnes Vichy euh aujourd hui euh la Compagnie Fermi re par exemple pour ceux qui viennent prendre leurs euh leurs bains leurs soins euh on arrive onze mille seulement alors c est une chute terrible qui est due beaucoup d v nements je pense que euh a a ch les gens ont chang la S curit Sociale a il fut un temps qui avait interdit euh enfin qui qui s tait interdit de payer les cures de les rembourser alors a a f aux petites gens et ils n ont pas pu venir leurs frais et les certains anciens euh qui taient riches euh ont m me quitt Vichy parce que les h tels n ont pas toujours t leur go ts et c est tout a qui a contribu ce que Vichy perde beaucoup de clients BIJOUV 6 9 7 10 8 Dans l exemple 7 on explique que mai
200. arole gt SPEAKER IDENTITY POST OU CUT lt pour marquer dans la transcription les coupures li es la segmentation de l chantillon gt Figure 1 DTD du Corpus foot de multiplex transcrits lt MANY SPEAKERS SIMULTANEOUSLY gt lt SPEAKER IDENTITY Bernard Abbadie POST reporter terrain gt lt ENTITY TYPE OF ENTITY joueur gt Darcheville lt ENTITY gt lt SPEAKER gt lt SPEAKER IDENTITY Eric Chamoy POST reporter terrain gt r duction lt SPEAKER gt lt MANY SPEAKERS SIMULTANEOUSLY gt lt SPEAKER IDENTITY Eric Chamoy POST reporter terrain gt du score ici au stade lt ENTITY TYPE OF ENTITY stade gt Jean Laville lt ENTITY gt lt ACCIDENTAL PRONUNCIATION gt lt TRANSCRIPTION OF ACCIDENTAL PRONUNCIATION gt por lt TRANSCRIPTION OF ACCIDENTAL PRONUNCIATION gt lt SPELLING OF ACCIDENTAL PRONUNCIATION gt pour lt SPELLING OF ACCIDENTAL PRONUNCIATION gt lt ACCIDENTAL PRONUNCIATION gt pour lt ENTITY TYPE OF ENTITY quipe gt Cr teil lt ENTITY gt c est 151 lt ENTITY TYPE OF ENTITY joueur gt Libbra lt ENTITY gt parti en contre attaque lt ENTITY TYPE OF ENTITY joueur gt Libbra lt ENTITY gt qui vient de tromper euh lt ENTITY TYPE OF ENTITY joueur gt Trivino lt ENTITY gt on jouait dans le temps additionnel donc quarante septi me minute deux un pour lt ENTITY TYPE OF ENTITY quipe gt Gueugnon lt ENTITY gt
201. ase a th matique d pend d un constituant morphosyntaxique les Italiens arrivent unanimement premiers pour ce qui est de se pomponner AJ Certains groupes de mots des adverbiaux peuvent se placer avant les introducteurs th matiques tout comme ces derniers ils sont en position d tach es Mais en ce qui a trait l acc s cette technologie l cart entre le Nord et le Sud est encore plus grand que pour la r partition des autres ressources AJ 3 ponctuationnelles l introducteur th matique 252 suivi de son compl ment est prototypiquement suivi d une virgule cf exemples ci dessus Cette caract ristique ponctuationnelle constitue un crit re robuste pour distinguer une phrase th matique d une phrase a th matique La virgule peut toutefois ne pas appara tre dans le cas de patrons syntaxiques r currents comme dans Mais c est en mati re de soutien public la science et l innovation que l avenir a t le plus lourdement hypoth qu AT 4 s mantiques les introducteurs th matiques instaurent des relations non spatio temporelles Ils sont de nature abstraite et acceptent hors contexte en termes de compatibilit s lexicale et s mantique tout type de compl ment Toutefois comme les pr positions n instaurent pas de relation unilat rale Mann et Thompson 1988 Knott et Sanders 1998 une m me pr position peut potentiellement tre un introducteur de cadre Au niveau du d ve
202. aticiens plut t que la r utilisation syst matique d outils standard 305 Pour les applications tudi es dans la suite de l article bien qu elles soient en nombre restreint les besoins d interactions que nous avons pu d gager ainsi que leur caract re sp cifique ou g n rique se retrouvent dans de nombreux travaux de linguistique de corpus En effet les phases g n riques de navigation dans une collection et de lecture d un document apparaissent comme peu d pendantes du mod le de la t che et de l utilisateur Elles sont plut t directement li es l utilisation d outils de TAL sur une collection Diff rents types d interactions sont envisageables pour r aliser ces deux phases et une r flexion transversale avec le domaine de l IHM Interaction Homme Machine s av re n cessaire pour compl ter nos travaux La repr sentation graphique associ e un document lors de la navigation dans une collection et la superposition d informations lors de la visualisation des documents sont des interactions qui pr sentent quant a elles un caract re sp cifique ind niable Elles sont li es au mod le et d pendent selon notre analyse essentiellement de l utilisateur et de son niveau d expertise du mod le Dans le cas particulier du mod le LUCIA des attributs graphiques sont associ s aux ressources d s leur constitution de mani re permettre une appr hension ais e tant des repr sentations graphiques que d
203. ation de plus cette diff renciation correspond exactement avec la coupure pseudo homonymique entre les deux sens de curieux comme le montre le tableau ci apr s o les synonymes sont class s par valeur de similitude avec curieux ant pos croissante 189 Synonyme similitude avec similitude avec curieux ant pos curieux postpos Inquisiteur 0 020 0 175 Chercheur 0 020 0 128 investigateur 0 037 0 222 Fureteur 0 037 0 215 Avide 0 053 0 278 Soucieux 0 076 0 253 Int ress 0 086 0 287 Anxieux 0 087 0 255 Attentif 0 149 0 293 Indiscret 0 155 0 279 inconcevable 0 248 0 394 Dr le 0 263 0 557 Incroyable 0 288 0 476 Tableau 3 Similitudes d emploi avec curieux ant pos ou postpos La coupure entre indiscret et inconcevable tant fortement significative il appara t clairement que les dix premiers adjectifs de ce tableau ne correspondent jamais au sens que recouvre curieux ant pos comme nous le verrons dans la conclusion ce fait peut constituer un pr ambule un traitement automatique de la d sambiguisation de curieux Mais d autre part il faut aussi tenir compte du fait que ces dix adjectifs ont galement une similitude assez faible avec curieux postpos et que seuls attachant 0 098 drolatique 0 225 et pittoresque 0 314 ont des valeurs comparables Cependant cette apparente anomalie s explique tr s bien si l on se rappelle que curieux postpos por
204. c Les l gendes peuvent tre li es une photographie exclusivement ou bien peuvent comporter un renvoi une photographie voisine comme dans le tr s bref exemple suivant 3 More wheat moves to tidewater o le phorique renvoie une image pr c dente plus amplement l gend e repr sentant elle aussi un train de bl Les l gendes de deux ou trois photographies peuvent encore former un texte continu des indications spatiales du genre de above venant supprimer toute ambigu t r f rentielle Nous avons fractionn les l gendes de ce type La num risation a port sur 525 phrases noyaux dont la longueur moyenne en nombre de caract res est de 113 52 avec un cart type de 50 02 max 254 min 12 Les phrases noyaux ont t soumises des traitements simples recherches par Word et tris sur le SGBD Fox Pro Presque toutes comportent deux informations quasiment obligatoires la date de l v nement jour pr cis mois ou ann e et l identit d taill e de la locomotive Les exemples ci dessus montrent des syntagmes nominaux r f rant aux machines tout fait repr sentatifs Comme les syntagmes concern s peuvent tre tr s longs sans apporter d information int ressante pour nos analyses nous rempla ons dans ce qui suit l identit de la locomotive par X et la date par D Le corpus manifeste une grande vari t dans la pr sentation de l v nement La phrase noyau peut d crire l v nement d
205. c l diteur de documents XMetaL et structur au moyen d un balisage crit en langage XML de 200 000 mots environ au sein duquel sont balis s les tours de parole et les interventions simultan es importantes parce qu elles peuvent r orienter les propos au cours de leur d veloppement assortis chaque fois de l identit des locuteurs et de leur statut afin que les descriptions des usages lexicaux observ s puissent tenir compte des conditions d nonciation et des types de locuteurs Ench ss s dans ces premiers l ments qui structurent les transcriptions sont en particulier balis s i les prononciations d viantes observ es avec rep rage de celles qui sont consid r es comme pertinentes pour un travail lexicographique ii les mots partiellement prononc s auxquels pour limiter le silence lors des extractions automatiques est associ e leur forme pleine quand cela s est av r possible de fa on assur e iii les interjections non codifi es qui bien que non lexicalis es jouent un r le dans les nonc s et a ce titre ne doivent pas dispara tre etc Les conventions de transcription que nous utilisons ont t tablies ind pendamment de celles du DELIC 2004 et ne sont pas directement compatibles si les principes sont le plus souvent concordants la mise en uvre du codage est tr s diff rente probablement en large partie du fait que nous partions de rien lorsque nous avons d but les tra
206. c ne de la parole d autrui Il lui faut donc un espace spatio temporel pr sent un moi ici maintenant sans cesse renouvel Rosier 1996 L appropriation active th trale de la parole d autrui dans la presse politique fait appara tre l oral dans l crit Le discours direct interrompt le discours citant discours du journaliste et cr e dans celui ci un autre espace d nonciation plus ou moins d limit Les deux voix celle du journaliste et celle de la voix t moin sont nettement distingu es du moins lorsque le discours direct est nettement distingu du 166 texte Ses principaux marqueurs sont le d tachement par les deux points et les guillemets les tirets en cas d change dialogu et g n ralement une lexie verbe de communication le plus souvent qui l introduit ou le signifie lorsqu elle est plac e en incise dit il La forme classique la mieux connue du discours direct est le dialogue En pr sentant sous cette forme les paroles d autrui l auteur le journaliste prend ses distances s il ne participe pas lui m me dans le dialogue et cr e l effet de conversation En plus la forme du dialogue les tirets les majuscules etc autonomise le DD le distingue strictement des autres paroles et conversationnalise le texte crit Il le rapproche du code oral 1 Pour la rentr e elle a invit un professeur d histoire de Washburn faire un cours sur l Irak Il y avait une diza
207. ces dans lesquelles il faut envisager un certain tat ou une s rie d v nements Une telle analyse a pour but d extraire les non phrases th matiques dans tout type de texte et ce faisant d aider l utilisateur rep rer la structure th matique d un texte Notre expos se d roule ainsi nous commen ons par situer le cadre de notre recherche dans son projet d accueil Nous exposons ensuite les donn es concernant les non phrases sur le plan linguistique et sur le plan informatique et proposons une analyse descriptive plus approfondie La derni re partie explique comment les r sultats de l analyse linguistique ont t impl ment s dans la plate forme ContextO les probl mes que cette impl mentation a soulev s et expose enfin les r sultats concernant l extraction automatique des non phrases th matiques 1 CADRE DE LA RECHERCHE ET PROJET D ACCUEIL Notre projet de recherche sur les introducteurs de cadre th matique dans des non phrases non sentence de Hollerbach 1994 c est a dire des phrases sans verbe s inscrit dans un projet plus vaste concernant le rep rage de la segmentation th matique dans les textes au moyen de la plate forme ContextO mise au point par le laboratoire LaLICC Langage Logique Informatique Cognition et Communication dirig par J P Descl s Dans la perspective textuelle de Charolles 1997 les introducteurs th matiques contribuent partitionner l information dans d
208. ch to identifying discourse markers and elementary textual units in unrestricted texts COSTERMANS FAYOL ds Workshop on Discourse Relations and Discourse Markers COLING ACL 98 Montr al Canada p 1 7 Minel J L 2003 Filtrage s mantique Du r sum la fouille de textes Paris Herm s Minel J L Cartier E Crispino G Descles J P Ben Hazez S Jackiewicz A 2001 R sum automatique par filtrage s mantique d informations dans des textes Technique et Science Informatiques n 3 Paris n 3 p 369 395 Mourad G 1999 La segmentation des textes par l tude de la ponctuation CIDE 99 Damas Syrie Nunberg G 1990 The Linguistics of Punctuation Center for the Study of Language and Information Standford Calif Porhiel S 2001a Organizing Linguistic Data Thematic introducers as an Example Coyote Papers n 12 p 42 61 Porhiel S 2001b Linguistic expressions as a tool to extract thematic information P Rayson et al ds Corpus Linguistic 2001 Lancaster University Lancaster du 31 mars au 2 avril 2001 Technical Papers Volume 13 Special issue p 477 482 Porhiel S 2004 Les introducteurs th matiques Cahiers de Lexicologie n 85 2 p 9 45 Quirk R Greenbaum S Leech G and Svartvik J 1985 4 Comprehensive Grammar of the English Language New York Longman Riegel M Pellat J C Rioul R 1994 Grammaire m thodique du fran
209. cilement un terrain d entente quel seuil d impr cision le linguiste est il pr t tol rer Ce qui a pour corollaire informatique le degr de robustesse des r gles de rep rage Il faut aussi r pondre certaines questions jusqu quel point prendre en compte les 262 propri t s non prototypiques quel est le co t de cette prise en compte La solution envisag e est elle trop ad hoc car elle s aligne sur le corpus analys ce sujet il faut faire preuve d honn tet intellectuelle et reconna tre que toute solution envisag e est li e un corpus et s ins re dans la logique d un projet une partie de projet ne remet pas normalement en question l ensemble du projet La r alit linguistique et la r alit informatique sugg rent que les deux disciplines ont une logique de travail Il nous semble que la rencontre entre la linguistique et l mformatique rappelle le travail du traducteur En passant des donn es de l analyse linguistique l impl mentation informatique on d clenche des processus cognitifs qui ont une r alit linguistique et qui ont besoin d tre explicit s d cod s en somme traduits voire r interpr t s transform s si on d sire obtenir des r sultats de rep rage satisfaisants Par exemple la marque initiale du linguiste est r interpr t e transform e en token en position 1 Une telle r interpr tation transformation contraint le linguiste i pr senter des
210. cle repose sur l analyse d applications fond es sur un m me mod le de TAL Ce mod le LUCIA s articule autour de l utilisateur en lui offrant la possibilit de sp cifier ses propres ressources lexicales afin de lui fournir une aide l interpr tation de documents textuels dans le cadre de diff rentes t ches La constitution des ressources a t pr sent e comme un moyen de familiariser l utilisateur avec le mod le et les notions sous jacentes De ce fait pour sa mise en uvre l utilisation de repr sentations proches du mod le nous a sembl pr f rable celles qu offrent les outils informatiques standards En particulier les syst mes de gestion de bases de donn es et la n buleuse technologique XML ne nous ont pas sembl apporter de r ponses satisfaisantes lorsqu il s agissait de remplir les fonctionnalit s classiques de cr ation et modification des ressources structur es Une interface sp cifique au mod le est selon nous n cessaire non seulement pour que l utilisateur puisse s approprier les notions de ce mod le mais aussi pour qu il puisse le faire sans comp tence informatique particuli re et sans confondre l arriv e un standard de repr sentation informatique avec un mod le de TAL Nous allons donc dans le sens d une collaboration pluridisciplinaire pour l laboration d outils informatiques adapt s chaque mod le notamment lorsque ceux ci sont destin s des non inform
211. compte l hypoth se formul e par Debili et Zribi 1996 selon laquelle les liaisons paradigmatiques peuvent aider d terminer les relations syntagmatiques et inversement et plus particuli rement l id e que les relations de d pendance syntaxique sont 239 susceptibles d une part de confirmer ou d infirmer des liens d appariement et d autre part de cr er de nouveaux liens Le raisonnement est le suivant Si deux mots Ts et Tc sont appari s morphs et morphes dans exemple et s il existe une relation de d pendance syntaxique entre Ts morphs et Ts belong d une part et entre Tc morphes et Tc appartiennent d autre part alors Ts belong et Tc appartiennent peuvent tre appari s SUJET a These different morphs belong to five species Ces diff rents morphes appartiennent cinq esp ces ee SUJET C est ce m canisme que nous nous proposons de mettre en ceuvre de mani re automatique dans notre tude Et plut t que de raisonnement par analogie Debili et Zribi 1996 nous pr f rons parler de propagation des liens d appariement suivant les relations de d pendance syntaxique 3 CORPUS Le corpus de travail sur lequel s appuie notre tude a t constitu dans le cadre d une exp rience men e l INRA sur l enrichissement de la base de donn es terminologiques aliment e et exploit e par les traducteurs du service linguistique Fr rot et
212. consiste d tecter les redondances d attributs diff rentes chelles de mani re permettre le rep rage d une 300 partie de document pertinente dans un ensemble qui l est peut tre moins L observation des r sultats n cessite nouveau de parcourir la collection la recherche des documents les plus pertinents pour la recherche envisag e Dans les deux applications le mod le n est pas en mesure de d cider pour l utilisateur de la pertinence des documents Il permet juste de les ordonner selon la nature le nombre et la densit des redondances d attributs trouv es et de pr senter ce premier r sultat Le parcours de l ensemble ainsi constitu pour y s lectionner les documents pertinents est une t che interactive dont la g n ricit repose sur l utilisation d un corpus d une collection de documents pour les deux applications tudi es Pour cette t che commune la g n ricit est cependant r duite La disposition de l ensemble des documents les fonctionnalit s de navigation dans cet ensemble incluant la possibilit de s lectionner pour l observation d taill e d un document particulier sont autant d aspects g n riques Diff rentes solutions existent Johnson et Schneiderman 1991 Robertson et al 1991 ou encore Hearst 1995 nous les discutons plus en d tail dans Perlerin et Ferrari 2004 La repr sentation d un l ment dans l ensemble ne participe plus de la g n
213. corpus La France a une longue tradition de grammaire d nonciation o domine l tude de phrases authentiques Dans l article de Vaguer nous avons un corpus nonciatif bas sur un corpus de textes avec des phrases 14 s lectionn es puis trait es avec des outils bureautiques classiques Nous ne sommes pas dans la linguistique de corpus per se mais dans une autre fa on de voir un corpus num ris La derni re section est consacr e au Traitement Automatique de la Langue sur corpus Il faut souligner une fois de plus que cette cat gorisation est arbitraire puisqu il y a continuit entre les approches Dans cette section nous avons surtout des applications informatis es de la recherche sur corpus dans des contextes tr s vari s ce qui montre le dynamisme du domaine Pour tre repr sentatif un corpus doit tre homog ne soit par la th matique soit pour un corpus de r f rence par la langue d crite m me si l homog n it ne va pas de soi Enjalbert tudie cet aspect vital de la constitution des corpus du point de vue de l extraction et de la recherche d information L explosion des ressources lectroniques disponibles rend facile l assemblage d un corpus mais l homog n it est loin d tre garantie La question pos e par Enjalbert et sa r ponse sont extr mement pertinentes pour le d veloppement de la discipline et les applications bas es sur corpus Pendant trop longtemps le
214. ctivit s indiff renci es les m langes 45 50 ou bien encore un isol que la naissance a plac au croisement des deux si cles Chateaubriand encombrent le carrefour qui conduit la vall e oppos e Balzac attend l qui passe le relais Flaubert puis Maupassant et enfin Zola C est peu de choses pr s le chemin qu a emprunt D Labb les yeux band s en suivant les lemmes 24 TRousseau 3Rousseau 3htanivaux 4Rousseau IMarivaux 2Rousseau Mean P 2Wtrivaux ANALYSE ARBOREE des graphies m thode Labb PE 2Voltaire Svoltaire 4voltaire 1 Voltaire non 3Proust Teast 1 Proust THIOS 4Proust 2Proust 3Sand i sr 2Sand 1Sand 3Chateaut sted Ke Le 4Balzac 4Chat aub 2Chateaub 2Balzac 3Zola t 3Baka paat 4Zola 2htaupass teme 2Zola dhtaupas 3eme 1Zola Du 4Flaubert Te Flaubert 1Flaubert 3Flaubert 1btupass Figure 2 Analyse arbor e Distance tablie sur les graphies 2 4 Reste carter un dernier doute l exp rience ayant t men e travers des textes tronqu s De plus m me si le corpus a une taille suffisante cause de la multiplication des textes 10 000 x 50 500 000 occurrences chacun des textes trait s reste relativement troit Les conclusions ne seraient elles pas plus claires et plus s res avec des textes complets et une tendue largie La figure 3 r pond cette question en proposant un corpus quatre fois plus vaste 2 millions
215. cture humaine arm e de connaissances externes et attentive aux indications du texte devrait pouvoir reconna tre les extraits qui vont ensemble Mais cela d pend de la culture du lecteur Un ignorant fera des erreurs On verra dans l analyse de Dominique Labb que l ordinateur appuy sur les seuls comptages et d nu de toute culture ne se trompera pas une seule fois dans l identification des couples 2 Cet article se trouve sur le site de l auteur l adresse http www upmf grenoble fr cerat Recherche PagesPerso Labbe html 3 Actes des Troisi mes Journ es de la linguistique de corpus Lorient 2003 sous presse 38 4 Le premier Verne celui de la lune aussi 5 Cit dans un article du journal Le Monde du 10 juin 2003 sous la signature de Fabienne Dumontet Moli re et Corneille confondus 6 Dans le cas du corpus Moli re Corneille Racine le d calage moyen est de 0 031 pour 75 textes et 2775 mesures 7 En reprenant les m mes donn es avec la formule exacte les conclusions sont les m mes le coefficient pour Baudelaire Rimbaud 0 296 est du m me ordre que les autres respectivement 0 289 0 271 0 289 0 277 0 332 0 323 8 Labb me pr te des propos que je n ai jamais tenus le genre est tout l auteur n est rien Il s obstine aussi m attribuer pour aussit t la contester une formule qui m est parfaitement trang re et qui ne se trouve nullement dans l article qu
216. culi rement ambitieuses de RI dans lesquelles le syst me fournirait non pas un document pertinent par rapport un probl me que se pose l utilisateur mais directement la r ponse Ces nouvelles technologies ont pour nom Question Answering ou encore Answer Extraction dans le jargon du domaine Voorhees 2001 L application trait e ici ne va pas jusque la mais met n anmoins en uvre des m thodes s mantiques pour am liorer les proc dures de recherche d information Elle concerne un type particulier de document le document g ographique aujourd hui massivement produit et utilis par toutes sortes d administrations publiques ou priv es charg es d administrer ou g rer un territoire et bien s r par les g ographes eux m mes L objectif tr s g n ral du projet G oSem est alors de d velopper des outils permettant d acc der le plus ais ment et de la mani re la plus pertinente possible l information contenue dans ce type de documents Or la sp cificit de l information g ographique est de relier un ph nom ne observ le quoi une localisation g ographique le o ainsi que tr s souvent une certaine p riode temporelle le quand Cette propri t s observe imm diatement sur le texte comme on pourra s en rendre compte dans la figure 3 et contribue tr s fortement le structurer Corr lativement une requ te naturelle de recherche documentaire portera sur un triple crit re Ph
217. d occurrences constitu des m mes textes cette fois sans extraction ni troncature Reprenons le probl me initial et la m thode de Labb et voyons si la distance lexicale tablie sur les lemmes pourrait apparier les textes deux deux et reconna tre une signature commune Rappelons que les deux textes d un m me auteur ont t choisis des moments fort diff rents de la carri re et que rien ne garantit que les th mes et l criture y soient constants Ils sont pourtant plus proches l un de l autre que de tout autre texte Et cet air de famille est reconnu par l analyse 25 arbor e qui distribue les couples tout au long de la cha ne Si les liens familiaux sont pr pond rants l appartenance la m me poque cr e des liens secondaires de sorte que la procession des couples se fait grossi rement par rang d ge Mais l ordre chronologique est bouscul certains endroits Voltaire se rapprochant de l poque moderne tandis que Proust rompant avec le naturalisme semble appartenir au si cle pr c dent Ces remous dans le fleuve chronologique montrent que le temp rament propre d un crivain peut r sister au courant et que les proc dures d attribution que nous venons de mettre en uvre sont plus efficaces contre le temps qu elles ne le sont contre le genre Wrianne ATARI FAUE Paysan Swann H lo se ROUSSEAU Emile lire SAND Indiana Pierre MAUPASSANT
218. d lexicales certains adverbiaux avant ou apr s la pr position favorisent une lecture th matique des non phrases Les r gles concernant les introducteurs th matiques dans des non phrases montrent que leur rep rage morphologique combin a des indices positionnels textuels ponctuationnels lexicaux et syntaxiques inhibent ou favorisent l extraction des non phrases qu ils introduisent Elles permettent par exemple de rep rer les non phrases th matiques en d but de paragraphe apr s un adverbial Ces r gles sont ensuite associ es aux propri t s morpho syntaxiques et s mantiques des introducteurs th matiques L op ration est reproduite pour chacune des cat gories d introducteurs th matiques 27 fois L criture de telles r gles fond es sur une analyse linguistique a soulev des probl mes confrontant la r alit linguistique et la r alit informatique On peut notamment se demander dans quelle mesure il est possible d impl menter informatiquement des donn es linguistiques 3 2 R alit linguistique et r alit informatique Lors de l tape qui consiste impl menter des donn es linguistiques dans un programme informatique le chercheur se trouve confront un probl me de traduction comment rendre fid lement dans un langage de nature diff rente humain vs machine de syntaxe diff rente libert d expression vs binarit et espaces de recherche des informations linguistiques N
219. d enqu tes effectu es Montlu on Vichy et Moulins aupr s de 9 locuteurs dans chacune de ces villes les crit res de s lection de ces locuteurs seront pr cis s dans la partie consacr e aux enqu tes La dur e de chaque enregistrement est de 30 minutes dont 15 sont transcrites selon les conventions donn es par l quipe DELIC Ces enregistrements sont donc transcrits et informatis s son et texte sont disponibles sur CD ROM voici leurs r f rences MONTLUCON MOULINS VICHY 18 30 ans niveau CHOCM 10 COMMO 14 HOTEV 26 coll ge 18 30 ans niveau bac MUMON 44 FANMO 16 JOLIEV 32 18 30 ans niveau SANDM 58 FRUIT 22 bac 3 30 65 ans niveau MADMO 34 COIFM 12 coll ge 30 65 ans niveau bac PAPMO 50 GILMO 24 QUALV 56 30 65 ans niveau MUSIK 46 FRANM 20 bac 3 65 ans niveau MAMMO 38 MALLM 36 coll ge FRAMO 18 INSTI 28 NINAV 48 65ans iveau BRUNMO 8 PHYMO 54 PETIV 52 bac 3 Tous ces enregistrements sont de type parole priv e c est dire qu ils rev tent la forme d un entretien entre le locuteur interrog et l enqu teur le temps de parole tant occup environ 95 par le locuteur interrog Les 9 corpus de Montlu on n ont pas de th me bien d fini il s agissait souvent pour le locuteur par exemple de nous raconter un fait marquant de sa vie en revanche les corpus de Vichy et de Moulins ont t r alis s partir du th me petit commerce Apr s cette pr sentati
220. dans laquelle les synonymes s agencent en fonction des valeurs des proximit s les calculs sont effectu s par le logiciel UCINET 6 0 selon une m thode propos e par Kruskal et Wish 1978 La repr sentation de curieux et de ses 34 synonymes que nous donnons en annexe figure 3 montre ainsi un espace clairement s par en trois zones Pune contenant les synonymes apparent s int ressant comme tonnant trange paradoxal etc 183 une deuxi me qui inclut les synonymes comme int ress attentif ou encore soucieux une troisi me o ce second sens est parfois marqu par une appr ciation n gative avec des termes comme indiscret fureteur ou investigateur Il est tout a fait logique que ces trois zones correspondent aux trois composantes connexes signal es plus haut puisque l absence de liaison entre deux sommets qui appartiennent deux composantes connexes diff rentes induit une similitude nulle et par cons quent une distance maximale entre ces deux sommets En outre les deux derni res zones se situent dans une moiti de la repr sentation oppos es la premi re zone et contiennent des termes synonymes de curieux quand celui ci est en position postpos e et s applique des substantifs potentiellement actifs autrement dit on retrouve sur cette repr sentation la coupure principale entre les deux sens int ress dans la partie droite et int ressant dans la partie gauche 3 LE
221. dans la discussion technique engag e sur la liste LITOR a port sur cette pr tention de prouver jug e imprudente et abusive Labb n a certes jamais cach que sa d marche est empirique comme celle de tous les chercheurs qui s adonnent la lexicom trie et l empirisme ne se justifie que par la qualit l ampleur et la repr sentativit des observations Quoique l exp rience de Labb soit tr s large et solide elle s est surtout exerc e jusqu ici sur des textes modernes en relation avec la politique la sociologie et l conomie Dans les discours ou entretiens qu il a tudi s m me parfois sous la plume de de Gaulle ou de Mitterrand la notion d auteur a des aspects flous parce qu une quipe a souvent pr par ou m me r dig partiellement le texte Dans le domaine litt raire la paternit est plus chatouilleuse On y est sensible aux sources aux emprunts aux plagiats aux querelles d cole aux contraintes du genre et aux propri t s de l criture Or Labb a jusqu ici rarement explor ce domaine particulier sinon dans l exp rience que nous venons de relater Est ce assez pour affirmer la valeur universelle d un test Si l talonnage de ce test est r ellement fond comme 2T on nous l affirme sur des milliers de textes encore faut il que la repr sentativit de ces textes soit assur e Combien de ces textes appartiennent la litt rature combien au th tre
222. dans le corpus Voyage au pays des arbres et Pawana Enfin sont pr sents Diego et Frida la seule biographie et Gens des nuages le r cit de voyage C est premi rement travers une tude sur la structure lexicale du corpus que nous pouvons observer l influence de la riche variation typologique des textes 3 LA STRUCTURE LEXICALE Les diff rentes recherches sur la structure lexicale offrent la possibilit ind pendamment du contenu lexical de situer de distinguer et de comprendre la structure formelle des textes afin de pouvoir comparer diff rents discours genres poques ou auteurs diff rents au niveau exog ne aussi bien qu au niveau endog ne les parties de l uvre d un crivain ou de tout autre producteur de texte ou de parole Toutefois dans les tudes statistiques pour effectuer des analyses quantitatives diff rentes fines riches en information les fr quences absolues ne suffisent pas Il est important de conna tre l tendue de son corpus et de ses parties En effet les valeurs de N et de V ne sont pas li es par une relation fixe Certes V augmente quand N augmente mais la relation qui les unit n est pas une loi simple l tendue du vocabulaire est comme l exprime Charles Muller 1979 un fait de style limit par des contraintes linguistiques Or les calculs effectu s par le logiciel Hyperbase utilis dans cette tude permettent de mesurer l tendue des textes dans le cor
223. dans les cancers de la thyro de Revue des Nouvelles Technologies de l Information RNTI E 2 EGC 2004 vol I p 465 476 Salton G 1986 Another look at automatic text retrieval systems ACM Association for Computing Machinery vol 29 n 1 p 648 656 Smadja F 1993 Retrieving collocations from texts Xtract Computational linguistics 19 1 p 143 177 Schmid H 1994 Probabilistic part of speech tagging using decision trees Proceedings of the International Conference on New Methods in Language Processing Manchester UK p 44 49 286 8 NOTES 1 L tude que nous vous pr sentons s inscrit dans un processus de fouille de textes men dans le cadre d un Projet inter EPST soutenu par l INSERM et en partenariat avec l Institut Gustave Roussy de Villejuif Royaut amp al 2003 Zasadzinski 2002 Appel d offre 2000 Bioinformatique inter EPST CNRS INRA INRIA INSERM 2 CELEX est une base de donn es lexicales con ue par le Centre of Lexical Information Max Plank Instutitute for Psycholinguistics Nijmegen Dutch et en libre acc s http www kun nl celex 3 L UMLS est un projet de l U S Department of Health and Human Services National Institutes of Health NIH National Library of Medicine NLM Elle constitue la ressource la plus importante et la plus compl te dans le domaine de la biologie et de la m decine 287 LES BESOINS D INTERACTIONS EN TRA
224. de production de son discours Avant de s ouvrir sur l espace interpr tatif de toutes les lectures possibles la nature s quentielle des faits de langue et l existence de prototypes guident et mat rialisent le processus interpr tatif du producteur lui m me Chaque genre litt raire a en fait son anatomie sa physiologie et son fonctionnement au niveau pour ainsi dire atomique et cela transpara t tr s clairement dans les diff rents textes qui forment l uvre lecl zienne 7 R F RENCES Adam J M 1992 Les textes Types et prototypes Paris Nathan Coll fac linguistique Brunet E 1985 Le vocabulaire de Zola Paris Gen ve Champion Slatkine Brunet E 2001 Hyperbase Manuel de r f rence version 5 0 Nice CNRS InaLF Bases corpus et langage UMR 6039 Kastberg Sj blom M 2002 Le choix de la lemmatisation Diff rentes m thodes appliqu es un m me corpus in JADT 2000 6 mes Journ es internationales d Analyse statistique des Donn es Textuelles A Morin P S billot ds Saint Malo Irisa Inria p 391 402 Kastberg Sj blom M 2002 L criture de J M G Le Cl zio une approche lexicom trique Nice Universit de Nice Sophia Antipolis Le Cl zio J M G 1965 La fi vre Paris Gallimard L Imaginaire n 253 Le Cl zio J M G 1969 Le livre des fuites Paris Gallimard L Imaginaire n 225 Malrieu D et Rastier F 2002 Genres et variations morph
225. de autant d informations que pour le projet ISOMETA Ce point est cependant moduler La sp cificit des repr sentations graphiques des documents peut en effet tre adapt e la mani re dont l utilisateur per oit et r alise sa t che Il est probable qu un expert effectuant une veille sur un domaine pr cis propose des ressources d taill es et attende un retour comparable La m me remarque s applique la phase finale de lecture du document Il appara t finalement que pour une t che aussi ouverte que l aide la recherche documentaire o le niveau d expertise de l utilisateur n est pas fix a priori les interactions et les repr sentations visuelles lui proposer ne le sont pas non plus et doivent rester adaptables Nous pr sentons dans Perlerin et Ferrari 2004 des travaux issus du domaine de l IHM Interaction Homme Machine qui pourraient enrichir consid rablement les interfaces que nous utilisons sur ces aspects Card 1999 Jacquemin et Jardino 2002 Lamping 1995 et Mackinlay et Robertson 1993 Les applications tudi es tendent montrer que ce n est pas tant la t che qui guide le choix des interactions et des repr sentations visuelles mais plut t la mani re selon laquelle l utilisateur peut appr hender cette t che Lorsque l utilisateur est suppos expert au d part toute la richesse du 304 mod le peut se transposer aux interactions et aux repr sentations qui lui sont propos
226. de l analyse linguistique pour l extraction terminologique en corpus application au domaine de la g nomique Fabienne Ville Ometz Alain Zasadzinski Dominique Besagni 269 Les besoins d interactions en traitement automatique des langues et en linguistique de corpus tude de cas St phane Ferrari Vincent Perlerin 289 PR SENTATION DES AUTEURS Ieda Maria ALVES Pierre J L ARNAUD Dominique BESAGNI Etienne BRUNET Patrice ENJALBERT St phane FERRARI Lidia FRACZAK Itsuko FUJIMURA Nathalie GASIGLIA St phanie GIRON S G KAFKA Margareta KASTBERG SJOBLOM S KLEIN Universit de S o Paulo Br sil Universit Lumi re Lyon II CRTT Cc nit de Recherche et Innovation URD NIST CNRS UPS76 Universit de Nice Universit de Caen GREYC CNRS niversit de Caen GREYC CNRS JMR 6072 CG Universit de Clermont Ferrand II LRL Universit de Nagoya Japon Universit de Lille I SILEX CNRS UMR 8528 Universit de Clermont Ferrand II LRL Universit F d rale de Santa Catarina Br sil LINSE ILF CNRS Bases Corpus et Langage UMR 6039 Universit F d rale de Santa Catarina Br sil LINSE Aurelija LEONA VICIENE Jean Luc MANGUIN Fran ois MANIEZ Vasilica MILEA Hiroshi NAKAO Sylwia OZDOWSKA F S PACHECO Vincent PERLERIN Sylvie PORHIEL Luiggi SANSONETTI I
227. de r gularit s linguistiques va bien au del La notion harrissienne de langue de sp cialit Harris 1991 LS en abr g ou sous langage fournit un premier cas que l on pourrait dire embl matique d homog n it en ce sens En effet une LS se d finit la fois par un domaine de connaissances sp cifique en g n ral scientifique ou technique par exemple telle branche de la biologie et des structures 232 linguistiques fortes et r guli res en l occurrence structures argumentales des pr dicats verbaux extensibles d autres relations syntaxiques Assadi amp Bourigault 2000 reflet de la structure de l information elle m me De fait certains corpus trait s en EI peuvent tre assez bien caract ris s comme relevant d une LS c est le cas de certains textes scientifiques mais aussi pensons nous en sortant du cadre initial de sous langage d une science d une certaine litt rature de d p ches financi res N anmoins si la notion de LS nous fournit un bon point de r f rence elle ne rend pas compte de toutes les r gularit s observ es et mises profit en EI Les corpus trait s y sont en g n ral nettement plus complexes Ils ne concernent souvent pas une science ou une technique particuli re mais des domaines de connaissances moins fortement structur s l expression relevant plut t d une langue commune avec quelques sp cificit s pl
228. de regard curieux en regard trange tandis que le co texte qui suit un peu moqueur dont Daniel l enveloppa donne plut t regard un caract re agentif et donc une interpr tation du syntagme en regard attentif ou m me regard inquisiteur Le syntagme b te curieuse habituellement consid r comme fig illustre le fait que curieux ne prend pas toujours le sens int ress quand il est en position postpos e en effet dans notre corpus d tude nous n avons pas 191 trouv d exemple o la b te en question pouvait tre consid r e comme agent et les dictionnaires g n raux consult s sur ce sujet confirment ce point de vue On peut n anmoins citer l article curieux du Dictionnaire Historique de la Langue Fran aise pour exprimer la valeur passive de digne d int r t original trange 1559 l usage a recours l ant position de l pith te un curieux personnage afin d viter Vambiguit sauf dans b te curieuse 1755 Rey et al 1992 La position interm diaire est donc le reflet d une ambigu t possible du syntagme Nom curieux quand le Nom en question est l un des six que nous avons mentionn s Un traitement automatique pourrait ainsi rep rer les ambigu t s possibles et confier la r solution de celles ci une exploration du texte avoisinant le syntagme rep r comme ventuellement ambigu Le placement autrement dit le calcul des coordonn es d un nouveau subs
229. des autour des corpus et servent de t moignage ce dynamisme comme apport la linguistique en g n rale et comme base de d part pour d autres d bats lors des prochaines journ es Geoffrey Williams Universit de Bretagne Sud Lorient REFERENCES Atkins B T S Clear J Ostler N 1992 Corpus Design Criteria Literary and Linguistic Computing Journal of the Association for Literary and Linguistic Computing 7 1 1 16 Biber D 1993 Representativeness in Corpus Design Literary and Linguistic Computing Journal of the Association for Literary and Linguistic Computing 8 4 243 251 Gross M 1994 Constructing lexicon grammars in ATKINS B T S and ZAMPOLLI A 1994 Computational Approaches to the Lexicon Clarendon Press Oxford Hunston S Francis G 2000 Pattern Grammar A corpus driven approach to the Lexical Grammar of English Amsterdam and Philadelphia Benjamin s Sinclair J 1996 Preliminary recommandations on Corpus Typology EAG TCWG CTYP P Version May 1996 Pisa EAGLES http www ilc cnr it EAGLES96 typology typology html consult le 16 02 2006 16 LEXICOMETRIE ET CORPUS OU L ON MESURE LA DISTANCE ENTRE LES DISTANCES Etienne Brunet Universit de Nice 1 INTRODUCTION L expos qui va suivre reprend et prolonge le th me d une conf rence prononc e en avril la Sorbonne dans le cadre d un cycle intitul non sans humour Tous ceux qui comptent
230. domaine sp cialis En voici quelques exemples A revista Time prev entre outras coisas a chegada do homem a Marte em 2017 e a constru o nos pr ximos 20 anos de um lt hiperaviao gt que levar mil passageiros a uma distancia de 10 000 Km a 900 Km h G 06 set 98 Les nombreuses formations par pr fixation sont explicables aussi par certains pr fixes qui r v lent des soucis contemporains l cologie par exemple qui nous fournit le formant pr fixal eco ou le d veloppement de l informatique dont les formants ciber et e sont des exemples O primeiro espa o lt eco cultural gt do Rio vai ser inaugurado na Tijuca na esquina da Garibaldi com Conde de Bonfim com projetos de meio ambiente G 02 05 99 lt Ciberguerra gt tit Novo lance na luta pelo dominio dos programas de navega o na Net IE 14 05 97 O novo g nero que inclui outros sucessos como Matrix esta sendo chamado lt e cinema gt cinema eletr nico ou digital FSP 20 jun 99 On remarque aussi que dans les syntagmes nominaux une concurrence s installe entre le d terminant adjectival et le d terminant caract re pr positionnel mercado de cambio mercado cambial O que tamb m beneficia o lt mercado de c mbio gt s o as emiss es de titulos brasileiros no exterior G 06 08 00 No lt mercado cambial gt o dolar comercial encerrou os negocios na sexta com nova cota o recorde vendido a R 2 245 FSP 22
231. donn es de fa on syst matique en constituant des listes crit res de reconnaissance extensifs ou en sp cifiant des patrons morpho syntaxiques crit res de reconnaissance intensifs et ii surtout mieux cerner des cat gories par exemple celle des adverbiaux qui posent galement probl me en linguistique Le d tail informatique peut tre sans importance sur le plan linguistique tout comme le d tail linguistique peut tre non n cessaire sur le plan informatique Les probl mes rencontr s permettent alors de questionner sans toutefois remettre en question la validit de certaines donn es linguistique dans l extraction automatique 3 3 Extraction des non phrases th matiques r sultats et discussion L criture des r gles permettant de rep rer les non phrases th matiques s est faite en trois tapes selon un processus dialogal et incr mentiel Premi re tape impl mentation des donn es linguistiques les r gles ont t crites partir des donn es de l analyse linguistique Elles ont ensuite t lanc es sur un corpus et les r sultats obtenus ont donn lieu une deuxi me phase dans l impl mentation Deuxi me tape dialogue r alit linguistique r alit informatique les r gles de la premi re tape ont t modifi es en tenant compte des param tres informatiques Il a notamment fallu interpr ter traduire les donn es linguistiques en langage informatique C est lors
232. dre et Legendre 1998 Cet indice est bas sur le m me principe que celui de Jaccard c est dire qu il divise la partie commune ici pour les deux synonymes dont on calcule l indice le nombre minimum des cooccurrences observ es avec chaque substantif par la partie totale le nombre de cooccurrences relev es avec chaque substantif et l un ou l autre des deux synonymes selon le sch ma explicatif ci contre 186 m Et bS ING A 2 Nb cooc communes _16 Nb total cooc 52 Figure 4 Exemple de graphe illustrant le calcul de la similitude d emploi S 0 31 Pour l exemple pr sent sur la figure 4 ci dessous le calcul de l indice se fait ainsi au num rateur on cherche la valeur minimum des deux ar tes partant d un contexte commun par exemple pour C4 le minimum est 4 puis on fait le total de ces minima au d nominateur on totalise les valeurs des ar tes partant de A ou de B l issue de cette tape nous sommes en mesure d appliquer notre tableau la m me transformation non lin aire qui nous conduit une repr sentation plane situant les synonymes les uns par rapport aux autres voir figure 5 en annexe ce qui importe ici c est la confrontation avec les donn es paradigmatiques Nous observons en effet que la dissociation entre le domaine int ressant et le domaine int ress existe toujours et qu aucun terme n a chang de zone Par contre la dichotomie pr sente a
233. e partir des relations de d pendance syntaxique identifi es par les m mes outils terme il s agira de mettre en place un processus it ratif o l appariement global servira de base pour initier l appariement local les unit s mises en correspondance de mani re locale permettant leur tour de poursuivre la propagation 6 APPARIEMENT GLOBAL 6 1 Proc dure d appariement L appariement global met en uvre une m thode utilis e dans de nombreux travaux Gale et Church 1991 Kay et R scheisen 1993 Ahrenberg ef al 241 2000 Il s agit de comparer le nombre de fois o un CTs et un CTc apparaissent ensemble dans des phrases align es c est la fr quence de cooccurrence par rapport la fr quence de chacun de ces CT sur l ensemble du corpus Soient freq CTs la fr quence du CTs freq CTc la fr quence du CTc freq CTs CTc la fr quence de cooccurrence de CTs et CTc la mesure d association calcul e le Jaccard en occurrence est la suivante freq CTs CTc j CTs CTc freq CTs freq CTc freq CTs CTc Pour cette exp rience nous avons choisi d effectuer ce calcul uniquement pour les CTs et CTc dont la fr quence sur l ensemble du corpus est sup rieure ou gale a 5 De plus pour un CTs donn seuls les CTc pour lesquels j CTs CTc gt 0 2 sont retenus L ensemble de ces couples CTs CTc forme ce que l on appellera le lexique global 6 2 R sultats et valuatio
234. e 261 plan informatique en termes num riques espaces de recherche cela nous ram ne un compl ment compos de quatre mots au sens orthographique et dont la limite orthographique marqu e par se trouve en cinqui me position Toutefois les compl ments peuvent aussi bien que rarement tre expans s par une coordination un subordonnant propos de la manifestation palestinienne qui s est d roul e place de la R publique Paris Il est intol rable que AJ ou par d autres informations notamment dans les rubriques courrier des lecteurs A propos de l dit de Nantes n 1325 On a coutume de dire que AJ Dans le deuxi me cas les informations fournies sont du m me type renvoi au num ro du journal au titre de l article la date de parution etc et il est possible de les coder sous forme de patrons morpho syntaxiques et s mantico lexicaux cl tur s par E Dans le premier cas l entreprise est plus al atoire On peut n anmoins indiquer sous forme de patrons morpho syntaxiques la constitution de l expansion subordonnant d terminant nom plus la cl ture Dans les r gles que nous avons crites nous avons envisag deux cas de figure un dans lequel le compl ment n est pas expans et un autre dans lequel le compl ment est expans Les insertions Les introducteurs th matiques acceptent des insertions c est
235. e une cat gorie sp cifique Les codes grammaticaux fournis par l tiqueteur morphosyntaxique au cours de l op ration de lemmatisation automatique constituent ici un outil indispensable Kastberg Sj blom 2002 Le corpus Le Cl zio a t trait avec la version d Hyperbase lemmatis e selon le programme Cordial 7 qui aboutit au bout du traitement quelque 200 codes grammaticaux diff rents en utilisant toutes les combinaisons possibles Nous en avons extrait les 11 cat gories fondamentales parmi celles que propose le programme Cordial verbes substantifs adjectifs d terminants pronoms num raux interjections pr positions adverbes conjonctions et d limiteurs signes de ponctuations Pour une vision synth tique des accords qui lient les codes grammaticaux et les diff rents sous corpus nous avons recours l analyse factorielle de la liste de fr quences de ces diff rentes classes du corpus Quarantaine Axe 1 58 Axe2 17 Etoile Chercheur Onitsha Hasard Poisson Angoli Printemps D sert Pawana D terminant Pr position Substantif Pronom Nuages R ve F te Diego i A F te gi Rodrigues Sirandanes Abe as Villes Mydriase Conjonction Proph ties Adverbe Voyage Extase inconnu Ponctuation Guerre Fuite Num ral i Proc s Adjectif D iuge Fi vre Interjection Figure n 5 Analyse factorielle de la distribution grammaticale selon la lemmatisation p
236. e son propre cru Un autre coll gue de la m me universit sp cialiste incontest de la com die au XVII si cle opposait son scepticisme cette th se et l ordinateur tait sollicit de part et d autre pour une expertise objective Je fus donc conduit consulter et traiter les donn es du th tre classique qui taient disponibles depuis vingt ans au Tr sor de la Langue Fran aise et que Labb allait reprendre quelques ann es plus tard en les compl tant Je m en suis tenu en effet aux pi ces classiques les plus c l bres dont 13 de Moli re 8 de Corneille et 10 de Racine Or les trois auteurs dramatiques soumis un calcul de distance lexicale le calcul de Jaccard et 19 l analyse factorielle se d tachaient fort bien les uns des autres Le commentaire de cette exp rience se trouve encore aux pages 102 103 du manuel de notre logiciel Hyperbase La sp cificit des trois crivains y est excellemment soulign e puisque chacun occupe un coin du graphique Mais la loi supr me du genre est respect e le Menteur et les Plaideurs tout en s cartant le moins possible de leur auteur passent dans le camp de la com die Cette exp rience d j ancienne semblait confirmer les le ons d une recherche plus ancienne encore r alis e avec Charles Muller Ce sp cialiste de Corneille qui n a jamais ajout foi la th se de Pierre Louys m avait propos un exercice de laboratoire en is
237. e une bonne stabilit de cette classe particuli re Conclusion d cevante en un sens puisque l on est priv d une caract risation plus abstraite plus intrins que ind pendante d une t che et de choix de description particuliers Mais c est un constat qui notre sens ouvre ou renforce des perspectives pratiques int ressantes Il signifie en effet que des progr s seront obtenus dans les t ches d EI RI par une description fine pr cise sur corpus de ces microsyst mes plut t par exemple que par la d couverte d une technologie miracle Une perspective aujourd hui de recherche technologique demain qui appelle la collaboration d informaticiens et de linguistes c est dire de sp cialistes de l information d une part et bons connaisseurs de la vari t des formes linguistiques de l autre 3 R F RENCES Assadi H Bourigault D 2000 Analyses syntaxiques et statistiques pour la construction d ontologies partir de textes in Charlet J et al d Ing nierie des connaissances Eyrolles p 243 256 Bilhaut F Charnois T Enjalbert P Mathet Y 2003 Passage extraction in geographical documents Proc Intelligent Information Systems 2003 New Trends in Intelligent Information Processing ans Web Mining Poland Zakopane 1 4 Juin 2003 p 121 130 a Bilhaut F Ho Dac M Borillo A Charnois T Enjalbert P Le Draoulec A Mathet Y
238. e d veloppement de la lexicographie moderne vont de pair Ainsi l article d Alves d crit une recherche de n ologismes en Portugais Br silien L axe de cette recherche est une analyse morphologique sur le Br silien mais la m thodologie est adaptable d autres langues et la t che importante pour le lexicographe 15 La communication de Arnaud et Maniez met en exergue la notion de texte dans un corpus Dans un corpus de l gendes le texte est r duit mais en combinant les m thodologies de la linguistique de corpus et l analyse de genre ils mettent en vidence un nano genre souvent ignor puisque dans la constitution de corpus les l gendes sont souvent cart es en m me temps que les images qu elles d crivent Il se peut que la France ait pris un certain retard sur les corpus crits mais ceci est loin d tre le cas pour l oralit L article de Fraczak et Giron est une tude sur l emploi de l imparfait et du pass compos avec des r percussions importantes dans l enseignement du Fran ais Langue Etrang re le FLE L cart entre r gles et r alit se fait aussi entendre dans la communication de Fujimura Uchida et Nakao Dans ce cas l tude porte sur un corpus constitu d articles de presse de forums de discussions de d bats parlementaires et de FRANTEXT L analyse porte aussi bien sur la question diachronique que sur le genre textuel Gasiglia nous ram ne l oral mais dans u
239. e dans l analyse factorielle Les romans et les recueils de nouvelles privil gient l indicatif l exception des premiers romans et de Voyages Rodrigues tandis que ce mode est d ficitaire dans les essais dans les ouvrages d ethnologie dans la biographie et dans le r cit de voyage Nous pouvons aussi observer la tendance chronologique de cette distribution avec des valeurs n gatives de plus en plus importantes au fur et mesure que l uvre progresse C est dans ces livres que nous avons pu observer auparavant les d ficits les plus grands par rapport la cat gorie des verbes dans son ensemble L tude des temps verbaux refl te galement l opposition g n rique dans notre corpus L analyse factorielle des temps de l indicatif pr sent imparfait pass simple et futur rend compte des rapports qui lient les temps et les diff rents ouvrages du corpus 54 Axe 1 75 Axe 2 19 Poisson Etoile Printemps Quarantaine A Imparfait Ronde P inconnu A D ser Onitshx Voyage D sert pitsha Chercheur Hasard Pr sent icebergs Pawana Arbres Mydriase Proph ties Guerre ur Sir ne Extase Rodrigues Or Panes Fuite Villes Nuages D iuge Futur Fi vre Pass simple sa Proc s Figure n 10 Analyse factorielle des temps verbaux Le premier axe de l analyse oppose nouveau les genres litt raires bien que la division soit moins nette que dans les analyses pr
240. e de l nonciateur et se r f rent la soci t d origine En comparant les paroles des voix t moins DD introduites dans la presse politique on arrive la conclusion que les paroles rapport es de vox populi refl tent l oral plus souvent que les paroles des hommes politiques Le choix de la source cit e est consid r comme une d marche importante pour mettre en valeur la nature orale de l nonc cit Le ton oral peut tre pr t au discours direct en reproduisant des particules nonciatives ou des mots du discours qui contribuent cr er une image dialogique de la situation d nonciation originale Tuomarla 1999 Les particules nonciatives portant le caract re motionnel et expressif n ont pas le plus souvent de signification nominative et par cons quent appartiennent la p riph rie des mots Paulauskien 1994 Pr c dant d autres mots les porteurs de sens les particules nonciatives sont troitement li es l intonation aux gestes aux mimiques Elles sont couramment utilis es dans le langage parl et exprim es morphologiquement par les interjections les onomatop es etc Dans notre tude nous privil gions l interjection qui est relativement plus fr quente que les autres particules nonciatives dans le DD du corpus analys Nous la d finissons selon les crit res des travaux linguistiques actuels qui soulignent le plus souvent deux traits communs son naturel et son exp
241. e de la distribution des diff rentes parties du discours constitue une base impartiale et concr te pour permettre une tude syntaxique d un corpus de taille 4 LES PARTIES DU DISCOURS La distribution des parties du discours dans les ouvrages litt raires n est pas constante Elle est fortement influenc e par l poque l auteur et le genre de discours Et l emploi des cat gories grammaticales dans un texte donn peut constituer un indice tr s r v lateur En effet cette distribution qui est bien un crit re de distinction des uvres manifeste peut tre des choix plus subtils que celui du vocabulaire en tout cas moins li s la th matique de chaque ouvrage ce qui peut apporter l analyse des l ments nouveaux Il s agit en r alit de choix inconscients faits par l auteur lors de la cr ation et de l laboration d un texte qui permettent au chercheur de distinguer des divisions grammaticales caract ristiques et personnelles 48 D sormais la quantification et la lemmatisation des corpus ouvrent la voie cette composante essentielle de l criture Cette analyse qui demande l acc s la forme canonique du mot au lemme ne peut gu re se fonder sur la distribution des effectifs d un corpus s appuyant sur les formes graphiques C est la lemmatisation qui permet d tiqueter le corpus selon les cat gories grammaticales et de classer les l ments du vocabulaire selon leur appartenanc
242. e et souvent m me pr pond rante dans les diff rentes analyses statistiques Cette opposition g n rique dans les analyses de statistique lexicale est si forte qu elle emp cherait m me de fonder de grands espoirs sur les m thodes quantitatives pour attribuer un texte un crivain plut t qu un autre Ces variations indiscutables et d j bien document es par ailleurs sont elles observables aussi l int rieur d un corpus ou dans l uvre d un seul crivain Comment voluent elles Nous nous proposons ici d tudier les variations et les oppositions g n riques dans une perspective endog ne de 41 l uvre d un de nos plus grands crivains contemporains J M G Le Cl zio Cet auteur s est lui m me int ress tout le proc d de la cr ation litt raire et ses id es se traduisent souvent par un refus de certaines normes litt raires se pr sentant comme une contestation sociale Accepter les conventions du roman ou de tout autre type d criture pr sentait pour l crivain surtout au d but de sa cr ation le risque de s enfermer dans un syst me sociopolitique dans un cloisonnement conventionnel des genres qui le d rangeait au plus profond Tout au long de sa production litt raire Le Cl zio a en effet tent des exp riences en transgressant les cat gories et les genres en crivant ni essais ni romans ni po mes et pourtant tout cela la fois Le Cl zio 1969
243. e observation plus pouss e de l histogramme permet d valuer plus finement le lexique employ dans le document le passage de la souris sur l une des barres d clenche l affichage du nom de la table associ e et du nombre de lexies d crites dans cette table et trouv es dans le document figure 5 Le 302 diagramme contient aussi un rappel des noms des dispositifs et le nombre de lexies trouv es pour chacun d entre eux ainsi qu un lien vers le document analys sisi a ya 39 Les Saints de EU HUWE DE PARIS SEMAINE r DU 11 AU 15 MAI DESSOT ANDRE Secteur r daction Economie Analytique Sujets on France SAINT Mamert saint Pancrace et saint Servais les fameux Saints de doivent se frotter les mains Leur passage awmiel a cette semaine t couronn de succ s La a tr s brutalement baiss non seulement l ext rieur obligeant les plus frileux remettre une petite laine mais assi La de Paris qui depuis deux mois et dermi pataugeait joyeusement dans une interminable consolidation s est repli e d un bloc et toute allure vers h SE 430 4c RS p niblement attene ai d but du mop de snare dernier a t severe 5 y autant phas inqui tant pour la v g tation mobili re que le DENTET a chare de 4 au SE de ta seule de vendredi Ce jour l pour se redonner du courage devant la d bats amre Appelez la police pour arr ter be massac EE du 15 mai Cette semaine n avait pour
244. e textes In Actes de RECITAL 2002 Tome 1 p 507 516 Perlerin V Ferrari S et Beust P 2002 Metaphores et dynamique s mique In Actes des 2e Journ es de la Linguistique de Corpus Lorient septembre 2002 Perlerin V et Ferrari S 2004 Mod le s mantique et interactions pour l analyse de documents In Approches S mantiques du Document Electronique Actes du septi me Colloque International sur le Document Electronique CIDE 7 La Rochelle France 22 25 juin 2004 p 231 251 Rastier F 1987 S mantique interpr tative Paris Presses Universitaires de France Robertson G G Mackinlay J D et Card S K 1991 Cone Trees Animated 3D Visualizations of Hierarchical Information In Proceedings of the ACM Conference on Human Factors in Computing Systems CHI 91 New York ACM Press p 189 194 13 NOTES 1 source http www portalpes com meteo_alpes page_droite aNWA htm 2 source Le Monde sur CDROM 1987 a 1989 307
245. eaux d expertise de la langue du mod le et des outils qui le mettent en uvre peuvent tre tr s diff rents Or le niveau d expertise de l utilisateur est en rapport direct avec la mani re dont les r sultats d analyse sont pr senter Dans notre approche son influence commence d s la constitution des ressources lexicales et se poursuit jusqu la phase finale d observation de r sultats Le projet ISOMETA est destin des utilisateurs experts la fois de la langue qui est leur objet d tude du mod le et des outils Pour l analyse d un fait de langue comme la m taphore les informations leur proposer sont nombreuses et complexes et les repr sentations visuelles que nous avons labor es refl tent cette dimension Pour la phase de navigation dans la collection la repr sentation visuelle d un document analys consiste en un diagramme interactif figure 5 Un graphique de type histogramme refl te la distribution des ressources lexicales dans le document analys Chaque barre de l histogramme correspond une table de m me couleur dans un des deux dispositifs et sa hauteur est proportionnelle au nombre d occurrence des lexies de cette table trouv es dans le document L objectif est de permettre de saisir en un regard la pr sence de lexique du domaine source de la m taphore tudi e Lorsque des barres de la couleur dominante du domaine source sont rep r es le vert pour la M t orologie un
246. ec la pr position dans cf l index de Dugas et Manseau 1996 nous avons cherch des attestations de ces diff rentes combinaisons dans des bases de donn es telles que Frantext Glossanet etc Les verbes signal s par Dugas et Manseau 1996 n tant pas tous l objet d une attestation nous avons compl t le corpus attest par des phrases forg es Enfin sur le corpus de phrases attest es et forg es ainsi rassembl nous avons proc d au test des propri t s retenues pour distinguer entre compl ment de verbe et ajout donc nous avons forg un corpus de phrases qui correspond aux r sultats de l application des crit res 3 3 Le recours une base de donn es La constitution d une base de donn es pour rassembler son corpus n est pas une pratique naturelle en linguistique entendue comme non sp cialis e en TAL Ainsi nous mettons ici en vidence les apports de ce type de traitement et leurs avantages 3 3 1 AVANTAGES G N RAUX POUR LA RECHERCHE DE LA CONSTRUCTION D UNE BASE DE DONN ES a L int r t pour le chercheur lui m me dans la gestion de son propre travail la construction d une base de donn es permet une perspective cumulative donc de ne pas recommencer constituer un corpus chaque nouvelle recherche et volutive tant par sa structure modulable que par son contenu on peut ins rer ainsi des donn es volont ajouter des informations sans cesse qui peuvent tre m
247. ecteur orthographique et tiqueteur automatique d velopp par Synapse Developpement permettant de proc der a des v rifications de la syntaxe du texte et d associer aux mots la cat gorie grammaticale correspondante ainsi que d autres renseignements forme lemmatis e genre 72 1 5 Informatisation du corpus chaque transcription sont li es des conventions de transcription et chaque analyse des repr sentations Cependant les logiciels ont eux aussi leur propre format de repr sentation de donn es Lexico3 par exemple n accepte que le format texte seul txt Cordial accepte quant lui les formats texte seul document Word doc et d autres propres l application fichier tiquet cnr Nous devons donc pour analyser les documents les pr parer au traitement en nous donnant des normes de d pouillement ce que nous pr f rons appeler phases de pr paration la notion de norme de d pouillement doit tre ici comprise comme une exigence de standardisation provisoire des textes contenus dans un corpus Cette standardisation est destin e avant tout les rendre comparables les stabiliser le temps d une exp rience Habert Nazarenko et Salem 1997 Ces phases de pr paration sont n cessaires pour rendre conforme le corpus aux exigences du logiciel Lexico3 D autres sont motiv es par un choix th orique concernant les unit s analyser et certaines pr
248. elles OU SHORTENED IN THE TEXT lt traitement d un mot dont la prononciation est d but e mais non achev e gt TRANSCRIPTION OF REAL PRONUNCIATION OF SHORTENED WORD lt transcription en API de ce qui a t effectivement prononc gt donn es textuelles POSSIBLE SHORTENED WORD lt mot d but mais non achev s il est possible de l identifi de mani re fiable gt donn es textuelles OU UNCODIFIED INTERJECTION lt interjection pour laquelle aucune orthographe n est propos e dans les dictionnaires cf note 10 gt TRANSCRIPTION OF REAL PRONUNCIATION OF UNCODIFIED INTERJECTION lt transcription en API de l interjection qui a t effectivement prononc e gt donn es textuelles OU REMARK TYPE OF REMARK lt les remarques correspondent a des ajouts du transcripteur ou d un relecteur elles peuvent tre de trois types i des notes sur l avancement ou les difficult s propres au travail de transcription orthographe incertaine en particulier ii des analyses m talinguistiques ou iii des informations r f rentielles rendant mieux compr hensible l nonc en cours gt donn es textuelles OU MANY SPEAKERS SIMULTANEOUSLY lt pour la zone de recouvrement des paroles de plusieurs locuteurs quand les propos tenus par un locuteur sont audibles mais superpos s a ceux tenus par au moins un autre locuteur qui d bute sa prise de p
249. ement ce travail qui peut paraitre pour le moment vou au hasard des formes 5 REFERENCES Brunet E 2001 Hyperbase Universit de Nice CD ROM Claws UCREL CLAWS7 Tagset Lancaster University Brunet E 1999 Hyperbase Manuel de r f rence Version 4 0 ao t 1999 pour Mac et Windows Habert B Nazarenko A Salem A 1997 Les linguistiques de corpus Paris Armand Colin Muller C 1992 Initiation aux m thodes de la statistique linguistique Paris Champion 70 APPROCHE LEXICOM TRIQUE DE CORPUS D INTERACTIONS VERBALES ENTRE UN ADULTE ET UN ENFANT EN COURS D ACQUISITION DU LANGAGE R SULTATS D EXPERIENCE Luiggi Sansonetti Universit Paris III EA 2290 SYLED EA 1701 CALIPSO ILPGA 1 PRESENTATION DU CORPUS 1 1 Nature des corpus Les corpus utilis s pour cette tude ont t recueillis par une tudiante dans le cadre de son m moire de Ma trise Tissier 2001 Le 1 corpus longitudinal nomm Julien est compos de trois dialogues entre un adulte et un enfant autour d un livre illustr Cette tude diachronique pr sente le langage de Julien entre 5 ans 10 mois et 6 ans 4 mois les dialogues tant espac s de trois mois Le 2 corpus longitudinal nomm Mathilde est compos de trois dialogues entre le m me adulte et un autre enfant autour du m me livre illustr Cette tude pr sente le langage de Mathilde entre 4 ans 9 mois et 4 ans 11 mois les dialogues
250. emp chent la fluidit du discours et par la m me sa r alisation la plus naturelle possible L int r t de ce type d enqu te est de favoriser la production de parole la moins interrompue possible permettant ainsi de relever les formes les plus naturelles bien que la notion de naturel soit discutable lorsqu un microphone est pos en face du locuteur 2 10 Conditions d enregistrement variables contextuelles Pour qu un corpus puisse tre envisag et consult de mani re homog ne et univoque les conditions d enregistrement doivent tre identiques pour chaque locuteur enregistr afin de consid rer la production orale de chaque locuteur comme gale n importe quelle autre Elles font partie des variables contextuelles que mentionne F Gadet 1971 Les variables contextuelles comprennent tout ce qui peut d terminer des diff rences de langage et qui n est pas directement li au locuteur dont on analyse le discours la personne laquelle il parle et l image qu il se fait de cette personne ce dont il parle l emplacement dans lequel se d roule la conversation les rapports qui unissent les locuteurs En effet pour pouvoir comparer deux ou plusieurs objets ou plus simplement pour d crire un ensemble de textes il est n cessaire que les propri t s constitutives de chaque production orale soient en partie semblables Nous disons en partie car m me si th oriquement les
251. ence on Computational Linguistics and 36 Annual Meeting of the Association for Computational Linguistics COLING ACL 98 p 444 450 Gaussier E 2001 General considerations on bilingual terminology extraction in D Bourigault Ch Jacquemin M C L Homme Eds Recent Advances in Computational Terminology John Benjamins p 167 183 249 Gaussier E Hull D A Ait Mokhtar S 2000 Term alignment in use in J V ronis d Parallel Text Processing Alignment and Use of Translation Corpora Dordrecht Kluwer Academic Publishers p 253 274 Hull D A 2001 Software tools to support the construction of bilingual terminology lexicons in D Bourigault Ch Jacquemin M C L Homme ds Recent Advances in Computational Terminology John Benjamins p 225 244 Kay M R scheisen M 1993 Text Translation Alignment Computational Linguistics 19 1 p 121 142 V ronis J 2000 Alignement de corpus multilingues J M Pierrel d Ing nierie des langues Paris Editions Herm s p 115 150 V ronis J ed 2000 Parallel Text Processing Alignment and Use of Parallel Corpora Dordrecht Kluwer Academic Publishers Vinay J P Darbelnet J 1958 Stylistique compar e du fran ais et de l anglais Paris Didier Wu D 2000 Bracketing and aligning words and constituents in parallel text using Stochastic Inversion Transduction Grammars in J V ronis d Parallel Text Pr
252. enre les diff rences internes afin de voir si elles r sisteraient aux oppositions externes qui s exercent entre les crivains et emp cheraient l attribution correcte des textes En somme nous voulions comparer les distances intra entre les textes d un m me crivain et les distances inter entre les crivains En r alit le nous collectif que je viens d utiliser est un abus de langage Car j ai t le seul responsable des conditions de l exp rience et du choix des textes Dominique Labb voulait en effet participer a l exp rience en ignorant tout des donn es afin qu aucun pr jug subjectif ne puisse pervertir le traitement Dans beaucoup de disciplines l ignorance est ainsi la garantie de la connaissance et notre mod le a t le protocole en aveugle que la recherche m dicale applique au traitement des malades et au test des m dicaments Or il y a plusieurs distances possibles selon qu il s agit de deux crivains diff rents ou de deux textes du m me crivain ou de deux extraits du m me texte On a donc d doubl tous les textes retenus afin qu il y ait pour chaque texte deux extraits diff rents mais aussi proches que possible puisqu on les a choisis contigus l un suivant l autre Il y a ainsi pour chacun des onze crivains quatre extraits qui lui sont attribu s soit 44 au total Naturellement Dominique Labb n a eu droit qu des num ros anonymes pour Proust c tait 2
253. ens 4 de stand du Collins COBUILD ajoute cependant un s me UPRIGHT Zf something such as a building or a piece of furniture stands somewhere it is in that position and is upright Une locomotive est bien un objet de grande hauteur par rapport a un homme et donc dot de verticalit comme le montre l exemple suivant 12 A lanky X towers above the rails at Nantes 105 mais c est galement un objet oblong et comme pour le nom house des deux exemples du MEDAL les deux verbes sont possibles Il est toujours d licat de raisonner en invoquant une diff rence entre le conceptuel et le lexical mais le fait que sit et non pas seulement stand qui colloque avec les noms de v hicules apparaisse dans le corpus pour r f rer au stationnement d une locomotive nous semble tre un exemple frappant d ind termination lexicale devant une photographie de locomotive immobile il est impossible de pr voir lequel des deux lex mes figurera dans la l gende si l nonciateur choisit un verbe de position 3 2 Mouvement Les phrases noyaux comportent souvent un contenu r f rentiel dynamique exprimant le mouvement de la locomotive ou du train On sait que l anglais est une langue qui l oppos du fran ais d crit la trajectoire dans une particule ou un groupe adverbial et le type de mouvement dans le verbe lexical l op ration n cessaire lors de la traduction tant d nomm e chass crois Vinay amp Darbelnet
254. ent with an eastbound train of coal empties destined for Leith or Niddrie Yards on the east of the city in D Hot and panting mightly from a lusty battle with the Blue Ridge X pauses at Old Fort NC to gulp a tank of water and blow her top figuratively 111 speaking as safety pops and stack exhaust respond to the fireboy s readiness for the grades just ahead It s a long upgrade pull for X on the line from Mombasa to Nairobi A picture of self contained fury Japanese National railways X blasts up the grade leading inland from the Hokkaido seaport of Hakodate A sister 2 8 2 X shoves hard at the rear Fighting upgrade on the line out of Espinal X encounters spectacular mountain scenery near Gualanday above before arriving at Ibague facing page with the afternoon mixto Northbound Teine assaults the grade leading to up to Kami Mena in the charge of X and X Trailing a winter plume of steam and smoke X storms upgrade toward Arthur s Pass 7 NOTES 1 Larreya et Rivi re 1999 136 7 indiquent a juste titre que le f minin est utilis en g n ral pour les bateaux et parlent de marquer de l affection l gard de certaines machines automobiles camions etc Par ailleurs on se rappellera que la reprise par le masculin tait possible aux XVII et XVIII si cles ce qui est compatible avec les lexies merchantman et man of war Oxford English Dictionary 2 Les tests de significativ
255. ents modes verbaux Les romans traditionnels se trouvent relativement au milieu du champ dans la partie sup rieure entre l indicatif qui est le mode traditionnel du r cit et le participe qui est ici la trace des temps compos s en particulier celle du pass compos Le subjonctif le conditionnel et l imp ratif appartiennent aux livres inspir s de l cole nouveau roman regroup s en bas et droite du graphique Les essais tardifs Le r ve mexicain et La f te chant e ainsi que Diego et Frida se trouvent ensemble loign s du reste en bas et gauche L axe vertical refl te la chronologie de l uvre et rend bien compte de l volution dans l criture lecl zienne L criture souvent recherch e du d but de l uvre se manifestant par le recours des modes comme le subjonctif le conditionnel ou l imp ratif est abandonn e en faveur d un style moins recherch d un r cit plus traditionnel et d une simplicit voulue par l crivain privil giant l indicatif L indicatif mode du r cit par excellence domine effectivement le r cit lecl zien mais la distribution interne montre toutefois des variations relativement importantes 53 Corr l 0 132 Seuil 5 035 Po Figure n 9 La distribution relative de l indicatif dans le corpus carts r duits L histogramme met en relief l opposition des genres litt raires que nous avons constat
256. er ces m tar gles moins filtrantes afin de ne pas p naliser le rappel sur la pr cision D autre part dans de tel cas seul le contexte est susceptible de lever l ambigu t syntaxique ainsi que de confirmer ou infirmer la validit de la variation Il se r v le donc indispensable de fournir a l expert une fen tre de d cision plus large que celle correspondant a la ST Nous illustrons ci dessous ces diff rents cas partir de l exemple concret de deux m tar gles l une de coordination et l autre d insertion 5 1 Application des crit res sur une m tar gle de coordination Consid rons cette premi re m tar gle X2 N3 X2 lt A N Np V 1 3 PUNC gt C4 lt A N Np V gt N3 XX Coor 1 tableau 2 g n rant plusieurs structures variationnelles incorrectes 5 a 7 correctes 8 9 ou ambigu s 10 Dans ce dernier cas seul le contexte peut lever l ambiguit 5 Breast tissue breast lesions or normal tissues 6 Tumor cells lt 4 tumor patterns or cell 7 Skeletal tissue lt lt skeletal muscle and lymphoid tissue 8 Dividing cell dividing follicular and stroma cells 9 Endocrine cell endocrine tissues and cells 10 Thyroid vein thyroid artery and vein Partant de ces observations la m tar gle initiale a t modifi e au niveau syntaxique et morphologique partir de crit res flexionnels et grammaticaux tels que l appartenance une cat gorie lexicale sp
257. er d aller manifester Le 7 h 41 vide la salle d un coup Lib ration 14 05 03 20 Per turm d l pasklidusiy duj beveik nieko nenutuok me daugelis prarado s mon Tik tie ikaitai kurie sugeb jo kuo nors u sidengti nosi ir burn dar ka k gird jo ir jaut Kiti i karto atsijung sak jaunuolis Lietuvos rytas 28 10 02 21 Ta iau Brazauskas sak Joki intrig mes nepiname Dar kart galiu pasakyti Grigaravi ius kaip generalinis komisaras dirbo gerai Paprastai nekant kai kas ji isdur ir i d r ji politikai Ta iau jis atsisak atskleisti apie kokius politikus kalbama Lietuvos inios 11 04 03 Les mots familiers boulot couillon cool etc populaires et argotiques i d r atsijung etc trouv s dans le corpus analys montrent la pr sence du style familier ou du style populaire dans le discours direct des textes de la presse politique L introduction du DD manifestant l oralit dans le style journalistique est une strat gie discursive de la presse actuelle L observation de la presse politique lituanienne et fran aise permet de constater que l insertion d un style dans un autre style donne la possibilit au journaliste d tablir la distance avec les mdividus parlants et de restituer leur point de vue par les mots prononc s De plus les mots du DD guillemet appartenant au style familier ou populaire jouent le r le de provocateur d
258. erminology Natural Language Processing Amsterdam Philadelphia John Benjamins Publishing Company Daille B 1994 Approche mixte pour l extraction de terminologie statistique lexicale et filtres linguistiques Th se en information fondamentale Universit de Paris VII Daille B Habert B Jacquemin C Royaute J 1996 Empirical observation of term variation and principles for their description Terminology vol 9 n 2 p 171 216 David S Plante P 1990 De la n cessit d une approche morpho syntaxique dans l analyse de textes Intelligence Artificielle et Sciences Cognitives au Qu bec 3 3 p 140 154 285 Enguehard C 1992 Acquisition naturelle automatique d un r seau s mantique Th se de doctorat de l Universit de Technologie de Compi gne d cembre 1992 Ibekwe Sanjuan F 1998 Terminological variation a means of identifying research topics from texts Proceedings of the Joint International Conference on Computational Linguistics COLING ACL 98 Montr al Qu bec 10 14 August 1998 p 564 570 Jacquemin C 1997 Variation terminologique Reconnaissance et acquisition automatiques de termes et de leurs variantes en corpus M moire d habilitation a diriger des recherches en informatique fondamentale Universit de Nantes Kahane S 2001 Grammaires de d pendance formelles et th ories Sens Texte Actes de la 8 Conf rence Annuelle sur le Traitement Automatique des Langues Na
259. ers Nous pensons qu une explication de l emploi d une forme en termes de comment elle pr sente quelque chose ou autrement dit du point de vue de l effet de sens auquel elle peut contribuer n est pas une explication op ratoire dans le domaine du FLE On 126 peut douter en effet de l efficacit d une r gle qui indiquerait aux apprenants d employer l imparfait ou le pass compos pour pr senter quelqu un ou quelque chose comme un tre temporel ou un comme tre intemporel Nous sommes de l avis qu il est pr f rable de formuler cette fin une explication en termes pragmatiques c est dire en tenant compte des intentions discursives de l nonciateur dans un contexte donn de quoi veut il parler en l occurrence d une situation ou d un fait et pour quoi faire pour montrer comment c tait autrefois pour comparer une situation pass e la pr sente pour expliquer ce qui s est pass ce qui a amen le changement etc Ainsi nous ne retenons encore une fois que ces propositions de O Ducrot et J C Anscombre qui permettent de faire la distinction entre les nonc s qui caract risent une situation et les nonc s qui caract risent un fait Ayant formul une valeur pragmatique g n rale de l imparfait dans la section pr c dente nous le faisons ci dessous pour le pass compos L intention nonciative li e l emploi du pass compo
260. ersion orthographi e et de la transcription en Alphabet Phon tique International de ce qui est effectivement prononc ce qui est jug remarquable peut tre i une distorsion locale li e une faute par exemple d accord aucun n auront qui devra tre d crite dans l l ment ANALYSIS OF REMARKABLE UTTERANCE verbe au pluriel alors que son sujet aucun est au singulier ii une liaison fautivement pr sente katrzado ou absente vuave iii l emploi de mots trangers non enregistr s par les trois dictionnaires de r f rence cf note 10 comme appartenant au lexique fran ais et pour lesquel la langue d origine devra tre indiqu e via l l ment ANALYSIS OF REMARKABLE UTTERANCE etc gt TRANSCRIPTION OF REMARKABLE UTTERANCE lt segment prononc transcrit en API gt donn es textuelles SPELLING OF REMARKABLE UTTERANCE lt segment orthographi gt donn es textuelles ANALYSIS OF REMARKABLE UTTERANCE lt analyse ou commentaire m talinguistiques relatifs l nonc jug remarquable gt donn es textuelles OU ACCIDENTAL PRONUNCIATION lt quand la prononciation d un segment est accidentellement fausse mise en correspondance de la transcription en API de ce qui est effectivement prononc et de la version orthographi e gt TRANSCRIPTION OF ACCIDENTAL PRONUNCIATION 149 150 lt segment prononc transcrit en API gt donn
261. es blocs s mantiquement homog nes en d signant les circonstances dans lesquelles il faut envisager un certain tat ou une s rie d v nements Selon la liste indicative propos e dans Porhiel 2004 les unit s lexicales qui composent 251 cette classe discursive sont des pr positions au sujet de propos de pour ce qui est de concernant etc ou des adverbes des anaphores r somptives ce sujet ce propos etc Ces unit s participent la coh sion textuelle elles instaurent des liens coh sifs Hasan et Halliday 1978 inf rables partir d indices linguistiques Pour rep rer les introducteurs th matiques nous utilisons la m thode d exploration contextuelle Descl s et al 1997 Minel et al 2001 qui identifie des connaissances linguistiques en les restituant dans leurs contextes et en les organisant en fonction de t ches sp cialis es Une r gle d exploration contextuelle d finit un espace de recherche il s agit d un segment textuel toujours d termin partir de la pr sence d un marqueur d clencheur ici les introducteurs th matiques des indices compl mentaires doivent en g n ral tre recherch s dans l espace de recherche en vue de confirmer ou d infirmer la valeur s mantique de l indicateur rep r la position du d clencheur dans la phrase par exemple L ensemble de ces connaissances linguistiques suppos es ind pendantes du domaine dont traite le texte s
262. es informations associ es La constitution d une base de donn es de parole passe par des tapes qui concernent i le choix judicieux du mat riau linguistique ii l enregistrement sonore iii la transcription et l tiquetage Ce mat riau linguistique est constitu d un ensemble d chantillons de parole continue et des mots isol s enregistr s par le r seau t l phonique Chaque extrait poss de un ensemble des descripteurs qui contiennent l appr ciation de la qualit sonore la transcription orthographique et phon tique des informations relatives aux locuteurs date 197 et lieu de naissance des notations des v nements prosodiques point point et virgule virgule deux points point d interrogation etc des notations des informations extra linguistiques les pauses les souffles les rires les faux d parts etc Cette base de donn es est alors form e de plusieurs corpus de la langue c est dire d une collection d enregistrement de parole qui est accessible la lecture en ordinateur Ces donn es re oivent des notations et des tiquetages suffisants pour permettre un nouveau son un usage dans d autres phases du syst me de reconnaissance de la parole tant donn que le but de ce travail est un syst me multilocuteur c est dire les applications grand public il faut penser aux diff rents facteurs qui posent une difficult la reconnaissance de la parole D abord
263. es textes Mourad 1999 Marcu 1998 et 2000 par exemple Dans le cas des non phrases th matiques la virgule fournit un bon crit re de reconnaissance elle s pare prototypiquement le cadre th matique du reste de la ou des propositions Pour ce qui concerne la France les organisateurs de la conf rence de Stockholm se montrent extr mement critiques l gard du Minitel AJ Dans le cas des non phrases les signes de ponctuation et initient des cadres th matiques ouverture droite ou a th matiques fermeture gauche et restriction s mantique De ce fait on peut simplement dire 1 que 4 et 5 sont des non phrases elles n ont pas de verbe et sont d limit s orthographiquement ii qu elles sont potentiellement th matiques car elles sont introduites par les pr positions propos de et pour ce qui est de 4 Gr ce a la pr sence autour de lui mon p re de sa petite famille humaine et animale il devait y demeurer vingt huit ans Nouveau chapitre A propos d v que Je ne sais comment mon p re d crocha cette recommandation R 5 H las mon histoire n est gu re diff rente Pour ce qui est de la mort en tout cas R 256 Quant aux signes de ponctuation et ils n initient pas de cadre au moins dans notre corpus Dans 6 en ce qui concerne introduit une r ponse une question rh torique Il s agit d un nonc elliptique 6 Sune Albinsson a m
264. est mis en d faut est extr mement enrichissante la fois du point de vue linguistique car elle permet de mettre au jour des r gularit s li es la variation interlingue et du point de vue de l impl mentation car elle offre la possibilit d tendre l algorithme de propagation afin de r duire le silence 248 Enfin notre r flexion porte galement sur l utilisation ventuelle de ressources exog nes notamment de dictionnaires lectroniques susceptibles de compl ter le lexique construit lors de la phase d appariement global 9 REFERENCES Ahrenberg L Andersson M Merkel M 2000 A knowledge lite approach to word alignment in J V ronis Ed Parallel Text Processing Alignment and Use of Translation Corpora Dordrecht Kluwer Academic Publishers p 97 138 Bourigault D Fabre C 2000 Approche linguistique pour l analyse syntaxique de corpus Cahiers de Grammaire 25 Universit Toulouse le Mirail p 131 151 Brown P Della Pietra S Mercer R 1993 The mathematics of statistical machine translation parameter estimation Computational Linguistics 19 2 p 263 311 Chuquet H Paillard M 1989 Approche linguistique des probl mes de traduction anglais fran ais Ophrys Daille B Gaussier E Lang J M 1994 Towards Automatic Extraction of Monolingual and Bilingual Terminology Proceedings of the International Conference on Computational Linguistics COLING 94
265. et est galement loign de la com die Comme Moli re et Racine n ont gu re exploit qu un seul genre mis part ces trois exceptions leur individualit est fort bien circonscrite par le calcul et toutes les com dies de Moli re campent gauche les pi ces en prose en haut et les pi ces en vers en bas tandis que les trag dies de Racine sont serr es les unes contre les autres dans le quadrant inf rieur droit Il n en est pas de m me avec Corneille dont l uvre est plus diversifi e plus tal e dans le temps et qui s est illustr dans plusieurs genres La surface que le calcul lui attribue est plus large plus aplatie et r partie en deux zones celle des trag dies droite et celle des pi ces comiques ou assimil es gauche Il n en reste pas moins que l originalit des trois auteurs est pr serv e malgr la polarisation du genre M me les pi ces de Corneille forment un bloc dans lequel entrent les deux Menteurs Les Menteurs se rapprochent certes des pi ces en vers de Moli re pr s de la fronti re Mais ce sont des frontaliers non des transfuges Quant aux pi ces de Moli re aucune ne se compromet avec les pi ces de 35 Corneille Et l on comprend mal que Labb au vu d un tel graphique ait pu les attribuer Corneille En r alit au lieu de consid rer le jeu d en haut d un regard impartial et neutre Labb bar me et barom tre en mains s est introduit dans la partie
266. et l a bien remarqu e dans ses diverses tudes et il souligne galement le r le important de l opposition des genres litt raires Brunet 1985 De ce point de vue l uvre de Le Cl zio s inscrit tout fait dans la dynamique g n rale de la litt rature fran aise La tendance g n rale de la distribution des autres cat gories grammaticales les adjectifs les verbes et les adverbes etc met presque toujours en vidence les m mes ph nom nes et les m mes oppositions Nous observons toujours en premier lieu l opposition des genres litt raires les romans sont riches en verbes mais pauvres en substantifs tandis que les 51 biographies et les ouvrages d ethnologies par exemple sont tous tr s riches en adjectifs et en substantifs et pauvres en formes verbales Ces typologies de texte avec leurs nombreuses descriptions sont nettement favorables a l adjectif Les essais souvent d un caract re po tique le sont aussi mais il s agit l plut t d une coloration stylistique En outre appara t g n ralement l volution chronologique de l uvre L adjectif notamment apr s avoir t exc dentaire au d but de l uvre r gresse au fur et mesure que l uvre progresse dans le temps et refl te ainsi un changement de style chez l crivain La distribution des verbes ne fait pas exception cette tendance et l int rieur m me de cette cat gorie nous observons les m mes ph nom nes
267. eule qu il ait crite en vers Sans doute aussi s inspire t elle du grand devancier mais elle n est pas de Moli re malgr les indications du bar me Nous avons pareillement r uni l uvre de Flaubert et celle de Maupassant et l encore le seuil de fusion est atteint pour Madame Bovary et Une vie Il l est aussi si 29 l on compare les quatre vangiles dans trois traductions fran aises qui en ont t faites soit douze versions diff rentes Le calcul semble indiquer un auteur unique qu il s agisse ou non du Saint Esprit 3 3 Une autre raison invite renoncer au bar me propos par Labb c est l obscurit qui s attache une mesure unique et globale Ce que l on gagne en synth se est perdu en analyse Comment en effet interpr ter une mesure de proximit quand plusieurs facteurs sont en cause Labb est sensible cette difficult et il d taille les influences qui entrent en ligne de compte l auteur le genre le sujet l poque Mais dans une mesure donn e rien ne permet de distinguer ces influences variables dont le dosage chappe au calcul D s lors ce qu un chercheur interpr te comme caract ristique d un crivain un autre critique peut l attribuer aux contraintes exerc es par le genre voire aux lieux communs que le sujet entra ne Les cas o le calcul est op rant sont ceux o les variables ind sirables sont neutralis es Dans une mission sur France Culture Labb op
268. eurs r seau t l phonique plusieurs langues Winski 1997 5 CORAL dialogues spontan s 32 locuteurs salle preuve de son Martins et al 1998 6 SPEECON collection de donn es de parole contr l e par la lecture et spontan e au moins 20 langues et 600 locuteurs par langue adultes et enfants Iskra 2002 Dans cet article nous pr sentons les facteurs qui nous ont conduits au choix du mat riau linguistique soit la m thodologie utilis e pour la cr ation des corpus visant l enregistrement des voix qui constitueront la base de 198 donn es des syst mes de reconnaissance de la parole pour la langue portugaise parl e au Br sil BDVOX Ainsi la BDVOX d velopp e par l Universit F d rale de Santa Catarina au Br sil a t labor e avec la parole contr l e par la lecture et aussi de fa on spontan e enregistr e par le r seau t l phonique Cette base est compos e de 1100 locuteurs du portugais du Br sil ce qui fait 193 heures de voix enregistr es En ce moment nous sommes en train d augmenter cette base en incorporant plus de 500 locuteurs 2 FACTEURS D TERMINANT LA CR ATION D UNE BASE DE DONN ES POUR L ENTRAINEMENT ET LE TEST DE SYST MES DE RECONNAISSANCE DE LA PAROLE Comme nous l avons pr cis pr c demment nous allons pr senter les proc dures utilis es afin d organiser les divers corpus en base de donn es Pour commencer ce travail il faut d f
269. eurs pouvant avoir une r percussion sur la fa on de parler est la localisation de l habitat l int rieur d une m me r gion ville ou campagne ibid Ainsi le choix d effectuer les enqu tes en zones urbaines permet d unifier ce facteur et par cons quent de limiter l importance des variations g olinguistiques que l on aurait eues si les enqu tes avaient t men es la campagne Mais leur tude peut se r v ler int ressante En effet l emplacement g ographique des trois villes l int rieur du d partement cf carte peut permettre de comparer le fran ais urbain standard parl dans la zone d o l Moulins et dans la zone m diane entre oil et oc situ e dans le croissant Montlu on au nord et Vichy au sud Ainsi ce corpus peut permettre de v rifier l influence dialectale sur le parler standard ce que nous ne ferons pas dans le cadre de cette tude car nous n utiliserons pas ce crit re Mais disons le une fois encore plus un corpus est compos de sous types qui sont d limit s par les diff rentes variables retenues plus son exploitation peut se r v ler riche pour des tudes ult rieures 117 Newers NIEVRE SAONE HE C7 A CHER Lo Nevers gs ET PES Biurcy L vis gt es LOIRE aurpe ALEA a Sologne 5s E C rilly Bourbon bourbonnaise Y amp gt por eae ScChevagne s Fron ais a h r Re 7 2 e 3 410 Yorande M sant Mou
270. f the same type or is connected in some way to another thing you have mentioned et ceci est confirm par l exemple suivant extrait du texte suivi d un des magazines sources 10 The bridge was similar to its five sisters Une recherche sur Google montre que vis vis de 9 470 occurrences de its brother il y en a 198 000 de its sister en grande partie explicables par cet emploi Outre city ship ce sont en fait surtout des noms d institutions ou de publications qui sont concern s La reprise par sister ne peut donc nous fournir une indication fiable sur le sexe psychologique des locomotives Par ailleurs le corpus comporte quand m me un exemple d animisme o une machine est personnifi e et c est comme homme dans un ouvrage o l on trouve un autre endroit une reprise par her 11 A trainload of fresh perishables is hurried toward eastern appetites behind an old man of the Espee Espee SP Southern Pacific noter par ailleurs la m tonymie qui ajoute au pittoresque 3 LEXIQUE 3 1 Stationnement Les verbes d v nement voir plus haut sont sans aucun doute la caract ristique lexicale la plus remarquable du nano genre l gende de photographies de train Que se passe t il lorsque la locomotive de la photographie est l arr t Une recherche onomasiologique dans le corpus nous donne les verbes suivants dont toutes les occurrences ont la machine comme si ge du proc s pause 9
271. finirons notre corpus comme un regroupement de phrases isol es les unes des autres absence de paragraphes de textes mais ayant en commun l usage de la pr position dans Ces nonc s sont issus de sources diff rentes presse litt rature nous n avons pas voulu distinguer des niveaux de langue diff rents et par exemple ne travailler que sur du litt raire ou que sur du journalistique et r colt s de deux fa ons la premi re reste traditionnelle la lecture minutieuse arm d un crayon pour relever ce qui nous semble pertinent La seconde repose sur l utilisation du concordancier GlossaNet apr s avoir saisi nos requ tes de type lt dissoudre gt dans dans notre profil GlossaNet notre recherche tant centr e sur la compl mentation verbale en dans nous souhaitions extraire des journaux une liste d occurrences comportant les verbes se construisant avec cette pr position le r sultat de l extraction nous tait envoy par courriel il ne nous restait plus donc qu l analyser et saisir les occurrences dans notre base de donn es en suivant toujours la m me proc dure les liens existants entre les tables cf Vaguer 2004 Etape 1 Saisie dans la table Source de la provenance des nonc s r colt s ann e auteur titre journal type de support informatique papier 219 Etape 2 Saisie dans la table Pr cisions sur la Source pour sp cifier l article cons
272. formulations passives dans les d finitions habituellement fournies du corpus Ainsi pour Arriv et al op cit c est un ensemble d nonc s d une langue donn e crits ou oraux enregistr s qui ont t recueillis pour constituer une base d observation permettant d entreprendre la description et l analyse de la langue en question o rien n est dit sur les crit res qui pr sident au recueil Et si des crit res sont pr cis s par Sinclair 1996 une collection de donn es langagi res qui sont s lectionn es et organis es selon des crit res linguistiques explicites pour servir d chantillon du langage ils le sont sur la base de principes avouables et m me garants de scientificit effa ant tous les risques li s la subjectivit du linguiste Pour Sampson 1994 la linguistique de corpus prend le langage comme elle le trouve Or on ne prend pas le langage tel qu il est m me dans une linguistique de corpus partir du moment o l on interpr te n cessairement les nonc s attest s ce dont t moignent pr cis ment les diff rences d acceptabilit Ainsi quand on rel ve des nonc s on les trouve attest s par rapport un contexte donn Or 212 qu en est il quand les donn es sont appr hend es hors contexte par d autres lecteurs Il se peut que ces derniers confront s a des phrases isol es puissent tre dans l incapacit de trancher sur
273. gVVG theAT largestJJT oddsNN2 thatRG sixesMC2 willVM notXX beVBI t plyRR JJ burthenedJJ shipsNNZ thatRG farRR andCC wideRR encountere exchangeVVI placesNNZ2 NotXX thatRG exactlyRR eitherDDl NNl for 10 creaturesNNZ thoseDDZ wereVBDR that RC T81980d fromII theAT reflectionNN1 thatRG muchDAl ofIO theAT historyNN1 r Extrait 16 Suite Figure 2 Concordance partielle de that L ad quation du logiciel CLAWS pour le traitement de notre corpus ne vient pas seulement de ses fonctionnalit s internes Son degr de haute fiabilit est un facteur tr s important prendre en compte afin d assurer un traitement complet stable et univoque du corpus C est pour cette raison que nous avons pr f r l encodage automatique un encodage manuel partiel de certaines classes de mots A ce stade de notre travail nous consid rons que le corpus est pr t l emploi l analyse avec Hyperbase 3 TAILLE DU CORPUS D COUPAGES ET NOMBRE DE TEXTES Pour ce qui est de la taille du corpus et du nombre de textes les concepteurs du logiciel Hyperbase notent Dans sa version actuelle le programme accepte 81 textes La longueur de chacun des textes n importe gu re Brunet 1999 Notre corpus Poe divis en 67 textes 295 839 mots a t analys par le logiciel en moins de deux heures Bien que tr s pratiques pour la navigation dans le corpus les divisions trop nombreuses rendent difficile 67 la lecture des r s
274. gais br silien qui constitue un des manuscrits g r s par l ordinateur 199 Persistiu o problema na igni o Guto nunca se dedicou a sua etnia Le probl me de d marrage a persist Guto ne s est jamais d di son ethnie Pneu um substantivo simples Usem um manto com florzinhas Pneu est un substantif simple Il faut user un foulard avec des petites fleurs A Metamorfose um livro de Kafka Chovendo ou n o irei ao clube La Metamorphose est un livre de Pleuvant ou pas j irais au club Kafka Ele adquiriu um cacto velho Conte esses bagres Comptez ces poissons Il a acquis un vieux cactus Untar e pintar s o verbos da nue O taximetro registrava o valor errado primeira conjuga o Le taxim tre registrait la fausse valeur Graisser et peindre sont des verbes de la premi re conjugaison Tableau 1 Exemple d un corpus de phrases phon tiquement riches pour le PB Dans ces groupes des phrases phon tiquement riches il y a les 33 phon mes du PB 19 consonnes 2 semi voyelles 7 voyelles orales et 5 voyelles nasales dans les diverses possibilit s d arrangements syllabiques Pour arriver cet objectif il a t construit un logiciel qui fait la v rification de la pr sence de tous les phon mes et calcule les fr quences d occurrence 2 2 Parole continue extraite partir de textes Le deuxi me facteur s adresse la parole continue s quence de m
275. gie de constitution de corpus oraux transcrits arguments pour un corpus plurith matique haut rendement in G Williams d La linguistique de corpus en France ou en fran ais Presses Universitaires de Rennes Habert B Fabre C amp Issac F 1998 De l crit au num rique Constituer normaliser et exploiter les corpus lectroniques Paris InterEdition Ide N amp Veronis J 1996 Une application de la TEI aux industries de la langue le Corpus Encoding Standard Cahiers GUTenberg n 24 sp cial TEI juin 1996 p 166 169 Le Petit Robert CD ROM version 2 0 Paris Dictionnaires Le Robert VUEF 2001 Le Petit Larousse CD ROM Paris Dictionnaires Larousse 2003 Silberztein M Poibeau Th amp Balvet A 2001 Intex et ses applications informatiques Tutoriel Actes de la huiti me conf rence TALN 2 5 juillet 2001 volume II p 145 174 7 NOTES 1 Merci a Pierre Corbin pour la richesse qu il apporte nos travaux coordonn s en formation et en recherche cette collaboration nourrit le pr sent t moignage Merci aux tudiants du DESS LTTAC cf note 2 promotion 2002 2003 et Fran ois Corbin qui ont contribu ce que ce travail parvienne au niveau d avancement dont je fais tat Merci Geoffrey Williams qui a offert en 2003 pour la troisi me fois un lieu d changes ceux qui 161 travaillent en linguistique de corpus Merci Pierre Corbin de nouveau pour ses
276. gles ne pr sentent pas une productivit identique mais qu il existe des carts importants entre elles Premier constat g n ral les s quences textuelles ST ramen es par des m tar gles intervenant sur des pluritermes compos s de trois mots sont quantitativement moins importantes que celles issues de bi termes alors que le nombre m me des m tar gles g rant ces deux types de termes est tr s proche Cette diff rence peut s expliquer de deux mani res D une part comme le constate Pozzi 2002 les tri termes sont g n ralement moins repr sent s dans une 275 terminologie D autre part les possibilit s de transformations linguistiques sur ces tri termes semblent plus r duites particuli rement lors d une coordination Compression of esophagus compression of trachea and esophagus Electron microscopic study lt electron microscopic and immunohistochemical studies Les transformations les plus fr quentes correspondent a des insertions biopsy of thyroid lt biopsy of the human thyroid et des permutations avec le passage d une structure compl ment du nom introduit par une pr position une structure pr pos e Lesion of brain lt brain lesions Enfin en comparant ces r sultats ceux r sultant d une indexation men e dans le domaine de la biologie mol culaire il est apparu que certaines variations pr sentent une productivit lev e quelque que soit le domaine d tude les m tar gles
277. h international La r volution op r e par le dictionnaire COBUILD dans les ann es 80 n tait pas seulement une r volution lexicographique avec le premier dictionnaire bas sur corpus mais galement une r volution dans le monde de la linguistique outre Manche La linguistique de corpus bas e sur des corpus constitu s selon des crit res pr cis Atkins et al 1992 Biber 1993 est devenue la norme Les deux types de corpus et donc d approches sont ils incompatibles La r ponse est videmment non L optique ne sera pas la m me mais les outils peuvent l tre Le but diff re d une approche l autre un corpus litt raire est surtout employ pour caract riser le style d un auteur ou d un genre et le corpus constitu pour caract riser et g n raliser sur une langue Il suffit de respecter les sp cificit s et les exigences des deux approches Au fond qu est ce qu un corpus Une collection de textes sous format num rique La nature du corpus prototypique variera selon l approche mais dans les deux cas le corpus est constitu par un assemblage de textes homog nes et assembl s dans un but pr cis Il est m me imp ratif de ne pas oublier le texte puisque notre for t linguistique est constitu e d arbres textuels et la for t ne doit pas cacher les arbres qui la constituent De plus nous ne pouvons pas v ritablement parler de corpus mais la m me approche peut parfaitement bien tre appliqu
278. habert Cours PX BHabertOutillerLaLinguistiqueT ableRondeTALNO2 pdf Leeman D 2000 Compl ments circonstanciels ou appositions Langue fran aise n 125 Paris Larousse p 19 29 Melis 1 2003 Le groupe pr positif comme d terminant du nom in Haderman P Van Slijcke A Berr M ds La syntaxe raisonn e M langes de linguistique g n rale et fran aise offerts Annie Boone Bruxelles Paris De Boeck Duculot p 235 250 Mellet S 2002 Corpus et recherches linguistiques Introduction Corpus n 1 Nice Publications de la Facult des Lettres Arts et Sciences humaines de Nice p 5 12 Milner J C 1978 De la syntaxe l interpr tation Quantit s insultes exclamations Paris Editions du Seuil Normand C 1972 De quelques notions fondamentales sur un enseignement d initiation la linguistique Langue fran aise n 14 Paris Larousse p 32 56 Picabia L Zribi Hertz A 1981 D couvrir la grammaire fran aise Une introduction active la linguistique fran aise et g n rale Paris CEDIC Riegel M Pellat J C Rioul R 1994 Grammaire m thodique du fran ais Paris PUF 221 Sampson J 1994 Susanne a domesday book of english grammar in Oostdijk N De Haan P ds Corpus Based Research into Language Amsterdam Rodopi p 169 187 Saussure F de 1972 Cours de linguistique g n rale Paris Payot 1 d 1916 Sinclair J 1996
279. hors texte et en les soumettant la lemmatisation de Cordial Nos chiffres sont l g rement et constamment inf rieurs de 1 en moyenne ce qui n a aucune influence sur l analyse 16 Elles portent sur les graphies les parties du discours les structures syntaxiques la segmentation de la phrase la longueur des mots les classes de fr quence etc La convergence est au rendez vous mais la place nous manque pour d velopper ces points de vue On est loin 39 d avoir tout dit sur un texte quand on a fait le relev des lemmes Bien d autres aspects doivent tre envisag s qui font intervenir la syntaxe la th matique la m trique 17 Pouss par un scrupule de derni re minute nous avons soumis le corpus un autre calcul de distance connu sous le nom de corr lation de Bernouilli et propos par tienne vrard d s 1966 tude des dialectes bantous in Statistique et analyse linguistique PUF p 85 103 Ce coefficient et sa variante simplifi e sont du type Jaccard les relev s portent sur la pr sence absence et figurent en bon rang dans la liste tablie par Baulieu voir note 12 Les r sultats sont tout fait superposables ceux du graphique 7 40 ANALYSE LEXICOM TRIQUE DE L OPPOSITION G N RIQUE DANS UNE PERSPECTIVE ENDOGENE Margareta Kastberg Sj blom ILF CNRS Bases Corpus et Langage UMR 6039 1 INTRODUCTION La notion de genre et notamment de genre litt raire reste encore aujourd
280. i qui fournit des renseignements la police et informer celui qui fournit des renseignements un journaliste un linguiste etc Builles 1998 p 60 6 L emploi de corpus forg s permet au linguiste d avoir la langue accessible travers une s rie toujours ouverte de nouveaux nonc s spontan s ou provoqu s Riegel et al 1994 p 19 Et d un point de vue quantitatif le fait d avoir acc s la langue dans son ensemble et non uniquement un chantillon comme c est le cas avec les corpus attest s offre d autres possibilit s N tant plus limit s en nombre les chantillons de performance tayent les hypoth ses sur la langue mais permettent aussi leurs v rifications en les confrontant de nouvelles donn es Ibidem 7 Insistons sur le fait que rien n est dit sur le recueil des donn es comment on proc de sur quoi on op re sur quels types de donn es Finalement la notion de corpus semble acquise et admise par l ensemble des linguistes qui l emploient sans juger utile de la d finir comme allant de soi la consultation de diff rents ouvrages dont l analyse est propos e ici nous a permis d observer que cette notion est souvent esquiv e ou non explicit e 8 Moi je suis de la France Je ne dis pas je suis la France Je suis de la France Toutes mes pens es toutes mes fa ons d tre toutes mes sensations toutes mes vibrations elles sont de
281. ier 108 5 SOURCES DU CORPUS Albi C Jones W C 1982 Otto Perry Master Railroad Photographer Golden Colo Colorado Railroad Museum Boocock C 1986 BR Steam in Colour 1948 1968 London Jan Allan Classic Trains USA Collias J G 1972 The Search for Steam Forest Park Ill Del Vecchio M 1998 Pictorial History of America s Railroads Godalming Quadrillion Edmonson H Hand V 1970 World Steam in Action Shepperton Ian Allan Gilbertson C B 1977 Steam in Australia Truro Bradford Barton Leitch D 1997 The Best of New Zealand Steam Auckland Image Publications Ltd Steam Days UK 6 ANNEXE PHRASES NOYAUX REFERANT A UNE MONTEE 6 1 Expressions neutres One of the competent Xs X climbs the Lickey incline with a northbound passenger working in D Ex GW X climbs towards Talerddig with the up Cambrian Coast Express Not long before the end of steam there X climbs past Smallbrook Junction near Ryde with a train for the Shanklin line With X up front and an X shoving behind the caboose an NYS westbound climbs the 1 1 percent grade at West Lafayette X_heads up the in 25 incline to Roa 2 7 km further on from Blackball on D Another X ascends the Bank the same month X on no 168 goods to Springfield climbs the bank in the evening of D On D X leads a four engine freight up Raton Pass at 30 mph near Morley Colorado In D aging X pauses for water a
282. ier ne seront pas n cessairement non plus pris en compte lors de la recherche de collocateurs les collocations rep r es peuvent ainsi correspondre des constructions diff rentes 24 Il est probable que ces outils aient t con us pour travailler sur des corpus particuli rement volumineux et que lorsqu ils les explorent la quantit finisse par lisser ces dysfonctionnements Il n en demeure pas moins que ces outils traitent la segmentation des nonc s de mani re linguistiquement peu pertinente et qu exploit s sur des corpus de taille modeste ils g n rent du bruit 25 L ontologie des actions de jeu du football a t tablie avec la tr s pr cieuse collaboration de Fran ois et Pierre Corbin qui par leur connaissance des r gles et strat gies de ce jeu collectif lui ont donn sa forme premi re et sa qualit descriptive Elle a t ensuite interactivement enrichie et corrig e partir d observations formul es lors de d pouillements du corpus men es par les tudiants de la promotion 2002 2003 du DESS LTTAC Pierre Corbin et moi m me Pierre Corbin para tre 5 revient sur sa description et son exploitation 26 Certains de ces param tres sont applicables plus largement tous les sports collectifs de ballon 27 Certains de ces mots cl s comme ceux mentionn s ici ont une certaine vidence d autres comme axe dans l axe ou retrait en retrait ne nous apparaissent comme int res
283. if a parfois t appliqu sur des diall les l mentaires n incluant que trois testeurs Ces cas de reformulation sont des cas de non correspondance que l algorithme de propagation n est pour le moment pas en mesure de rep rer En effet la relation qui sert de base la propagation est bien pr sente dans les deux langues model et mod le sont chacun sujet d un verbe il n en reste pas moins que les verbes en question ne sont pas en relation d quivalence et ne doivent donc pas tre appari s Il existe par contre des cas de non correspondance qu il est facile de rep rer automatiquement Il s agit de ceux o la relation l aide de laquelle on souhaite propager les liens d quivalence la relation SUJET ou OBJET dans cette tude est pr sente dans l une des deux langues et pas dans l autre 7 3 Cas de non correspondance Le tableau 3 ci dessous pr sente la mani re dont se r partissent les cas de non correspondance en termes de relations syntaxiques identifi es Il montre que l on trouve la m me relation dans les deux langues dans pr s de 65 des cas On dira alors qu il y a un parall lisme dans les deux langues Par cons quent le parall lisme n est pas respect dans les 35 des cas restants Ces cas de non correspondance sont tr s int ressants observer dans la mesure o ils peuvent r v ler des r gularit s interlingues et permettre d identifier les relations susceptib
284. iggs et Blanc 1971 Pendant une demi heure le locuteur parle d un sujet d fini en pr alable l enregistrement Nous sommes intervenues le moins possible dans le 115 discours du locuteur nous le relancions parfois en posant une question ouverte ce qui permettait de d velopper un point pr cis ou de relancer son discours lorsqu il y avait essoufflement et que manifestement le locuteur tait court d id es D autres param tres se r v lent importants lors de l enregistrement le lieu la position des locuteurs l intervention ou non de l enqu teur etc Nous en pr senterons quelques uns au troisi me point de cette partie Auparavant observons dans le d tail les crit res retenus pour la s lection des locuteurs ainsi que le mat riel que nous avons utilis 2 3 M thode retenue pour les enqu tes Le recueil des donn es est une tape non n gligeable de la constitution d un corpus d une part le travail est tr s long qu il s agisse des enqu tes de terrain ou de la transcription et d autre part la qualit de l analyse d pend essentiellement de celle du corpus c est pourquoi il nous semble pertinent de pr senter la m thode d taill e du travail d enqu te qu il s agisse des crit res de s lection des locuteurs ou des probl mes d s dans notre corpus la coh rence th matique ou ceux inh rents tout enregistrement de discours Cette partie montrera donc les p
285. il a fix le jeune Jody Viviani qui est rentr tout l heure apr s la blessure de Rudy Riou et il inscrit le deuxi me but lensois qui peut sans perte d informations utiles la compr hension du contexte pour illustrer le verbe fixer tre reformul ainsi Utaka parti lanc par Bakari a couru une bonne trentaine de m tres avec le ballon il a fix le jeune Jody Viviani et il inscrit le deuxi me but lensois Le balisage mis en place dans le Corpus foot de multiplex transcrits permet galement d acc der des donn es sp cifiques comme i des onomatop es ou interjections non encore r pertori es qui particuli res aux nonc s de ce type ou non peuvent enrichir les nomenclatures des ouvrages qui leur sont d di s ii des prononciations suppos es d viantes d viances qui pourront tre valid es ou infirm es en quantifiant leur r gularit cf la pr dominance possible de tefese sur teefse cf note 9 etc Enfin d autres extractions peuvent tre conduites pour avancer dans la connaissance de la structuration conceptuelle de la langue sp cialis e de diffusion massive ici l expression en fran ais d exp riences du football Elles vont m occuper ci apr s 4 2 Des extractions strat giquement coupl es une ontologie Le dernier point de ce t moignage concerne des extractions qui ont t men es en suivant un protocole sp cifique pour tirer un meilleur profit des donn es nous avons
286. il cite La formule que je propose depuis dix ans pour mesurer la distance lexicale est d riv e de celle de Jaccard Elle s crit comme suit d a ab a b ab b o ab d signe la partie commune aux vocabulaires a et b a ab et b ab recouvrant les parties privatives Nulle part on n y fait intervenir la fr quence des mots Fia et Fib et la taille des textes Na et Nb ingr dients de la formule qu on m attribue et qui se trouve r p t e une fois de plus dans l article de Labb Inter textual distance and authorship attribution Journal of Quantitative Linguistics 2001 vol 8 n 3 p 215 Enfin pour en finir avec les all gations inexactes aucun logiciel digne de ce nom ne traite diff remment les minuscules et les majuscules qu on trouve en t te de vers ou en t te de phrase Labb croit voir l un d faut qui discr dite les travaux lexicom triques portant sur les vers Tous les utilisateurs d Hyperbase savent que la majuscule est neutralis e dans l indexation et les traitements Ils y trouveront aussi p 58 du manuel la formule de Jaccard que le logiciel exploite et que je viens d expliciter 9 D Labb R ponse mes contradicteurs l adresse Internet http www upmf grenoble fr cerat Recherche PagesPerso Labbe html 10 F B Baulieu A classification of Presence Absence Based Dissimilarity Coefficients Journal of Classification 6 233 246 1989 11 Ce manuel publi d ab
287. ine d tudiantes et un tudiant Carey avait apport des fraises et des brownies Les tudiantes taient perplexes J tais contre la guerre mais je ne veux pas tre antiam ricaine a ne devrait pas tre antiam ricain de contester son gouvernement L Am rique nous offre les libert s pourquoi pas celle de la critiquer Moi a ne me g ne pas d tre antiam ricaine Je suis d ue Je voulais m engager dans les Peace Corps coop ration L id e que je repr senterais l Am rique me fait honte Je ne suis pas d accord La honte c tait d insulter les soldats au retour du Vietnam Est ce qu on peut faire la loi dans d autres pays Est ce que le 11 septembre n est pas une r ponse ce qu on a fait au reste du monde Le Monde 27 03 03 2 Po kiekvienos repeticijos specialus asmuo tikrindavo rezultatus skai iuodavo kiek manekeny kliudyta kur pataikiusios kulkos Po to terorist s b davo perkeliamos kitas vietas sal je ir viskas kartojama i naujo IS kur inote kur s d s ios moterys paklausiau savo vadovo Ir kod l jos tur ty laukti kol j s vaikinai pasieks jas i vestibiulio ir koridori Daug inosi prastai miegosi atsikirto jis Ta iau netrukus paai kino Kai k mes jau inome i rov sal je iandien buvo derybininkai atkreip d mesi daug k paskui mums papasakojo Be to vestibiulj Sturmuos visai ki
288. inguist is something like this He sits in a deep soft comfortable armchair with his eyes closed and his hands clasped behind his head Once in a while he opens his eyes sits up abruptly shouting Wow what a neat fact grabs his pencil and writes something down Then he paces around for new hours in the excitement of having come still closer to knowing what language is really like There isn t anybody exactly like this but there are some approximations Corpus 222 linguistics does not have a good name in some linguistics circles A caricature of the corpus linguist is something like this He has all the primary facts that he needs in the form of a corpus of approximately one zillion running words and he sees his job as that of deriving secondary facts from his primary facts At the moment he is busy determining the relative frequencies of the eleven parts of speech as the first word of a sentence versus as the second word of a sentence There isn t anybody exactly like this but there are some approximations L id al pour Fillmore serait que les deux types de linguistes soient r unis en un seul homme 5 En fran ais le terme informateur peut pr ter confusion il fait souvent penser un indicateur c est dire quelqu un qui fournit des renseignements la police ou un autre service plus ou moins officiel En anglais la confusion n existe pas car il existe deux termes distincts informant celu
289. inir les facteurs d terminant la cr ation de la base de donn es quelle que soit la langue reconna tre Le syst me de reconnaissance que nous avons d velopp est class pour la reconnaissance ind pendante du locuteur de mots isol s et encha n s en phrases courtes ou longues autrement dit pour la reconnaissance de la parole continue prononc e par un locuteur quelconque Dans cette optique il y a la n cessit d avoir diff rents corpus qui auront divers styles 2 1 Phrases phon tiquement riches Le premier facteur consid r est la pr sence de tous les sons de la langue but Dans cette t che il faut utiliser de phrases phon tiquement riches c est dire un corpus qui soit repr sentatif de tous les sons de cette langue les phon mes dans leurs contextes plus fr quents L objectif est d entra ner le mieux possible les phon mes de la langue en tude m me les plus rares Il y a l n cessit d avoir des phon mes extr mement rares dans ce corpus parce que son absence dans l entra nement peut d grader la reconnaissance des autres phon mes Ainsi chaque locuteur doit fournir de nombreux exemples de chacun des phon mes du portugais br silien dor navant PB m me les plus rares comme par exemple la consonne lat rale palatale qui est trop peu fr quente au portugais br silien 0 21 Seara 1994 Le Tableau 1 pr sente l exemple d un groupe de phrases phon tiquement riches pour le portu
290. ins l ments en relief ou de rendre le discours plus vivant 2 Il ne t en a jamais parl 253 En d tail non Attends Il me semble qu il m a racont une anecdote une histoire tr s jolie trop A propos de Staline Si c est bien lui qui me l a racont e Frantext non phrases th matiques qui pour leur interpr tation ne d pendent pas uniquement d un cotexte linguistique syntaxe et s mantique et jouent un r le dans le discours Les non phrases th matiques sp cifient comment consid rer une s rie d v nements Elles ne se trouvent pas syst matiquement en continuation directe avec la phrase pr c dente 3 En r alit les Australiens de souche sont inquiets pour leur avenir Sur le plan de la natalit d abord d s l an 2000 leur population va baisser Sur le plan des valeurs ensuite les Australiens sont devenus blas s AJ Dans les exemples 1 3 les non phrases i sont toutes introduites par une pr position qui peut potentiellement tre un introducteur th matique ii sont construites sur le m me patron syntaxique Pr position D terminant Compl ment auquel on trouve parfois adjoint un Modifieur Aucune de ces non phrases n est analysable hors contexte et demande pour son interpr tation au moins une phrase adjacente Les relations interphrastiques ont t soulign es maintes reprises Dea Belkin 1978 Winter 1978 inter alia et sont d autant pl
291. ion changent qu elles voluent et qu elles soient constamment mises en question c est l opposition g n rique qui reste pr pond rante Enfin troisi me crit re d analyse l tude du contenu du discours qui implique la signification des mots les diff rentes cat gories lexicales ainsi que l tude des sp cificit s positives et n gatives permet de d gager les caract ristiques th matiques d une uvre et de son volution 5 LE CONTENU DU DISCOURS Aucun lecteur de Le Cl zio n est surpris par les r sultats de l tude statistique des th mes de l uvre certaines th matiques sont tr s importantes la nature terrestre et marine les couleurs d autres comme le milieu urbain les parties du corps les insectes et le minuscule sont tr s pr sentes au d but de l uvre mais perdent de l importance au fur et mesure que l uvre progresse de plus leur importance varie selon le genre de texte Dans la perspective endog ne les variations l int rieur du corpus sont toutefois importantes et l tude statistique des sp cificit s permet de les cerner Un mot appartient au vocabulaire sp cifique d une partie d un corpus lorsque sa fr quence relative dans ce texte ou dans cette partie s carte significativement de celle observ e dans l ensemble du corpus Si la fr quence dans la partie tudi e est sup rieure la fr quence attendue on dit que le mot est une s
292. ion variante Dans un premier temps nous pallierons ce probl me en permettant une visualisation plus large du contexte de la ST pour validation humaine Mais notre objectif est de parvenir une m thode qui permettrait de s affranchir des fronti res impos es par le terme de d part et de v rifier automatiquement le correct d coupage de la s quence en corpus 5 2 Application des crit res sur une m tar gle d insertion Il est apparu plus probl matique d appliquer nos crit res internes sur les m tar gles d insertion Particuli rement en ce qui concerne la m tar gle initiale X2 N3 X2 lt A N Np V 0 3 gt N3 11 Cultured Cell cultured neoplastic human thyroid cells 12 Growth growth lt decreased tumor cell growth 13 Tumor cells lt lt tumor growth creates cells 14 Cell differentiation lt cell line exhibiting differentiation 15 Thyroid tumor lt thyroid are unrelated malignant tumors 16 Tumor antigen lt tumor associated antigen Aucun crit re morphologique ne peut tre appliqu afin d assurer la correcte d limitation de la s quence en corpus Nous ne pouvons intervenir qu au niveau de la syntaxe en diff renciant les transformations avec et sans l introduction d un verbe la forme conjugu e participative ou g rondive De plus nous contraignons l insertion du verbe imm diatement apr s N2 afin de pr server des structures qui peuvent se r v ler cor
293. ipr sente l oral Elle permet l nonciateur d indiquer de quoi il va parler de donner le th me par rapport auquel il organise son nonc La fonction syntaxique des l ments d tach s est indiqu e par des pronoms clitiques de rappel La construction disloqu e est g n ralement trait e comme un ph nom ne de la langue parl e ainsi que du style parl et pr te souvent aux paroles cit es un ton d oralit la dynamique de l change verbal 12 La sortie menant Ramadi principale ville entre Bagdad et la fronti re jordanienne est contr l e par un barrage policier Le responsable ne veut pas dire son nom mais il insiste pour que ses propos soient rapport s Les Am ricains mentent ils disent qu ils n en veulent qu Saddam Hussein mais ils bombardent la route Mais qui l emprunte cette route Des civils seulement Lib ration 27 03 03 soulign par moi 13 Mais c tait nous Irakiens de le renverser Nous avons essay et chou plusieurs fois Nous aurions d essayer encore et encore Maintenant la victoire est eux les infid les Pas nous Hassan a 30 ans Maithan 25 En d autres temps ils auraient pu tre ing nieur ou enseignant Le Monde 10 04 03 Dans la langue lituanienne l oral on remarque une tendance de simplification des constructions syntaxiques ainsi que l emploi des phrases lliptiques sous la loi de l conomie linguistique En plu
294. iques dans les m tar gles afin d am liorer l extraction Les avantages et les limites d une telle approche sont analys s 15 Le dernier article dans ce recueil est celui de Perlerin et Ferrari L article constitue une conclusion tout fait pertinente ces Actes qui illustrent la richesse des approches possibles en linguistique de corpus puisqu il s agit d explorer la n cessit d interaction entre le TAL et la linguistique de corpus La situation est complexe quand il s agit de pr senter des outils TAL des novices qui ne sont pas conscients des contraintes pos es par la constitution d un corpus Dans cette introduction au mod le LUCIA et l outil LUCIABUILDER une mani re de combler cette lacune est d crite avec une tude de cas Il peut y avoir un risque de fracture entre les pratiquants d un TAL formalisant o le corpus n existe que pour valider des r sultats obtenus par la machine et une linguistique descriptive qui utilise les corpus pour comprendre et d crire l interaction humaine Cependant chaque discipline peut apporter l autre si des ponts et des lieux d change existent Les Journ es de la Linguistique de Corpus sont un lieu de rencontres rencontre entre disciplines rencontre entre approches et surtout rencontre entre chercheurs L ambiance conviviale la confrontation d id es sont des aspects cruciaux Les textes assembl s dans ce recueil montrent le dynamisme des tu
295. ire L article a pour but de d crire les manifestations du discours direct dans la presse politique fran aise et lituanienne et ses modes de l oralisation de l crit Dans ce but nous pr sentons la d finition du DD analys des niveaux diff rents linguistiques syntaxe lexique qui prouvent la pr sence du langage oral dans l crit Le probl me de l oralisation du discours direct dans la presse politique est analys par le moyen des m thodes descriptive et comparative L tude 165 comparative qui situe nos recherches dans l axe de l espace presse de diff rents pays permet de faire appara tre les constantes du sous genre ainsi que les variantes propres la presse de chaque pays Pendant la derni re d cennie apr s 1991 la presse politique lituanienne a subi beaucoup de changements Les recherches linguistiques contrastives nous permettent de remarquer certaines tendances de la strat gie discursive de la presse actuelle lituanienne et fran aise tant v hicule d information la presse utilise plusieurs moyens possibles pour introduire des voix t moins afin de parvenir son tout premier but celui d informer et int resser L analyse du corpus comparable sp cialis montre la pr sence massive des citations qui confirment les paroles du journaliste cr ent l effet d objectivit d authenticit Le discours direct peut aussi tre employ pour de pareilles raisons mais il est utilis
296. irectement comme en 4 101 4 In a typical suburban working X approaches Roma Street with a set of side loading cars Ailleurs il est explicitement indiqu qu il s agit d une photographie d une sc ne ou d une vue 5 In a view from D the X by then owned by the RGS although its tender still bore D amp RGW lettering eases down Dallas Divide toward Ridgway with a train of sheep on their way to winter pasture Nous parlons alors de mise en perspective Le verbe d v nement est la forme qui dans la phrase noyau r f re a l v nement Dans l exemple suivant du fait de la mise en perspective le verbe d v nement soulign est une forme non conjugu e cas minoritaire dans le corpus concernant 10 des 511 phrases noyaux contenant un verbe d v nement 6 On D this locomotive was captured approaching North Blyth with coal for shipment at the nearby staithes La faible tendue des textes et la forte contrainte de contenu rendent un tel nano corpus apte a faire ressortir des param tres ayant des cons quences linguistiques rep rables Parmi les nombreux points linguistiques dignes d int r t nous discuterons de faits de genre grammatical et du c t du lexique de l expression de l immobilit et du mouvement 2 GENRE GRAMMATICAL On sait que si l anglais n a pas de genre grammatical proprement parler et que les ph nom nes d accord du type genre ne s y manife
297. isag e Nous avons dans notre exemple un 185 tableau 35 lignes curieux et ses synonymes et 25 colonnes substantifs dont de nombreuses cases sont vides puisque sur les 1750 paires Nom Adjectif possibles seules 414 sont effectivement attest es dans notre corpus ce qui refl te ce que Coseriu nomme les solidarit s lexicales de type s lection Coseriu 2001 Ce tableau peut s assimiler tr s facilement la matrice d adjacence d un graphe valu si l on consid re que ce graphe repr sente la relation de cooccurrence et que chaque ar te porte comme valeur le nombre de cooccurrences pour la paire consid r e 4 LES SIMILITUDES D EMPLOI De la m me mani re que nous avons d fini une similitude paradigmatique nous pouvons pr sent d finir une similitude syntagmatique ou similitude d emploi entre les synonymes partir des donn es du tableau des cooccurrences Toutefois comme il s agit de comparer les pr f rences d emploi de chaque adjectif avec chaque substantif de la liste il faut pond rer les donn es pour ne pas tenir compte de la fr quence absolue de chacun des adjectifs nous ramenons ainsi chaque valeur du tableau un pourcentage calcul en divisant cette valeur par le nombre total d occurrences de l adjectif Nous calculons ensuite la similitude d emploi en utilisant un indice adapt aux donn es num riques en l occurrence l indice de Steinhaus cf Legen
298. isager le plus grand nombre d application De plus dans plusieurs applications des syst mes de reconnaissance de la parole les mots reconna tre sont OUI et NON Ils servent confirmer ou pas les r sultats des commandes vocales De cette fa on il a t con u un corpus de questions ayant comme r ponse OUI NON Dans ce cas nous essayons de trouver un quilibre entre les questions qui auraient les r ponses OUI et celles avec les r ponses NON Tableau 5 Questions R ponses possibles Voc esta falando de um telefone OUI NON fixo Vous tes en train de parler par un t l phone fixe Voc esta falando de um telefone celular OUI NON Vous tes en train de parler par un t l phone mobile Voc do sexo feminino Vous tes du sexe f minin OUI NON Voc do sexo masculino Vous tes du sexe masculin OUI NON Tableau 5 Exemple d un corpus pour avoir des r ponses OUI NON 203 3 LES ENREGISTREMENTS En ce qui concerne les applications des syst mes de reconnaissance de la parole multilocuteurs il nous semble que les diff rents corpus pr sent s dans cette tude sont indispensables De plus les enregistrements ont t faits dans les environnements qui avaient une tr s grande variabilit acoustique bruit de fond pr sence de musique parole superpos e etc circonstance id al pour ces enregistrements car le syst me doit tre capable de fonctionner propreme
299. issances du sujet lui permettent d appr hender certains indices sp cifiques par exemple le nuage de fum e sortant de la chemin e est un indicateur du travail de la machine et donc du bruit produit et sa forme d pend de la vitesse Au besoin le contenu de la l gende viendra attirer l attention sur tel ou tel d tail ou apportera une information que la photographie est impuissante pr server comme le tintement d une cloche ou le froid qui r gnait 100 Certaines l gendes sont limit es une phrase comme l exemple suivant 1 Rebuilt Patriot 4 6 0 Illustrious heads a down express near Lancaster in 1962 D autres sont plus longues et comportent plusieurs phrases comme la suivante de longueur moyenne extraite du m me ouvrage 2 Fowler produced some of the LMS Class 3 2 6 2Ts with condensing apparatus in an attempt to reduce exhaust emissions in long tunnel sections such as the London Metropolitan widened lines No 40024 was pictured at Moorgate between duties in 1959 with early LT stock as a background Dans ce cas il y a presque toujours une phrase que nous d nommerons phrase noyau qui d crit elle seule l v nement Celle de l exemple 2 est soulign e Les autres phrases apportent des informations ext rieures a l v nement comme des d tails sur la biographie de la locomotive sur sa classe sur les pratiques ferroviaires sur le parcours d un train sur le site et
300. it d p che CHARLOTTE N C Sept 13 ICNWI United Dominion Industries Ltd NYSE TSE UDI a manufacturer of diversified engineered products today announced the appointment of John G MacKay 56 to the newly created position of executive vice president Europe Mr MacKay who has been president of United Dominion s Industrial Products Segment will be responsible for working with various operating units and the corporate staff to enlarge the company s presence in Europe through acquisitions joint ventures and other strategic alliances He will be based in Europe at a site to be determined R sum produit United Dominion Industries Ltd appoints John G MacKay as executive vice president Fiches extraites templates Trois entit s ont ici t identifi es un v nement de succession l organisation et la personne concern e Les champs de chaque fiche sp cifient les liens avec les autres entit s ou des informations conserv es sous forme de texte mais dont on a rep r et typ la nature poste nom titre lt EVENEMENT DE SUCCESSION c2097 english txt 16 gt ORGANISATION lt ORGANISATION c2097 english txt 43 gt POSTE executive vice president PERSONNE lt PERSONNE c2097 english txt 48 gt RAISON DU POSTE VACANT AUTRE INCONNU lt ORGANISATION c2097 english txt 43 gt NOM United Dominion Industries Ltd AUTRES NOM United Dominion UDI TYPE COMPAGNIE lt PERSONNE c2097 english txt 48 g
301. it courants ne sont pas applicables sur des effectifs aussi faibles 3 Sibling est un terme de d mographie biologie psychologie etc 4 Les dictionnaires pour apprenants pr sentent l int r t d avoir des d finitions plus labor es et un classement fr quentiel des divers sens des entr es polys miques 5 C est galement le cas de l Oxford English Dictionary et du Concise Oxford Dictionary mais pas du Collins COBUILD 112 LE CORPUS ET LA PRAGMATIQUE UNE HYPOTH SE SUR L EMPLOI CONTRASTIF DE L IMPARFAIT ET DU PASS COMPOS Lidia Fraczak St phanie Giron Universit de Clermont Ferrand II LRL 1 INTRODUCTION Dans ce travail nous partons de l id e que l tude du fran ais parl effectu e partir d un corpus informatis de langue orale peut servir de nombreux chercheurs dans des domaines aussi vari s que la syntaxe la pragmatique ou encore la sociolinguistique urbaine pour n en citer que quelques uns En effet comme le signale C Blanche Benveniste Bilger 2000 nous assistons actuellement une reconversion compl te des tudes linguistiques qui ne pourront plus se passer d ici peu de la consultation des ressources de langue informatis es Comme ils sont mformatis s ils les corpus se pr tent facilement a des structurations internes en sous corpus Comme ils contiennent des donn es attest es dont on peut v rifier les sources ils engagent a faire un travail d
302. it s lexicales n ologiques Nous pouvons d j conclure propos de la productivit des proc d s de formation des mat riels d pouill s qui se pr sente d apr s le sch ma suivant cf tableau 1 d rivation par pr fixation 30 des donn es composition par subordination 19 des donn es emprunt 17 des donn es 91 formation syntagmatique 13 des donn es d rivation suffixale 8 des donn es composition par coordination 5 des donn es n ologie s mantique 3 des donn es autres proc d s 5 des donn es Ces r sultats montrent que dans le corpus analys les n ologismes vernaculaires les d riv s par pr fixation et les compos s par subordination sont les proc d s les plus employ s et correspondent 83 des unit s lexicales n ologiques Les mots trangers ne correspondent qu a 17 des unit s lexicales n ologiques dont 68 constituent des hapax E composition par coordination O composition par subordination El d rivation par pr fixation El d rivation par suffixation E emprunt Aformation syntagmatique ologie s mantique autres proc d s Tableau 1 Proc d s d innovation lexicale D autres r sultats concernent l emploi des formants affixaux pr fixes et suffixes les plus productifs dans la p riode et dans le corpus tudi L analyse des d riv s suffixaux nous d montre que les suffixes les plus
303. ite partir de nombreux attributs le graphe ainsi obtenu peut tre relativement complexe et difficile lire Il est de ce fait possible de pr ciser un nombre maximal de diff rences requises pour tracer les arcs entre rectangles Dans la figure 3 le graphe trac est contraint une diff rence pr s les arcs dessin s sont donc tiquet s par un attribut au maximum Ce e Evaluation Evaluation Evaluation Diregtion Figure 3 Repr sentation en topique une diff rence pr s Pour les Ph nom nes dynamiques de La Bourse l utilisateur a diff renci entre autre baisse des cours et hausse des cours par une actualisation diff rente de l attribut Direction Les repr sentations en topiques permettent d appr cier la structure diff rentielle engendr e par les attributs consid r s Dans le cadre d une cr ation de ressources lexicales par un utilisateur novice elles lui sont particuli rement utiles pour v rifier la coh rence des descriptions engendr es par les combinaisons de valeurs d attributs l origine de chaque table L utilisation conjointe d un tiquetage des arcs par les attributs et des entr es lexicales lorsque c est possible permet selon nous une familiarisation avec diff rentes notions utilisateur apprend s abstraire du contenu lexical de chaque ligne pour n en retenir ventuellement qu un repr sentant unique
304. ite de cette exp rience avec d autres mais au del j esp re qu elle pourra utilement nourrir la r flexion de ceux qui aspirent r diger ou r digent des r pertoires m talinguistiques en utilisant des corpus comme ressource documentaire 6 R F RENCES Bromberger Ch dir 2002 Passions ordinaires Football jardinage g n alogie concours de dict e Paris Hachette Litt ratures Corbin P 2005 para tre Des occurrences discursives aux contextualisations dictionnairiques l ments d une recherche en cours sur l expression en fran ais d exp riences du football in M Heinz d Entre d finition et citation l exemple lexicographique dans les dictionnaires fran ais contemporains Max Niemeyer Verlag T bingen Dictionnaire Hachette Paris Hachette Livres 2003 Enckel P amp Rezeau P 2003 Dictionnaire des onomatop es Paris Presses Universitaires de France quipe DELIC 2004 Pr sentation du Corpus de r f rence du fran ais parl in P Cappeau d Autour du corpus de r f rence du fran ais parl Recherches sur le fran ais parl 18 Universit de Provence p 11 42 Gasiglia N 2004 Faire coop rer deux concordanciers analyseurs pour optimiser les extractions en corpus in B Habert dir Linguistique et informatique nouveaux d fis Revue Fran aise de Linguistique Appliqu e volume IX 1 p 45 62 Gasiglia N 2005 para tre Strat
305. jet ou un humain avec un contour concret plus ou moins pr cis de des f forme longue 1054 92 Tableau 3 Genre grammatical et choix entre de et des Le tableau 3 indique le r sultat sous ces conditions l adjectif au masculin a tendance appara tre avec des et celui au f minin avec de X 69 78 dl 1 p lt 01 On peut interpr ter ce r sultat de la m me mani re que le pr c dent plus l adjectif est long avec sa forme f minine plus de est choisi plus l adjectif est court avec la forme masculine plus des est choisi Figure 5 m f et genre de texte 2e moiti du 20e si cle noms abstraits taux de des 40 30 20 10 0 Nous pouvons constater cette m me tendance dans la figure 5 le taux de des est constamment plus lev avec la forme masculine qu avec la f minine 139 dans tous les genres des textes contemporains La comparaison de la figure 5 et de la figure 4 pr c dente nous permet de faire remarquer que la forme des courbes graphiques est presque identique sur les deux figures les lignes s approchent dans les journaux et dans Hansard et elles s cartent dans les Forums de discussion ces faits ne sont tout de m me pas faciles interpr ter Ce qui signifierait que ces deux crit res liaison et genre grammatical ont la m me nature Ils concernent la longueur phonique des mots En d autres termes c est la question du poids
306. journaliste se pr sentent comme des m diateurs objectifs transformant l article en texte plusieurs voix La probl matique d immixtion de voix multiples dans le texte monologal examin e par M Bakhtine dans l analyse des uvres litt raires par exemple de Dosto evski dans le but de mieux les caract riser a t exploit e par beaucoup d autres linguistes Julia Kristeva analyse de l intertextualit O Ducrot analyse de la polyphonie Jaqueline Authier analyse de l h t rog n it montr e et l h t rog n it constitutive etc L h t rog n it des textes se manifeste par la pr sence de plusieurs voix l abondance de citations des discours rapport s etc Dans cet article nous nous int ressons une forme explicite du discours rapport codifi e par la grammaire classique sous le nom du discours direct DD Notre analyse a t largement inspir e par les travaux de J Authier L Rosier D Maingueneau et d autres linguistes Le discours direct qui fait l objet de notre analyse est tudi dans le corpus comparable sp cialis d une taille d un million d occurrences constitu d articles de la presse politique fran aise Le monde Lib ration et lituanienne Lietuvos rytas Lietuvos Zinios qui datent de 2001 2003 Ce corpus ne contient ni interviews ni d bats ni entretiens Il est constitu d articles politiques de la presse crite des genres information et commenta
307. l L insertion d une coordination et d un substantif sa droite peut clater le groupe nominal initial en deux groupes totalement ind pendants 1 L insertion d une pr position risque de modifier ou d introduire des relations actancielles entre les l ments qui ne respectent pas le sens initial 2 Dans le premier cas il faut autoriser soit l introduction d un adjectif gauche de la coordination suivie de l insertion de n importe quelle unit sa droite soit l introduction d un substantif sans autre insertion 3 Dans le second cas l introduction de la pr position of garantit la pr servation du sens initial 4 alors que la pr position in n est s mantiquement acceptable que si le terme initial exprime une relation m ronymique ou locative entre la t te et l expansion 5 D FINITION DE CRIT RES SYNTAXIQUES ET MORPHO SYNTAXIQUES Notre objectif est de parvenir une meilleure reconnaissance de la variation syntaxique par le syst me en obtenant des m tar gles plus filtrantes Nous cherchons intervenir sur ces m tar gles afin qu elles soient en mesure de pr server les rapports de d pendance entre t tes et expansions lors des transformations linguistiques L analyse linguistique des ST de notre corpus nous am ne d finir deux types de crit res qui vont contraindre les m tar gles ne pas disloquer les d pendances le crit re syntaxique par la modification des expressions r
308. la France Habert et al 1997 p 9 Cet exemple extrait du corpus Mitterand met bien en vidence qu il n est pas facile d tablir des distinctions tranch es entre les r alisations langagi res jug es acceptables et celles jug es non acceptables puisque les constructions employ es par F Mitterand paraissent pour certaines agrammaticales Or le Pr sident les a employ es et son insistance montre qu il est conscient des structures nonc es elles ne rel vent pas du lapsus 9 Comme cela se fait dans les recherches actuelles en linguistique de corpus cf Habert et al 1997 et plus r cemment les communications de Gasiglia Arnaud Alves Fujimura Manguin aux 3 Journ es de la Linguistique de Corpus Lorient septembre 2003 10 Nous entendons par corpus une banque de donn es ouvertes qui sera aliment e et toff e r guli rement en fonction des exemples rencontr s et des pr occupations de recherches Notre corpus sera donc centr sur des nonc s constitu s de la pr position dans et on le jugera satur pour des raisons mat rielles au moment de finaliser notre th se 11 Il faut pour ce faire bien entendu travailler sur le m me sujet 12 Notons toutefois qu une base de donn es n cessite un travail long et fastidieux de mise en place en effet il faut dans un premier temps d finir quels sont les l ments que l on veut y voir figurer et comment on souhaite que cela s organise la mise
309. langue au cours du temps En effet un locuteur de 70 ans emploiera quelques tournures et parfois quelques mots issus du patois que n emploierait pas un autre locuteur de 18 ou de 40 ans notamment le pass surcompos employ par les locuteurs de plus de 65 ans mais tr s rarement par les autres comme F Gadet le souligne ibid Du fait qu une langue est perp tuellement en volution certains traits sont parfois r alis s diff remment chez les jeunes et chez les vieux Par exemple en fran ais il y a une disparition lente mais progressive de l opposition entre a et a entre et ce entre le e du futur et le e du conditionnel chez les jeunes locuteurs Au niveau lexicologique notons un emploi plus syst matique de termes argotiques dans la jeunesse Nous venons de passer en revue les trois crit res de s lection que nous avons retenus pour nos enqu tes Une fois cette tape achev e l enqu teur doit trouver les personnes y correspondant La t che se r v le plus ou moins ais e selon qu il conna t ou non la localit sur laquelle il travaille Elle peut l tre aussi cause de tout autre ph nom ne que nous n tudierons pas ici et qui peuvent tre aussi bien li s la timidit de l enqu teur sa capacit d adaptation sociale ou encore la relation m me qu il entretient avec le locuteur qu il interroge La qualit du mat riel utilis pour mener
310. lation entre la place des adjectifs et le fait qu ils expriment la beaut technique du geste un superbe tacle ou qu ils 158 marquent sa p rillosit son irr gularit un tacle dangereux ce qui se traduit par la mise en place de classes de qualificatifs valeur positive ou n gative permettant de discriminer ensuite automatiquement lors de futures explorations les facles qui sont de beaux gestes techniques nonc s a d et ceux qui sont des actions p naliser e a 1 a il est repris par Zikos qui r ussit tacler ce ballon b Meniri est revenu tacler au dernier moment Vairelles pour mettre le ballon en corner c heureusement pour les Sochaliens Saveljic est revenu pour tacler dans les pieds de l attaquant havrais d c est David Sommeil qui a sauv dans un tacle gliss du plus bel effet e le premier carton pour adress Bonnal pour un tacle dangereux f ila t victime d un tacle relativement appuy de St phane Noro g David R gis qui vient de faire un tacle absolument assassin h grosse faute tacle par derri re sur Xavier Becas i l expulsion d Anthony Bancarel pour un tr s vilain tacle par derri re sur Buengo 3 de noms ou de syntagmes nominaux permettant de distinguer les joueurs attaquants ou d fenseurs joueurs de champ ou gardiens de but etc ce qui dans le cadre de l analyse de verbes tr s bien repr sent s comme se d gager permet de subdiviser la
311. le cadre d un processus de fouille de donn es textuelles appliqu la g nomique du cancer de la thyro de section 3 L tude de l ensemble des variations produites lors de cette proc dure section 4 a fait merger deux principaux ph nom nes linguistiques l origine de mauvaises variations d une part des erreurs de d limitation de la s quence textuelle en corpus et d autre part des rapports de d pendance modifi s par insertion d une unit linguistique lexicale et ou grammaticale pendant la transformation section 4 2 Cette tude a galement permis de mettre en vidence le comportement de l expert face la validation de l indexation qui traduit de la volont de produire de l information implicite section 4 1 partir de cette analyse nous proposons un ensemble de crit res morphologiques flexionnels et d rivationnels et syntaxiques visant maintenir les relations de d pendance initiales lors de la transformation et augmenter ainsi la proportion des variations syntaxiques linguistiquement valides section 5 extraites par le syst me 2 TRAITEMENTS LINGUISTIQUES POUR L EXTRACTION TERMINOLOGIQUE EN CORPUS 2 1 Reconnaissance versus acquisition terminologique Il est couramment admis que les termes sont les repr sentants linguistiques des concepts des tiquettes de concept Bourigault et Jacquemin 2000 et forment des indicateurs privil gi s de la connaissance port e p
312. le est plus l g re donc am ne plus de des dans le cas contraire Il faut enfin remarquer que ce sont des crit res exactement identiques ceux propos s pour r soudre la question de l ordre des mots Le crit re de p riode dans l histoire n est pas int grer dans la notion de poids Par contre le genre de texte ne serait pas impossible envisager en tant que facteur du poids On peut dire en g n ral que plus le style du texte est soutenu plus l information qui s y trouve est dense plus il est rel ch moins elle l est L information transmise par l pith te ant pos e pourrait donc tre plus abondante ou plus pr dicative dans les textes du registre soutenu que dans la conversation rel ch e Il ne serait donc pas possible de rendre compte de la tendance l occurrence tr s lev e de de dans les textes acad miques non seulement du point de vue purement stylistique mais aussi du point de vue de la quantit d informations que v hicule l pith te 7 R F RENCES Abeill A amp Godard D 2000 French Word Order and Lexical Weight in R Borsley ed The Nature and Function of Syntactic Categories Syntax and Semantics 32 p 325 360 Arnold J Wasow Th Losongco A et Ginstrom R 2000 Heaviness vs Newness The effects of complexity and information structure on constituent ordering Language 76 p 28 55 Blanche Benveniste Cl et
313. le up the west side of Raton with a relatively short train in D while below X surmounts Glorieta Pass with only 34 cars during a heavy March snow in the previous year X struggles uphill from Milton as it nears the city end of the recently completed Corinda Roma Street quadruplication on a suburban freight train in D In D X tackles the gentle rise out of Stockrington in grand style with a 750 ton non air load en route to Hexham X tackles the Mt Lofty Ranges in fine style on an eastbound goods near Sleeps Hill in D With the knowledge that their demise is imminent X and X struggle up Yandiah Bank towards Booleroo centre Gladstone Wilmington with No 309 goods in D Class leader X thunders uphill out of Gladstone with 1750 tons of ore in tow on No 107 goods in D Santa Fe X gets a roll on as it bites the grades of Cajon Pass just east of San Bernardino California Sound and fury at Summit Tunnel East signalbox on the former Lancashire and Yorkshire Railway trans Pennine route as X blasts uphill out of the Calder Valley with a Healey Mills to Manchester freight An Elgin to Keith via Craigellachie Class H freight which includes a number of cattle wagons in the charge of X is at grips with the steep grades through Glen Fiddich on D Casting its shadow on the grassy embankment between Gorgie East and Craiglockhart on the Edinburgh south side suburban line X of Grangemouth depot struggles up the 1 in 80 gradi
314. lement case case la moyenne arithm tique des deux tableaux de similitudes on obtient alors une repr sentation plus conforme la r alit des donn es de chaque point de vue qui ressemble beaucoup celle r alis e avec les seules similitudes d emploi mais cette fois les classifications hi rarchiques construites avec ces similitudes moyennes ne font pas appara tre de regroupements aberrants D un autre c t les valeurs des similitudes d emploi peuvent r v ler certains choix lexicographiques contestables et par l m me invalider un lien synonymique avec le mot tudi si ces valeurs s av rent trop faibles Par exemple nous avons limin de notre liste de synonymes des adjectifs qui avaient des similitudes d emploi extr mement faibles avec curieux comme sensationnel sim 0 08 et d sireux sim 0 06 Le premier n est mentionn que par un seul de nos dictionnaires sources voir la liste de nos dictionnaires dans la bibliographie tandis que le second correspond un sens qualifi de vieux de notre adjectif curieux En outre la r partition en deux groupes de synonymes au lieu de trois laisse penser qu une connexit entre tous les termes plus ou moins synonymes d int ress refl terait peut tre mieux la r alit du paradigme tudi 5 LA REPR SENTATION DU CONTEXTE Sur la repr sentation graphique pr c demment construite et o figurent les synonymes il est facile de placer les
315. les celles qui sont classiquement observ es quand on compare un nonc effectivement produit ce que serait un nonc attendu en fran ais standard et celles qui sont sp cifiques au domaine observ par exemple ici teefse qui serait une prononciation classique normale est une variante de la prononciation footballistique la plus habituelle semble t il tefese 10 Sont consid r es comme tant des interjections non codifi es celles qui ne sont pas r pertori es dans l un des trois dictionnaires g n raux monovolumes de r f rence utilis s le Petit Robert le Petit Larousse ou le Dictionnaire Hachette ni dans Enckel amp R zeau 2003 11 Pierre Corbin et moi assist s de Vassil Mostrov tudiant de la promotion 2002 2003 du DESS LTTAC puis du DEA Th ories et analyses linguistiques et maintenant doctorant en linguistique l universit Lille IH et vacataire l UMR Silex dans le cadre du projet OuRAL campagne Technolangue sous projet du projet AGILE 12 Ce travail a d but en 2003 2004 13 Je n entrerai pas ici dans le d tail du balisage mis en uvre sous Transcriber Les fichiers de transcription int grent ins r s dans le contenu textuel de chaque l ment correspondant un tour de parole les l ments COMMENTAIRE propos s par Transcriber que nous utilisons pour d limiter les informations correspondant aux sous l ments de l l ment SPEAKER pr sent s Fig 1
316. les de servir de base une propagation indirecte c est dire partir de relations syntaxiques qui sont diff rentes dans les deux langues L tude des cas de non correspondance en fran ais lorsque la relation est SUJET en anglais nous a ainsi permis de mettre au jour un certain nombre de r gularit s que nous comptons exploiter afin d tendre l algorithme de propagation 246 Ns en relation SUJET 2474 100 Cas de correspondance trait s par l algorithme de propagation Nc en relation SUJET 1512 61 1 Nc en relation OBJET Vs au passif 79 3 2 Cas de non correspondance identifi s automatiquement Nc en relation PREP D 419 17 Nc sans relation syntaxique 243 9 8 Nc en relation ATTRIBUT 125 5 Nc en relation OBJET Vs actif 52 2 1 Nc en relation PROREL 30 1 2 Nc en relation EPI 21 0 8 Tableau 3 R partition des cas de non correspondance Relation Prep d Lorsque le Nc est relation PREP D avec un autre mot de la phrase autrement dit lorsqu il est compl ment de nom nous pouvons avoir affaire a une nominalisation ou plus g n ralement selon la terminologie de Vinay et Darbelnet 1958 une transposition verbe nom The manner in which the fungus develops in its host is fairly well known Le mode de d veloppement du champignon dans son h te est assez bien connu b une diff rence d explicitation qui est dans ce cas plus import
317. les et selon un sch ma syntaxique pr cis Il est vident que cette cat gorisation est insuffisante pour d tecter certaines fonctions syntaxiques mais elle permet dans notre cas de capter la fonction d adjectif pith te qui nous servira d exemple Nous montrerons que notre proc d aboutit des repr sentations graphiques d un grand int r t p dagogique ainsi qu des mesures quantitatives caract risant certains emplois de l unit tudi e L exemple choisi est l adjectif curieux qui est suffisamment courant pour fournir un nombre de donn es autorisant certains tests statistiques et qui poss de un int r t linguistique dans le changement de sens induit par son changement de position dans certains contextes nominaux par exemple dans le cas de la synonymie que nous avons choisi d tudier un curieux regard est probablement un regard int ressant tandis qu un regard curieux sera plut t un regard int ress 2 LES DONN ES PARADIGMATIQUES Celles ci sont issues d un dictionnaire de synonymes construit au laboratoire CRISCO partir des donn es provenant de sept dictionnaires de r f rence et d j mentionn dans d autres publications le mod le est d crit dans Ploux et Victorri 1998 l exploitation des donn es pr sentes dans ce dictionnaire se fait gr ce aux outils de la th orie des graphes nous formalisons le 181 dictionnaire comme un graphe dont les sommets sont constitu s par les
318. les formations par suffixation sont tr s nombreuses par rapport aux autres modes de formation tant m me consid r es comme d extr me importance pour la formation d un lexique 95 typiquement portugais du XII au XIV si cles Coelho et Silva 2004 n anmoins les r sultats auxquels nous sommes arriv s montrent que synchroniquement les pr fixes sont beaucoup plus employ s que les suffixes dans la formation de nouvelles unit s lexicales cf tableau 1 Les donn es de la Base r v lent aussi que la grande quantit de formations par d rivation pr fixale est la cons quence du fait que de nombreux formants d origine grecque et latine auto hiper mega macro micro multi neo qui auparavant n taient employ s que dans le langage scientifique sont maintenant employ s plut t dans la langue g n rale en s associant des formants radicaux qui n appartiennent pas au langage scientifique Ces formants d origine grecque et latine auparavant class s comme des compos s sont plut t consid r s comme des pr fixes classification suivie dans ce travail car ils circulent dans la langue g n rale Un exemple de ce fait peut tre illustr par le formant hiper qui est enregistr dans les dictionnaires de langue comme formateur de termes de plusieurs terminologies m decine g om trie physique et qui dans le corpus analys forme notamment des unit s lexicales qui n appartiennent pas un
319. lev au fil de la lecture alors que les propos sont transcrits donc mieux accessibles puisque imprim s ce qui permet plus ais ment de revenir sur un passage pour confirmer ou infirmer une impression m morielle et que les preneurs de notes les plus n ophytes en football ne sont plus d rout s par le flot des paroles entendues la diff rence de qualit des relev s produits reste marqu e avec en particulier le pointage d expressions qui n ont pas toujours la repr sentativit escompt e pour ce type de lexique ce sont ventuellement des emplois survenus dans un contexte sp cifique qui a donn lieu une construction certes remarquable mais conjoncturellement motiv e alors que d autres bien que r pondant un patron caract ristique sont tellement r guli rement rencontr es dans les transcriptions lues qu elles ne sont pas rep r es comme tant significativement plus fr quentes ou diff rentes de celles observables dans l ensemble de la langue commune Par exemple si je m en tiens la description du jeu et que j exclus des constructions du type remonter au score la construction remonter X se r alise avec deux objets remarquables la construction remonter le ballon qui d crit une action offensive est courante dans le corpus explor mais peu vraisemblable en langue commune entendue hors langues sp cialis es de grande diffusion relatives aux jeux de ballons par contre la construction remonter
320. lins _ Rss mi riston Vous i Ci l La Creusot Centre dej DN mCosne d Alber bo m Dompierre ae taFrancelr 7 our 1 sur Besbre f Montet Neuilly Fz N mondy ta R al a jo 7 Ne qser Besbre i ntlu on St Pourgain RSet 3 3 Dom rat m aN sur Sioule sur Allier Le Donjon Gu ret amp a moana a cane a AN 0 AY Vich Foam CREUSE a ue AN a aires Coan _ Ebreuil Ve fi S Esant E3 pa Le Mayet PER de Momtagne Ferraad _ zone situ e l int rieur du Croissant Carte de l Allier 2 6 Crit re niveau d tude Ce crit re comprend trois diff rents niveaux d tudes coll ge baccalaur at baccalaur at 3 Il faut cependant pr ciser que ces trois niveaux sont indicatifs un individu scolaris jusqu la terminale et qui n a pas pass l preuve du baccalaur at entre dans la cat gorie baccalaur at en revanche un individu scolaris jusqu en seconde entre dans la cat gorie coll ge un individu ayant fait plus de trois ann es d tudes sup rieures entre dans la cat gorie baccalaur at 3 Selon F Gadet ibid le niveau d tude est un des trois principaux indices d appartenance d un mdividu une classe sociale avec le salaire et la profession indices qui selon elle doivent tre tudi s en bloc sans perdre de vue que l un de ces facteurs peut tre pr pond rant Ne retenir que le niveau d tude pourra donc ap
321. loppement ou un compl ment circonstanciel Au niveau des paules Il est donc indispensable d inhiber les possibilit s relationnelles non abstraites des pr positions telles les relations spatiales ou avec une partie du corps avec la pr position au niveau de Ces caract ristiques ont t capitalis es dans la base de donn es de la plate forme ContexO et ont t utilis es dans des r gles d claratives de rep rage crites en JAVA et actuellement en cours de test En revanche les tudes concernant les non phrases en g n ral sont plus rares tant sur le plan linguistique que sur le plan informatique 2 TRAVAUX EN RELATION AVEC LE SUJET 2 1 Travaux linguistiques Sur le plan linguistique les non phrases sont des phrases orthographiques ou textuelles Ce sont des phrases incompl tes car elles n ont pas de verbe et ne correspondent pas au patron syntaxique Sujet Verbe Objet du syst me linguistique fran ais Elles peuvent se subdiviser en ellipses au sens syntaxique les non phrases tant interpr t es la lumi re d une phrase pr c dente Quirk et al 1985 Riegel Pellat Rioul 1994 1 Joseph se retourna quelle r ponse au sujet de la chambre Frantext fragments Fries 1952 Quirk ef al 1985 Nunberg 1990 Riegel et al 1994 utilisent le terme de segment Ils r sultent d une utilisation particuli re des signes de ponctuation dans le but de mettre certa
322. lyse de l introduction du DD dans la presse politique actuelle ainsi que de l oralit transcrite l int rieur du discours direct montre l influence de l oral sur l crit En authentifiant les paroles d autrui le journaliste cherche le compromis entre deux codes l oral et l crit Cette strat gie se 176 manifeste dans le discours citant puisque tant t le journaliste garde la position oficielle tant t il mime et adapte son discours au DD exprimant l oralit Les commentaires journalistiques rapprochant le discours direct l oral du discours citant l crit r duisent leur distance ainsi que la distance sociale entre le locuteur et les lecteurs ordinaires L analyse de l oralit du DD dans le corpus comparable sp cialis permet de constater une certaine neutralisation de l opposition oral crit dans la presse politique fran aise et lituanienne surtout dans le cas des paroles de vox populi L tude du DD dans le cadre de l oralit transcrite montre la strat gie discursive de la presse politique fran aise et lituanienne Le discours direct est un garant de l objectivit de l image du v risme mais parfois il pr sente la situation virtuelle le rapport des paroles individualis es motionnelles la pr sence d interjections et donc refl te le point de vue subjectif Notre tude des niveaux diff rents syntaxe lexique o se manifeste l oralit dans le discours direct nous pe
323. marche s appuiera sur les donn es des analyses de Jackiewicz Minel 2003 obtenues lors du rep rage des structures discursives des cadres organisationnels REFERENCES Adam J M Revaz F 1989 Aspects de la structuration du texte descriptif les marqueurs d num ration et de reformulation Langue Fran aise n 81 p 59 98 Ben Hazez S Minel J L 2000 Designing Tasks of Identification of Complex Patterns Used for Text Filtering RIAO 2000 p 1558 1567 Biber D Johansson S Leech G Conrad S Finegan E 1999 Longman grammar of spoken and written English London Longman Bj rk L Knight M Wikborg E 1992 The Writing Process Composition Writing for University Students 2 dition Lund Studentlitteratur Catach N 1994 La ponctuation Paris PUF Que Sais je n 2818 Charlolles M 1997 L encadrement du discours univers champs domaines et espaces Cahier de Recherche Linguistique LANDISCO URA CNRS 1035 Universit Nancy 2 n 6 p 1 73 Accessible sur le site http www ltm ens fr siteACFT Dea W Belkin N J 1978 Beyond the sentence clause relations and textual analysis K P Jones V Horsnell ds Informatics n 3 London Aslib p 67 83 Descles J P Cartier E Jackiewicz A Minel J L 1997 Textual Processing and Contextual Exploration Method CONTEXT 97 Universidade Federal do Rio de Janeiro Br sil p 189 197
324. marquables Chaque enregistrement a eu une dur e de presque 10 minutes La BDVOX fournira les bases pour les tests et les entra nements de syst mes de reconnaissance de mots isol s de la parole continue de commandes pour les t l services Les Tableaux 6 7 et 8 pr sentent la composition actuelle de la BDVOX par rapport aux statistiques g n rales la distribution des phrases par rapport au sexe et l ge et la qualit d enregistrement Statistiques du BDVOX Nombre de phrases Nombre d heures Nombre de mots Nombre de mots diff rents Tableau 6 Statistiques g n rales Nombre de Nombre d heures Pourcentage dans la base Sexe phrases Masculin 134 538 120 70 62 30 F minin 81 909 72 98 37 67 Tableau 7 Distribution des phrases par rapport au sexe et l ge Nombre de Nombre d heures Pourcentage dans la base Bruit de Fond phrases Perceptible Pas Perceptible Qualit per ue Mauvaise 9 753 Moyenne 24 461 Bonne 170 968 Excellente 9 262 Tableau 8 Qualit des enregistrements 205 4 CONCLUSION La BDVOX s est montr e tre une base de donn es tr s robuste et aussi un outil tr s riche et fondamental au d veloppement des syst mes de reconnaissance de la parole pour le portugais parl au Br sil Maintenant nous sommes en train d laborer une deuxi me tape pour augmenter le nombre des locuteurs de la base de donn
325. mation n avait pas t balis e dans le premier tat du Corpus foot de multiplex transcrits celui exploit en 2002 2003 et dont la 163 DTD est pr sent e Fig 1 Les d pouillements r alis s alors par des personnes n ophytes en football ont montr son importance et nous ont incit s envisager de l introduire dans le balisage Leur importance s est r v l e encore plus vidente quand un an plus tard nous avons d cid d augmenter le nombre de retransmissions transcrites que certains joueurs avaient chang d quipe et que les risques de mauvaise interpr tation ont augment encore 21 Pierre Corbin para tre 8 reproduit la description de l emploi transitif du verbe d caler propos e par Ga l Gauvin tudiant du DESS LTTAC promotion 2002 2003 un exemple d exploitation particuli rement int ressante des occurrences discursives rendues disponibles par le corpus 22 Je ne chercherai pas faire la part des choses entre deux terminologies concurrentes l une r unissant sous collocation toutes les cooccurrences r guli res l autre ne retenant que les s quences int grant des figures et dont le sens n est pas d ductible de la r union des sens des diff rents constituants impliqu s Ici les collocations sont entendre comme relevant du premier type ce sont des cooccurrences 23 Certains items lexicaux consid r s comme mineurs les d terminants et pr positions en particul
326. mple une localisation spatiale ou temporelle sp cifi par une expression d tach e en initiale de phrase appel e introducteur de cadre par exemple l expression temporelle De 1965 1985 dans la figure 3 Les cadres spatiaux et temporels ont une pr gnance manifeste dans les documents g ographiques et doivent imp rativement tre exploit s dans la t che de recherche d information Bilhaut ef al 2003 b e L anaphore L anaphore temporelle dans un corpus g ographique si elle r pond l vidence aux contraintes g n rales pr sente un ensemble de sp cificit s qui peuvent tre exploit es Par exemple on trouvera tr s peu 234 d anaphores pronominales et certainement encore moins des ph nom nes d ambigu t associ s et qui compliquent tellement les proc dures de r solution en g n ral L anaphore nominale est par contre importante mais les possibilit s de reprises par exemple par hypo ou hyperonymes sont limit es Des consid rations similaires sont sans doute valides pour l anaphore spatiale Macro structure discursive Un s quencement d ensemble appara t l tude des divers corpus Dans les constats d accidents nous avons une structure narrative en trois phases description de la situation initiale d roulement de l accident suites ventuelles Ceci peut tre exploit par exemple pour d crire le lieu de l accident ou le mouvement des v hicules Dans les textes
327. mplois de ces formes par l enfant ne sont pas en r ponse aux propositions de l adulte et qu il s agit d emplois spontan s dus la situation de narration ou de r cit d histoire 2 2 Corpus de Mathilde Nous proc dons aux m mes types de recherches sur le corpus de Mathilde et nous remarquons que ni l adulte ni l enfant ne posent de question pourquoi Les parce que nonc s par l enfant comme par l adulte sont plusieurs fois r alis s dans une construction syntaxique compl te Pour le premier parce que de l enfant il se trouve en essai de construction puisqu il y a abandon de la structure Graphique 6 77 dial mall 100 dial mad i 200 dial mad E 250 E 300 E A 350 E 400 a Section lt ma 203 gt elle va au 200 parce que le serpent tictor alors elle appela Crictor alors Aa amp Occurrence au Lea Graphique 6 R partition par locuteurs 2 3 Corpus tiquet s Pour approfondir les analyses nous passons les corpus de Julien et de Mathilde l tiqueteur Cordial Nous utilisons ensuite
328. n Concernant l appariement global nous relevons tout d abord les informations d ordre g n ral suivantes nombre de CTs avec freq CTs 5 3864 nombre de CTc avec freq CTc gt 5 3951 nombre de CTs appari s 3219 nombre moyen de CTc par CTs valeur moyenne de j CTs CTc Tableau I Appariement global Nous avons valu le lexique global avec les mesures habituelles de rappel et de pr cision Appel nombre de couples CTs CTc corrects nombre de couples CTs CTc de r f rence Pr cision nombre de couples CTs CTc corrects nombre de couples CTs CTc propos s par le lexique global Le lexique global offre un rappel de 80 La pr cision est par contre tr s faible puisqu elle n atteint que 23 4 Il est donc n cessaire de mener une r flexion concernant des techniques de filtrage du lexique global mettre en uvre afin d am liorer ce dernier r sultat tout en gardant un rappel de m me ordre 242 7 APPARIEMENT LOCAL 7 1 Algorithme d appariement La premi re op ration effectuer avant de proc der l appariement local consiste projeter le lexique global au niveau local c est dire phrase phrase Pour ce faire on v rifie pour chaque couple de phrases appari es quels sont les mots appartenant ces phrases qui ont t appari s au niveau global Les couples de mots issus de la projection et qui sont en relation d quivalence au niveau des phrases align es cons
329. n dans corpus forg et corpus attest sont compl mentaires et non concurrents Les nonc s attest s viendront de sources diverses essentiellement crites et les nonc s forg s maneront des manipulations produites sur ces donn es attest es 3 1 1 Les phrases forg es permettent le test rapide et conomique des propri t s que l on souhaite aussi repr sentatif que possible par exemple concernant l association d un verbe un compl ment en dans et des propri t s syntaxiques que poss dent l nonc ainsi construit par exemple dans la fuite n est ni supprimable ni d pla able dans La solution est dans la fuite De plus elles permettent de pallier les trous ventuels ou in luctables des corpus attest s ainsi il y a peu de chance a priori que l on puisse constituer partir des corpus attest s disponibles la liste des verbes susceptibles de se construire avec dans et de construire des associations agrammaticales ou inacceptables qui compar es aux suites recevables sont susceptibles de donner des id es d hypoth se pour caract riser le compl ment dont on s occupe Notre objectif premier est d tudier la langue c est en cela que nous nous rapprochons davantage du champ harrissien et que nous nous loignons du champ chomskyen 3 1 2 Les extraits attest s permettent de v rifier ou d amender les propositions de description ou d explication avanc es partir de corpus forg s
330. n domaine particulier le football L article traite de la m thodologie de consultation sur un corpus enrichi utilisant le balisage en XML pour faciliter des requ tes Jusqu ici les corpus ont t monolingues l tude de Leonaviciene par contre est une tude comparative du fran ais et du lithuanien L analyse de discours direct dans les textes politiques montre les stratag mes discursifs employ s et galement l influence de l oral sur l crit Il est bien connu que la synonymie totale est quasi inexistante mais la synonymie partielle est omnipr sente Les travaux de Manguin traitent de la synonymie dans FRANTEXT en utilisant comme base de d part le dictionnaire de synonymes en ligne du CRISCO de l Universit de Caen Un tel travail peut servir non seulement enrichir le dictionnaire mais galement am liorer des syst mes de d sambigu sation Avec l article de Seara et al nous passons du texte crit l oral dans l objectif de la reconnaissance de la parole Bien que l objectif soit la reconnaissance le texte ne d crit pas seulement les applications mais surtout les travaux de constitution et d analyse de corpus pr alables toute mise en uvre de syst me Le texte est une analyse approfondie des probl mes r soudre dans la constitution d un corpus et le d veloppement d une base de donn es multilangues Le dernier texte de cette section remet en cause la d finition m me du
331. n langue fran aise 1980 r dition 200 en collection lutin poche 2 Groupe Aixois de Recherches en Syntaxe 3 Centre de Recherche sur l Acquisition du Langage Oral et Ecrit rattach au CALIPSO EA 170 Paris IIT 4 http www cavi univ paris3 fr ilpga ilpga tal lexico WW W 5 http synapse com 6 http www cavi univ paris3 fr ilpga ilpga sfleury mkcorpusProject htm 85 LINGUISTIQUE ET CORPUS 87 N OLOGIE DU PORTUGAIS BR SILIEN Ieda Maria Alves Universit de Sao Paulo 1 INTRODUCTION La linguistique de corpus est devenue un outil irrempla able pour l exploitation de textes informatis s plusieurs buts Cette discipline qui avance et prend sa place parmi les disciplines a caract re linguistique est de plus en plus employ e dans de diff rentes applications telles que la lexicographie la sociolinguistique l enseignement de langues la traduction la linguistique historique la r daction technique la reconnaissance de la voix la linguistique computationnelle la morphologie d rivationnelle McEnery et al 2000 Battaner 2000 Pl nat et al 2002 Booker et Pearson 2002 Sardinha 2004 Parmi les possibles applications de la linguistique de corpus nous pr sentons quelques r sultats auxquels nous sommes arriv s en explorant un corpus concernant un projet de recherche universitaire d nomm Base de N ologismes du Portugais Br silien Contemporain Ce projet qui re oit l
332. naissances Royaut 1999 qui reconna t et extrait les termes d un texte partir d une ressource terminologique de r f rence section 2 Nous proposons d analyser la proc dure d indexation automatis e r alis e l aide d ILC et de nous focaliser sur la reconnaissance des variantes terminologiques g r e par l analyseur FASTR Jacquemin 1997 int gr notre plate forme Cet outil effectue un traitement local du groupe nominal partir de patrons morpho syntaxiques et utilise un ensemble de r gles sp cifiques appel es m tar gles qui permettent d identifier les diff rentes variations linguistiques que peut subir un terme en corpus Or les m tar gles g n rent des erreurs r currentes dans la reconnaissance des variantes syntaxiques qui sont li es des probl mes de d pendances non pr serv es Ce manque de pr cision dans la reconnaissance de la variation n cessite alors que l ensemble des transformations produites passe par une validation humaine Partant de ce constat nous souhaitons intervenir sur ces r gles afin d en renforcer le pouvoir filtrant mais galement afin de diminuer le temps consacr la validation et assister le sp cialiste dans cette t che en produisant une indexation la plus fiable possible d un point de vue linguistique Pour y parvenir nous nous appuyons sur une analyse 269 linguistique des donn es issues d une indexation automatique r alis e dans
333. nd compte de la situation dans la non phrase il n est pas suffisant pour d crire les non phrases dans un dialogue En effet dans un dialogue la r plique pr c dant la non phrase th matique ne doit pas se terminer par 3 LES NON PHRASES TH MATIQUES DANS LA PLATE FORME CONTEXTO 3 1 Capitalisation des donn es Les donn es utilis es dans ContextO r sultent d une analyse linguistique approfondie cf 2 3 Les propri t s morphologiques morphosyntaxiques et s mantiques mises en vidence dans Porhiel 2001a b 2004 sont r utilisables dans le projet actuel Ces propri t s ont notamment servi r partir les introducteurs th matiques qui d clenchent les r gles de r p rage en 27 sous classes dans la base de donn es Nous avons galement r utilis les classes d adverbiaux utiles la description des non phrases th matiques D autres donn es particuli res aux introducteurs th matiques dans des non phrases doivent tre utilis es dans les r gles d claratives crites en JAVA Ces donn es sont a syntaxiques les compl ments ne sont pas s par s de la ou des propositions qu ils indexent par une virgule et sont prototypiquement courts b ponctuationnelles les signes de ponctuation qui constituent la limite droite de la non phrase th matique sont le les les le c positionnelles les non phrases th matiques se trouvent en 260 d but de paragraphe ou dans le paragraphe
334. nformatiques pour le traitement des m taphores dans les documents crits Th se de doctorat en informatique de l Universit Paris XI Orsay 306 Ferrari S Giguet E Lucas N et Vergne J 2000 Projet LINGUIX recherche d informations et traitements linguistiques le cas des m taphores In Le document lectronique dynamique Actes du 3 me Colloque International sur le Document lectronique CIDE 2000 Lyon 4 6 juillet 2000 p 279 293 Hearst M A 1995 TileBars Visualization of Term Distribution Information in Full Text Information Access In Proceedings of the Conference on Human Factors in Computing Systems CHI 95 ACM Press Jacquemin C et Jardino M 2002 Une interface 3D multi chelle pour la visualisation In Actes d THM 2002 Johnson B et Schneiderman B 1991 Tree maps A space filling approach to the visualization of hierarchical information structures In Proceedings of IEEE Visualization 91 p 284 291 Lamping J 1995 A focus context technique based on hyperbolic geometry for viewing large hierarchies In Proceedings of the Conference on Human Factors in Computing Systems CHI 95 ACM Press Mackinlay J D et Robertson G G 1993 The Document Lens In Proceedings of the ACM User Interface and Software Technology conference UIST 93 p 173 179 Perlerin V 2002 Memlabor un environnement de cr ation de gestion et de manipulation de corpus d
335. nom ne Les facteurs relatifs cette opposition que nous avons d j relev s dans le travail cit sont le degr de collocation entre l pith te et le nom question de mot compos la caract ristique lexicale des adjectifs la fonction informative de l pith te et le renforcement adverbial de celle ci Nous y avons d montr que ces facteurs sont abordables avec la notion du degr du poids d finie comme importance informative de est pr f r quand l pith te est moins l g re alors que des l est quand cette derni re est plus l g re Dans ce pr sent travail par contre nous examinerons d abord les quatre autres facteurs concernant ce ph nom ne p riode dans l histoire genre de texte niveau de langue liaison phonique et genre grammatical longueur phon tique de l pith te Les deux premiers 131 portent sur le c t sociolinguistique du ph nom ne et les deux derniers sur le c t linguistique ou phon tique Nous donnerons ensuite suivant le r sultat de l examen des facteurs une modification la d finition de la notion de poids Le poids n y sera plus l importance informative mais l importance tout court sur plusieurs chelles y compris l chelle phon tique On pourra dire que le poids phon tique est aussi pertinent dans le choix entre de et des plus l pith te est phon tiquement court ou l ger plus des est
336. nom ne Cette figure indique la proportion des usages de de et des dans les textes contemporains de la 2 moiti du 20 si cle Parmi les corpus pr sent s au tableau 1 des est le plus utilis dans les Forums de discussion qui sont les textes les moins officiels et le moins dans le genre du trait ou de l essai dont les styles sont plus soutenus M me avec un style d contract l occurrence de de est beaucoup 134 plus fr quente que celle de des dans tous les textes crits Cependant si on porte la vue sur les textes de la langue parl e spontan e contrairement la discussion contr l e comme dans le corpus Hansard on peut remarquer que les occurrences de des sont beaucoup plus fr quentes que celles de de Dans le Corpus Allier Giron 2001 le taux de des s l ve 92 5 de 5 des 62 et dans Blanche Benveniste et al 2002 il est de 86 de 4 des 25 Nous pr cisons que dans ces deux derniers corpus parl s dont la taille est beaucoup plus restreinte que les autres nous avons recueilli contrairement aux autres les occurrences de de des ADJ NOM au pluriel dans tous les contextes pour avoir un nombre suffisant d exemples tout en recherchant les m mes adjectifs ancien beau bon grand gros joli mauvais petit et vieux ou leur formes f minines Figure 2 de des dans les textes contemporains 100 80 T 60 T de 40 F H des 20 F 0
337. non directive Contrairement a la plupart des enqu tes sociolinguistiques notamment le Corpus d Orl ans nous n avons pas utilis de questionnaire mais avons laiss libre cours a la parole du locuteur ce que les sociologues nomment entretien non directif Jacqueline Freyssinet Dominjon 1997 d finit ainsi l entretien non directif L entretien non directif galement qualifi d entretien en profondeur se place au plus faible degr de structuration de l change verbal et au plus haut degr de libert de parole de la personne enqu t e L enqu teur ayant pos au d part le th me de la recherche adopte une attitude faite d coute empathique et de neutralit congruente L usage de ce type d entretien est recommand toutes les fois que la recherche porte sur des repr sentations souvent latentes plut t que sur des faits pr cis Seul le th me tait pr d fini en l occurrence le petit commerce et pr sentait plusieurs avantages d une part l actualit du sujet la d cr pitude du petit commerce tant n cessairement reli e la grande distribution les variations sur ce th me ne manquaient pas et d autre part le fait que tous les citoyens soient des consommateurs plus ou moins conscients nous a permis 120 d viter les blancs p riodes pendant lesquelles le locuteur ne sait plus quoi dire ou les questions trop fr quentes de l enqu teur qui
338. ns de la notion de corpus de diff rentes attitudes l gard des donn es de diff rentes d marches pour laborer les corpus de diff rents jugements que l on produit sur les donn es Puis nous justifierons le point de vue que nous avons adopt en tant que chercheur et nous exposerons la d marche retenue pour constituer notre corpus la m thodologie et la constitution d une base de donn es 2 LA NOTION DE CORPUS Quelles que soient la th orie et la m thodologie retenues se pose tout linguiste la question de la d finition du corpus puisque c est ce dernier qui l am ne pouvoir formuler une hypoth se ou en prouver la consistance Saussure 1916 in 1972 avait raison de dire que en mati re de langue on s est toujours content d op rer sur des unit s mal d finies 208 2 1 Les diff rentes conceptions de la notion de corpus L existence de diff rentes conceptions de la notion de corpus appara t lorsque l on regarde comment les linguistes l abordent et la d finissent Pour les uns il faut entendre par l un ensemble d nonc s retenus crits ou oraux parmi lunivers des possibles qui sera soumis l analyse base d observation permettant d entreprendre la description et l analyse de la langue en question Arriv et al 1986 Mais pour d autres le corpus est en fait issu d un travail pr alable puisque l ensemble est restreint ce qui est consid r
339. ns peut introduire plut t que de proc der des relev s dans des textes il est peut tre plus s r de tester partir de la liste fournie par un dictionnaire quels verbes sont susceptibles de se construire avec dans et quelles sont les propri t s permettant de les classer L int r t de cette d marche est qu elle est relativement objective parce qu ind pendante des al as des corpus attest s on peut avoir en effet un article de presse ou une page de roman sans un seul compl ment en dans a fortiori un compl ment de type pr cis que l on cherche tudier De plus les corpus forg s ne n cessitent pas de longues et fastidieuses manipulations d exemples tel que c est le cas avec les corpus attest s o les phrases sont g n ralement plus longues et complexes La constitution de corpus forg s s av re alors plus souple et plus 210 conomique en temps et en investissement notamment que le d pouillement de corpus divers b Le principal d savantage de l exemple forg est qu il est tributaire des jugements d acceptabilit et de grammaticalit du chercheur nous reviendrons plus loin sur ces notions et que ces derniers peuvent tre fauss s involontairement par la pr gnance de l hypoth se que l on a en t te ainsi Melis 2003 consid re t il que dans les ne peut introduire un sujet il met l ast risque Dans les deux cents kilos suffiront et Restent dans les trente semaines a
340. ns port par la forme variante doit n cessairement impliquer le sens v hicul par le terme sous sa forme canonique C est sur cette approche que s appuie l analyseur syntaxique FASTR d velopp par Jacquemin 1997 qui reconna t et extrait les termes ainsi que leurs variantes en corpus Cet outil permet d identifier quatre types de variation les variations flexionnelles syntaxiques morpho d rivationnelles et s mantiques G rer la variation terminologique pr sente un r el avantage non seulement dans une approche d analyse de l information et de fouille textuelle mais galement en informatique documentaire pour la classification des documents Ibekwe SanJuan 1998 l expansion des requ tes en recherche d information Rinaldi et al 2002 ou encore dans le domaine de la construction et de la structuration automatique de terminologie Morin ef al 1999 Daille 1994 2 2 Architecture de la plate forme ILC L approche mise en uvre dans notre plate forme d ing nierie linguistique permet une indexation automatique contr l e ILC retrouve dans les textes les termes d j connus et r pertori s dans un r f rentiel terminologique Cette approche s appuie principalement sur des traitements linguistiques de type morphologique et syntaxique et utilise des ressources ext rieures lexicales et terminologiques Elle permet un op rateur humain de traiter l information contenue dans un ensemble de textes
341. nscriptions en langage XML alors que le DELIC a h rit du savoir faire et des corpus du GARS et qu il devait poursuivre l uvre de celui ci avec un souci de coh rence Sur quelques points nos positions divergent vraisemblablement du fait des exploitations vis es et de leurs incidences sur les objets rep rer nous avons labor ces transcriptions partir de sources particuli res des commentaires radiophoniques de matchs de football pour mener bien des tudes lexicales et m me si nous avons fait en sorte de r server la possibilit de proc der d autres explorations de ce corpus il n est pas pr par pour 147 elles Nous n avons pas marqu les pauses qui dans le cadre des multiplex sont mal discernables tellement le d bit de parole des commentateurs est rapide Nous n avons pas non plus not les bruits de fond aussi r guli rement pr sents sur les stades que peu importants pour notre objet Nous n avons rien anonymis dans la mesure o il s agit de parole publique Et nous avons cherch ne pas m langer le texte de la transcription et les rep rages ou commentaires de nature diverse qui sont tous localis s dans le balisage 2 2 Structuration et modalit s de transcription du corpus La structure du document XML produit en 2002 2003 est pr sent e ci dessous avant un extrait de transcription o il sera ais d observer qu elle respecte quelques principes simples pas de ponctuation
342. nt l analyse sur corpus d une m taphore conceptuelle d une part et l aide la recherche documentaire d autre part Il est rapidement apparu que les r sultats d analyse ne sont pas exploiter ni pr senter de la m me mani re selon les cadres applicatifs Ainsi pour tudier dans une collection d articles d conomie la m taphore de la m t orologie boursi re nous avons d abord cherch d crire assez finement le lexique des deux domaines source et cible de cette m taphore a M t orologie et la Bourse afin de faire ressortir plus pr cis ment des redondances d attributs communs aux deux domaines et accompagnant certains emplois m taphoriques En revanche lorsqu il s agit de recherche documentaire nous sommes en g n ral plut t int ress s par l ensemble des redondances relatives un m me domaine le th me de la recherche et la plupart du temps sans distinction particuli re entre les attributs d crivant les lexies de ce domaine Consid rons l exemple suivant extrait du corpus tudi dans le projet ISOMETA E2 Jeudi changement de d cor Les WAA commenc rent se dissiper et quelques KOKUN AIG p n tr rent jusqu au c ur de la Bourse Las Ce ne fut qu une TAT Pour le projet ISOMETA Perlerin et al 2002 et Beust et al 2003 les redondances surlign es dans l exemple E2 concernant les lexies nu es rayons de soleil et embellie sont pr senter l utilisa
343. nt dans des conditions difficiles Chaque corpus envisag a t construit avec un grand nombre de groupes repr sentatifs Par exemple le corpus des phrases phon tiquement riches est constitu de 80 groupes comportant dix phrases chacun Avec les corpus mots phon tiquement riches mots peler les nombres les questions OUI NON les r ponses spontan es nous avons cr des manuscrits Ces manuscrits sont compos s par un groupe repr sentatif de chaque corpus qui est s lectionn de fa on ordonn e Tous ces manuscrits ont t enregistr s par le r seau t l phonique fixe l heure actuelle nous avons d j enregistr 1 100 locuteurs Enregistrement lt toux gt texte texte Manuscrits LA enregistrement Q S A A ra E lt rire gt texte 21 texte x p A exte Mis gt texte Figure 1 Montage de la base de donn es Ainsi la BDVOX est une base de donn es constitu e de 27 572 mots diff rents qui comptent 1 491 512 mots si l on consid re tous les mots des manuscrits cr s partir des corpus Cette base a t transcrite orthographique et phon tiquement Nous avons fait aussi la transcription de tous les v nements acoustiques comme les bruits de respiration les toux les bruits de l vres le rire les pauses longues mises entre les mots et aussi 204 les bruits de l environnement quand ils sont vraiment re
344. nte Corpus a Corpus b Nombre d introducteurs correctement rep r s nombre d introducteur pr sents dans le texte 84 8 50 rappel Nombre d introducteurs correctement rep r s 93 3 87 5 nombre d introducteurs rep r s pr cision Ces donn es encourageantes devront tre v rifi es sur un corpus plus large que celui utilis dans cette tude Dans ce travail nous avons d fini les crit res qui permettent de caract riser les non phrases th matiques Aucun des crit res consid r s n est isol ment d terminant mais leur interaction fournit des crit res pertinents Ces donn es ont permis d crire des r gles de rep rage pointant sur la structure th matique d un extrait d un passage de texte Les r sultats obtenus sont prometteurs et pourront tre utilis s pour rep rer les structures discursives que ces introducteurs th matiques engendrent comme dans 11 11 Nous formulons ci dessous quelques uns des pr suppos s les plus vidents de la RST concernant le langage les observateurs les scripteurs et l interpr tation des r gularit s dans les s ries d analyses Concernant le langage la RST pr suppose qu un texte monologal 6 Concernant les observateurs nous pr supposons que Concernant les scripteurs nous pr supposons que Concernant les r gularit s dans les s ries d analyses les notions de texte 265 Une telle d
345. ntenant ce n est pas comme avant car a a chang la transition entre les deux situations est explicitement signal e du fait d utiliser le verbe changer Dans l exemple 8 l nonciateur annonce explicitement que les v nements qu il va mentionner tant pour certains d entre eux li s par une relation causale sont int ressants car ils sont responsables du changement de situation c est une chute terrible qui est due beaucoup d v nements Les exemples 7 et 8 peuvent tre qualifi s de narrativo descriptifs ainsi que l exemple 9 ci dessous dans lequel la transition exprim e par les expressions au pass compos le fait d engager des ouvriers concerne non pas une situation pass e et une situation pr sente comme dans les deux exemples pr c dents mais deux situations pass es cons cutives celle qui se caract rise par trop de travail pour pas assez de personnel et celle o quatre personnes travaillent dans l atelier 9 en cinquante trois cinquante quatre on travaillait norm ment on r parait beaucoup de montres euh on f on avait euh quinze euh vingt r parations de montre faire par jour et donc euh ce qui m a amen prendre un ouvrier puis deux puis trois dans les ann es qui ont suivi et on avait un atelier o nous tions quatre travailler la bijouterie comprise BIJOUV 6 7 11 7 16 Enfin l exemple 10 ci dessous o l nonciateur raconte son
346. ntent la classe du verbe et les cat gories qui lui sont proches subordonnants relatifs pronoms et adverbes s opposent la classe nominale qui r unit autour du substantif les adjectifs les d terminants les pr positions et souvent les coordinations L histogramme du quotient entre les 459 957 substantifs et les 321 108 verbes se r v le en effet tr s sensible au genre Corr l 0 241 Seuil 25 035 Figure n 6 Histogramme du quotient substantifs verbes 50 Au d but de la production de l crivain dans sa p riode nouveau roman les deux courbes ne s cartent point elles se suivent au contraire les deux cat gories tant d ficitaires dans cette partie de l uvre C est partir de l essai L extase mat rielle que l opposition se d clare Les deux courbes redeviennent parall les dans La guerre et dans Mydriase pour se s parer de nouveau partir de Voyages de l autre c t Dans les romans et dans les recueils de nouvelles qui paraissent entre 1975 et 1986 l opposition des deux cat gories est observable sans tre tr s importante Les carts les plus importants avec un fort d ficit de verbes et un grand exc dent de substantifs sont trouver dans les ouvrages d ethnologie et dans les essais qui traitent du nouveau monde comme Le r ve mexicain ainsi que dans la biographie Diego et Frida Poisson d or est le seul roman de cette poque qui pr sente
347. nullement conclure que Corneille aurait crit les chefs d ceuvre de Moli re Bien au contraire la mesure de Labb tendrait plut t distinguer les deux crivains Consid rons en effet la carte des proximit s telle que la dessine l analyse arbor e figure 5 Il est facile d en d tacher la branche Racine si on peut dire qui se d gage mollement d abord de l influence de Corneille la Th baide et Alexandre sont proches du grand devancier puis affirme son ind pendance On y distingue m me la rupture qui partir d phig nie conduit l auteur Athalie Une telle finesse dans le d tail a tout pour plaire aux ex g tes les plus exigeants Mais ne cherchons pas l la com die des Plaideurs Personne n a mis en doute son authenticit Mais comme elle rel ve d un autre genre le calcul a d plac cette pi ce tr s loin sur la gauche au beau milieu des com dies de Moli re On chercherait vainement une autre explication le genre est ici pr dominant De la m me fa on la seule pi ce s rieuse qu ait crite Moli re Dom Garcie de Navarre a d sert la moiti gauche o toutes les com dies de Moli re sont rassembl es pour se fixer dans le camp oppos parmi les trag dies Est ce suffisant pour pr tendre que Corneille ou Racine ait crit cette pi ce Le genre suffit expliquer ce d placement comme celui de Psych qui se situe au m me endroit et dont le genre hybride trag die ball
348. oc d s industriels relev s dans les revues sp cialis es du domaine technologique en question suivi d un patient dans des compte rendus d hospitalisation etc Les informations extraites peuvent tre pr sent es l utilisateur ou entr es dans des bases de donn es Les m thodes utilis es vont d un encha nement assez classique de proc dures de traitements morphologiques syntaxiques s mantiques la recherche de motifs syntaxico s mantiques pr d finis ventuellement acquis par apprentissage Cette t che sp cifique popularis e et d velopp e travers la s rie de conf rences MUC dans les ann es 1990 Piacenza 1997 se combine aujourd hui souvent des syst mes de recherche d information RD les techniques de PEI permettant une analyse linguistique relativement profonde en regard des analyses statistiques plus communes et tout en restant bien videmment l g res et partielles r cup rant des bribes d information structur e utilisables dans des proc dures de recherche La r f rence un corpus de travail est ici absolument essentielle Il est hors de question d obtenir des performances suffisantes sur du texte tout 227 venant On voit en effet imm diatement que la notion de domaine de connaissances est importante mais aussi quelque chose comme le genre d p ches articles ouvrages didactiques On invoque souvent l id e d une homog n
349. ocessing Alignment and Use of Translation Corpora Dordrecht Kluwer Academic Publishers p 139 167 10 NOTES 1 Institut National de la Recherche Agronomique 2 Nous remercions A Lacombe de nous avoir autoris e a utiliser ce corpus a des fins de recherche 3 Nous indiquons entre parenth ses les noms que nous utiliserons pour faire r f rence a ces diff rentes relations dans la suite de l article 4 Mots ou syntagmes susceptibles d acqu rir le statut de termes sp cifiques un domaine donn 5 Les couples amorces sont en caract res soulign s dans les exemples et les mots appari s par propagation en gras 6 Les mots et structures syntaxiques appari s par propagation sont pr sent s sous leur forme lemmatis e 7 Les noms des types de relation sont d finis en 4 8 Si l on admet que la relation SUJET lorsqu elle concerne un verbe au passif peut tre assimil e la relation OBJET si cette derni re concerne un verbe l actif 250 REP RAGE DES NON PHRASES TH MATIQUES GR CE LA PLATE FORME CONTEXTO Sylvie Porhiel LaLLIC Langage Logique Informatique Cognition et Communication UMR 8139 CNRS Universit Paris IV Paris R sum Cet article d taille les crit res pris en compte pour rep rer des non phrases th matiques dans la plate forme ContextO c est dire des phrases sans verbe qui jouent un r le dans l organisation du discours en d signant les circonstan
350. odifi es en fonction des usages On peut ainsi l am liorer l affiner pour finalement obtenir ce que l on souhaite exactement la souplesse une base de donn es une fois que sa structure est bien d finie est plus souple et plus puissante qu une simple liste sur papier dans Word dans Excel car elle permet notamment des mises jour constantes et en cascade de donn es identiques mais enregistr es diff rents endroits par exemple le stockage et l organisation des donn es la base de donn es permet de stocker une quantit quasi illimit e d informations ce qui n est pas n gligeable quand on sait le nombre de manipulations que l on effectue sur un corpus et elle permet d organiser des informations de fa on significative ainsi on peut avoir sous les yeux toutes les donn es associ es un nonc sa source ses analyses formelle et s mantique les classes distributionnelles Elle contient donc le corpus avec des informations diff rentes contextuelle syntaxique lexicale s mantique Elle permet en 217 quelque sorte de mieux voir les donn es on peut proposer des vues sur les donn es par exemple le nombre d enregistrements pour tel verbe Mais ce point de vue reste celui de la personne qui constitue la base de donn es Ainsi ce qui compte pour tablir une base de donn es c est de savoir ce que l on souhaite en faire le traitement automatique la base de donn
351. oduire est ou non conforme ce qu autorise la langue c est dire ce que le linguiste lui m me consid re comme acceptable ou inacceptable Ainsi dans ce cadre le travail du linguiste suppose n cessairement le recours l intuition pour constituer les donn es les manipuler raisonner sur le r sultat de ces manipulations mais en m me temps il y a un doute sur la pertinence de l exercice de l introspection ce pourquoi justement les structuralistes et les distributionnalistes avaient pr n le recours au corpus Mais on sait aussi que ce dernier n est pas la panac e ainsi que l a point Chomsky Toute recherche entreprise doit donc se mettre au clair sur ce point m thodologique qu est ce qu un corpus quel est ou quel doit tre le statut du corpus dans l investigation linguistique Dans un premier temps nous ferons un bilan sur cette notion de corpus bilan n du constat que bien souvent dans les articles de linguistique rien n est dit par les linguistes sur le statut des donn es ressources dont les natures diff rentes ne sont pas n cessairement distingu es par le linguiste qui les nommera toutes corpus Gasiglia 2003 mais aussi du fait que les supports de recherche d occurrences ont volu et qu il est donc primordial de r fl chir sur la nature des donn es ainsi r colt es Pour ce faire nous mettrons en vidence l existence de diff rentes conceptio
352. oir le paragraphe 5 qui explique cette conclusion Au point de vue lexicologique il est int ressant d analyser en d tail la position de chacun des termes dans le cas d fude par exemple le changement de position de curieux peut induire non seulement un changement de sens de l adjectif mais si c est le cas il provoque en plus un changement de sens radical du substantif En effet avec curieux ant pos tude correspond au produit d une action intellectuelle tandis qu avec curieux postpos tude peut d signer l action intellectuelle elle m me Pour les autres substantifs de ce groupe le changement de position de curieux n entra ne qu une diff rence de nuance pour le sens du substantif 6 REMARQUES SUR LA POSITION DE L ADJECTIF CURIEUX EN EPITHETE Comme nous l avons d j dit l adjectif curieux poss de dans certains contextes la particularit de changer parfois de sens en changeant de position par rapport son substantif r gissant En s parant les donn es des cooccurrences de curieux en deux groupes suivant sa position nous pouvons calculer comme pr c demment pour chaque synonyme les deux indices de similitude d emploi entre ce synonyme et curieux en position ant ou postpos e La comparaison de ces deux s ries d indices montre principalement que la similitude d emploi avec curieux ant pos est un facteur qui diff rencie les deux groupes de synonymes pr sents sur la repr sent
353. oire pr nant d tudier une vari t de structures linguistico informationnelles stables dans un corpus donn section 6 2 EXP RIENCES 2 1 Extraction d information Cette technologie vise rechercher c est dire localiser et extraire dans un corpus de textes tr s homog ne th matiquement un type tr s pr cis d informations factuelles simples Les informations extraites sont d crites dans des fiches templates dans le jargon am ricain qui peuvent alimenter une base de donn es ou tre restitu es l utilisateur par exemple sous forme de r sum Les textes trait s seront typiquement des d p ches d agences comme dans l exemple de la figure 1 ou des articles de revues sp cialis es ou encore de certaines rubriques de presse g n raliste Un autre exemple sur lequel nous travaillons concerne un corpus de constats amiables d accidents de la route figure 2 Les informations extraites concernent le nombre d impacts les v hicules concern s leurs conducteurs les parties touch es ou encore le lieu de l accident ville route carrefour etc 228 On voit qu il s agit d une forme de compr hension tr s limit e partielle s lective des textes Les m thodes employ es varient mais on trouvera assez largement aujourd hui les tapes suivantes Rep rage et analyse des groupes nominaux d signant des entit s int ressantes pour la t che fix e Cette op ration po
354. olant trois crivains de la m me p riode et de la m me cole romantique En fournissant a l ordinateur une liste de soixante l ments choisis parmi les mots grammaticaux on pensait carter ainsi les al as th matiques pour mieux cerner les faits stylistiques nous voulions savoir si les mesures lexicom triques permettraient de reconna tre la griffe de Hugo de Lamartine et de Musset dans les textes po tiques romanesques ou dramaturgiques o les relev s avaient t faits La machine eut beau jeu de reconna tre trois crivains un po te qui avait crit les M ditations les Contemplations et les Nuits un dramaturge qui avait crit Lucr ce Borgia et Il ne faut jurer de rien et un prosateur qui tait l auteur de Rapha l de Notre Dame de Paris et des Confessions d un enfant du si cle Le genre avait malencontreusement recouvert les vraies signatures 2 UNE EXP RIENCE DE LABORATOIRE Mais les machines et m me les hommes ont fait des progr s et la conclusion n gative et presque d sabus e des tentatives pr c dentes n est peut tre plus de saison Des outils et des traitements nouveaux sont maintenant disponibles en particulier ceux que propose Dominique Labb D o l id e d une collaboration avec ce chercheur 2 1 Cependant pour viter la machine une autre humiliation j ai cette fois neutralis le genre Les textes que la nouvelle exp rience met en jeu rel vent tous du genre narratif En
355. ole nouveau roman la quantit d hapax est importante et inversement les hautes fr quences sont d ficitaires L tude la plus traditionnelle en lexicom trie est peut tre celle du rapport entre le nombre d occurrences N et le nombre de vocables V Ce rapport donne une id e du nombre de mots diff rents compar l tendue des textes et il permet les valeurs correctement pond r es de mesurer la richesse lexicale L analyse de la richesse lexicale des diff rents ouvrages refl te aussi souvent l influence du genre dans lequel il s inscrit Notre corpus ne fait pas exception cette r gle d j bien document e par ailleurs En effet les caract ristiques des diff rents genres se retrouvent dans notre corpus Les romans et les nouvelles pr sentent le vocabulaire le plus pauvre tandis que les essais les ouvrages ethnologiques et les r cits de voyage offrent le vocabulaire le plus riche Dans ces derniers ouvrages nous pouvons galement noter la m me tendance la hausse de la richesse lexicale vers la fin de l uvre 45 Richesse lexicale du corpus Figure n 3 La richesse lexicale calcul e sur l tendue relative des textes suivant la loi binomiale L tude de l accroissement lexical d termine l apport du vocabulaire au fil du temps cet accroissement est pour un segment d termin du texte le nombre d unit s nouvelles c est dire n ayant pas
356. omaines de sp cialit sont diffus es pour un public non sp cialis Les journaux Folha de S Paulo et O Globo publi s S o Paulo et Rio de Janeiro respectivement pr sentent aussi divers domaines politique sports arts et sont galement les plus diffus s au Br sil Ces mat riaux sont analys s par chantillonnage et chacun est analys une fois par mois 1 journal O Globo premier dimanche du mois 2 revue Isto deuxi me semaine du mois 3 journal Folha de S Paulo troisi me dimanche du mois 4 revue Veja quatri me semaine du mois Dans ces p riodiques nous collectons depuis janvier 1993 des n ologismes de caract re vernaculaire d rivation composition troncation transfert s mantique et de caract re tranger Parmi les crit res souvent mentionn s pour la reconnaissance du statut n ologique ou non d une unit lexicale instabilit formelle perception de la nouveaut par les usagers emploi r cent enregistrement lexicographique Cabr 1993 nous choisissons comme crit re principal le filtre lexicographique qui consiste v rifier l existence ou constater l absence de l unit lexicale dans une s rie d ouvrages lexicographiques D apr s ce crit re d nomm corpus d exclusion Boulanger 1978 nous consid rons n ologiques les unit s lexicales qui ne sont pas incluses dans les dictionnaires de langue FERREIRA A B de H 2 ed 1986 Novo dicion
357. on saussurienne langue parole reformul e en langue discours le corpus tel que d fini en a est un discours trait informatiquement qui nous int resse en tant qu il manifeste des emplois effectifs en tant qu il t moigne d emplois possibles attest s Mais notre objectif n est pas de rendre compte des emplois dans tel ou tel corpus si tendu soit il on cherche saisir l identit de la pr position dans en langue identit formelle et s mantique cens e pr sider aux d terminer les multiples actualisations en discours Donc le corpus n est pas l objet m me de notre recherche puisqu on ne cherche pas d crire un corpus il n en est que l outil incontournable certes 3 2 La d marche adopt e En ce qui concerne la compl mentation verbale la d marche de constitution du corpus a consist se donner dans un premier temps une d finition syntaxique l aide de propri t s formelles donc du compl ment de verbe en tant qu il s oppose l ajout d une part au compl ment dit de phrase d autre part nous avons proc d ici essentiellement un travail de documentation mettant en jeu des phrases forg es par les auteurs consult s Bonami 1999 Delaveau 2001 Dubois Charlier 2001 etc donc en un 216 sens attest es puisque produites par d autres que nous m me Puis partir d une liste de verbes mentionn s comme tant susceptibles de se construire av
358. on tr s g n rale de notre corpus nous allons pr sent d tailler la m thode que nous avons utilis e pour effectuer les 114 enqu tes tout en pr cisant lorsque cela sera n cessaire les points qui nous ont paru d licats ou ceux dont la r alisation s av re imparfaite 2 2 Enqu tes Plusieurs param tres doivent tre pris en compte lors de la constitution d un corpus en ce qui concerne l enqu te de terrain le choix des locuteurs enregistr s est important si l on veut rendre compte le plus finement possible de l tat d une langue un moment donn de son histoire les crit res de s lection qui pr c dent le choix des personnes interrog es permettent d introduire diverses variables au cours de l tude variable g ographique niveau d tude et ge Les enqu tes ont t r alis es en partie suivant les indications donn es par l quipe DELIC Lors de l laboration du corpus Fran ais de R f rence il s agissait d enregistrer des locuteurs selon leur ge r parti en 3 tranches leur niveau d tude r parti galement en 3 niveaux et le type de parole enregistr e 3 types de parole priv e publique et professionnelle Nous avons repris les deux premiers crit res l ge et le niveau d tude mais n avons pas enregistr plusieurs types de parole nous n avons que des paroles priv es Cependant nous avons ajout cet chantillonnage un crit re g
359. one commune On comprend mieux maintenant la convergence tr s souvent observ e des mesures de Jaccard et de Labb Quoique l une s attache la simple pr sence et l autre la fr quence toutes les deux rendent compte en priorit des basses fr quences Et toutes les deux ont lutter contre les perturbations que l tendue in gale des textes peut provoquer Elles y r ussissent certes mais imparfaitement Consid rons en effet les 75 textes du corpus classique r unissant les pi ces de Corneille Moli re et Racine Cela fait 2775 distances calculer soit n n 1 2 Un tri sur la longueur des textes ou plus exactement sur le rapport d tendue des textes deux deux met en relief une l g re distorsion de m me nature dans les deux proc dures Dans les deux mesures la distance est plus faible et plus fiable quand les textes sont de 32 longueur voisine et que le rapport d tendue s approche de 1 de 100 sur le graphique 4 Rapport d tendue 100 Coefficient de Jacquart 1000 wi 132 263 394 525 656 787 918 1049 1180 1311 1442 1573 1704 1835 1966 2097 2228 2359 2490 2621 2752 Coefficient de Labb 1000 Rapport d tendue 100 cS Ab nada TR Sf P TRE TAA N We ll lid dll ga iii i ail 100 es 1 165 329 493 657 621 985 1149 1313 1477 1641 1605 1969 2133 2297 2461 2625 Figure 4 L influence de l tendue sur les distances de Jaccard et de
360. onscrire dans un cercle plus ou moins troit les quatre extraits qui rel vent de la m me plume Les concentrations les plus fortes sont le fait des extraits que D Labb a d sign s comme tant s rement de la m me source l extr me droite les textes de Marivaux cod s 1 23 2 et 24 et au centre ce que nous appelons les m langes et qui concerne les extraits de 45 50 Il n en reste pas moins que l analyse factorielle c est l aire du soup on Elle fournit des pr somptions sur une chelle continue qui ne rejoint la certitude que de fa on asymptotique Les certitudes sont parfois positives 22 par exemple le doute n est gu re permis pour Marivaux mais plus souvent n gatives il est tr s peu probable que des points diam tralement oppos s sur le graphique soient de la m me source Entre ces deux extr mes on trouve des situations relativement claires et d autres plus troubles Parmi les premi res on citera les configurations qui tournent autour de Rousseau Voltaire Chateaubriand Balzac et Proust Mais le troupeau des textes r alistes et naturalistes gauche et en bas de la figure est plus indistinct comme si les bergers avaient m l leurs b tes Si Flaubert se distingue assez nettement de Zola Maupassant volue librement de l un l autre plus proche de Flaubert dans Une Vie et de Zola dans Pierre et Jean Le d saccord le plus criant est relatif Jules Verne si l excentricit
361. onsid rant qu une cha ne de caract res comme l arbitre constitue une unit lexicale et qu elle est distincte de litem arbitre Des solutions palliatives sont exploitables par des outils d exploration d velopp s pour traiter les donn es de mani re linguistiquement plus ad quate outils qui ne travaillent pas seulement au niveau des cha nes de caract res et ou avec des valuations statistiques mais int grent des ressources lexicales bien fournies voire dans certains cas des syst mes de tri des collocations rep r es distinguant celles construites sur un patron r gulier pour lesquelles une analyse syntaxico s mantique peut tre labor e automatiquement de celles qui ne sont pas compositionnelles Je ne d velopperai pas plus ici ces valuations de logiciels elles sont marginales pour ce t moignage Au del de l laboration de la nomenclature ce qui est attendu du corpus est une mise disposition d exemples plus typiques que ceux qu un lexicographe aurait construits m me si tant sortis des contextes qui leur donnent tout leur sens ils demandent tre partiellement reformul s pour tre rendus autosuffisants et plus fluides Corbin para tre C est par exemple le cas pour cet nonc extrait du Corpus foot de multiplex transcrits 156 Utaka parti euh lanc par euh Bakari qui venait de rentrer euh tr s bon ballon dans l espace il a couru une bonne trentaine de m tres avec le ballon
362. ont une soci t de financement la Blekinge A B dans le but de cr er ou d encourager les petites entreprises de la r gion Un pays socialiste la Su de Absolument pas en ce qui concerne l industrie AJ Pour r sumer le les les et le ont une fonction d marcative orthographique ils indiquent la limite du compl ment th matique prototypiquement court et de forme D t N dans une non phrase de la m me fa on que la virgule dans une phrase th matique Ainsi dans une phrase th matique la limite orthographique du compl ment th matique est signal e par une dans une non phrase th matique la limite orthographique du compl ment th matique est signal e par un ou un Les signes de ponctuation sont n cessaires mais non suffisants pour distinguer les non phrases th matiques des non phrases a th matiques N anmoins ils ont leur importance combin s d autres crit res comme celui de position Le crit re de position doit pour tre op rant d passer le cadre de la phrase dans les non phrases les pr positions potentiellement introducteurs th matiques se trouvent en position initiale ou apr s un adverbial Thompson et Langacre 1985 Virtanen 1992 Goutsos 1997 inter alia ont soulign le r le textuel et organisationnel des groupes adverbiaux de temps et de lieu pr fix s en d but de phrase ou en d but de paragraphe Ils mentionnent que les
363. ont organis es dans un mod le conceptuel Ben Hazez et Minel 2000 Minel ef al 2001 et exploit es par la plate forme logicielle ContextO Cette capitalisation des donn es linguistiques fournit l utilisateur un outil d aide informatis qui r pond ses besoins de fouille de texte Minel 2003 en l occurrence le rep rage sur un plan g n ralement local de la structure th matique d un texte Dans ce cadre les analyses sur les introducteurs th matiques ont principalement concern leur fonctionnement dans le cadre de la phrase Ferret et al 2001 Porhiel 2001b Elles montrent que les introducteurs th matiques poss dent des caract ristiques linguistiques propres 1 morphologiques certains marqueurs varient en nombre au chapitre de aux chapitres de d autres varient en temps en ce qui concerne en ce qui concernait d autres encore ont une forme r somptive au sujet de ce sujet 2 syntaxiques un introducteur th matique pr fixe prototypiquement au moins une proposition et au plus un paragraphe La diff rence entre une expression introductrice de cadre et une conjonction se fait en termes de d pendance ce qui se traduit ici en terme positionnel La pr position d une phrase th matique se trouve en position initiale Pour ce qui concerne la France les organisateurs de la conf rence de Stockholm se montrent extr mement critiques l gard du Minitel AJ alors que celle d une phr
364. opres au logiciel permettent de mettre en relief d autres ph nom nes que ceux recherch s dans le cadre de la linguistique de l acquisition du langage Avant tout pour passer le corpus Lexico3 nous rassemblons les trois dialogues de Julien au format document en un seul corpus au format texte seulement Nous faisons de m me pour les dialogues de Mathilde Ensuite nous proc dons diff rentes phases successives du traitement 1 5 1 PHASE DE NETTOYAGE Nous nettoyons le corpus en retirant tout ce qui n est pas utile pour une analyse syntaxique la pr sentation du dialogue les commentaires les indications phon tiques les ind En effet la fiche situation qui pr sente chaque corpus n est pas utile pour l analyse lexicom trique Ensuite il y a de la part du transcripteur des indications concernant le contexte de l interaction le micro tombe l enfant tourne la page l enfant montre limage Au cours de la transcription le transcripteur peut mettre des symboles phon tiques qui ne sont pas utiles pour les constructions syntaxiques Les marques de l oral comme l h sitation not es sont conserv es Ces marques peuvent mettre en relief une recherche ou une tentative de construction syntaxique de la part de l enfant ou m me montrer un chec de construction Malgr les progr s techniques des enregistreurs il y a parfois des s quences inaudibles Le transcripteur met alors
365. oral transcrit sont en cours de d veloppement dans le cadre du projet OuRAL cf note 11 Ils sont structur s selon les m mes principes directeurs Ce t moignage a galement offert un espace pour rappeler m me succinctement qu une poque o les outils informatiques d exploration de corpus lectroniques occupent le devant de la sc ne d autres m thodes d exploration plus traditionnelles existent toujours qu il s agisse de relev s au fil d une coute attentive et renouvel e ou de d pouillements au fil de la lecture et qu elles ont leurs qualit s m me si elles s av rent moins adapt es l exploration d un corpus haute densit d information comme le Corpus foot de multiplex transcrits Pour lui j ai propos d employer des concordanciers en les couplant des tiqueteurs morphosyntaxiques d enrichir de mani re r cursive les motifs de recherches partir de ce qui est donn voir dans des concordances initiales et d articuler l analyse des donn es extraites avec l ontologie des actions de jeu labor e cette fin avec Pierre et Fran ois Corbin Une promotion d tudiants de la formation lilloise en lexicographie terminographie et traitement automatique des corpus a d but la constitution 160 du Corpus foot de multiplex transcrits et son d pouillement focalis sur les descriptions des actions de jeu La qualit des premi res donn es produites motive la poursu
366. ord chez Larousse puis en deux volumes chez Hatier est maintenant au catalogue de Champion 12 Le Vocabulaire de Giraudoux Structure et volution Slatkine 1978 p 369 396 Le Vocabulaire de Victor Hugo Slatkine tome 1 p 277 305 13 Dans le cas de Psych une raison suppl mentaire s ajoute a l influence du genre si la pi ce figure bien parmi les uvres de Moli re qui en a cr et d velopp le canevas en prose la versification en a t faite en grande partie par Pierre Corneille comme la version versifi e de Don Juan r alis e apr s la mort de Moli re est due Thomas Corneille 14 L influence du genre peut tre complexe car la notion de genre comme l a bien montr Rastier admet des sous cat gories un certain niveau le choix se fait entre com dies et trag dies Au niveau sup rieur on devrait choisir entre th tre roman correspondance essai etc Au niveau inf rieur deux options se pr sentent vers ou prose au moins pour la com die car il y a peu d exemples de trag dies en prose au XVIIe si cle 15 Les distances multipli es par 1000 servent d ordonn es la repr sentation graphique Elles sont lisibles dans les deux colonnes de droite Celles que Labb a publi es partiellement sont dans la derni re On les comparera aux n tres qui apparaissent dans l avant derni re et qui ont t calcul es avec le m me algorithme mais en tenant compte des ponctuations et des
367. orrespondant int ressant alors il n y a pas d ambiguit dans le syntagme Nom curieux C est le cas des substantifs comme objet figure type d tail etc En revanche pour les substantifs comme esprit t te tude b te il et regard leur placement s interpr te ainsi si ces substantifs sont mi chemin des deux zones c est parce qu ils poss dent des solidarit s lexicales avec les adjectifs de chaque zone en particulier celle de la zone int ress or ces derniers adjectifs tant tr s peu similaires curieux ant pos cela veut dire que les sens qu ils recouvrent ne peuvent tre pris que par curieux postpos Par cons quent c est l emploi de curieux postpos avec ces six substantifs qui est seul susceptible d activer ces sens de l adjectif tudi mais cette activation n est pas syst matique comme le montre l exemple suivant o il semble que l auteur ait cultiv dessein l ambigu t du syntagme regard curieux Jacques eut une impression p nible comme s il e t essuy une offense De minute en minute son ami lui devenait tranger Un regard curieux un peu moqueur dont Daniel l enveloppa acheva de le glacer R Martin du Gard Les Thibault Le p nitencier p 792 Dans cet exemple analys dans Fran ois Victorri et Manguin 2003 Vambiguit vient de ce que le co texte qui pr c de son ami lui devenait tranger guide le lecteur vers une interpr tation
368. osyntaxiques in Actas del segundo seminario de la escuela interlatina de altos estudios en ling istica aplicada Matem ticas y tratamiento de corpus San Millan de la Cogolla 19 58 23 septiembre de 2000 Angel Martin Municio d Logro o Fundacion San Millan de la Cogolla Muller CH 1977 Principes et m thodes de statistique lexicale Paris Hachette Muller CH 1979 Calcul des probabilit s et calcul d un vocabulaire Ch Muller Langue fran aise et linguistique quantitative Gen ve Slatkine Rastier F 1991 S mantique et recherches cognitives Paris PUF formes s miotiques R dition PUF 2001 Rastier F 2001 Arts et Sciences du texte Paris PUF formes s miotiques 8 NOTES 1 Le nombre d occurrences total est repr sent par N tandis que le V repr sente le nombre de vocables diff rents 2 Par le terme hapax on d signe les vocables de fr quence 1 qui ont t rencontr s une seule fois dans un corpus et cons quemment dans un seul texte 3 Pour l interpr tation du graphique la zone d limit e par les deux traits pointill s indique l intervalle de fluctuation normale celle pour laquelle on ne peut pas carter l hypoth se que les fluctuations sont dues au hasard Plus on s carte de cette zone en dessous et en dessus plus les carts sont significatifs du point de vue probabiliste 4 Le quotient est le rapport entre les deux s ries Il permet de voir comment
369. ots constituant une phrase Dans ce cas il faut chercher des textes ou des paragraphes de diff rentes longueurs courts moins de 20 mots et longs plus de 20 mots extraits des articles de journaux revues livres etc pour que le syst me puisse aussi tre entra n avec les faits prosodiques propres au PB accentuation organisation temporelle rythme et intonation le changement de rythme des phrases interrogatives affirmatives exclamatives et le ph nom ne de la co articulation qui consiste en une prononciation fonction des unit s adjacentes Iskra 2002 Aussi d pendant de la quantit de mots qu il y a dans chaque paragraphe la lecture est r alis e avec des intonations et une vitesse diff rentes param tres qui affectent le ph nom ne de la co articulation Le Tableau 2 pr sente des exemples de textes courts et longs extraits de journaux 200 A Telesc esta sujeita ao pagamento de multa em caso de descumprimento ou demora no cumprimento da liminar Texte court La TELESC doit payer d amendes dans le cas du non accomplissement ou retarde l accomplissement du seuil juridique A Telesc Brasil Telecom recebeu o prazo de 30 dias para fazer constar em todas as contas telef nicas dos assinantes e usuarios do sistema de telefonia fixa de Santa Catarina informa es detalhadas sobre pulsos e minutos utilizados em liga es locais para telefones fixos com discrimina o de data hor rio dura
370. our le fran ais les corpus explor s sont souvent des compilations de textes disponibles en version lectronique et r unis selon des principes de commodit d acc s les articles de tel journal dit s sur CD ROM ou t l chargeables voire le Web dans son ensemble p n trable via les moteurs offrant des recherches plein texte comme Google ce qui conduit parfois qualifier ces corpus d opportunistes Habert amp al 1998 p 35 6 Cf Gasiglia 2004 p 50 51 et Gasiglia para tre section Trois options pour la constitution de corpus pour la lexicographie 7 Il s agit de se donner les moyens d observer les changes langagiers particuliers qu une large part des locuteurs d une langue sont susceptibles de partager dans certaines situations de la vie courante pr supposant une comp tence technique rep r e chez leurs acteurs Bromberger dir 2002 la cuisine le bricolage le jardinage un sport une activit artistique ou manuelle etc Nous approchons ainsi des limites de la langue commune en tudiant ce qui peut tre consid r comme des langues sp cialis es de grande diffusion 8 Cette information cod e sous la forme d un attribut associ l l ment SPEAKER cf Fig 1 permet d observer si elles existent des corr lations r guli res entre le statut des locuteurs et les mots ou expressions employ s 9 Deux types de prononciations d viantes sont r pertoriab
371. ous voquons quatre cas de figure qui confrontent linguistique et informatique la limite orthographique du compl ment la longueur des compl ments les insertions et la polycat gorialit des adverbiaux La limite orthographique du compl ment protoypiquement dans une phrase la virgule s pare l introducteur th matique et son compl ment de la proposition qu ils indexent tandis que dans la non phrase la limite du compl ment est marqu e par Une telle propri t permet de rep rer des phrases ou des non phrases introduites par une pr position potentiellement introducteur th matique Les r gles sp cifient si le compl ment est cl tur par une ou par Toufefois il peut arriver qu une virgule se trouve dans une non phrase quand le compl ment introduit par l introducteur est expans ou quand le compl ment est suivi d un adverbial propos de Mai 68 encore et en vrac Et si la vrai comm moration la seule nous venait d Indon sie AJ ce qui soul ve le probl me de la longueur des compl ments introduits par l introducteur et aussi le fait que l adverbial peut suivre le compl ment th matique et en tre s par par une virgule La longueur du compl ment Dans une non phrase th matique les compl ments introduits par l introducteur sont prototypiquement courts et de forme N D t N D t N Adj D t Adj N voire D t Adj N Adj Sur l
372. p pour N EQUIPE I Figure 3 Vue d un fragment de l ontologie des actions de jeu Les premi res extractions en corpus sont faites autour de mots cl s ballon joueur etc et de cat gories grammaticales les verbes les noms etc pour extraire les nonc s pr sentant des occurrences de certains patrons syntaxiques et y rep rer des indices en fonction de divers tris effectu s sur les listes de contextes produites ce stade l exploration du corpus se nourrit elle m me l analyse d une concordance conduisant formuler un nouveau motif de recherche puis permettre l tablissement de classes par exemple 1 de verbes ou de noms synonymes pour une partie au moins de leurs emplois tablir en fonction des patrons syntaxiques qu ils r gissent ou dont ils sont argument et d signant des actions d o d coule un affinement de l ontologie initiale par l insertion des classes de verbes comme ceux exprimant la transmission de balle entre deux joueurs de la m me quipe Gasiglia 2004 et de noms comme n uds pr terminaux h ritant des descripteurs de circonstances de jeu et dominant au terme des explorations venir les exemples lexicaux lemmatis s apr s qu ils aient t s lectionn s au sein des concordances o leurs attestations en contexte se donnent consulter 2 d adjectifs ant pos s et postpos s des noms comme par exemple tacle en montrant qu il y a une corr
373. p cificit positive dans le sens contraire la sp cificit est dite n gative En revanche si l cart n est significatif dans aucune des parties du corpus on dit que le mot est non sp cifique ou commun Si 56 les tests permettent de conclure avec plus ou moins de certitude la sp cificit d un mot la non sp cificit n a pas le m me statut la normalit de la distribution est l hypoth se la plus probable mais elle n est pas prouv e Le logiciel Hyperbase effectue ces calculs et permet l observation du vocabulaire sp cifique de chacune des 31 uvres du corpus Le Cl zio en s appuyant sur les m mes techniques d j utilis es dans les analyses de structures et du rythme savoir la loi normale et les carts r duits Les sp cificit s propres au corpus peuvent aussi tre rep r es gr ce un syst me de segmentation interne du texte en plusieurs parties comparables Les r sultats de l analyse sont tr s nets les listes de mots obtenues refl tent parfaitement le th me de l ouvrage et nous donnent le profil caract ristique de chaque livre Dans l tude de la distance lexicale o il s agit de consid rer le vocabulaire int gral de chacun des textes du corpus et de rep rer ceux qui partagent des th mes semblables nous avons trouv comme auparavant dans les analyses structurelles et stylistiques du corpus des oppositions fortes entre les diff rents genres lit
374. par rapport ce que le linguiste de par sa comp tence de sujet parlant peut produire lui m me d une part ou par rapport ce que la grammaire telle qu il l a construite peut pr dire d autre part L argument de Chomsky l encontre du corpus comme base pertinente de la description et du raisonnement linguistique c est le fait que pour raisonner sur la langue il faut pouvoir confronter ce qui est possible et ce qui ne l est pas or par d finition le corpus tel qu il l entend ne peut pas fournir d exemples de ce que la langue ne permet pas de plus en tant que texte produit un moment donn par un ou des locuteurs particuliers selon un th me une intention une situation des interlocuteurs particuliers un corpus ne peut videmment illustrer tous les cas de figure d un ph nom ne linguistique donn par exemple tous les auxiliaires et 207 combinaisons d auxiliaires et enfin en tant que produit fini le corpus ne peut pas non plus laisser voir certaines propri t s linguistiques comme la r cursivit le retour potentiellement infini d une m me structure Le pr suppos est que le linguiste de par sa propre comp tence de sujet parlant est m me de produire les donn es pertinentes grammaticales et agrammaticales permettant de faire l hypoth se de r gles dont il v rifiera la pertinence en jugeant si l ensemble des nonc s qu elles peuvent pr
375. para tre r ducteur certains sociolinguistes cependant la profession de chaque locuteur appara t dans la fiche signal tique qui lui correspond et qui figure en annexe Ainsi seul le salaire du locuteur n appara t pas Ce crit re est int ressant pour plusieurs raisons d une part il permet d viter de demander au locuteur que l on voit parfois pour la premi re fois quels sont ses revenus question qui peut bien s r tre tr s g nante pour 118 l enqu t mais aussi pour enqu teur d autre part m me si la scolarisation n est pas le seul moyen ducatif ni le seul lieu d apprentissage de la langue le niveau d tude para t pertinent pour rendre compte de diff rents niveaux socioprofessionnels Passons maintenant la description de ce que nous appelons crit re ge 2 7 Crit re ge Ce crit re comprend trois tranches d ge 18 30 ans 30 65 ans de 65 ans Nous n utilisons pas ici le terme de g n ration qui est fluctuant et qui se comprenait il y a cinquante ans comme une classe d ge d environ 20 25 ans mais qui aujourd hui n est plus interpr t de la m me mani re les enfants arrivant g n ralement plus tard rallongement de la dur e des tudes progr s de la m decine etc L int r t d interroger des locuteurs de trois tranches d ge diff rentes est de permettre d avoir une vision assez pr cise de l volution d une
376. parcours professionnel illustre un autre sch ma encore que l on qualifiera de narratif 128 10 ensuite bon ben j y ai on a pas j ai pas pu continuer les contrats puisque on n avait droit qu quatre contrats donc apr s je suis rentr e faire la plonge la la Sagem et de tout a a m a emmen e travailler pendant deux ans la Sagem euh dans l usine je j ai travaill deux ans faire les Canal Plus MADMO 34 3 2 3 9 Ce sch ma convoque principalement des formes verbales au pass compos les ventuelles formes l imparfait ici on n avait droit qu quatre contrats caract risent une situation n tant pas en relation du type situation ancienne gt v nement s gt situation nouvelle avec un ou des v nements d crits au pass compos comme c est le cas dans le sch ma que nous avons appel narrativo descriptifs La situation caract ris e par l expression l imparfait dans l exemple 10 n a pas t modifi e par les faits d crits au pass compos 4 CONCLUSION Notre analyse d exemples provenant du corpus nous a permis a partir des propositions pr c dentes de O Ducrot et de J C Anscombre de d finir les valeurs pragmatiques de base de l imparfait et du pass compos Nous croyons que les formulations propos es sont a la fois bien fond es du point de vue linguistique et suffisamment simples d acc s pour
377. pas ainsi Car on dit la gloire des excellens hommes amp on l a despouill des belles charges qu il possedoit Vaugelas 1647 p 331 6 L usage de des et de nous semble conditionn chez cet auteur par le s mantisme des noms De est utilis lorsque la pluralit du r f rent n est pas informative par exemple avec des noms roues fruits carreaux ciseaux cormes fromages diversit s miels 7 On peut supposer aussi une diff rence du niveau de langue 8 Les occurrences en nombre r el sont les suivantes trait des 31 de 617 journal des 145 de 886 roman des 227 de 862 revue des 116 de 388 revue des 116 de 388 Hansard des 78 de 201 FD des 530 de 1009 et parl des 87 de 9 142 9 Les exemples avec adverbe ou redoublement entre ADJ et NOM ne sont pas inclus aux chiffres Voici tous les exemples de de ADJ NOM au pluriel dans les corpus parl s tout le monde n a pas forc ment besoin de faire de grosses courses pour aller acheter euh un litre d huile un pot de moutarde euh trois ufs ben COIFM 12 1 3 1 5 Giron 2001 nous sur une r gion comme Moulins on n a pas des grandes surfaces qui ont de gros stocks hein COIFM 12 15 1 15 2 Giron 2001 a soit quand m me par rapport notre r gion qu on ait peut tre plus de chance d avoir de bons produits que que dans certaines grandes autres villes euh comme Lyon FRUIT
378. peut mettre en relief une adaptation du langage de l adulte en fonction de I enfant 83 ju2 mal mi jul Graphique 16 AFC de JulienMathilde par dialogues ma2 maz ad2 1 rl c3 Graphique 17 AFC de JulienMathilde par locuteurs Avec les AFC il est possible d observer un loignement ou rapprochement de locuteurs Nous avons montr qu il est possible de mettre en relief qu une adaptation du langage adress l enfant le rapprochait du langage de l adulte Il ne suffit pas entourage d exposer l enfant un mod le verbal d fini une fois pour toutes il s agit de lui fournir le langage qui LUI convient au stade particulier o il se trouve il importe aussi que ces donn es verbales s int grent dans un cadre o chacun communique avec 84 l autre ce qui implique de la part de l adulte un int r t pour l enfant en tant que partenaire une sensibilit ses besoins ses intentions ses capacit s ce qu il comprend ce qu il tente de communiquer Moreau et Richelle 1981 4 R F RENCES Blanche Benveniste C 1997 Approches de la langue parl e en fran ais Paris OPHRYS Collection l essentiel fran ais Habert B Nazarenko A et Salem A
379. phon tique 6 CONCLUSION Nous avons examin un un quatre facteurs pour le choix de l article de et des qui n avaient pas t trait s dans Fujimura et al 2004 soit la p riode dans l histoire le genre de texte la liaison phonique et le genre grammatical Le sch ma suivant pr sente les r sultats de l examen P riode dans l histoire Genre de texte des lt gt moins soutenu lt gt plus soutenu lt gt de Poids de l pith te des lt gt plus l ger lt gt moins l ger lt gt de petit gt grand beau nouveau gt nombreux excellent gt Rare carr pr sidentiel tout gt tr s rates v ritablement politiquement discursif moins informatif gt plus informatif constituant d un mot compos gt pith te pleine sans adverbe gt avec adverbe phon tique sans liaison gt avec liaison genre masculin gt genre f minin Nous avons donn une modification la notion du poids dont la d finition pr c dente tait l importance informative des mots La notion du poids a maintenant une port e plus large avec l id e phon tique comme 140 partie int grante de cette nouvelle d finition L pith te est plus lourde donc donne plus de possibilit au de lorsqu elle est plus longue plus complexe plus informative ou plus pr dicative et el
380. ponctuel duratif narratif descriptif premier plan arri re plan effet de ralenti emploi anaphorique habitude etc Une description int ressante de la valeur g n rale de l imparfait a t propos e en 1979 par Oswald Ducrot sans qu elle ait eu cependant l impact m rit dans le domaine de la didactique du Fran ais Langue trang re FLE Elle a t test e avec des r sultats convaincants sur un corpus de narrations orales par Marie Labelle 1987 et reprise et d velopp e par Jean Claude Anscombre 1992 pour une analyse de l opposition imparfait pass compos Nous nous proposons de rappeler les id es de ces linguistes et de les confronter au corpus de fran ais parl pr sent plus haut l objectif tant de contribuer une meilleure compr hension et explication des emplois de l imparfait et du pass compos dans le domaine du FLE 3 1 Propositions de O Ducrot et de J C Anscombre Selon Oswald Ducrot la diff rence entre l imparfait et d autres temps du pass r side dans une diff rence de point de vue de perspective de centre d int r t Ducrot 1979 Voici comment l auteur formule en deux propositions sa description g n rale de l imparfait en se servant des concepts de th me et de propos Lorsqu un nonc est l imparfait son th me est n cessairement temporel c est soit une p riode du pass soit
381. posait ses contradicteurs le cas de Tite et B r nice o son calcul fait merveille pour distinguer la pi ce de Racine et celle de Corneille On aurait pu lui r pondre que les conditions id ales taient r unies m me sujet m me ann e et m me genre pour rendre le calcul efficace et explicite mais qu elles ne l taient plus dans le cas Corneille Moli re qui faisait l objet du d bat Quoi de plus attendu que la proximit du Menteur et des pi ces de Moli re Ce sont des com dies et celles qui sont les plus proches sont celles qui comme le Menteur sont crites en vers La seule com die que Racine ait crite les Plaideurs est galement plus proche de Moli re que de Racine Pourquoi ne pas se contenter de ces remarques de bon sens Pourquoi s ing nier chercher une explication hypoth tique du c t de l auteur en refusant le facteur le plus vident c est dire le genre d autant que le genre est tr s contraignant l poque classique o de surcro t la versification impose des exigences suppl mentaires Devant l impossibilit de d m ler des facteurs entrecrois s et indissociables le principe de pr caution est de ne pas parler de preuve et de laisser Pierre Lou s le soin de d fendre sa r verie et ses intuitions 3 4 Reste appr cier en elle m me la formule par laquelle Labb mesure la proximit entre deux textes Nous pr f rons le terme de proximit celui de distance C
382. pplication de la liaison 14 Encrev 1988 p 234 cite les m me exemples 15 De m me nous n avons pas pris en compte l adjectif joli e s qui est phon tiquement pic ne 16 Le facteur s mantique est aussi pertinent pour le choix de l article Des est employ avec des noms indiquant les tres humains plut t qu avec des noms abstraits Des est aussi utilis plus souvent pour les noms indiquant des objets concrets et artificiels que pour les parties du corps qui sont plurales de nature comme les yeux les dents etc Nous ne pouvons pas en discuter ici plus en d tail cause de l espace limit de l article 143 17 Les occurrences dans la totalit des donn es sont les suivants m des 1072 de 5987 f des 641 de 5414 La tendance de cooccurrence entre le masculin et des et entre le f minin et de est significative X 60 73 dl 1 p lt 01 18 trait m des 1 de 71 f des 2 de 134 journal m des 12 de 85 f des 11 de 208 roman m des 16 de 87 f des 3 de 85 revue m des 8 de 23 f des 4 de 56 Hansard m des 8 de 24 f des 12 de 59 FD m des 89 de 141 f des 37 de 238 19 Mais il serait int ressant d tudier de plus pr s des faits comme dans Manguin 2004 144 STRAT GIE DE CONSULTATION DE CORPUS ORAUX TRANSCRITS PISTES M THODOLOGIQUES POUR L EXPLORATION D UN COR
383. pus en prenant en compte ces contraintes Les calculs du poids relatif c est dire l esp rance math matique de l v nement occurrence d un mot dans le texte consid r P et non occurrence de ce mot dans le m me texte Q 1 P permettent l emploi des lois classiques de la lexicom trie principalement la 43 loi normale et la loi binomiale Muller 1977 Ces lois servent aux calculs de pond ration dans les diff rents traitements statistiques Les graphiques suivants permettent de visualiser une des caract ristiques de notre corpus le premier histogramme regroupe les 100 plus hautes fr quences et rend compte de leur distribution et le deuxi me illustre la distribution des hapax dans les diff rentes uvres du corpus Figure n 1 La distribution des plus hautes fr quences travers le corpus 44 Leu 594 Ha Qu L Figure n 2 La distribution des hapax travers le corpus Les histogrammes illustrent parfaitement l inversion du mouvement dans la distribution de fr quences Il est ais de constater que les livres qui contiennent le plus d hapax sont les plus pauvres en hautes fr quences L accueil fait aux hapax est en effet d termin par le genre litt raire Les taux n gatifs quelques exceptions pr s sont trouver dans les romans et dans les nouvelles Dans les autres ouvrages ainsi que dans les uvres inspir s par l c
384. qu en 3 pour mieux appr hender le mat riau textuel Le principe des analyses propos es s inspire de la notion d isotopie envisag e ici comme la redondance d un attribut ou d une valeur d attribut dans une unit textuelle Ainsi l exemple suivant contient bien une redondance de l attribut Pression basse vs haute m me si chaque lexie n en actualise pas la m me valeur EI S il s agit d un ph m re entre 2 passages de dorsale l air est en g n ral un peu plus frais et porteur d une instabilit un peu plus marqu e La phase d analyse automatique des textes consiste donc essentiellement d terminer quelles redondances existent dans quel type d unit paragraphe texte collection en projetant pour chaque occurrence d une lexie l ensemble des s mes qui la d crivent dans les ressources qu un utilisateur aura construites Mais l aide que le mod le fournit pour l interpr tation des documents s inscrit avant tout dans l interaction avec l utilisateur et dans les repr sentations qui lui sont propos es des r sultats de cette analyse automatique La redondance s mique n est pas une donn e suffisante pour conclure elle constitue plut t un bon aiguillage vers une interpr tation qui doit au final tre men e par l utilisateur 292 Dans nos travaux nous avons plus particuli rement utilis le mod le pour deux applications assez loign es le projet ISOMETA visa
385. qui est au centre d int r t de ces nonc s correspond comme le postule Ducrot une p riode pass e ou un objet consid r pendant cette p riode Il s agit sans aucun doute pour chacun de ces exemples d une p riode pass e mais on ne dirait pas pour autant que c est cette p riode elle m me qui constitue l aspect central de l nonc Ce que l on d crit est quelque chose de plus pr cis sans que ce soit nous semble t il directement le sujet de la proposition ou un autre objet c est dans nos exemples une condition ou activit pass e du sujet dont la mention sert caract riser une situation pass e On peut citer la remarque de M Labelle au sujet des propositions l imparfait dans son corpus de narrations qui est tout fait en accord avec nos propres observations elles ne racontent pas proprement parler mais elles d crivent les composantes d une situation telle qu elle est v cue par le narrateur p 18 Ainsi nous retenons la d finition suivante de la fonction de l imparfait L intention nonciative li e l emploi de l imparfait consiste caract riser une situation pass e les faits exprim s par les expressions verbales sont int ressants en tant qu ils permettent cette caract risation Dans l exemple 1 l nonciateur d crit sa vie familiale une certaine poque les faits relat s au moyen des pr dicats l imparfait sont au se
386. raphique 3 R partition dans le corpus Nous pouvons proc der diverses recherches sur l emploi de telle ou telle forme de m me qu un groupe de formes Par exemple nous recherchons les emplois des formes quand pendant lorsque Graphiques 4 5 76 Fr quences absolues o ad1 1 ad1 2 ad1 3 jut juz Graphique 4 R partition par locuteurs dial jul 50 100 150 200 dial ju2 250 300 dial ju3 350 400 Section a lt ju 217 gt mm il il joua avec les gar ons il et aussi il joua avec les filles il tait tr s serviable il apprendra faire les noeuds mm un jour le le cambriolage se pa Bodot tait d j baillonn e sur une chaise et ligot e lorsque le euh mm le serpent se r veille mm il entoure il l attache la F l arriv e de la police il fut i une m daille et il se il se il sculptait et on et on lui metta un jardin propre pour lui fi ssa mm mm madame fut on lui mettait Graphique 5 R partition dans le corpus Nous remarquons par cette carte que les e
387. rbres de belles histoires Toutefois Delattre dit galement la liaison se fait plus fr quemment apr s voyelle qu apr s consonne p 59 et cite mes petites amies meptitami sans z pour l opposer mes petits amis meptizami avec z p 58 Cette description nous a amen s v rifier l enregistrement sonore du Corpus Allier Le deuxi me argument provient du r sultat de cet examen Le r sultat est clair m me si le nombre d exemples est limit dans ce corpus la liaison en z est produite sans aucune exception que ce soit apr s voyelle ou apr s consonne par exemple dans belles entreprises bonnes ann es bons l ves petits avantages petits avatars petits piciers tr s mauvaises habitudes bons l ves longues tudes jeunes amoureux Suivant Delattre 966 la liaison se fait d autant moins que le style est plus familier p 40 On peux donc naturellement dire que les auteurs des textes crits dont le style est en principe plus soutenu que celui du parl effectuent la liaison en z dans tous les cas suivant la r gle dans leur langage interne au cours de la r daction de texte Cependant la liaison n est pas seulement une question phonique Il s agit aussi de la fonction s mantico fonctionnelle parce que la pr sence de la liaison en z signifie le pluriel comme on le voit dans petits piciers ou mauvaises habitudes alors que l absence de la liaison n indique rien sur le
388. rectes 15 16 et interdire certaines autres 13 14 1 modification X2 N3 X2 lt A NINp 0 3 gt N3 2 modification X2 N3 X2 V4 lt A NINp 0 2 gt N3 Dans ces deux cas les formes variantes n cessitent de se reporter au contexte plus large Les modifications n apportent qu une aide la personne charg e de la validation Ces deux exemples nous ont permis d illustrer les disparit s dans l application de nos crit res linguistiques au niveau des m tar gles et de la n cessit d aller plus loin dans notre d marche pour tre en mesure d intervenir sur le contexte syntaxique externe aux ST ramen es par le syst me 284 6 CONCLUSION Nous avons t ch de montrer comment il tait possible partir d une analyse linguistique des s quences textuelles issues d une variation de d finir un certain nombre de crit res syntaxiques et morpho syntaxiques pour rendre les m tar gles plus filtrantes Ces crit res contraignent les transformations pr server les relations de d pendance initiales entre t tes et expansions afin de conserver le sens v hicul par les termes Ces d pendances pouvant tre alt r es soit par introduction d unit s linguistiques ou de ponctuation soit par une mauvaise d limitation des ST en corpus Toutefois nous avons galement montr que ces crit res ne sont pas applicables de mani re homog ne toutes les m tar gles et ne permettent pas d obtenir
389. relectures critiques de ce texte 2 Le DESS Lexicographie Terminographie et Traitement Automatique des Corpus propos l universit Lille III transform partir de 2004 2005 en parcours LTTAC parcours professionnalisant de 2 ann e du master Art Lettres Langues et Communication mention Sciences du Langage sp cialit TAL et IDL 3 Je reprends ici la d nomination propos e par Pierre Corbin para tre 0 4 et 9 option qui peut d router dans une introduction o on s attendrait peut tre ce que je lui pr f re une appellation plus intuitivement compr hensible mais qui seule semble convenir pour nommer l objet de nos investigations sans que la qualit de la d nomination employ e ne devienne un point central de la r flexion expos e Je renvoie les lecteurs int ress s l analyse de Pierre Corbin d veloppant les enjeux et implications de ce choix d nominatif J utiliserai dans ce texte deux formes d nominatives langue sp cialis e de grande diffusion ou massivement diffus e et langue commune dont la validit pour mon propos m riterait galement d tre tudi e ce que faute de place je ne ferai pas ici 4 Dans le num ro de RFLA dirig par Beno t Habert Gasiglia 2004a p 48 52 et dans les actes para tre des secondes Journ es de Linguistique de Corpus de Lorient 5 d faut peut tre de disposer d un corpus de r f rence p
390. res de Louvain p 753 763 Vaugelas Cl F de 1647 Remarques sur la langue fran aise utiles ceux qui veulent bien parler et bien escrire Wasow Th 1997 Remarks on Grammatical Weight Language Variation and Change 9 p 81 105 8 NOTES 1 L adjectif jeune que nous avons trait dans le travail pr c dent n est pas pris en compte ici puisque son comportement combinatoire est bien diff rent des autres 2 Nous avons manuellement examin tous les exemples pour ne conserver que ceux qui sont appropri s notre objectif ART ADV ADJ NOM au pluriel Voir les d tails dans Fujimura et al 2004 p 456 Comme nous avons restreint les contextes afin de n obtenir autant que possible que des exemples n cessaires et suffisants pour notre but notre base de donn es ne repr sente en fait qu une sous classe du ph nom ne Ce qui n entra ne cependant pas de cons quence erron e pour notre but En effet l examen des donn es nous enseigne que la fonction grammaticale du SN dans la phrase ne joue pas un r le pertinent pour le choix entre de et des 3 D apr s notre propre comptage les tailles des corpus sont d environ 89 000 et 66 000 mots respectivement 4 Les occurrences en nombre r el sont les suivantes Trait 17s des 92 de 472 18s des 40 de 1031 19s_1 des 10 de 606 19s 2 des 16 de 282 20s_1 des 38 de 761 20s 2 des 31 de 617 Roman
391. ressivit L interjection para t tre li e la mise en voix des affects du sujet et est donc per ue comme une verbalisation spontan e Celle ci se trouve sous une forme ponctu e l crit o l interjection devient essentiellement exclamative Rosier 2000 Selon Barb ris 1995 l oral l interjection n est pas toujours exclamative mais elle peut jouer un r le de 175 r gulateur dans la conversation et perdre le r le expressif qui lui est propre Nos recherches et l analyse des exemples du corpus montrent plut t son caract re expressif et motionnel 22 Dans le New Hampshire par exemple un Etat qualifi de d cisif John Sununu fils de l ancien secr taire g n ral de la Maison Blanche sous George Bush p re a r ussi conserver un si ge r publicain convoit par les d mocrates En Caroline du Nord Elizabeth Dole femme de l ex s nateur et ancien candidat la pr sidence Bob Dole s est impos e Ouaah quelle nuit a t elle lanc apr s sa victoire Lib ration 07 11 02 23 la question de savoir si ce r sultat pourrait tre atteint sans qu une guerre soit d clench e contre Saddam Hussein M Rumsfeld a r pondu ironiquement Oh oui bien s r a t il dit Saddam Hussein pourrait d cider que son avenir est limit et qu il a envie de partir Le Monde 19 09 02 Nous traitons l interjection dans le cadre de la repr sentation de l oral dans
392. riation Dans le cadre de ce travail nous avons exclu de notre probl matique la variation morpho d rivationnelle En effet les erreurs rep r es lors de ce type de transformations ne sont pas uniquement imputables une mauvaise syntaxe des m tar gles mais proviennent partiellement de la base lexicale CELEX partir de laquelle l analyseur extrait les informations n cessaires Cette base fonctionnant sur la notion de famille morphologique au sens large le passage d un d riv un autre alt re souvent le sens de d part Reproductive system lt lt production in a system Chaque type de variations est r gi par un ensemble de m tar gles Ainsi les s quences textuelles obtenues dans cette proc dure d indexation ont t ramen es par 22 m tar gles selon la r partition suivante 274 Type de Syntaxe de la m tar gle Accept es Refus es Total variation Insertion XX 16 Ins X2 N3 X2 lt AIN Np V 0 3 gt N3 2268 1582 3850 XX 19 Ins IX2 N3 X2 N PREP ART A gt N3 349 33 680 XX 22 Ins IX2 N3 X2 lt PUNC A N Np V gt N3 122 18 140 IX2 N3 X2 lt PUNC C A N Np V 1 2 PUNC XX 25 Ins N3 97 9 106 XX 28 Ins IX2 N3 X2 lt PUNC A N Np V gt N3 54 15 69 XXX 28 Ins IX2 A3 N4 X2 lt A N Np V 0 3 gt A3 N4 5 1 6 XXX 31 Ins IX2 A3 N4 X2 A3 lt A
393. rincipales tapes de la constitution d un corpus dans un premier temps nous pr senterons les crit res pr c dant le choix des locuteurs puis nous indiquerons le mat riel que nous avons utilis pour mener bien ces enqu tes 2 4 Choix des crit res de s lection des locuteurs Pour tre pertinemment exploitable dans divers domaines de la linguistique en syntaxe en pragmatique mais aussi en sociolinguistique urbaine le choix des locuteurs doit tre op r en fonction de plusieurs crit res dans notre cas nous avons utilis les crit res d enqu tes utilis s par l quipe DELIC lors de l laboration du Corpus fran ais parl de r f rence au nombre de trois crit re g ographique 3 zones urbaines de l Allier Vichy Montlu on et Moulins crit re socioprofessionnel 3 niveaux d tudes coll ge bac et bac 3 crit re d ge 3 tranches d ge 18 30 ans 30 65 ans et de 65 ans Ces trois crit res peuvent servir de variables dans une tude ult rieure puisque la variation linguistique peut tre analys e d un point de vue g ographique d un point de vue sociolinguistique ou encore diachronique l hypoth se tant qu un locuteur de plus de 65 ans n utilisera pas n cessairement les m mes tournures syntaxiques qu un locuteur de 18 ans et que m me si l on sait que la syntaxe n volue pas aussi rapidement que le lexique des tournures sont d laiss es au profit d autres
394. rmatique 3 EE Mode 3 Art Musique 4 8 Cuisine Sports 5 Politi Technologie Politique 8 5 1 Tableau 5 Domaines Parall lement ces r sultats quantitatifs les donn es de la Base permettent d j l tude de plusieurs recherches qui concernent surtout des aspects morphologiques tels que la concurrence entre les suffixes ista et eiro dans la formation d unit s lexicales d signatives de profession de mento et o Maroneze et Nascimento 2001 Maroneze 2002 la composition avec des formants radicaux grecs et latins Oliveira et Rosiska 2002 le r le de la m taphore dans la formation de n ologismes s mantiques Alves Rosiska et Maroneze 2002 la concurrence entre emprunts et formations vernaculaires Alves et Maroneze 2002 En voici des exemples qui d montrent la concurrence entre les suffixes mento et o Quem se submete as cirurgias n o esta cometendo nenhum crime pois n o ha puni o para a lt autoflagela o gt Mas ocorre que muitos transexuais acabam conseguindo documenta o falsa FSP 20 03 94 A sociedade brasileira sempre fez uma leitura negativa de si de lt autoflagelamento gt Como se nos Estados Unidos e na Alemanha n o houvesse hipocrisia com o trabalho IE 13 11 96 Les donn es de la Base montrent aussi quelques faits qui contrarient d une certaine fa on quelques aspects historiques de la langue portugaise Dans l histoire de cette langue
395. rmet de constater la pr sence de subjectivit ainsi que des cas de multiplicit d opinions du discours de la presse Le DD pr sent sous la forme des citations en dialogue manifeste galement un certain dialogisme et rend le texte pol mique Les exemples tir s du corpus comparable sp cialis illustrent les traits communs aux textes politiques lituaniens et fran ais l h t rog n it exprim e par la pr sence du DD la manifestation des paroles d autrui DD sous la forme du dialogue ou de citations simulant parfois des changes conversationnels la cr ation de la situation communicative dans le discours du journaliste etc L analyse de l oralit du DD montre les strat gies discursives de la presse politique des quatre journaux tudi s et fait appara tre des variantes propres chaque langue aux niveaux de la syntaxe et du lexique Selon la fr quence et la diversit des formes manifestant l oralit nous pouvons arriver la conclusion que Lib ration exprime mieux l oral que les autres journaux analys s et repr sente l ethos de l individu lib r la diff rence de la presse fran aise o on peut trouver plusieurs articles sur le sujet donn la presse politique lituanienne pr sente le plus souvent un seul article par jour sur ce sujet donn surtout Lietuvos Zinios et communique fr quemment la r action officielle Et par cons quent celle ci manifeste moins l oralit transcrite
396. rnaux lituaniens o les journalistes pr f rent le DD r gi par les normes du code crit ou l int gration des paroles d autrui dans leurs propos sous la forme du discours indirect surtout dans Lietuvos Zinios tant s rieux et objectif Le Monde pratique un jeu subtil avec les attentes du lecteur Maingueneau 2000 et par cons quent le code oral ne s exprime pas par des formes aussi vari es et nombreuses que dans Lib ration Le discours direct de ce dernier journal se pr sente sous une grande diversit des formes transport de voix etc qui t moignent du m lange des registres de langue dans le discours journalistique Par cela le journaliste montre un ethos d individu lib r de tout univers verbal clos de tout pr jug et cr e ainsi un style particulier appel un style Lib Maingueneau 2000 Oralisation du discours Nr Titre du Nombre Nombre direct journal d articles d occurences nombre nombre d articles d exemples d exemples analys s syntaxiques lexicaux trouv s trouv s 1 Lietuvos 100 50215 10 4 Zinios 2 Lietuvos 93 50222 18 3 rytas 3 Lib ration 75 50253 35 8 4 Le Monde 53 50077 19 7 Tableau I Manifestation de l oralit dans le DD du corpus comparable sp cialis 3 2 Le niveau lexical Comme nous avons pu constater l oralisation du DD dans la presse politique se manifeste aussi au niveau du lexique Les mots emprun
397. rouvera sur ce point dans la revue Corpus n 2 La distance intertextuelle Nice d cembre 2003 la mesure d taill e que Labb fait de la contribution des diff rentes classes de fr quence et aussi des parties du discours L explication qui en est donn e ne nous convainc qu moiti les hautes fr quences seraient plus r guli rement distribu es que les basses mis part quelques mots tr s sensibles la situation du discours comme les pronoms personnels En r alit l influence pr pond rante des basses fr quences vient de leur nombre Comme il y a un vote par mot rare ou fr quent pauvre ou riche la voix des puissants se perd dans la rumeur du peuple La d mocratie galitaire y a pourtant ses limites Labb recommande d liminer les hapax et plus pr cis ment les mots rares qu on rencontre dans le texte le plus long et dont la fr quence th orique dans le plus court serait inf rieure 1 Il invite aussi ne pas tenir compte des carts inf rieurs 0 5 Ces retouches sont probablement fond es en pratique mais elles affaiblissent la puret de la formule et en limitant la population appel e voter elles diminuent un peu le cr dit de la consultation La formule de Jaccard au contraire est d nu e de rustines et d empl tres Tous les mots hapax compris sont invit s aux urnes m me si le vote de certains est connu d avance les mots tr s fr quents ne peuvent viter de se trouver dans la z
398. rpus et de l analyse de genre Le genre tudi est constitu par les l gendes de photographies de trains publi es dans des recueils et des magazines pour amateurs de chemins de fer Un genre est une cat gorie de textes pr sentant des caract ristiques r f rentielles ici la description du contenu de photographies de sc nes ferroviaires et des caract ristiques linguistiques terminologie sp cifique tendances grammaticales comme la pr sence du passif dans les articles exp rimentaux Le genre correspond en outre une communaut de discours et les amateurs de chemins de fer sont les consommateurs des ouvrages et magazines qui constituent le support de celui qui nous int resse S ils sont britanniques ils sont souvent d anciens train spotters dont ils ont le caract re obsessionnel et le souci du d tail et sont souvent fort savants ce en quoi ils ne se distinguent d ailleurs pas d autres communaut s comme celles des amateurs de jazz ou de cyclisme Ceci entra ne une exigence de technicit et de pr cision de la part des diteurs nous ne sommes cependant en aucun cas dans le cadre d une litt rature technique qui serait destin e aux professionnels des chemins de fer et qui ne contiendrait pas de photographies du type de celles dont nous tudions les l gendes tant donn la bri vet des textes et le caract re fortement contraint du contenu r f rentiel nous proposons le terme nano genre pour l objet de
399. rrespondant un nom propre Les m tar gles sont tr s permissives afin de privil gier le rappel sur la pr cision Elles g n rent ainsi des erreurs de variation de mani re r currente La s quence textuelle ramen e par l analyseur n implique pas toujours d un point de vue strictement s mantique le concept auquel renvoie le terme enregistr sous sa forme canonique dans le r f rentiel blood vessel lt lt blood flow through selected vessels 3 CORPUS D TUDE LES DONN ES INITIALES L indexation a port sur 6 256 donn es bibliographiques champs textuels des titres et des r sum s en langue anglaise issues de la base de donn es bibliographiques biom dicales Medline Royaut ef al 2004 La ressource terminologique utilis e pour l indexation contr l e se compose de 360 281 termes provenant de l UMLS 256 290 pr f rentiels ou concepts et 103 991 synonymes et susceptibles de subir les variations linguistiques du langage naturel De cette indexation n ont t retenus que les termes r cup r s partir d une variation syntaxique soit 10 007 s quences textuelles r parties comme de fa on suivante Variations Accept es Refus es Total Insertion 3050 60 4 2001 5051 50 5 Permutation 2758 82 2 596 3354 33 5 Coordination 1268 79 1 334 1602 16 Total 7076 70 7 2931 10007 Tableau 1 R partition des s quences textuelles selon le type de va
400. rs adulte enfant Ce qui permet de visualiser l volution de l emploi de la forme cherch e sur l ensemble du corpus ou sur l ensemble des nonc s de l un ou de l autre locuteur balisage des dialogues lt dial ju1 gt balisage des locuteurs lt ad gt lt ju gt 5 balisage de la r f rence de l nonc lt 101 gt correspond lt dialogue n 1 nonc n 01 gt De plus il est possible d ajouter des signes sp cifiques pour segmenter autrement les nonc s balisage des nonc s avec le d limiteur des nonc s qui permet de revenir au texte plus facilement Un carr repr sentera un nonc 1 5 4 PHASE DE PR SENTATION Les nonc s sont regroup s par 50 pour une question de pr sentation nous aurons sur une ligne les nonc s de l adulte et juste en dessous ceux de l enfant pour mieux rep rer par exemple les reprises et reformulations 74 2 QUELQUES ANALYSES 2 1 Corpus de Julien Une fois le corpus informatis nous le passons Lexico3 pour le segmenter et obtenir le dictionnaire des formes class es par fr quence ou par ordre alphab tique C est partir de cette liste des formes que nous proc dons l analyse proprement dite Nous commen ons notre recherche sur parce que qui se trouve tre presque toujours surtout l oral en construction syntaxique incompl te du fait de l absence de la proposition principale
401. rtains mots bridge civilize easy exchange fated literary nature revelation seeing snob treason et surtout une vidente pr dilection pour la culture et la litt rature europ ennes en g n ral et celles fran aises en particulier Milton Oedipus Paris Phoebus Pindar Prefecture Prometheus Pythagoreans Rabelais Rago t Rebus 2 1 4 CODES METALINGUISTIQUES Notons galement que le logiciel Hyperbase reconna t les symboles amp et comme marques respectivement de titre et de page Ces codes m talinguistiques ne doivent par cons quent exister dans le corpus que comme marques de segmentation d o la n cessit de les annoter lorsqu ils apparaissent en tant que mots du texte Dans un corpus d anglais am ricain ces symboles apparaissent assez fr quemment pour que leur remplacement par and et dollar par exemple soit justifi Faute de cette simple op ration les risques de blocage et d erreur lors du traitement ne sont pas n gligeables 64 2 2 D sambiguisations grammaticales 2 2 1 TRAITEMENT DE LA FORME HOMOGRAPHE S Apr s avoir re u ce traitement de base le texte est pr t pour l tiquetage et la d sambigu sation grammaticale Les formes ambigu s telles s imposent un traitement particulier afin d viter les confusions entre s marque du g nitif et s forme verbale d riv e de be ou de have Ce qui plus est un g nitif comme day s sera lu par le logiciel comme 1 day
402. rvice de cette fonction descriptive Dans les exemples 2 et 3 la situation pass e la description de laquelle participent les verbes l imparfait est explicitement oppos e la situation actuelle d crite avec des verbes au pr sent Notre formulation plus haut reste enti rement compatible avec les propositions de O Ducrot et J C Anscombre contenues dans les seconds 125 points de leurs analyses respectives concernant la fonction qualificatrice de l imparfait et la distinction nonc propri t nonc v nement tout en faisant l conomie de leurs propositions qui sont contenues dans les premiers points portant sur la nature n cessairement temporelle du th me pour un nonc l imparfait chez Ducrot et la distinction entre tres temporels et tres intemporels pour les sujets d un nonc respectivement l imparfait et au pass compos chez Anscombre Nous pensons en effet que ces propositions sont peu utiles pour notre vis e applicationnelle Nous allons revenir sur ce probl me en examinant des exemples avec le pass compos dans la section suivante Pass compos 4 il y a il y a eu une euh une inflation galopante et alors les gens se sont retrouv s avec une augmentation de salaire et ils ont d pens tout le monde tait heureux et puis a a dur une quinzaine d ann es BIJOUV 6 1 4 1 7 5 en mille neuf cent cinquante il
403. s consiste caract riser des faits pass s les faits exprim s par les expressions verbales sont donc int ressants en eux m mes On peut d velopper cette formulation en pr cisant que le pass compos est employ pour parler d un fait action tat qui int resse l nonciateur concernant sa nature c est dire ce qui s est pass ou et une de ses caract ristiques particuli res comme par exemple la dur e cf la derni re forme de l exemple 4 le moment d occurrence cf la premi re forme de l exemple 5 et l exemple 6 ou tout autre aspect comme le caract re particulier de la crise dont il est question dans l exemple 5 3 3 Sch mas pragmatico discursifs Il est int ressant d analyser les diff rents types de contextes que nous appelons sch mas pragmatico discursifs dans lesquels se retrouvent les formes de l imparfait et du pass compos Ce type d analyse permet comme nous l avons d j mentionn plus haut de mieux comprendre et expliquer quelles intentions nonciatives correspond l emploi de chacune de ces formes Ainsi notre exemple 1 plus haut illustre le sch ma que l on peut qualifier de descriptif Il s agit pour l nonciateur de d crire sa situation familiale une poque pass e Cette situation n est pas explicitement compar e la situation pr sente comme c est le cas dans les exemples 2 et 3 o une telle comp
404. s tudiants de la promotion 2002 2003 du DESS LTTAC m ont donn observer le travail fait avec et pour Pierre Corbin et ou moi et ont ainsi contribu ma r flexion sur ce point 16 On dira qu une embarcation remonte un fleuve quand elle avance dans le sens oppos celui du courant en luttant contre son action que l on remonte un quai quand on marche sur la berge dans le sens oppos celui du cours d eau long ou que l on remonte une rue quand on gravit sa pente ou sans incidence de son ventuelle pente quand on la parcourt dans le sens inverse du flot de voitures voire des num ros des b timents qui la bordent Les joueurs font de m me ils remontent le terrain contre l opposition plus ou moins effective des joueurs de l quipe adverse 17 Je ne consid re pas ici les questions de co t des logiciels mais seulement l investissement en formation que r clament certains outils informatiques 18 Il est pour cela possible soit d tiqueter en parties du discours les items lexicaux du corpus puis d utiliser un concordancier qui prenne en compte ces informations soit d employer un logiciel comme Intex ou Unitex d velopp s respectivement par Max Silberztein dans un premier temps au LADL avec Maurice Gross puis de mani re autonome et au LADL puis au Laboratoire d Informatique de l Institut d lectronique et d informatique Gaspard Monge l universit de Marne la Vall e notamment par ric
405. s des phrases atypiques benariai sakiniai une sorte de phrase impersonnelle O ne Kur tau Ne tikrai ne et autres ainsi que des phrases incompl tes nepilnieji sakiniai sont tr s fr quentes dans le langage parl Ces derni res n ont pas de mod les caract ristiques pour les phrases habituelles Par cons quent leur sens d pend de la situation nonciative ainsi que du contexte Labutis 2002 Sirtautas 2001 Les phrases des types mentionn s introduites dans le discours direct de la presse politique constituent un cart par rapport la norme syntaxique journalistique signalent I oralit ainsi que le ton oral 171 14 Lietuviai inau prie kelerius metus mes jus iveik me futbolo var ybose o Sikart priimsime Europos S jung tokiais od iais 1 Lietuvos ryto korespondentus po e tadien Airijoje vykusio referendumo d l Nicos sutarties kreip si 1 vie but ve s Dublino taksistas Lietuvos rytas 21 10 02 15 Kancleris pripa ino kad tai jog Sikart jo partija gavo ma iau bals negu 1998 metais kai socialdemokratai u sitikrino 40 9 procento rink j param yra labai skausminga Suprantama atsakomyb u tai tenka man sak kancleris Jei ne man tai kam Lietuvos inios 24 09 02 L intonation et les pauses sont des ph nom nes vocaux dont la pr sence dans l crit s inscrit par les points d interrogation d exclamation et de su
406. s conditions d enregistrement Nous avons vu jusqu pr sent la m thode d enqu te utilis e depuis le choix des crit res de s lection de l chantillon de locuteurs jusqu au mat riel utilis et aux conditions d enregistrement en passant par une pr sentation sommaire des lieux de l enqu te Apr s cela commence un long travail d coute et de transcription qui r pond lui aussi certaines r gles et conventions que nous ne pr senterons pas ici qui sont celles utilis es autrefois par le Groupe Aixois de Recherche en Syntaxe et actuellement reprises pour la plupart d entre elles par DELIC 2 13 L int r t de ce corpus pour des recherches en linguistique L utilisation d un corpus de donn es attest es en fran ais parl permet une confrontation des hypoth ses th oriques avec une r alit ind pendante et complexe Plus pr cis ment voici quelques uns des avantages qu une telle confrontation pr sente les exemples sont attest s ce qui permet au chercheur d viter l cueil de l exemple construit souvent jug artificiel et qui suscite beaucoup de critiques les exemples apparaissent en contexte ce qui permet de mieux d finir les cadres nonciatifs et discursifs de leur utilisation Ainsi ce corpus peut servir des recherches en pragmatique comme c est le cas dans la seconde partie de ce travail ou en syntaxe il sert actuellement de base de travail un inven
407. s devant les noms pr c d s d pith te en fran ais port e du poids Itsuko Fujimura Mitsumi Uchida Hiroshi Nakao cceseeseeeseeereeeeeeees 131 Strat gie de consultation de corpus oraux transcrits pistes m thodologiques pour l exploration d un corpus th matique haut rendement Nathalie Gasiglia sis sans en ageawiendeasiccadausa ged EE Da SS 145 Le discours direct dans le corpus comparable sp cialis Aurelija Leonavi ien ss 165 Utilisation d un corpus cat goris pour l tude et la repr sentation de la synonymie en contexte Jean Luc Manguinhos teoista aet bat d teste 181 BDVOX Base de Donn es pour Syst mes de Reconnaissance de la Parole Multilocuteur I C Seara F S Pacheco R Seara Jr S G Kafka S Klein R Seara 197 Corpus vous avez dit corpus De la notion de corpus la cr ation d un corpus informatis C line Vaguer sr dnsnsimerntuimemeninni e a intel es 207 TAL et COPRUS EN ci aie nn es 225 Qu est ce qu un corpus homog ne R flexions partir d exp riences en Extraction et Recherche d Information Patrice Enjalbert username E irin nine 227 Appariement de mots propagation des liens d quivalence l aide de la relation syntaxique Sujet Sylwia Ozdowska siens 239 Rep rage des non phrases th matiques gr ce la plate forme ContextO Syve Portes a in ins daahe d E rite n ant fr dre 251 Apport
408. s faites a propos de Giraudoux et de Hugo et qui sont a notre connaissance sans autre exemple La chaine des calculs y est en effet fort longue et si elle aboutit un Chi2 synth tique qui value la proximit des deux textes compar s elle n cessite une pond ration qui amortisse effet des grands nombres et donc de l tendue des textes sur toute mesure probabiliste La seconde m thode est en revanche tr s connue tr s classique et tr s rapide Elle est recommand e par A Salem et J M Viprey au moins pour une premi re approche Il s agit tout bonnement de l analyse factorielle appliqu e au TLE tableau lexical entier c est dire au 31 dictionnaire des fr quences et sous fr quences que les logiciels d indexation construisent tous un moment ou l autre du traitement En r alit le TLE est rarement propos en entier car les calculs peu l gitimes dans les basses fr quences allongeraient exag r ment le nombre de lignes du tableau Mais l algorithme tant tr s rapide des tableaux de quelques milliers de lignes c est dire de mots diff rents sont trait s en quelques secondes 3 6 La formule de Labb apporte un heureux compl ment la m thode pr c dente Elle est plus sensible aux fr quences basses qu aux mots fr quents les premi res accaparant 40 de la distance totale quand les seconds pour une surface avoisinante ne rendent compte que de 5 de la variance On t
409. s linguistes ont s par le lexique de la syntaxe alors que les recherches sur corpus ont clairement montr que les deux sont indissociables Les liens ont t clairement montr s dans les grammaires locales Gross 1994 et Pattern Grammars Hunston 2000 Le d fi pour l analyse des comportements des mots en contexte est de d passer les annotations morphosyntaxiques pour r aliser des analyses fonctionnelles L article de Ozdowska va dans ce sens avec une tude utilisant l analyseur SYNTEX L objectif est ici l appariement de mots t che essentielle en traduction L article de Porhiel nous ram ne a l crit avec la description d un outil pour le rep rage des pr tendues non phrases th matiques Toutes les phrases ne contiennent pas n cessairement un verbe ce que les correcteurs automatiques ont du mal admettre Ces phrases existent et peuvent tre porteuses d informations il faut donc les tudier travers un corpus afin de r aliser la richesse des formes et de trouver les formalismes pour leur traitement La terminologie repr sente un autre domaine important en linguistique de corpus En TALN l analyse des corpus permet l extraction des termes in situ Ville Ometz et al se situent r solument dans le domaine de l ing nierie linguistique avec la description d une m thodologie pour la reconnaissance des termes et la prise en compte des variations La plate forme d crite introduit des filtres linguist
410. s modalit s il convient d explorer un corpus haut rendement comme celui tabli pour l tude de l expression en fran ais d exp riences du football afin i qu il facilite le rep rage des mots et expressions effectivement employ s ii qu il donne acc s l observation des emplois et permette partant d en valuer la r gularit et d en fournir des descriptions linguistiques les plus fines et les plus justes possibles je vais voquer diff rentes m thodes manuelles ou plus automatiques de d pouillement pour me concentrer en dernier lieu sur des proc dures 146 informatiquement outill es et quelques pistes de travail explor es ce jour Mais cela ne sera fait qu apr s avoir d crit le Corpus foot de multiplex transcrits dans son tat actuel et montr en quoi sa structure a t con ue pour maximiser la rentabilit de sa consultation 2 PR SENTATION DU CORPUS FOOT DE MULTIPLEX TRANSCRITS 2 1 Contenu du corpus Le corpus consid r a t envisag comme un corpus haut rendement Il n int gre que des transcriptions d oral les propos nonc s par des animateurs en studio des reporters sur le terrain des entra neurs des pr sidents de clubs et des joueurs durant neuf journ es du championnat de France 2002 2003 retransmises sur plusieurs cha nes de radio sous forme de multiplex Ces neuf documents audio une fois transcrits fournissent un corpus XMLis saisi ave
411. s non r solus par les outils classiques 6 DES FONCTIONNALIT S DEUX NIVEAUX Les ressources lexicales utilis es pour l analyse des documents peuvent tre d crites en termes de structure et de donn es Dans le mod le LUCIA les attributs constituent la partie structurante leurs combinaisons d terminant la fois les regroupements en tables et les liens d h ritage Les lexies constituent quant elles les donn es que d crit la partie structurante Pour l tape de constitution des ressources les premi res fonctionnalit s qui mergent d une analyse des besoins sont donc relativement classiques cr er modifier supprimer des structures ajouter modifier supprimer des donn es Si l on raisonne ce stade en termes de mod le informatique pour mettre en uvre le mod le de TAL les solutions qui semblent s imposer consisteraient choisir un mod le de repr sentation informatique et d exploiter des outils d j existants pour les fonctionnalit s voqu es Les syst mes de gestion de bases de donn es SGBD classiques permettraient de remplir ces fonctions avec efficacit Cependant les utilisations de notre mod le vont un peu l oppos des opportunit s offertes par un SGBD 294 notamment en ce qui concerne l utilisation de donn es en grand nombre ou de mani re concurrentielle En pla ant l utilisateur au c ur du mod le il semble qu il vaille mieux envisager des petites ba
412. s portent les traces du sujet parlant c est pour cette raison que nous avons pratiqu un marquage sp cial de ces mots La suppression des deux tirets et l ajout de la lettre q en position finale _think gt thinkq peut s av rer utile au premier abord si nous envisageons l tude des mots marqu s graphiquement comme porteurs de traces de la volont du sujet parlant Une simple recherche de concordance ou d index des mots se terminant par q lettre qui n appara t pas en position finale dans les mots anglais produira la liste suivante 4m C HYPERBAS CHRQ EXE CC TOI Toran me ner a CLIC MAT GRAPHIQUE TXTL TXTZ TXTS TXT4 TXTS TXT6 TXT TXTS TXTS cle a mo da aia fetta must nameq natureg nebulagq necessityq neverg noq notq nowg ofq omelettesq oneq orneeq ourreq pabulung peculiarg phantasmag physicalgq physiqueq priorig prodigiesq q queuesq quidmmesgq quoiq quondang rationaleq reallyq absurditiesq accidentsq adamq addedq albugineaq aliq ammoniag areq beastq becauseq bedq beeng beq b rangerq bienseance bookedq brusquerieq brutalq captaing caseq catoneq oooooooorooocooorooroorooo0oorr rk PECOFFFOC OFF ODO OC OC ONKFOrFOOC OOO 0000000000000000000000000000 rorrorororoowvooooorrrrrorooYw 000000F 000000000000000000000 kbOOO000000000000000000000000 Oorooroooocoocooroorooowrorocoecne 0000000000000000000 400000000 000000000000000 kO0000 krOO0O00O00O NPR RRP REPRE
413. sants qu condition d avoir un minimum de familiarit avec le domaine ce qui pourra difficilement s obtenir sans avoir fait l effort pour le football de suivre quelques matchs voire de conna tre les r gles du jeu Le corpus si riche soit il ne peut pas se substituer compl tement la comp tence du lexicographe qui le consulte 28 Le verbe tacler observera la m me partition s mantique et aura comme quivalents pour le second type d emplois les verbes s cher bien que ce sens ne soit pas relev dans le Petit Robert lectronique faucher etc 29 Les segments not s entre parenth ses et s par s par le signe sont en relation de disjonction l un d eux seulement occupe effectivement cette place syntaxique dans les nonc s attest s note la possible absence d un argument en une position donn e d gager le ballon la balle quivaut a d gager le ballon d gager la balle d gager Des diff rences de modalisation sont observables mais non d crites ici N DEFENSE EQUIPE va pouvoir se d gager o N GARDIEN DE BUT EQUIPE peut d gager va pouvoir d gager 164 LE DISCOURS DIRECT DANS LE CORPUS COMPARABLE SP CIALIS Aurelija Leonavi ien Universitas Vytauti Magni 1 INTRODUCTION La mise en sc ne de la parole d autrui est une strat gie discursive fr quente dans l criture de la presse actuelle Les voix t moins ins r es dans le discours monologal du
414. ses individuelles plut t que de grandes bases partag es L aspect textuel de nos ressources peut aussi nous orienter vers le format XML Dans cette optique de nombreux outils existent qui permettraient de remplir les fonctionnalit s pr c dentes Cette solution ne pr sente pas d inconv nient particulier et le format XML est effectivement celui que nous utilisons pour le stockage de nos ressources En revanche les outils g n riques pour l dition de documents XML ne peuvent satisfaire l ensemble des besoins inh rents notre mod le Une fonctionnalit suppl mentaire merge que ces outils ne couvrent plus familiariser l utilisateur avec le mod le Dans un premier temps cette fonctionnalit peut tre vue plus comme une contrainte pour la r alisation de l interface entre l utilisateur et les ressources que comme une v ritable fonctionnalit Ainsi plut t que d attendre de l utilisateur qu il s adapte au mod le de repr sentation informatique codant nos ressources cette contrainte impose de cr er une interface qui l en dispense en collant au mod le lexical plus qu au mod le informatique Mais la contrainte va en r alit plus loin dans notre approche il s agit non seulement de permettre l utilisateur de s adapter au mod le de TAL mais aussi et surtout de se familiariser avec ses propres ressources en lui en offrant des points de vue multiples et en le pr parant ainsi la phase suiv
415. si d limit s ne se recoupent que partiellement si nous nous d finissons en tant que lecteur le corpus de Vandeloise 1986 par exemple correspond alors l ensemble des phrases constituant l objet de l analyse pr sent dans l ouvrage mais ce n est sans doute qu un sous ensemble celui que l auteur a retenu comme pertinent pour l expos de la totalit des exemples effectivement examin s par Vandeloise c est ainsi que Milner 1978 peut crire Les exemples comme il est d usage dans la grammaire transformationnelle sont cens s valoir pour la classe enti re des phrases construites de mani re analogue De fa on g n rale nous laisserons l intuition du lecteur le soin de reconstituer la classe pertinente 209 2 3 Les diff rentes d marches pour laborer les corpus Si l on adopte le point de vue du chercheur il y a nouveau distinguer entre deux d marches possibles Fillmore 1992 ou bien les hypoth ses s laborent partir d exemples forg s l introspection dans le cadre d une linguistique de bureau Corbin 1980 ou bien le travail s op re sur des exemples attest s le corpus dans le cadre d une linguistique de terrain Ibidem dans le premier cas le linguiste construit lui m me les nonc s dans le second cas il les rel ve dans des textes de divers genres qui n ont pas t produits pour les besoins de la cause
416. spension ex 9 10 11 etc En analysant le corpus comparable sp cialis de la presse nous constatons que la ponctuation joue un r le important en ce qu elle nous permet de visualiser le rythme de l nonc cit et ainsi montrer comment il est prononc Dans des textes crits ce langage oral est limit visuellement par des guillemets qui signalent les fronti res du discours direct ins r Alors en cas d oralisation du DD dans la presse les guillemets introduisent une autre intonation le mim sis verbalis qui n est pas propre au discours du journaliste Dans les cas de tous les exemples que nous avons analys s la ponctuation repr sente d un c t le moyen de marquage typographique et de l autre le moyen de l adaptation de l oral l crit Le rapport des paroles d autrui par le DD garde la fid lit la voix sa transparence s mantique et vocale Ici il ne s agit pas de la verbalisation du ph nom ne mais d une r solution typographique d un probl me pos par rapport l oralit l usage des capitales parfois soulign es de gras 16 Il y a Ahmed qui sort d une enveloppe les pi ces d identit de ses trois fils tous mineurs et dont la voix cass e arrive peine hurler On m a dit qu on les avait embarqu s ici O sont ils OU SONT ILS Lib ration 05 04 03 L usage des capitales dans le DD d crit par Rosier 1997 est appel la vocif ration li
417. stent que dans les phoriques de troisi me personne du singulier il existe quelques manifestations d ind termination Ceci concerne d une part les anim s enfants en bas ge dont le sexe n est pas connu reprise de noms tels que child et animaux sup rieurs dont le sexe est connu ainsi que les pays consid r s comme des personnes morales Par ailleurs la r f rence des bateaux ou navires se fait normalement par des pronoms f minins Quirk et al 1985 attribuent ceci l existence d une attitude affectueuse et semblent dans le cas des navires admettre la variation illustr e par l exemple suivant qui sent fortement le fabriqu That s a lovely ship What is she it called Biber et al 1999 indiquent la possibilit de variation mais alors que leur ouvrage est riche en statistiques il n en donne pas sur ce point En fait la variation semble concerner plut t que les bateaux massivement r f r s au f minin certains noms de machines et v hicules que malheureusement aucune des trois grosses grammaires britanniques r centes ne prend la peine d num rer other kinds of inanimates such as cars pour Huddleston et Pullum 2002 inanimate entities such as ships pour Quirk et al 1985 Les locomotives vapeur 102 objet de tout l amour des Britanniques et plus encore des amateurs de chemins de fer sont en principe concern es au premier chef Soixante neuf phrases noyaux de no
418. str s ci dessous au moyen de trois expressions dont la premi re rel ve de la langue commune alors que les deux suivantes sont d un usage plus restreint et entrent dans la langue sp cialis e tudi e Protagoniste mis en Danger Appr ciation positive ou n gative physique ou danger du danger non une chute celui qui chute le ae physique n gative dangereuse seul mentionn n gative puisqu il s agit d une irr gularit commise par un joueur physique faisant ainsi courir un risque l int grit physique d un joueur de l quipe adverse le joueur victime du un tacle tacle fait par un dangereux joueur de l quipe adverse cf Fig 3 positive pour qui conduit l action ine action l quipe adverse de non puisqu il s agit d une phase de jeu dangereuse Celle qui conduit physique dans laquelle une quipe se trouve en mee l action tactique situation de marquer un but contre l quipe adverse M me si les lexicographes sont en principe des locuteurs particuli rement attentifs ils ne peuvent pas mobiliser instantan ment lors de la r daction de chacun de leurs articles tous les emplois r guli rement observ s que cette r gularit soit propre une langue sp cialis e de grande diffusion comme le football ou observable au sein de plusieurs pratiques par exemple les sports collectifs de ballon ou non Pour valuer selon quelle
419. struction tr s productive 100 par million d occurrences Citant Francis ef al 1996 Stubbs signale que le verbe d note fr quemment la force et la violence la malhonn tet l ill galit ou la stupidit Une telle construction qui permet de d tailler la mani re du mouvement en l associant explicitement un trajet parcouru est bien sa place dans notre corpus et c est sans surprise qu on constate que sur quatre occurrences deux d notent la force et l agressivit 12 An old but mighty X the most powerful locomotive on 3ft 6in track anywhere in the world muscles her way out of Tayside on the Glencoe Vryheid line 107 13 Looking as if it were travelling at the speed of sound this Rio Grande X is churning its way at all of 30 mph south from Alamosa to Antonito Colorado 14 Five years later things are under better control as X works its way toward the Springs near Peyton 15 On a freight train clawing its way up the grade to Blue Ridge Garver holds a microphone to catch the sounds of the X pusher he s riding On notera en guise de conclusion quel point un tel nano genre peu attirant au d part pour les non amateurs du domaine concern se r v le une source de vocabulaire minemment exploitable a des fins p dagogiques avec des tudiants avanc s Les nano genres permettent de mettre en relief un lexique riche dans ses limites troites 4 REFERENCES Biber D amp AL 1999
420. substantifs dont nous avons tudi les cooccurrences L emplacement d un substantif sera le barycentre des points correspondant aux synonymes qui se rencontrent avec ce substantif affect s chacun de leur nombre de cooccurrences respectif Il nous faut cependant effectuer une pond ration en divisant pour chaque substantif S le nombre de ses cooccurrences avec un adjectif par le nombre total d occurrences de ce substantif avec tous les adjectifs de la liste Le placement de ces substantifs fait parfaitement ressortir leurs classes voir figure 6 en annexe en effet comme nous l avons d j dit 188 nous avons une repr sentation o figurent d un c t les synonymes autour d int ressant et de l autre ceux proches d int ress les substantifs se placent eux aussi dans cet espace en deux zones bien s par es c t int ress il regard tude b te esprit t te c t int ressant cas fait exemple exp rience histoire conversation d tail entre autres Pour ne pas surcharger la repr sentation nous n avons pas plac toutes les tiquettes des points correspondant aux substantifs par ailleurs le groupe des cinq ne se situe pas exactement dans la zone d int ress mais plut t mi chemin d int ress et d int ressant cette position interm diaire s interpr te comme refl tant le possible changement de sens de curieux en position postpos e avec ces substantifs v
421. t NOM John G MacKay AUTRES NOM MacKay TITRE M Figure 1 Extraction d information Mouvement de personnels dans la direction de soci t D apr s Gaizauskas et al 1997 Etant arr t momentan ment sur la file de droite du Boulevard des Italiens j avais mis mon clignotant j tais l arr t et m appr tant changer de file Le v hicule B arrivant sur ma gauche m a serr de trop pr s et m a ab me tout le c t avant gauche Figure 2 Extrait d un corpus de Constats d accident texte A7 230 2 2 Recherche d informations g ographiques Il est inutile d insister sur l importance aujourd hui acquise par les technologies de la Recherche d Information c est dire dans la forme la plus courante visant rechercher et s lectionner dans un fond documentaire des documents pertinents sur un sujet donn Les m thodes utilis es actuellement majoritairement ne font nullement appel des m thodes linguistiques mais utilisent plut t des techniques num riques statistiques ou autres pour rep rer les mots ou termes les plus significatifs du contenu qui en constitueront une indexation Toutefois les limites de ces m thodes sont galement bien connues de tout utilisateur et une nouvelle tendance de recherche vise d velopper des formes limit es d analyse de contenu en s inspirant notamment de l EL On pourra aller jusqu envisager des formes parti
422. t et discours rapport l crit petits effets d un petit discours Cahiers de prax matique n 34 p 19 49 Sirtautas V 2001 Teksto sintaks ir vientisinio sakinio analiz Rinktiniai kalbotyros straipsniai iauli universiteto leidykla p 20 41 178 Tuomarla U 1999 Le discours direct de la presse crite Un lieu de l oralisation de l crit Faits de langues n 13 p 219 229 6 INDEX Construction disloqu e conversationnalisation dialogue discours direct discours rapport entourage lexical h t rog n it constitutive h t rog n it montr e particularit nonciative phrase incompl te pseudo dialogue simulation d une interaction situation nonciative situation communicative vocif ration 179 UTILISATION D UN CORPUS CATEGORISE POUR L TUDE ET LA REPRESENTATION DE LA SYNONYMIE EN CONTEXTE Jean Luc Manguin Laboratoire CRISCO Universit de Caen 1 INTRODUCTION Le but de cet article est de montrer qu un corpus cat goris comme Frantext peut constituer l un des supports de l tude d une relation paradigmatique avec des vis es p dagogiques ou comparatives Le principe de la m thode est de mettre l preuve les donn es relationnelles fournies par l autre fondement de la m thode un dictionnaire sp cialis en les confrontant avec les cooccurrences rep r es dans le corpus gr ce la cat gorisation des unit s lexica
423. t raires et un regroupement des livres appartenant une m me vari t g n rique La division tripartite l int rieur du genre romanesque carte les ouvrages initiaux inspir s de l cole nouveau roman des autres en indiquant que le changement th matique intervient d j avec le roman Voyages l autre c t de 1975 pour ensuite distinguer les autres ouvrages romanesques en un deuxi me et un troisi me regroupements du corpus qui tiennent bien compte de la chronologie de l uvre et de son volution 6 CONCLUSION Ainsi la num risation et l analyse lexicom trique de la quasi totalit des textes lecl ziens nous ont permis de mettre en exergue l importance de l opposition g n rique qui s observe tous les niveaux de l criture dans la structure dans la syntaxe aussi bien que dans le vocabulaire Ces r sultats contredisent d une certaine mani re ce qu a souvent crit Le Cl zio propos de son criture et des genres litt raires notamment dans l ouvrage La fi vre 1965 Tout et rien Je prenais des feuilles de papier les plus grandes possible et je les couvrais d criture presque sans y prendre garde presque au hasard Mais a n avait aucun genre litt raire c tait simplement de l criture En effet le refus de genres est souvent une position id aliste ou sociopolitique Aussi bien que Le Cl zio refuse toute r f rence un genre litt raire et que
424. t s l oral mots familiers argotiques etc constituent un cart par rapport la norme du style journalistique des textes politiques Ils repr sentent un autre entourage lexical et signalent g n ralement la pr sence de l oralit Le 173 corpus analys fournit des exemples de la manifestation de l oralit au niveau du lexique du DD existant dans la presse lituanienne et fran aise 17 Face aux hordes de journalistes qui l assaillent l ONU depuis des semaines Hans Blix reste imperturbable Il r pond toujours aux questions un demi sourire aux l vres poliment et pos ment sans hausser le ton L heure a beau tre grave lui est serein C est peut tre sa principale qualit estime un diplomate qui le conna t bien sait garder son sang froid quelle que soit la situation C est quelqu un de cool Remarquez avec le boulot qu il a il vaut mieux Sinon on irait la catastrophe Lib ration 28 01 03 soulign par moi 18 Samedi en regardant les nouvelles la t l vision il s est lev d un coup puis a fouill fi vreusement dans l armoire Il cherchait sa carte d lecteur C est qu il n avait pas vot depuis un bail Aldo Et dimanche matin il a t un des premiers d poser son bulletin 11 faut pas le laisser passer le couillon disait il Le Monde 06 05 02 19 7 heures un sexag naire d boule Putain ces cons ils vont nous emp ch
425. t Mole Creek Tank after climbing the 1 in 30 grade from Glenreagh with the Dorrigo mixed X and X are about to climb the famous Bethungra Spiral Junee Cootamundra with No 16 Riverina Express on D The morning sun glints of a Rio Grande Ski Train as its X climbs the Front Range of the Rockies at Fire Clay Colorado on D 109 On the last weekday of BR steam in north east England D a well cleaned X passes Ryhope and commences the climb to Seaton bank en route to Hawthorn mine with a train of empties X is climbing to Ridge Tenn shouldering 61 cars of southbound extra while older Mallets of USRA vintage supply the booster power needed to gain the Blue Ridge Heights Leased X climbs through the canyon just out of the Durango yards with a 34 car freight on D Below in D another of the Xs X climbs the hill at Monument with 43 cars at a respectable 35 mph 6 2 Expressions d notant la force ou la lutte In one of Link s best known photos X on the Abingdon branch mixed train works up the 3 percent grade into Green Cove Va Few associate the CB amp Q with mountain railroading yet here a pair of Xs X and X work up the three percent grade from Dumont South Dakota with 18 cars at just 15 mph in D on the rugged Edgemont Deadwood branch The power of a X is epitomized by this view of X hammering over Ais Gill with a long southbound freight one year before the end of steam on BR On a freight
426. t justifi es et toutes tablies non sur la fr quence mais sur la pr sence absence Nous en avons profit pour modifier notre calcul en empruntant cette source un quatri me ingr dient jusqu ici n glig le nombre de mots qui ne figurent dans aucun des deux textes compar s Car la proximit peut r sulter non seulement de go ts communs mais aussi de d go ts partag s En taxinomie s il est utile de conna tre les propri t s qui appartiennent aux deux l ments compar s et celles qu on ne trouve que dans un seul il n est pas sans int r t de savoir celles qui sont exclues de part et d autre En lexicom trie le calcul exige videmment qu on soit enferm dans un corpus fini afin qu on puisse d nombrer les mots qui manquent dans la confrontation de deux textes mais qu on rencontre dans les autres 3 5 Les calculs de proximit qui font intervenir la fr quence sont beaucoup moins nombreux Et c est pourquoi nous avons port un int r t la formule de Labb On dispose certes de deux proc dures dont l une remonte Muller D s 1968 dans son Initiation la statistique linguistique Charles Muller proposait l application de la loi binomiale au calcul de ce qu il appelait la connexion lexicale Ce calcul reposait sur les classes de fr quence et donc liminait compl tement la composante s mantique et th matique des textes Nous renvoyons le lecteur aux deux applications que nous en avon
427. t peu d importance aux f tes religieuses R Dans 10 la phrase qui pr c de la non phrase n est pas une question alors que c tait le cas dans 8 propos de r introduit un des sujets abord s par les deux locuteurs et le d veloppe Il s agit d un introducteur th matique Ce crit re permet d avancer que i dans un dialogue l unit lexicale en d but de r plique n introduit pas un cadre th matique si la r plique pr c dente se termine par un point d interrogation donc s il s agit d une question 8 ou par trois points 9 ii dans un dialogue la pr position en d but de r plique introduit un cadre th matique si la phrase pr c dente se termine par un point Ce dernier point demande tre confirm l issue de l analyse linguistique des non phrases dans un corpus crit on constate que i les quatre crit res utilis s pour caract riser les non 259 phrases th matiques correspondent des emplois particuliers th matique ou a th matique des non phrases ii les crit res se combinent par deux et les non phrases sont th matiques ou a th matiques en fonction de l absence ou de la pr sence d un adverbial Les combinaisons caract risant les non phrases th matiques se r sument alors ainsi P dans d but Adverbial x L x X x EI x Ra x x x x Si ce tableau re
428. t un pr cieux r servoir biologique pour la sant AJ Ce point sugg re qu il faudra sans doute prendre aussi le crit re positionnel pour rep rer les phrases th matiques ce qui n est pas actuellement le cas En tout tat de cause les r gles concernant les non phrases fonctionnent ii Dans 2 cas le programme reconna t des non phrases th matiques alors que ce sont des phrases th matiques Dans Vous cherchez un point de vente pr s de chez vous ou bien vous souhaitez conna tre l actualit de votre r gion Rien de 264 plus simple avec notre cahier qui regroupe plus de 3 500 revendeurs de proximit s Quant nos fameuses promotions vous en avez pr s de 500 a tudier ce mois ci AJ les moins neutres d un point de vue interpr tatif sont utilis s en lieu et place de la virgule le premier mot de la proposition commence par une minuscule et non par une majuscule sinon on a affaire une non phrase th matique iii Dans un cas une non phrase a th matique a t reconnue Ces r gles ont aussi t test es sur un corpus corpus b compos de 7 extraits comportant 12 unit s lexicales potentiellement introducteurs th matiques 6 introducteurs 50 et 6 qui ne sont pas des introducteurs 50 dans des non phrases et n ayant pas servi l analyse pr c dente Les r sultats sont similaires ceux obtenus pr c demment En r capitulant nous obtenons la r partition chiffr e suiva
429. ta grup M si kiai pasirodys jis yptel jo kone i po emi Lietuvos rytas 28 10 02 L analyse du corpus comparable sp cialis d une taille de presque d un million d occurrences n offre que quelques exemples du discours direct 167 pr sent sous la forme de dialogue classique dans des textes lituaniens introduit par les guillemets Ces exemples demandent des commentaires puisqu il faut expliquer pourquoi le DD en dialogue est assez rare dans la presse politique fran aise et lituanienne Le dialogue qui appartient l oral dans ce type de texte repr sente un cart par rapport la norme stylistique journalistique Donc tant marqu dans la presse politique des genres de l information et du commentaire le DD dialogique est de fr quence assez basse Une forme de la pr sence du DD dans la presse se manifeste encore dans son introduction dans le texte sous la forme de la citation La plupart des cas du DD trouv s prenant la forme des citations sont introduits par des verbes le plus souvent par des verbes de communication centr s sur le message et des groupes pr positionnels marqu s typographiquement En cas d absence d introducteur explicite les marqueurs typographiques les deux points et les guillemets sont les seuls signes qui montrent les fronti res du DD dans le texte Pour d montrer le dialogisme dans la presse politique le journaliste regroupe les paroles rapport es DD en di
430. taire et un classement des constructions verbales en s mantique ou encore en sociolinguistique urbaine Mais d autres conventions de transcriptions que celles que nous avons utilis es peuvent lui tre attribu es le linguiste phon ticien ou dialectologue par exemple pourra utiliser une transcription phon tique et ainsi effectuer des recherches partir de ce corpus dont la localisation g ographique semble particuli rement int ressante pour ces disciplines 3 TUDE DE L EMPLOI DE L IMPARFAIT ET DU PASS COMPOS En utilisant le corpus Allier nous nous int ressons une description des diff rences d emploi de deux temps verbaux du pass l imparfait et le pass 122 compos r pondant la question quelle est la fonction fondamentale de chacune de ces formes ou autrement dit quelle intention nonciative g n rale chacune d elles correspond dans les contextes o ces formes peuvent tre consid r es comme concurrentes Il s agit d une description qui est la fois justifi e du point de vue linguistique et accessible aux apprenants trangers ainsi qu aux enseignants eux m mes Sa valeur g n rale doit permettre d englober et de remplacer la vari t de valeurs h t rog nes d ordre aspectuel discursif stylistique ou encore extra linguistique exprim es en termes de perfectif imperfectif accompli non accompli born non born
431. tant pas mal commenc Avec l assagissement de ts BAIE s tait un affi hadi ce qui avait pau bon si Pas longtemgi F Lendemain La RER alourdisait wn peu qui ne sambla gu re enouveir I population as Pal OULIS de mesure sssiAxe temp rature Figure 6 Document trait dans le cadre d IsoMeta Visualisation d un document colori pour IsoMeta chacune des lexies appartenant aux dispositifs y est mise en valeur par une coloration en arri re plan avec la couleur de la table correspondante Lorsque l utilisateur d cide d ouvrir le document il a besoin d y rep rer les emplois m taphoriques potentiels Nous exploitons encore la couleur pour le guider en surlignant les lexies des domaines d crits par les ressources comme le montre la figure 6 L utilisateur peut donc rep rer facilement les unit s lexicales int ressantes pour sa t che et observer localement le ph nom ne tudi Le passage de la souris sur les unit s surlign es d clenche ici aussi l affichage d informations compl mentaires pour aider l interpr tation des r sultats et ventuellement r viser les ressources lexicales en cons quence L interface actuelle ne rend pas compte des redondances d attributs Une interface compl mentaire est en cours de d veloppement Elle exploite un affichage 3D afin de cumuler de nouvelles informations visuelles sur les unit s lexicales pertinentes Le projet d aide la recherche documentaire
432. tantif diff rent des 25 d j tudi s se ferait dans cette m thode par le relev des cooccurrences de ce substantif avec les synonymes de curieux puis par calcul du barycentre comme nous l avons fait pour les substantifs de l tude 8 DICTIONNAIRES SOURCES Bailly R 1946 Dictionnaire des synonymes Paris Larousse Benac H 1956 Dictionnaire des synonymes Paris Hachette Bertaud Du Chazaud H 1971 Nouveau dictionnaire des synonymes Paris Robert Guizot F 1864 Dictionnaire Universel des synonymes de la Langue Fran aise Paris Didier 7 me dition Lafaye P B 1858 Dictionnaire des synonymes de la Langue Fran aise Paris Hachette Grand Larousse de la Langue Fran aise 1971 Paris Larousse Le Grand Robert dictionnaire de la langue fran aise 1985 Sous la dir d A Rey Paris Robert 9 R F RENCES Berge C 1958 Th orie des graphes et ses applications Paris Dunod Borgatti S P Everett M G et Freeman L C 1999 UCINET 6 0 version 1 00 Natick MA Analytic Technologies Brodda B et Karlgren H 1969 Synonyms and synonyms of synonyms SMIL 5 p 3 17 Stockholm Coseriu E 2001 L gt homme et son langage Paris Peeters Francois J Victorri B Manguin J L 2003 Polys mie adjectivale et synonymie ventail des sens de curieux in O Soutet ed La polys mie Paris Presses de l Universit de la Sorbonne Frantext base textuelle cat goris e
433. te l un ou l autre des deux sens possibles et que parmi les 25 substantifs retenus 6 seulement sont susceptibles de donner lieu un changement de sens de curieux quand il est postpos en termes de cooccurrences relev es de curieux cela ne repr sente que 24 ou si l on est plus optimiste 29 de celles o curieux est en position postpos e 190 7 CONCLUSION ET PERSPECTIVES Nous avons montr qu il est possible en combinant un dictionnaire et un corpus autrement dit une ressource paradigmatique et une ressource syntagmatique d tablir une relation valu e entre tous les synonymes d un m me mot vedette en outre nous avons galement montr que cette relation peut aboutir de mani re relativement simple une repr sentation but p dagogique Cette repr sentation peut de plus s enrichir de donn es contextuelles qui contribuent en am liorer la lisibilit et l efficacit Il est galement important de constater que nos r sultats peuvent constituer un pr liminaire une d sambigu sation automatique du sens de curieux en contexte comme nous l avons dit plus haut les adjectifs situ s dans la zone de droite proches d int ress sont les plus loign s du sens que rev t curieux lorsqu il est ant pos Le placement d un substantif dans l espace de la repr sentation va permettre de d duire le sens pris par l adjectif curieux En effet si le substantif se place au milieu de la zone c
434. tendu et s lectionnent les l ments du contexte qui leur semblent pertinents produisant ainsi des r sultats de qualit variable en fonction du degr de familiarit avec ces productions langagi res celles typiques des multiplex aussi denses que difficiles d coute du fait des variations de d bit et de qualit d articulation des locuteurs des intonations tr s marqu es etc Ces diff rences de sensibilit d coute ne sont pas surprenantes mais elles amoindrissent le profit fait de l exploitation d un corpus haut rendement Toutefois il est int ressant de noter que au sein de la synth se de leurs relev s un consensus s est d gag entre tous les auditeurs scripteurs pour s lectionner les m mes objets voire pour envisager de combler les trous de cette liste compil e en prenant conscience la lecture d un l ment rep r du fait qu ils avaient entendu mais non relev une expression Il semble donc que si ce type de collecte est r alis individuellement et par des personnes non d j exerc es cette pratique ni habitu es ce type d expression son produit peut se r v ler relativement al atoire ce qui ne serait handicapant que si dans le cadre d un projet ditorial un tel relev tait men selon cette m thode et par un seul lexicographe mais il pr sente l avantage de baigner les scripteurs dans le parler d crire 3 2 Extractions au fil de la lecture En re
435. ter les d pendances initiales 1 Breast tissue lt lt breast lesions or normal tissues Ce type de m tar gle exprime une coordination sur les t tes du syntagme N4 et N3 partagent les m mes expansions L ambigu t li e la d limitation de la ST en corpus contexte droit peut tre lev e en introduisant un crit re flexionnel Apr s consultation du corpus il est apparu que la marque du pluriel sur N4 et N3 indiquait l appartenance des deux substantifs au m me SN respectant ainsi les relations de d pendances initiales entre N3 et son expansion X2 3 modification X2 N3 X2 lt A N Np V 0 2 gt N4 C5 N3 lt N4 agr num gt plu lt N3 agr num gt plu Thyroid vein lt thyroid artery and vein Enfin certaines variations bien qu ambigu s se sont r v l es correctes apr s consultation du contexte plus large en corpus Par rapport aux deux m tar gles pr c dentes cette derni re n est filtrante que par rapport au crit re syntaxique En l tat son manque de pr cision n cessite obligatoirement une intervention humaine De plus il est indispensable de fournir d autres crit res d aide la d cision qui soient susceptibles de lever 283 l ambigu t sur les rapports de d pendance entre N3 et X2 Ces informations ne peuvent tre apport es que par les contextes gauche et droit de la ST Nous constatons d s lors les limites de nos crit res dont la port e se restreint l express
436. teur de mani re particuli re car elles rel vent du domaine source de la m taphore tudi e la M t orologie Il est noter que de nombreuses autres redondances existent dans le m me document concernant cette fois le domaine cible la Bourse Le mod le ne permet pas de d cider de la pr sence de m taphores ce n est d ailleurs pas sa vocation Mais il doit tre en mesure de fournir a l utilisateur des informations pertinentes pour l aider rep rer et interpr ter des emplois comme ceux de l exemple E2 Supposons maintenant que pour une autre tude un utilisateur recherche des documents traitant de m t orologie Celui dont est extrait l exemple E2 sera plut t carter des r ponses lui proposer car bien que des lexies en rapport avec le domaine recherch soient pr sentes elles y sont en quantit restreinte et les redondances mises en jeu ont une port e tr s limit e dans le texte Une fois encore le mod le n a pas pour but de d cider de l inad quation du document la recherche de l utilisateur mais il doit tre capable de pr senter l utilisateur qu une trace de lexique m t orologique y existe en lui donnant les moyens de juger rapidement de sa pertinence L aide l interpr tation d pend donc nettement de l application notamment lorsqu on l envisage du point de vue de l interaction La section 293 8 est consacr e une pr sentation plus d taill e
437. th te devenant moins l g re la possibilit du choix de de augmente p 464 Bien que le facteur du niveau de langue joue un r le indubitablement tr s important dans notre question il n est tout de m me qu un des facteurs parmi les autres Les donn es nous enseignent que le crit re de poids est crucial dans tous les genres de textes depuis les textes acad miques formels jusqu aux conversations famili res en situation rel ch e 4 LIAISON PHONIQUE Nous passons la question phon tique Quand le nom commence par une voyelle ou un h muet autrement dit dans la condition o l on fait la liaison obligatoire entre l adjectif et le nom il y a une tendance claire viter des comme l indique le tableau 2 X 86 30 dl 1 p lt 01 On choisit plut t de grands yeux de nouvelles aventures au lieu de des grands yeux des nouvelles aventures Cette condition phon tique qui n a jamais t prise 136 en compte nous para t soutenir notre id e primordiale que le choix de l article de ou des a un rapport troit avec la question de l ordre des mots Fujimura et al 2004 Il est connu que dans de nombreuses langues du monde les s quences plus longues sont mises plus en arri re dans les nonc s Hag ge 1992 et cette caract ristique de longueur est un constituant par excellence de l chelle de poids Arnold ef al 2000 Wasow 1997 On peut donc facilement pr
438. theo table k end coef dista k 1 if table 1 0 and dista k l ecart theo lt 1 MALGR LU DANDIN MARIAG POURCEAU MALAD ANALYSE ARBOR E de la distance lexicale CRIBGUE DONJUA formule de Labb appliqu e aux lemmes BOURGEG PRECIEU SICILIEN FEMMES MOLI RE MARIS SAVANTES TARTUFF Slane AMANTS MISANTHR ara Suivante Plaideurs ro meug RTE Vs Place EE th LID ite omp e saha EL itt Ga Horace Det com dies La Cid Madea Cinna CORNEILLE OX Ame AMPHITR y Rodoguneperharte trag dies FACHEUX Nicom de re Menteurt Wusion_ Clitandre se Ment Tuileries A FoyeuS cedps Bg silas Hes Taron Sendo Pulch rie GARC opthnisbe _ Sur na Psych Othon T Soe ee Alexandre Ph dre Mithridate Andromaque Iphig p e Artannicuaiazet B r nice Exher Athalie RACINE Figure 5 Analyse arbor e de la distance lexicale m thode Labb appliqu e aux lemmes 34 4 LE CAS CORNEILLE MOLI RE UN PROBL ME D INTERPRETATION Apr s avoir tent d valuer et de comparer les m rites et les limites des mesures de distance reste interpr ter leurs indications Et si jusqu ici nous avons suivi et assez souvent approuv la d marche de Labb tout en refusant son bar me nous nous en s parons radicalement au moment crucial de l interpr tation Dans le cas du th tre classique les r sultats pour qui sait les lire sans id e pr con ue n invitent
439. tionary for Advanced Learners MEDAL distingue pour stand un sens 5 stationner Ifa car train plane etc stands somewhere it remains there without moving waiting to be used alors que rien de similaire n existe pour sit Ce que font les dictionnaires c est op rer des coupes des endroits saillants du continuum polys mique de tels verbes et le sens 5 de stand pour le MEDAL r sulte en fait de l interaction du verbe avec un sujet r f rant un v hicule Pourquoi stand a t il pu prendre un tel sens et non sit C est probablement encore par m taphore En effet on passe directement de la position debout la marche ou la course alors qu un homme assis doit d abord se lever pour pouvoir se d placer Stand d note donc une position contrastant directement avec le mouvement Seulement comme on vient de le voir le SN r f rant une locomotive peut tre le sujet de sit Deux sens de stand et sit d crits par le MEDAL sont int ressants ici stand 4 If an objects or building stands somewhere it is in a particular position ex Their house stood at the top of a hill sit 3 to be in a particular place ex The house sits on top of a hill overlooking the countryside A en juger par les d finitions et les exemples il n y a ici aucune diff rence et nous avons affaire des synonymes d notationnels d s lors que les s mes DEBOUT et ASSIS sont pass s l arri re plan La d finition du s
440. tions particuli res que nous allons exposer 61 Le corpus soumis l analyse avec le logiciel Hyperbase contient 67 nouvelles d Edgar Allan Poe crites entre 1832 1849 Ce corpus Poe a t constitu en respectant certaines r gles de taille 2 000 6 000 mots et d homog n it appartenance au m me genre litt raire Le contexte d analyse critique ne fait pas d faut pour l uvre d Edgar Allan Poe cependant les tudes linguistiques de son uvre et de son style n abondent pas celles de linguistique quantitative encore moins Notre recherche porte sur la subjectivit dans le langage et la place du sujet parlant dans le discours litt raire La plupart des nouvelles qui constituent notre corpus sont crites la premi re personne ce qui a guid notre analyse des marqueurs de la subjectivit commencer par les pronoms personnels et la classe des adjectifs qualificatifs Afin de valider et de renforcer les r sultats de notre recherche sur ces marqueurs nous avons constitu un corpus de r f rence compos des uvres de 40 crivains contemporains de Poe La nouvelle am ricaine du XIX si cle est le genre privil gi de ce corpus intitul EASS Early American Short Story 2 PR SENTATION DES DONN ES 2 1 Mise en forme et d sambiguisations graphiques 2 1 1 TRAITEMENTS PRELIMINAIRES Nous ne nous attarderons pas sur l origine des ressources textuelles abondantes sur Internet surto
441. tiques d une technicit bien temp r e con us comme des agglom rats progressifs de corpus monoth matiques consistants Dans le cadre de l exp rience relat e ici le corpus est constitu de transcriptions de dialogues radiodiffus s pour la documentation lexicale d un th me sp cifique le football et pour mettre en avant ses qualit s je me placerai dans la situation de lexicographes mettant en chantier un lexique o seraient explicit s les comportements linguistiques particuliers dans une langue sp cialis e de grande diffusion de mots couramment employ s par ailleurs dans la 145 pratique la plus courante de la langue commune Appliqu e au football cette approche pourrait pr sider l laboration d un dictionnaire de langue sp cialis e massivement diffus e ou pour un dictionnaire de langue g n rale la r daction d articles visant la description d un large spectre d emplois des items pr sents la nomenclature L adjectif dangereux par exemple est un mot courant de la langue fran aise dans la description duquel il convient que soient pris en compte trois facteurs 1 l expression d un danger inh rent ou provoqu avec respectivement un protagoniste mentionn celui qui est en danger ou deux celui ci et celui qui cause le danger ii le caract re physique ou non du danger et iii le fait que ce danger re oive une appr ciation positive ou n gative Ils sont illu
442. tituent les couples amorces qui vont permettre d initier le processus de propagation Les r sultats de la projection du lexique global aux phrases sont pr sent s dans le tableau 5 On obtient en sortie de la projection environ 40 000 couples amorces sur un ensemble de 7 055 couples de phrases align es ce qui donne en moyenne 6 couples amorces par phrase Tableau 2 Projection du lexique global au niveau local Afin de tester les performances d un appariement local de mots par propagation des liens d appariement le long des relations de d pendance syntaxique nous avons choisi de travailler partir de la relation SUJET et plus pr cis ment partir des noms qui sont r gis par cette relation Il en r sulte que dans le cas de relation SUJET le sens de la propagation des appariements est celui qui va du r gi le nom vers le recteur le verbe Soient un nom anglais Ns et un nom fran ais Nc formant le couple amorce Ns Nc Soient Vs un verbe anglais et Vc un verbe fran ais Nous avons impl ment les deux r gles d appariement suivantes 1 si Ns est en relation SUJET avec le verbe Vs et Nc est en relation SUJET avec le verbe Vc on apparie Vs et Vc 2 si Ns est en relation Sujet avec le verbe Vs et Nc est en relation Objet avec le verbe Vc et si Vs est a la forme passive on apparie Vs et Vc Ces deux r gles d appariement local par projection permettent donc de traiter deux types de cas 1 Ceux o
443. torielle de correspondance La m thode arbor e en effet est particuli rement ad quate lorsque le tableau analyser est une matrice carr e o lignes et colonnes d signent les m mes objets et o sont identiques les valeurs lues sym triquement de chaque c t de la diagonale principale la distance de A B est la m me que de B A Les donn es de la figure 2 sont relatives aux simples graphies avant toute lemmatisation L interpr tation de tels graphes est ais e dans son principe La distance d un texte un autre est directement proportionnelle la longueur des segments qu il faut parcourir pour relier les deux points L angle la direction les tournants et les carrefours n importent pas seule compte la longueur du parcours dans un relief tourment o les routes empruntent les vall es et les cols En partant du haut du graphique on rencontre d abord Marivaux dont les quatre extraits sont serr s les uns contre les autres puis le chemin conduit Rousseau mais les deux textes de Rousseau s ils d bouchent sur la m me voie sont assez distants l un de l autre car il y a loin entre le r cit des amours romantiques et l essai sur l ducation des enfants Ensuite la rencontre de Proust serait inattendue si nous ne l avions d j crois cet endroit dans l analyse des lemmes Puis la route h site des voyageurs en retard Sand deuxi me Verne ou en avance Voltaire ou bien des colle
444. train clawing its way up the grade to Blue Ridge Garver holds a microphone to catch the sounds of the X pusher he s riding A Lewis favorite Pennsy s Wilkes Barre Philadelphia Anthracite Express roars up the 2 2 percent grade at Barmouth Pa 7 miles from its Broad Street Station terminus behind a X on D X struggles out of the Wabash Valley with the eastbound Carolina Special Just past the tower X attacks the hill with Second 68 X and X with a passenger train to New Plymouth attack the 1 in 35 gradient of the Westmere Bank out of Aramaho Wanganui on D Heavyweight power on the Midland Line here X works hard ascending the 1 in 50 grades of the Cass Bank with goods train 150 on D X on no 150 goods thunders up with coal and timber from the Coast in D An example of a X minus streamlining X as it storms up the 1 in 50 gradient near National Park with a goods train in D X storms up the Avoca Bank on the Midland Line with a goods train for Arthur s Pass in D 110 X and X work up the four percent grade at Coxo Colorado with a solid train of Gramps tank cars bound for the Alamosa refinery in D X fills the upper Eagle River Valley with an eruption of sulphurous coal smoke as it works upgrade at 15 mph through Mitchell Colorado nearly 10 000 feet above sea level on the west side of Tennessee Pass In a very early action view below X chugs upgrade near Sedalia in D Above three Xs strugg
445. tre corpus comportent un ou plusieurs anaphoriques renvoyant un SN r f rant une locomotive Exemples 7 X from Burton looked quite presentable as it shot past Lenton South Junction with an unidentified Class B passenger train from Nottingham 8 X is on the home stretch toward the depot as she steams into town with the Dixie Flyer circa D La r partition est la suivante it its 62 she her 7 Nous avons donc bien l une ind termination grammaticale l int rieur du nano genre il est impossible de pr dire autrement que sous forme de probabilit quel anaphorique renverra au SN r f rant une locomotive On constate aussi que dans un environnement o l affection vis vis de l objet central des ouvrages et des photographies aurait pu se manifester par l emploi d anaphoriques f minins ce cas est tr s minoritaire Par ailleurs les sept f minins se trouvent dans trois des sources toutes am ricaines On peut voir l une manifestation du plus grand recours au lexique familier ou au pittoresque des l gendes des recueils am ricains de photos de trains C est en effet presque exclusivement dans ceux ci qu on trouve des traces d humour et de familiarit telle cette classe de locomotives trapues d nomm es fatsoes par l auteur d une l gende Lorsqu on examine les 16 phrases noyaux manifestant ouvertement de l animisme c est dire pr tant des locomotives des caract ristiques d
446. tre l exemple 7 7 En r alit les Australiens de souche sont inquiets pour leur avenir Sur le plan de la natalit d abord d s l an 2000 leur population va baisser Sur le plan des valeurs ensuite les Australiens sont devenus blas s AJ Bien que les pr positions sur le plan de se trouvent dans le paragraphe et dans la continuit syntaxique de la phrase introductrice En r alit les Australiens de souche sont inquiets pour leur avenir sur le plan de est un introducteur th matique Comme la non phrase comporte un MIL dont la fonction est d organiser le discours la combinaison introducteur th matique MIL conf re la non phrase un r le de s riation de l information 2 les adverbiaux sont polycat goriels et peuvent comme c est le cas des MIL tre emprunt s d autres sous syst mes Turco Coltier 1988 Adam Revaz 1989 Jackiewicz 2002 Par cons quent les cat gories d adverbiaux mentionn es initient potentiellement une lecture th matique Par exemple d abord peut tre un MIL mais aussi un adverbial temporel ef peut tre un marqueur discursif mais aussi un marqueur additif 3 cet exemple montre aussi que pour analyser les non phrases th matiques une phrase adjacente ne suffit pas Ici les non phrases th matiques exemplifient l argument avanc par la phrase introductrice Enfin nous consid rons un dernier crit re extrait dialogal vs extrait non dialogal D
447. tt ralement transport de voix la volont de rendre volume sonore et tonalit en les mat rialisant par le recours la typographie Dans le corpus d une taille de presque d un million de mots nous n avons trouv que des exemples fran ais de Lib ration Pour d terminer la fr quence du discours direct oralis nous avons tudi une partie du corpus des quatre journaux de taille similaire pour chacun Les r sultats statistiques de la manifestation de l oralit dans le discours direct aux niveaux syntaxique et lexical du corpus comparable sp cialis sont pr sent s dans le fableau 1 Cette analyse a t bas e sur l examen des articles crits sur les m mes th mes et probl mes constituant environ 50 000 172 occurrences de chaque journal Comme la longueur des textes des journaux analys s n est pas la m me les articles du Monde sont les plus longs et ceux de Lietuvos Zinios les plus courts alors nous avons examin 100 articles de Lietuvos Zinios 93 articles de Lietuvos rytas ainsi que 75 articles de Lib ration et 53 articles du Monde Selon le nombre qui n est pas tr s grand des cas trouv s de l oralisation du DD au niveau du lexique et de la syntaxe nous pouvons constater que l oralit n est pas tr s souvent pr sente dans la presse politique Les particularit s linguistiques du code oral se manifestent plus fr quemment dans les journaux fran ais Le Monde Lib ration que dans les jou
448. turelles TALN 01 tutoriel p 17 76 Morin E Jacquemin C 1999 Expansion automatique de thesaurus a partir de corpus Actes de la Troisi me Conf rence sur l Ing nierie des Connaissances 1C 99 Palaiseau France Juin 1999 p 97 105 Polanco X Fran ois C 2000 Data Clustering and Cluster Mapping or Visualization in Text Processing and Mining Sixth International ISKO Conference Toronto Canada Advances in Knowledge Organization Vol 7 p 359 365 Pozzi M 2002 Towards the harmonisation of terminology of ISO TC37 standards corpus based identification of problem terms Proceedings of the 6 International Conference of the Terminology and Knowledge Engineering TKE 02 p 101 106 Rastier F 1995 Le terme entre ontologie et linguistique Actes des l res Journ es TIA Villetaneuse La banque des mots Num ro sp cial 7 1995 p 35 65 Rinaldi F Dowdall J Hess M Kaljurand K Koit M Vider K Kahusk N 2002 Terminology as knowledge in answer extraction Proceedings of the 6 International Conference of the Terminology and Knowledge Engineering TKE 02 p 107 112 Royaute J 1999 Les groupes nominaux complexes et leurs propri t s application l analyse de l information Universit Henri Poincar Nancy I Th se de doctorat en informatique Royaute J Francois C Zasadzinski A Besagni D Dessen P Maunoury M T Le Minor S 2004 Relation entre g nes impliqu
449. u mod le auquel elles sont ainsi li es Pour poursuivre nos travaux il nous para t int ressant de mener une tude plus grande chelle pour mieux caract riser la d pendance des interactions dans les applications de TAL et de linguistique de corpus en particulier vis vis des mod les linguistiques utilis s La r flexion sur l instrumentation informatique de la linguistique doit selon nous attacher une part importante aux interactions et aux moyens de visualisations des informations Il nous semble donc pertinent de revisiter les propositions de standards et plates formes d ing nierie linguistiques sous cet angle en analysant notamment la possibilit d y int grer les aspects interactionnels que nous pensons d laiss s l heure actuelle 12 R F RENCES Beust P 1998 Contribution un mod le interactionniste du sens Th se de doctorat en informatique de l Universit de Caen Beust P Ferrari S et Perlerin V 2003 NLP model and tools for detecting and interpreting metaphors in domain specific corpora In Proceedings of Corpus Linguistics 2003 UCREL Lancaster p 114 123 Card S K 1999 Information Visualization Using Vision to Think Morgan Kaufmann Publishers p 1 34 Coursil J 1992 Grammaire analytique du fran ais contemporain Essai d intelligence artificielle et de linguistique g n rale Th se de doctorat en informatique de l Universit de Caen Ferrari S 1997 M thode et outils i
450. u sein de la zone int ress entre les termes d pr ciatifs comme fureteur et les termes neutres comme int ress n est plus pr sente Cette diff rence est probablement due au fait que les donn es syntagmatiques ne permettent sans doute pas pour des raisons qu il importe de pr ciser d acc der l essentiel de l information paradigmatique Cette conclusion est fond e sur le fait que les regroupements obtenus par classification hi rarchique ascendante des similitudes d emploi pr sentent parfois des anomalies s mantiques si on les 187 compare aux groupes que l on obtient partir des similitudes paradigmatiques Nous pouvons en effet effectuer une classification hi rarchique partir des tableaux de similitudes comme nous l avons d j pr sent par ailleurs Manguin 2004 Il est vrai que dans le cas pr sent la seule information paradigmatique incluse dans les donn es est la relation de synonymie entre curieux et ses synonymes puisque nous avons conserv la liste de ceux ci et que les relations entre ces synonymes ont disparu Des groupes comme inquisiteur anxieux ou avide investigateur issus des similitudes d emploi nous paraissent en effet moins coh rents que avide int ress et inquisiteur fureteur qui eux proviennent des similitudes paradigmatiques La solution ces diff rences consiste pond rer les donn es syntagmatiques par les donn es paradigmatiques en faisant simp
451. uctures syntaxiques catch fish capturer poisson Nous parlerons donc en ce qui concerne l appariement par propagation d appariement syntaxique premi rement en raison de l utilisation des relations de d pendance syntaxique au c ur m me du processus d appariement et deuxi mement en raison du type d unit s concern es par l appariement qui peuvent tre aussi bien des mots simples que des structures syntaxiques 7 2 R sultats et valuation La propagation des liens d appariement bas e sur la relation syntaxique Sujet Objet a donn lieu l appariement de 1 591 couples de verbes Nous avons valid manuellement 649 cas afin de constituer une base de r f rence pour l valuation de l appariement local Ont t valu s comme corrects aussi bien des appariements o un verbe simple en langue source correspond un verbe simple en langue cible que des appariements o un verbe simple en langue source correspond une locution verbale en langue cible et inversement l appariement ne concernant que le seul noyau verbal soit la t te de la locution improve conduire l am lioration have an influence influer 244 Nous consid rons en effet que m me s il n y a pas d quivalence du point de vue du sens entre les verbes ainsi appari s il n en reste pas moins que l appariement est juste du point de vue de la propagation Par ailleurs une fois trouv l appariement entre
452. ues disponibles facilement accessibles sur le fran ais qui puissent nous aider dans l tablissement de notre corpus d tude Il suffit pour s en rendre compte de faire une recherche sur le Web avec le mot clef corpus ou base de donn es linguistique ou corpus linguistique les r sultats sont probants Actuellement le concordancier en ligne GlossaNet le TLFi le Web le Dictionnaire de l Acad mie francaise ABU la Biblioth que Universelle le site Elicop Etude Linguistique de la Communication Parl e sont disponibles et accessibles gratuitement alors que Frantext Le Monde Diplomatique Le Petit Robert Multim dia ou autres corpus sur CD Rom restent sous le co t d une licence donc payants Malheureusement les corpus actuellement accessibles sont peu diversifi s beaucoup sont centr s sur la litt rature ainsi seul GlossaNet permet d oublier pour un temps la recherche d occurrences dans la presse munie d un crayon 3 3 2 AVANTAGES DE LA BASE DE DONN ES LINGUISTIQUE ICI CONSTITU E LE CORPUS EST CONSTITU D NONC S MUNIS DE LEUR ANALYSE Par l informatisation de notre corpus nous nous inscrivons dans le courant des linguistiques de corpus qui consiste en l utilisation de corpus annot s de grande taille vari s et assortis d outils d exploration puissants permettant d observer plus finement les ph nom nes Habert ef al 1997 Par rapport aux faits nous d
453. uger de la validit d une variation si nous n avons pas acc s au contexte plus large tumor tissue lt tumor normal tissue Parfois l expert est en mesure de prendre une d cision partir des informations fournies par la ST lorsque celle ci se r v le as mantique telle que skeletal survey and bone Toutefois notre objectif est d obtenir une meilleure reconnaissance de la variation par le syst me en introduisant des crit res filtrants dans les m tar gles 4 2 2 D PENDANCES MODIFI ES PAR INSERTION D UNIT S GRAMMATICALES ET OU LEXICALES D autres facteurs sont susceptibles de modifier les d pendances L insertion d une unit lexicale et ou grammaticale coordination pr position dans le syntagme de d part peut provoquer des ruptures syntaxiques videntes pour un tre humain L objectif est de parvenir formaliser ces ph nom nes linguistiques afin que ces mauvaises variations soient automatiquement filtr es par le syst me 280 1 XX 1 Coor breast tissue lt lt breast lesions or normal tissues temperature receptor lt lt temperature dependent and receptor 2 XX 37 Perm thyroid function function in a rat thyroid Tout en pr servant les bonnes variations 3 XX 1 Coor dividing cell dividing follicular and stroma cells Thyroid function lt thyroid growth and function 4 XX 37 Perm thyroid tumor tumor of the thyroid XX 37 Perm animal tissue tissues in anima
454. ult la page le genre Etape 3 La table Identification distributionnelle du SP contient l nonc retenu ainsi que les propri t s syntaxiques du compl ment introduit par dans les manipulations traditionnellement jug es pertinentes pour en permettre l identification sont ici repr sent es suppression d tachement position pr verbale pronominalisation test en e faire entre autres Etape 4 La table Identification des constituants V d t N permet de saisir chacun des constituants en vue d extraction automatique par exemple de l ensemble des noms et contient les conclusions de l identification syntaxique du compl ment est il compl ment ou modifieur Etape 5 La table Propri t s des Noms permet une premi re analyse du nom en terme de classes d objets classe s mantique ou par ses propri t s morphologiques est il d riv d un verbe l aide de cet chantillon d emplois de la pr position dans que nous souhaitons repr sentatif de l ensemble de ses emplois en discours nous avons pu mettre en vidence Vaguer 2004b des r gularit s quant l utilisation de cette pr position par le biais de manipulations r gl es et avancer ainsi dans son identification Notre corpus comporte donc les nonc s de d part mais aussi toutes les indications qui leur sont associ es tant du point de vue de la provenance de l nonc source auteur genre ann e page que
455. ultats repr sent s graphiquement Prenons comme exemple le graphique de la distribution du pronom personnel J dans le corpus ae C HYPERBAS 24 EXE E i 7 Corr l 0 152 I 5939 gee O N lexe tonte E AE E ey EE Voir les contextes CLIC sur un b ton du Traiter une ligne Zone r serv e une l gende suppl mentaire cliquer Figure 3 Distribution de la forme I dans les 67 parties du corpus Le m me corpus sans aucune marque de segmentation telles amp ou sera d coup automatiquement par le logiciel en neuf parties Cela rend la lecture plus ais e mais le rep rage sera moins pr cis au niveau de chaque texte 68 y C AHYPERBAS CHRON EXE 10 TXT4 TXTS Voir les contextes Cl un b ton da grap Traiter une ligne de 1 CLIC MAJ sur un Ce Cv Zone r serv e une l gende suppl mentaire cliquer Figure 4 Distribution de la forme I dans les 9 parties du corpus Afin de pouvoir exploiter les fonctions d Hyperbase qui d c lent l volution du lexique et la distribution des fr quences nous avons dispos les textes dans le corpus par ordre chronologique La lecture des r sultats de l analyse des distances lexicales se trouve ainsi facilit e par l organisation chronologique des textes a C HYPERBAS CHRON EXE Txt8 Txt Txt Txt Txt3 Txt2 Txt Draguer un point pour le d placer MAJUSC pour voir ses par
456. un cart d une grande amplitude mais l cart cette fois ci t moigne d un d ficit important de substantifs et d un exc s de verbes Dans les uvres non fictionnelles les ouvrages ethnologiques les essais les r cits de voyage et la biographie l volution de l opposition entre la cat gorie du substantif et celle des verbes est en effet assez spectaculaire Au d but les substantifs sont d ficitaires et les verbes exc dentaires cf L extase mat rielle mais assez vite les r les s inversent et l cart s amplifie de fa on importante Il est difficile de fournir une explication pr cise mais un moment qui correspond la d couverte de la culture am rindienne et mexicaine capitale pour notre crivain les substantifs commencent abonder tandis que les verbes diminuent de fa on consid rable Cette d couverte essentielle Le Cl zio veut en t moigner et il r p te souvent Etre vivant c est savoir regarder Peut tre partir de ce moment n y a t il plus besoin du mouvement des dialogues ni des verbes d action ou de parole il suffit de regarder et de nommer Le Cl zio observe d crit et partage ce qu il voit avec ses lecteurs en recourant de nombreux substantifs Cette bipolarit que nous pouvons observer entre les cat gories des substantifs et des verbes chez Le Cl zio n a pourtant rien d original elle a t observ e dans bien d autres corpus tienne Brun
457. un programme de pr paration textuelle MkCorpus pour extraire du corpus tiquet inutilisable pour Lexico3 deux corpus distincts au format appropri Nous cr ons ainsi les corpus JULIEN forme cat lt ad 101 gt alors ADV c PDS est VINDP3S quoi PRIl DETDFS histoire NCFS de PREP Crictor_NPI JULIEN lemme cat lt ad 101 gt alors ADV ce PDS tre VINDP3S quoi_PRI le DETDFS histoire NCFS de PREP Crictor_NPI A partir de JULIEN forme cat nous pouvons rechercher l emploi des pr positions Nous constituons un groupe de forme gr ce l expression r guli re a za PREP qui se traduit par tous les mots commen ant par une lettre dans l intervalle a z ou se r p tant ou non suivi de la cat gorie Pr position Nous obtenons la liste suivante gt Groupes de formes Nom du groupe Pr positions _ Nouvelle entr e a za _PREP FF Utiliser des expressions r guli res IV Ajouter F Rechercher Enregistrer ES Supprimer G Charger Forme Fr quence amp _PREP de_PREP pour_PREP _PREP avec_PREP dans_PREP en_PREP par_PREP du_PREP sur_PREP voil __PREP pendant PREP sauf_PREP 2NNN 00 78 Nous proc dons ensuite la concordance de ce groupe pour v rifier le contexte imm diat des pr positions Graphique 7 Nous pouvons ainsi v rifier les constructions de type Verbe conjugu Pr position Pr position Verbe infinitif Nous pou
458. un verbe simple et la t te de la locution verbale qui lui correspond dans l autre langue nous pensons qu il est possible de mettre en place des heuristiques permettant de retrouver l appariement complet entre verbe simple et locution verbale Sur les 649 cas valid s 54 correspondent des checs ce qui repr sente un taux de pr cision de 91 70 Il est noter que sur les 54 checs relev s 43 ont pour origine une erreur pr alable l algorithme de propagation telle que 1 une erreur dans l analyse syntaxique 2 une erreur au niveau du rep rage du couple amorce ou 3 une erreur dans l alignement des phrases 1 The drift observed in cyprinid alevins may also be density dependent La d rive observ e chez les alevins de cyprinid s peut aussi d pendre de ph nom nes surdensitaires Dans l exemple 1 le mot observed a t identifi par l tiqueteur morpho syntaxique comme verbe et non pas comme participe pass L analyse syntaxique a donc conduit reconna tre drift comme sujet de observed partir du couple amorce drift d rive le lien d quivalence a donc t tort propag suivant la relation SUJET observe d pendre 2 The conditions of residual normality are examined using the Shapiro Wilk test the other hypotheses were checked L hypoth se de normalit est test e par le test de Shapiro Wilk les autres hypoth ses sont v rifi es Dans l exemple 2 c est le couple
459. ur et aussi de I usion Comique avec les pi ces en vers de Moli re y avait t observ e mais aussi celle des Fleurs du mal et des Po sies de Rimbaud A l poque la formule de Labb n avait pas les correctifs qu elle a re us depuis et nous lui en avions ajout un en refusant les hapax non seulement du texte le plus long ce que recommande Labb mais aussi du plus court Et bien entendu nous ne disposions pas de la lemmatisation Labb Le r sultat 0 182 n a donc pas tre confront a l chelle tablie depuis lors mais aux autres r sultats obtenus dans le m me corpus avec les m mes options et les m mes conditions Or cette proximit entre les recueils de Baudelaire et de Rimbaud est aussi troite que celle qui lie au Menteur Don Juan 0 180 le Misanthrope 0 173 l Avare 0 177 les Femmes savantes 0 173 le Bourgeois gentilhomme 0 222 et le Malade imaginaire 0 207 Si donc on conclut que l auteur du Menteur est le m me que celui des pi ces cit es on doit pareillement conclure qu il n y a qu un auteur pour les Po sies rimbaldiennes et les Fleurs du mal Ce contre exemple n est d ailleurs pas le seul que nous ayons relev en r unissant dans une m me base l uvre de Moli re et celle de Marivaux les calculs de distance montrent bien une s paration nette entre les deux dramaturges l exception de la premi re pi ce de Marivaux qui il est vrai est fort courte et la s
460. urra tre men e gr ce des grammaires locales ou de mani re quivalent des automates tats finis Mise en relation des entit s Ici on exploitera une structure verbes ou d verbaux actants Ceci peut tre r alis par la m thode populaire des patrons d extractions d crivant les enchainements de groupes verbaux et nominaux possibles pour exprimer l information attendue Par exemple pour le texte de la figure 1 on aura un patron du type lt appointment gt of lt person gt to lt position gt D autres sch mas pertinents seraient lt person gt lt retires gt as lt position gt lt person gt lt is succeeded gt by lt person gt etc Mais on peut pr f rer une analyse syntaxique plus classique souvent aid e par un typage et autres informations s mantiques Un certain nombre d op rations de mise en coh rence au niveau du texte des bribes d information ainsi extraites proposition par proposition doivent alors tre r alis es Typiquement des liens de cor f rence nominale ou pronominale doivent tre tablis Nous reviendrons sur ces diff rentes tapes dans les sections 4 et 5 pour en faire une analyse plus pr cise en relation avec la question pos e de l homog n it de corpus Le lecteur int ress pourra consulter un certain nombre d ouvrages ou d articles de synth se tels que Piacenza 1997 Poibeau 2003 et Dupont ef al 2002 229 Texte tra
461. us massivement peut tre encore que des relev s manuels au fil de l coute ou de la lecture de g n rer une part de silence importante ou de ne pas pallier pleinement le manque de culture sp cialis e des lexicographes qui n ont pas de repr sentation des situations que ce vocabulaire technique permet de nommer Le recours aux corpus devrait leur permettre de mettre en relation les faits d crits et les termes employ s pour les d crire mais ce n est pas aussi net quand les segments textuels extraits sont trop courts pour tre effectivement informatifs ou que le balisage XML n indiquant pas quelle quipe appartiennent les joueurs mentionn s des erreurs d interpr tation sont rendues possibles par d faut d information dans une s quence comme Pagis l entr e de la surface de r paration qui peut peut tre d caler Santos seul le fait que les deux joueurs Pagis et Santos appartiennent la m me quipe permet de comprendre que le verbe d caler signifie faire une passe un co quipier d marqu plut t que par exemple passer au del d un adversaire en conservant le ballon partir de ces premi res observations je vais consacrer la section suivante la pr sentation du protocole exp riment pour mener des investigations aussi automatis es que possible et g n rer des extractions dont la consultation pr sente un bon rendement informatif pour les lexicographes m me profanes en
462. us n cessaires la non phrase qu elle n est pas autonome Les manuels d criture et de stylistique Bj rk et al 1988 Fries 1952 inter alia recommandent d viter leur emploi bien qu elles soient bien repr sent es dans les textes comme en t moignent les grammaires Biber et al 1999 Riegel Pellat Rioul 1994 par exemple Nous analyserons ici les non phrases th matiques introduites par une marque linguistique particuli re un introducteur th matique qui se manifeste sous la forme d une pr position simple ou compos e 2 2 Travaux informatiques Sur le plan informatique il n existe pas notre connaissance beaucoup de travaux sur la question Marcu 2000 donne un seul exemple de non phrase introduite par un adverbial explicitant une laboration John likes sweets Most of all John likes ice cream and chocolate In contrast Mary likes fruits Especially bananas and strawberries Certes les adverbiaux constituent des indices linguistiques importants Toutefois dans le cas des introducteurs th matiques une unit lexicale pr c d e d un adverbial peut instaurer plusieurs relations En fait en plus de l adverbial il faut consid rer des crit res positionnel et ponctuationnel Grisham 1986 cite trois syst mes New York University Linguistic String Project LIFER le syst me PLANES de Waltz qui ont tent d adapter des 254 non phrases des techniques utilis es dans
463. us sp cifiquement consacr e l analyse des interactions mises en jeu lors de la phase de constitution des ressources lexicales Nous appuyons principalement notre r flexion sur l utilisation du logiciel d tude LUCIABUILDER d velopp par nos soins pour permettre l organisation effective de lexiques s mantiques selon les principes du mod le LUCIA En s int ressant plus aux aspects fonctionnels de cette phase un parall le peut tre tabli avec les outils informatiques classiques de gestion de donn es Cependant pour une meilleure interaction des besoins sp cifiques mergent en ce qui concerne les repr sentations visuelles des donn es et leur manipulation Ces besoins sont motiv s par la n cessit de 289 permettre l utilisateur de prendre en main le mod le de la langue que les outils mettent en uvre Dans une troisi me partie nous proposons une pr sentation compar e de deux applications permettant l analyse automatique d une collection de documents L une est destin e des experts du mod le tudiant un fait de langue l autre peut tre utilis e par un utilisateur novice pour une recherche documentaire sur ses centres d int r ts personnels Dans les deux cas ces applications doivent tre en mesure de fournir des r sultats facilement interpr tables et rapidement exploitables Une tude de ces contraintes communes permet de pr ciser les repr sentations visuelles et les interactions
464. us techniques Qui plus est un m me texte peut comporter des informations de nature assez diverse au sein desquelles le syst me d EI devra d tecter s lectionner les informations pertinentes pensons par exemple des textes journalistiques Par contre l examen r v le tout un ensemble de r gularit s alliant information et formes d expression que nous allons maintenant examiner 2 2 2 VARIATION 1 CLASSES D EXPRESSIONS Une premi re remarque concerne la vari t des structures syntagmatiques mises en jeu Le domaine de l information g ographique fournit une bonne illustration de cette id e La figure 3 a mis en vidence les trois types d expressions caract ristiques expressions spatiales dans le Sud Ouest et le Massif central dans les d partements de la grande banlieue parisienne expressions temporelles De 1965 1985 d autres exemples seraient dans les ann es 1950 au d but des ann es 1950 et expressions voquant le ph nom ne sociologique lui m me variation des effectifs scolaires videmment plus complexe mais dont on peut extraire dans une perspective de recherche d information les groupes nominaux significatifs de la th matique Les expressions temporelles sont particuli rement rigides On peut les d crire avec une bonne approximation par des grammaires syntagmatiques locales tout en calculant une repr sentation s mantico r f
465. ut pour les crivains du XIX si cle dont les uvres ne sont plus soumises au copyright Un balisage manuel des donn es s impose comme premier traitement du corpus afin d liminer les citations et les mots en alphabet grec les ventuelles erreurs d orthographe r sidus de la reconnaissance optique des caract res ainsi que les passages chiffr s tels 53 4305 6 4826 4t 4t 806 4818960 85 1 8 83 88 5 t 146 88 96 7 8 485 5 T2 1 4956 2 5 4 898 40692 85 678 4 1 9 4808 1 58 84 1 48485 4 4854528806 8 1 19 48 8834 734 48 44 1615 188 2 dans Le scarab e d or 2 1 2 TRAITEMENT DES ITALIQUES Le logiciel Hyperbase analyse les donn es textuelles pr sent es en fichier ASCII texte seulement Cette mise en forme sp ciale fait disparaitre les italiques tr s nombreux dans les textes de Edgar Allan Poe I well too well understood that to think in my situation was to be lost E A Poe The Imp of the Perverse Cette phrase sera mise en forme dans un fichier texte seulement de la fa on suivante 62 I well too well understood that to think in my situation was to be lost Hyperbase son tour interpr tera cette suite comme 2_ 1 think Chaque mot en italique introduit dans un fichier texte seulement deux tirets _ qui peuvent fausser les r sultats des analyses sur la ponctuation Il est vident que les mots marqu s par l criture en italique
466. v re en contradiction avec le sens du texte En conclusion l expert ne peut pas et ne doit pas s appuyer sur des proc dures de TALN pour extraire de l information implicite Ceci implique que les mauvaises variations doivent tre syst matiquement rejet es Les modifications apport es aux m tar gles vont dans ce sens Il faut parvenir filtrer au maximum les mauvaises variations pour augmenter la pr cision du syst me mais galement pour emp cher l expert d acqu rir de l information implicite par ce biais 4 2 Bilan sur l analyse linguistique des s quences textuelles Les termes compos s de deux ou trois unit s renvoient des groupes nominaux plus ou moins complexes dont la structure syntaxique exprime des relations de d pendance entre une t te et un autre l ment qu il soit modifieur ou actant selon la distinction op r e dans le cadre de la grammaire de d pendance Kahane 2001 L analyse linguistique de l ensemble des s quences textuelles a montr qu une mauvaise variation agit au niveau syntaxique en modifiant les rapports de d pendance initiaux L alt ration de ces relations de d pendance se r percute au niveau s mantique en modifiant 278 le sens initialement v hicul par le terme Deux principaux ph nom nes sont l origine de cette modification i une mauvaise d limitation de la ST en corpus et ii l insertion d une unit grammaticale et ou lexicale dans le synt
467. vi de 135 ADJ LIAISON NOM est la suivante Il est douteux que la seule familiarisation avec des grands auteurs suffise pour r ussir cet apprentissage Dumazedier amp Ripert Loisir et culture 1965 Nous consid rons que la liaison est un des facteurs qui conditionnent le choix de l article On va revenir ci apr s l examen de ce probl me La troisi me observation repose sur l accentuation de l pith te On peut observer clairement dans les corpus parl s que l on utilise plus souvent de quand l adjectif est accentu au moyen d adverbes notamment avec tr s ou bien par redoublement X2 37 02 dl 1 p lt 01 AVEC ACCENTUATION des 2 de 9 SANS ACCENTUATION des 87 de 9 comme les suivants 1 ona de gros gros probl mes cliniques par rapport leur sida B B p 99 1 62 2 jete fais de gros gros bisous B B p 115 3 parce que euh de toute fa on depuis l Antiquit il y a toujours eu des bijoux et de tr s beaux bijoux BIJOUV 6 6 6 6 7 Corpus Allier 4 des fois on ne sait pas comment l aborder parce que il a pris de tr s mauvaises habitudes JAMES 30 5 7 5 8 Corpus Allier Nous pouvons expliquer ce ph nom ne de la m me mani re que dans Fujimura et al 2004 On peut facilement postuler que la pr sence d un adverbe ajoute une information de plus on peut aussi estimer qu elle rend la phrase plus complexe ou plus lourde L pi
468. vons trier les formes par ce qui pr c de ou ce qui suit par dialogues ou par locuteurs Tri Apres SoD come Regroupement dial 40 Largeur CMP il PPER3S montrait _VINDI3S euh_INT CFS aussi_ADV il PPER3S jouait VINDI3S t_COO euh_INT tu _PPER2S jouerais VCONP2S entil_ADJMS c _PDS est_VINDP3S cause et_COO puis _ADV euh_INT et_COO puis ADV aurais VCONPZS fait _VPARPMS pareil ADJMS rta_VINDPS3S des DETDPIG palmiers NCMP alors_ADV il PPER3S a VINDP3S il PPER3S s_NCMP des DETDPIG serpents NCMP cause t_VINDP3S que _ SUB tu PPER2 sois VSUBP2S 3 _PPER1S aurais VCONP1S peur _NCFS d UB il _PPERSS te _PPER2S proposait _VINDISS e_PPER3S va VINDP3S au DETDMS zoo _ NCMS NCFS _ PREP la DETDFS t l NCFS ou COO _PPER2S les PPERSP vois VINDP2S ou COO Partie ju2 Hombre de contextes 42 tait_VINDI3S 1 _DETDFS histoire NCFS raconter VINF 1 _DETDFS histoire NCFS ETIMS une DETIFS bo te NCFS en forme a is_ADV pour _PREP en _PREP cadeau NCMS d S qu _PRI elle PPER3S fait _VINDP3S a serpents NCMP et_COO puis ADV pour _PREP S pourquoi SUB tu PPER2S trouves VINDP2S rs_ADV euh INT il PPER3S apprend VINDP3S apprend VINDP3S _PREP lire VINF et_COoo es_DETDPIG serpents NCMP et_COO puis _ADV PPER3S fait _VINDP3S un DETIMS gilet _NCMS iable_ADJSIG il_PPER3S apprendra VINDF3S t_VINDP3S un DETIMS gilet _NCMS pour PREP la_DETDFS _PCTFAIB NCMIN _PCTFAIB 33 i1_PPER3S 1
469. x photographies celles ci accompagn es de leurs l gendes constituant les autres sections Un fil conducteur organise g n ralement le choix et la disposition des photographies comme dans l un des ouvrages la vie d un photographe ou dans un autre l histoire ferroviaire d une r gion Notre nano genre partage avec les remerciements cit s ci dessus la caract ristique de ne pas tre un genre autonome en effet si on peut imaginer des photographies sans l gendes l inverse est videmment impossible Pour restreindre la terminologie rencontr e et resserrer l ventail des contenus nous nous sommes cantonn s aux photographies de trains vapeur La photographie prototypique montre une locomotive prise de 3 4 avant tractant un train en rase campagne mais de nombreuses variations sont pr sentes pr sentant un panorama complet de l poque de la traction vapeur man uvres train l arr t en gare etc Nous utiliserons le terme v nement pour r f rer ce qui est saisi par la photographie Quelques consid rations sur les photographies s imposent ici du fait du caract re secondaire du nano genre par rapport elles Une photographie d un train en marche pr l ve une phase du mouvement et la fige en une repr sentation en deux dimensions immobile silencieuse et inodore souvent en noir et blanc L amateur reconstitue la sc ne d une part parce qu il sait lire les images mais aussi parce que ses conna
470. xe La phrase et la subordination Armand Colin Coll Campus Dubois J Giacomo M Guespin L 1999 Dictionnaire de linguistique et des Sciences du langage Paris Larousse 1 d 1994 Dubois Charlier F 2001 Compl ments de Verbe de Proposition de Phrase d nonc Adverbe et Circonstant CLAIX n 17 Aix en Provence PUP p 33 50 Dugas A Manseau H 1996 Les verbes logiques Montr al ditions Logiques Fillmore C J 1992 Corpus linguistics or Computer aided armchair linguistics in Svartvik J d Directions in Corpus Linguistics number 65 Berlin Mouton de Gruyter p 35 59 Gasiglia N 2003 R flexions autour des co ts et b n fices pour un linguiste qui recourt a des ressources lectroniques et des outils informatiques d di s a leur d pouillement le cas d une tude lexicale relative aux mots du football Pr actes des 3 Journ es de la linguistique de corpus Lorient 11 13 09 03 France Gleason H A 1969 Introduction la linguistique Paris Larousse Gross M 1977 Grammaire transformationnelle du fran ais Syntaxe du nom Paris ASSTRIL Habert B Nazarenko A Salem A 1997 Les linguistiques de corpus Paris Armand Colin Masson Habert B 2002 Outiller les linguistes outiller la linguistique par o par qui commencer Intervention la table ronde TAL et enseignement TALN 02 Nancy 24 06 02 http www limsi fr Individu
471. y a eu une crise municipale a Montlu on euh qui a t euh tout a fait particuli re BRUNMO 8 3 2 3 4 6 je me suis install vraiment qu en cinquante six BIJOUV 6 7 10 7 11 Nous allons donc d abord reconsid rer la proposition de J C Anscombre selon laquelle le pass compos pr senterait des tres intemporels c est dire des tres identit permanente par exemple Marie la diff rence de l imparfait qui lui pr senterait des tres temporels par exemple Marie enfant Il nous semble que les exemples 4 et 5 ci dessus ne permettent pas d appuyer cette distinction En effet m me si on pourrait accorder aux gens tout le monde exemple 4 ainsi qu la personne qui se cache derri re je exemple 6 un certain statut intemporel de la m me mani re que le fait l auteur pour les sujets comme la France et Marie cela para t moins facile pour les entit s correspondant inflation galopante a et crise municipale dans les fragments il y a eu une inflation galopante a a dur une quinzaine d ann es exemple 4 et il y a eu une crise municipale qui a t tout fait particuli re exemple 5 En dehors de nos r serves quant la justesse linguistique de cette partie de la description ce qui nous importe surtout c est le probl me de son utilit pour les apprenants trang
472. yxo Fees aiqisuaygaduioouy AO anbsaiont 191p 214071q UBSSA yy usme amp juesnuue quey quenbid anbnejoup 194 ojdwa p sapnqyiuuis say suude p puuorsuaupninu muouauuonsod sed xnana ap onbruewuos 29eds2 ap uornemuasaida y nB m y xnannos assaut ANHCTINSAAUL d apie Jaune anaisimbut amp XNAIXUE many 1219S1puI quey onbsaomd anbnejoup peursu0 IUPUIIUOIIPS iuesnure IUEBPAENXI e SSL quesieyd 2130Z1q iuenbid Janus 2101p daiqesosour quruuo 9 e agemo anbiun queuasduns nou ae apqisuayasdwioour AHCUIPIOEAXA auen jexopesed 195 tojdwa p sapnuqpuns sa saude p spanuaigygad Xneurwiou SaxuOS Sas ap 19 AAA ap anbnuewss svdsa j ap uoneuasaidoy 9 an ANIYMIYI 2 xnoionos gssaupqut INAWINSOAUL spi pra pum Imaysmbur E RR manj spu juryorye anbsasonid anbnejosp Ipu uo 1ueua3u033p yuesnwe PAT Te au P omma 7 g wonesiauos auleulpsoesyxo mass H ajoup t ajgekomu aue re ueuuo1 rrq Su e siquaouou anbjun queuaiduns nou amwa ajgisuayardwoour exopesed 196 BDVOX BASE DE DONNEES POUR SYSTEMES DE RECONNAISSANCE DE LA PAROLE MULTILOCUTEUR I C Seara F S Pacheco R Seara Jr S G Kafka S Klein R Seara Universit F d rale de Santa Catarina Br sil LINSE 1 INTRODUCTION La
Download Pdf Manuals
Related Search
Related Contents
IWAKI Magnetgetriebene Kreiselpumpe Modell MDH Ouvrages parus Curtis Computer LCD1701A User's Manual LabWindows/CVI User Manual Western Digital My Cloud Mirror 4 TB NOUVELLES 203 (NSE) User Guide - North Star Horizon Emulator 8月号 No.189 - 長野県トラック協会 SMILE 70 - 80 - Fiorentini SpA Owner`s Manual Copyright © All rights reserved.
Failed to retrieve file