Home
Des corpus représentatifs : de quoi, pourquoi, comment
Contents
1. 2 4 2 Emplois du fran ais sous repr sent s le fran ais non hexagonal Fran ais parl au Qu bec en Suisse en Belgique en Afrique et au Moyen Orient le fran ais scientifique et technique Il peut diff rer de la langue g n rale non seulement par le lexique mais ventuellement par des constructions ou des modes d organisation globales distincts les fran ais non standard c t des emplois polic s de la langue qui ont b n fici de relectures et de corrections comme les livres les journaux se rencontrent les textes peu ou pas ou mal r vis s C est le cas des nonc s dict s comme les comptes rendus d hospitalisation les r ponses des enqu tes du courrier lectronique des th ses et rapports techniques La g n ralisation du tout lectronique accentue la place de ce fran ais ordinaire Gadet 1997 par exemple lors de la fourniture d exemplaires pr ts clicher camera ready de livres ou d articles 2 5 Un corpus repr sentatif pour quoi Sinclair on l a vu fixe comme but un corpus de r f rence de repr senter toutes les vari t s pertinentes d une langue partir d un tel objectif louable peut on dresser r ellement la liste des types d nonc s int grer Dans le cadre d un projet de corpus chantillonn pour le fran ais Corpus CLEF P Zweigenbaum a rep r les registres suivants dans le domaine m dical 1 Dossier patient hos
2. 1995 Dimensions of register variation a cross linguistic comparison Cambridge Cambridge University Press BIBER D amp FINEGAN E 1994 Intra textual variation within medical research articles In N OOOSTDHK amp P DE HAAN Eds Corpus based research into language N 12 in Language and computers studies in practical linguistics pp 201 222 Amsterdam Rodopi BOURIGAULT D 1993 Analyse syntaxique locale pour le rep rage de termes complexes dans un texte TAL 34 2 BOUROCHE J M amp SAPORTA G 1980 L analyse des donn es Que sais je Paris Presses Universitaires de France BRANCA ROSOFF S 1996 Retour aux genres In S AUROUX S DELESALLE amp H MESCHONNIC Eds Histoire et grammaire du sens U Linguistique chapter 14 pp 189 203 Paris Armand Colin Hommage Jean Claude Chevalier BRANCA ROSOFF S 1999a Des innovations et des fonctionnements de langue rapport s des genres Langage et soci t 87 115 129 BRANCA ROSOFF S 1999b Types modes et genres entre langue et discours Langage et soci t 87 5 24 BRONCKART J P 1996 Genres de textes types de discours et op rations discursives Enjeux 37 38 31 47 Namur BRONCKART J P BAIN D SCHNEUWLY B DAVAUD C amp PASQUIER A 1985 Le fonctionnement des discours un mod le psychologique et une m thode d analyse Lausanne Delachaux amp Niestl BURNARD L amp SPERBERG MCQUEEN C M 1996 La tei
3. automatique Marcus et al 1993 L incoh rence risque d tre encore plus grande pour des distinctions fines comme celles de Sueur 1982 l inverse un tiquetage automatique fin portant sur des donn es volumineuses pose la question de la validation du r sultat La dispersion vidente des typologies obtenues n invalide pas l approche Les travaux analys s n ont en effet ni les m mes objectifs validation exploration ni les m mes domaines d tude genre unique diversit de genres C est pourquoi ce ne sont pas les m mes aspects qui pr tent le flanc la critique R ification d oppositions fabriqu es Des techniques comme l analyse factorielle r v lent des corr lations avant tout relatives aux donn es et aux variables qui sont utilis es Extrapoler l extr me conduit r ifier ces dimensions croire saisir l essence m me des types de texte existants D autres jeux de donn es ainsi que le recours d autres techniques de statistique multidimensionnelle pourraient conduire d autres constats et partant d autres interpr tations Repr sentation de la diversit effective de registres Pour les tudes se limitant un genre unique la question ne se pose pas Pour celles de Biber le probl me n est pas celui de la repr sentation effective de l ensemble des registres reconnus comme tels par les locuteurs l vidence la liste ouverte d passe tr s largement la v
4. la taille des chantillons utiliser en fonction des ph nom nes tudier Biber 1990 Biber 1994 2 3 Mis re de la philologie Les r cents projets de constitution de corpus en France ne s inscrivent pas vraiment dans cette perspective de repr sentation planifi e de la diversit langagi re Ils reposent plut t sur l assemblage ou le recyclage de donn es pr existantes C est le cas par exemple du corpus r alis dans le cadre du projet europ en Parole 1996 1998 L objectif tait pour 12 langues dont le fran ais de fournir un corpus de 20 millions de mots datant pour l essentiel 80 au moins d apr s 1980 250 000 mots devaient avoir t tiquet s et v rifi s quant la partie du discours et 50 000 mots dans ce sous ensemble v rifi s quant l ensemble des traits attribu s Le corpus devait provenir pour 60 de journaux pour 30 de livres pour 10 de p riodiques les 10 restant pouvant relever de diverses provenances Les 20 093 099 mots obtenus se r partissent l issue du projet en 2 025 964 mots de transcriptions de d bats au parlement europ en de 3 267 409 mots issus d une trentaine d ouvrages de disciplines vari es en sciences humaines fournis par CNRS ditions de 942 963 mots provenant des notes de vulgarisation de la revue CNRS Info et d articles sur la communication de la revue Herm s et enfin de 13 856 763 mots correspondant 25 654 articles provenant du c
5. tats Unis ou en Angleterre Brown LOB Un corpus de r f rence est con u pour fournir une information en profondeur sur une langue Il vise tre suffisamment grand pour repr senter toutes les vari t s pertinentes de cette langue et son vocabulaire caract ristique de mani re pouvoir servir de base des grammaires des dictionnaires et d autres usuels fiables Sinclair 1996 p 10 Il s agit donc d associer troitement deux caract ristiques une taille suffisante et la diversit des usages repr sent s Le British National Corpus les allie effectivement 2 2 2 Une r alisation exemplaire le British National Corpus BNC Ce corpus de 100 millions de mots tiquet s r pond l objectif de constituer un ensemble de donn es textuelles aux conditions de production et de r ception d finies avec pr cision et qui soient repr sentatives d une grande vari t de situations de communication Il m le oral 10 et crit textes de fiction partir de 1960 et textes informatifs partir de 1975 ce titre c est sous r serve d inventaire le plus gros corpus d oral au monde En ce qui concerne l crit les variables prises en compte sont le domaine textes informatifs et textes de fiction le support livres p riodiques discours la datation et la diffusion s lection parmi les listes des meilleures ventes celles de prix litt raires les indications de pr ts en biblioth qu
6. J P Sueur soumet dans Sueur 1982 la R solution G n rale du congr s de la CFDT de 1976 un tiquetage manuel fin suivi d une analyse factorielle destin e d crire les r gularit s existant dans le texte dans l occurrence de formes lexicales au sein de cadres syntaxiques et nonciatifs sp cifiques et des places sp cifiques l int rieur de ces cadres ibid p 148 Pour les groupes nominaux par exemple sont cod s la nature de la pr position celle du d terminant et BL tude consacr e aux r solutions g n rales des congr s de la CFTC de 1945 1964 et de la CFDT de 1965 1979 Habert 1983 trouve une opposition similaire La r solution g n rale du congr s CGT de 1975 fournit l exemple suivant le droit et les moyens de discuter du bien fond des d cisions de licenciement et de fermetures d entreprises avec la possibilit d instances de recours son interpr tation s mantique la classe s mantique du nom t te 1 locuteurs collectifs la CFDT le congr s 2 individus ou groupes inclus dans la classe 1 ceux au nom de qui s expriment les locuteurs de la classe 1 etc Pour les verbes sont cod s la forme positive ou n gative le statut actif passif pseudo passif se moyen le mode et le temps le trait contr lable si le sujet superficiel peut contr ler l action exprim e par le verbe la classe s mantique performatifs obligation et n cessit possibilit d finit
7. textuaires multiples Les travailleurs du texte lectronique les textuaires sont d sormais l gion Aux sp cialistes d analyse de discours des ann es 70 aux sociologues et thnom thodologues aux linguistes de terrain se sont adjoints en force les sp cialistes du TAL et ceux de la recherche d information information retrieval cf Sparck Jones amp Willett 1997 Autant dire que les corpus requis ne sont pas les m mes ni en taille ni par leur structure et leur format La convergence apparente des int r ts ne doit pas masquer les divergences th oriques et pratiques C est ce qui nous a amen s parler des linguistiques de corpus dans Habert et al 1997 de donn es langagi res tracts extraits de livre presse syndicale presse d entreprise comptes rendus de comit s d entreprise transcriptions de messages syndicaux enregistr s etc fil existe des aspirateurs Web qui permettent de telles r coltes Comme Labbe 1990 ou Lafon et al 1985 pour le traitement statistique du lexique ou lexicom trie Habert et al 1998 pr sente les standards et les savoir faire n cessaires Heiden 1999 montre les cons quences de cette situation pour la lexicom trie Pour le projet Scriptorium les logiciels utilis s en aval sont galement vari s associations th matiques et lexicales privil gi s via ALCESTE Reinert 1993 Lebart amp Salem 1994 traitements statistiques d
8. une m thode exemples d application MOTS 5 145 185 SVARTVIK J EEG OLOFSSON M FORSHEDEN O ORESTR M B amp THAVENIUS C 1982 Survey of Spoken English Lund Lund University Press T TODOROV Ed 1978 Les genres du discours Paris Le Seuil VION R 1999 Pour une approche relationnelle des interactions verbales et des discours Langage et soci t 87 95 114 WERLICH E 1975 Typologie der texte Entwurf eines textlinguischen Modells zur Grundlegung einer Textgrammatik Heidelberg Quelle und Meyer
9. 6 math matiques 5 vie domestique 5 voyages 5 anthropologie 5 affaires militaires 5 m dias et communication 5 langage 5 litt rature 4 architecture 4 mode et v tements 4 informatique 4 agriculture 4 g ographie 4 cologie et environnement 3 transports 3 chimie 3 finances 3 M me si chacun des corpus concern s ne couvre pas l ensemble des th mes mentionn s on ne peut qu tre frapp par le bricolage que manifeste cette r partition Les cat gories ne s excluent pas forc ment En effet certaines entr es en recouvrent d autres sciences rassemble physique chimie biologie etc sans compter que l on ne sait pas si cette vedette tr s g n rale comprend ou non les sciences dites humaines comme l anthropologie la sociologie ou l conomie En outre certaines cat gories semblent tre en intersection vie domestique et mode ou encore m dias et langage voire religion et philosophie 3 4 Inscription dans des genres ou registres 3 4 1 La cat gorisation ordinaire des textes En fran ais au moins la notion de genre reste souvent li e aux textes litt raires et leurs subdivisions traditionnelles com die trag die pop e Elle a pourtant depuis une quinzaine d ann e pris une extension plus large sous l influence en particulier des travaux en analyse du discours et des crits de Bakhtine Biber 1989 p 5 6 d finit ainsi la typologie de sen
10. and using English language corpora pp 39 52 Amsterdam Rodopi BEACCO J C 1992 Les genres textuels dans l analyse du discours criture l gitime et communaut s translangagi res Langages 105 8 27 Ethnolinguistique de l crit Jean Claude Beacco d BEAUDOIN V amp VELKOVSKA J 1999 Constitution d un espace de communication sur Internet forums pages personnelles courrier lectronique R seaux BENVENISTE E 1966 Probl mes de linguistique g n rale volume 1 of Coll TEL Gallimard BERGOUNIOUX A LAUNAY M F MOURIAUX R SUEUR J P amp TOURNIER M 1982 La parole syndicale Politique d aujourd hui Paris Presses Universitaires de France BIBER D 1985 Investigating macroscopic textual variation through multifeature multidimensional analyses Linguistics 23 337 360 BIBER D 1988 Variation accross speech and writing Cambridge Cambridge University Press BIBER D 1989 A typology of English texts Linguistics 27 3 43 BIBER D 1990 Methodological issues regarding corpus based analyses of linguistic variation Literary and Linguistic Computing 5 4 257 270 BIBER D 1993 Using register diversified corpora for general language studies Computational Linguistics 19 2 243 258 BIBER D 1994 Representativeness in corpus design Linguistica Computazionale IX X 377 408 Current Issues in Computational Linguistics in honor of Don Walker BIBER D
11. anmoins les discours crits ou oraux effectivement produits La lettre de recommandation l intervention un jury de th se la question pendant un s minaire ou un colloque en sont des exemples pour le champ universitaire Notons d ailleurs comme Bakhtine 1984 p 286 que les registres oraux sont encore moins bien connus que les registres crits On peut supposer enfin une certaine tendance sous estimer la place des registres dans la production et l interpr tation des nonc s il est difficile d imaginer voire d accepter que les discours les plus ordinaires soient contraints dans leur th matique leur style leur structure sans que nous en ayons le plus souvent conscience 3 4 3 Les contraintes li es un registre Si certains registres laissent plus de jeu que d autres Dolinine 1999 p 36 Vion 1999 p 97 les contraintes l uvre portent sur le volume global de bon aloi une lettre de recommandation peut elle d passer le recto verso voire le simple recto l organisation d ensemble les parties requises celles qui sont optionnelles et leur structuration un compte rendu d hospitalisation rappelle l histoire clinique du patient ses ant c dents voque ce qui justifie la pr sente hospitalisation et les traitements effectu s et s ach ve par les traitements n cessaires apr s sortie de l h pital mais aussi la palette linguistique disponible temps des verbes connecte
12. balisage logique d un document revient indiquer sa structure ses subdivisions et leurs relations Il se r alise en deux tapes La premi re est l identification des l ments possibles pour un texte donn et de leurs relations C est en quelque sorte crire une grammaire de texte C est ce qu on appelle une D finition de Type de Document DTD La deuxi me tape est l introduction des balises choisies dans le document relevant de cette DTD en respectant les r gles dit es pour leur combinaison Le balisage employ rend explicite les l ments du texte et leur agencement Il ob it au langage standard de balisage SGM qui est maintenant pr sent dans pratiquement tout logiciel de gestion de document S entendre sur les types de textes majeurs la TEI Ce premier niveau de normalisation s av re cependant insuffisant Rien n emp che en effet plusieurs groupes ou individus de se donner des conventions diff rentes pour un m me type de document ce qui entrave la comparaison et l change des r sultats Un deuxi me niveau est donc n cessaire s entendre sur des descriptions g n riques pour les grands types de documents utilis s dictionnaires po sie th tre oral textes align s documents historiques ainsi que pour les niveaux d annotation qui peuvent les d corer tiquettes arbres apparat critique r f rences crois es Une initiative de grande ampleur la TEI Text Encoding Initiative rassembl
13. face face conversations t l phoniques conversations publiques d bats et interviews broadcast discours improvis s spontaneous speeches discours pr par s planned speeches Le corpus peut tre constitu de textes complets Bergounioux ef al 1982 Sueur 1982 Habert 1983 Biber amp Finegan 1994 ou d extraits Bronckart et al 1985 comme Biber 1988 se limitent des fragments de 1 000 mots choisis au hasard donn s comme suffisants pour d gager les cooccurrences souhait es Les motivations de cette restriction diff rent Dans le premier cas c est la lourdeur de l tiquetage manuel des traits retenus Dans le second la volont de faciliter les comparaisons entre les fr quences des traits 4 1 2 S lection et examen de marqueurs linguistiques Le passage de certains mots ou suites de mots des traits linguistiques de je et j embrayeur par exemple peut s effectuer a priori il s agit alors d un tiquetage manuel Bronckart ef al 1985 ou automatique Biber 1988 Chaque texte analys est remplac par les tiquettes correspondant aux items de la grille employ e L tiquetage mis en uvre s loigne de l tiquetage morpho syntaxique traditionnel Il est partiel une partie seulement de la surface du texte est marqu e et partial g om trie variable in quitable il s int resse des fonctionnements linguistiques tr s sp cifiques qu il analyse en d tail
14. grade 33 55e gt Go Voir aussi Petitjean 1987 pour la structure prototypique d un fait divers 34 re p EN g i o Voir Branca Rosoff 1999 p 119 dans l utilisation de certains locutions pr positionnelles comme marqueurs d un registre administratif compte tenu suite P Charaudeau Charaudeau 1983 p 50 invite ajouter pour chaque registre un contrat implicite qui pr cise les droits et les devoirs du destinateur et du destinataire des textes qui en rel vent 3 4 4 Prolif ration ou regroupement de registres On peut accro tre presque l infini la liste des registres A contrario n existe t il pas des m ta registres qui regrouperaient des types de texte relevant globalement des m mes contraintes mais pr sentant n anmoins des variantes sensibles Le m ta registre mode d emploi subsumerait alors des registres comme guide de l usager notice d utilisation d un appareil et recette de cuisine Le corpus de th ses fourni dans Habert et al 1998 rassemble ainsi 10 th ses de doctorat nouveau r gime soutenues entre 1991 et 1997 relevant de quatre disciplines linguistique informatique biologie et conomie Au sein de ce registre bien d fini chaque discipline pourtant entra ne des contraintes particuli res Par exemple les renvois bibliographiques dans le fil du texte sont assortis de citations parfois longues en linguistique Ce n est pas le cas en inf
15. intuitions communes C est ainsi qu on ne d bouche pas sur un type unique interaction ou dialogue mais deux l interaction vis e informationnelle et l interaction vis e interpersonnelle De la m me mani re Biber distingue plusieurs types de textes expositifs et de textes narratifs Biber 1989 p 38 Comme le souligne R Sigley Sigley 1997 p 231 232 ces cat gories permettent de questionner les cat gories qui ont t utilis es pour constituer les corpus concern s et ventuellement de r organiser les constituants de ces corpus certaines cat gories doivent tre subdivis es tandis que des similarit s am nent rapprocher des textes relevant de cat gories distinctes D nomination traduction Intimate interpersonal interaction Interaction interpersonnelle intime Informational interaction Interaction informationnelle scientific exposition Expos scientifique Learned exposition Expos savant Imaginative fiction Fiction narrative General narrative exposition R cit Situated reportage Reportage situ Involved persuasion Argumentation impliqu e Tableau Types de textes postul s par Biber 4 3 Typologies inductives sp cialis es Dans Bergounioux et al 1982 p 169 186 l tude de la r partition pr cise d un certain nombre de formes marques d nonciation d termination coordination pronoms pr positions etc dans les r solutions g n rales des congr s des conf d ration
16. normalisation correction choix de logiciels traitements etc au prix parfois d incoh rences et de bricolages pas toujours document s 1 2 Nouveaux facteurs de corpus La tradition anglo saxonne de linguistique descriptive s appuyant sur les corpus lectroniques qui s est maintenue obstin ment malgr la disqualification apriorique du recours aux corpus dans le paradigme chomskyen a re u ces derni res ann es un appui vigoureux et inattendu de la communaut du traitement automatique du langage TAL Cet appui d coule de la prise de conscience progressive d une inad quation relative des paradigmes utilis s pour le TAL En effet la sophistication des formalismes utilis s ne d bouche pas toujours sur des syst mes de traitement fiables et efficaces Deux explications sont g n ralement avanc es Tout d abord un syst me de TAL a besoin de ressources dictionnaires grammaires la fois tr s vastes en nombre d entr es lexicales et de r gles et tr s d taill es concernant les conditions syntaxiques d emploi des mots par exemple Les ressources actuelles sont notoirement insuffisantes surtout pour ce qui est de la finesse de la description En second lieu leur am lioration semble t il n est ni uniquement ni m me principalement chercher dans des nouvelles tudes en chambre mais plut t dans l observation des larges ensembles de donn es textuelles qui sont maintenant disponibles 1 3 Des
17. s rie de travaux permet de certifier l existence de corr lations positives ou n gatives entre traits L emploi du programme des sp cificit s n a d ailleurs pas pour objectif de mettre en vidence de telles corr lations Il permet d en percevoir certaines mais laisse une trop grande latitude l interpr te humain 4 1 4 Des cooccurrences de marques aux types de textes Une interpr tation relativement imm diate des regroupements op r s partir des sur emplois et des sous emplois conduit dans Bergounioux et al 1982 et dans Habert 1983 opposer chaque fois deux types Dans Bronckart et al 1985 l examen des premiers facteurs est jug valider les trois architypes postul s mais elle conduit galement proposer des types interm diaires ibid ch VI p 103 137 Biber proc de en deux temps Les facteurs les plus significatifs sont consid r s comme autant de dimensions pouvant caract riser un texte donn Biber souligne que ces dimensions sont en fait des prototypes Chacune des dimensions obtenues cf tableau Dimensions de Biber et traits correspondants oppose deux p les de fonctionnements textuels mais les textes concrets se situent en des points vari s des chelles ainsi d finies Biber calcule alors pour chaque texte ses coordonn es sur chacun de ces axes La classification automatique est alors requise pour rapprocher les textes en fonction de leurs coordonn es sur ces cinq axes L
18. tandis qu il en laisse d autres dans l ombre Dans d autres cas il n existe pas de grille pr existante c est l examen des formes employ es dans le corpus qui sugg re des regroupements dont certains rejoignent n anmoins des cat gories tablies Cette approche montante est suivie dans Bergounioux et al 1982 et dans Habert 1983 4 1 3 Mise en vidence de constellations de traits Dans Bergounioux et al 1982 et Habert 1983 un programme qui isole les l ments significativement sur employ s dans une partie d un corpus au regard de leur emploi dans le corpus entier Lebart amp Salem 1994 p 172 180 est utilis pour valuer les ph nom nes tudi s Ce programme d gage en m me temps les sous emplois significatifs d une partie au regard du tout Dans Sueur 1982 Bronckart et al 1985 Biber 1988 la statistique multidimensionnelle Bouroche amp Saporta 1980 Saporta 1990 ch 8 Lebart amp Salem 1994 ch 3 est mise contribution pour rep rer les oppositions majeures entre associations de traits linguistiques Elle rassemble les traits qui ont tendance appara tre ensemble Elle constitue dans le m me temps les configurations de traits qui sont syst matiquement vit s par les m mes rassemblements Cette d marche permet d obtenir des p les multiples positifs et n gatifs correspondant ces constellations Seule la statistique multidimensionnelle dont rel ve la seconde
19. terminer les cons quences de l ajout ou de l limination d une partie de leurs composants ou encore pour assembler tout ou partie de leurs composants avec des l ments provenant d autres corpus La ma trise des caract ristiques du corpus utilis d termine en effet partiellement la qualit des connaissances acquises partir de lui Pour pr parer un dictionnaire de fran ais langue trang re on peut souhaiter par exemple disposer dans un domaine donn des textes les moins techniques employant le vocabulaire le plus central du domaine Il en va de m me si l on veut rassembler des donn es pertinentes sur la variation du fran ais dans le temps ou en fonction des conditions sociales Il faut donc pouvoir profiler les corpus et les textes Nous appelons profilage de textes l utilisation d outils de calibrage donnant des indications sur l emploi du vocabulaire mais aussi de cat gories morpho syntaxiques et de patrons dans les parties d un corpus pour en d terminer l homog n it ou l h t r gon it Ces outils doivent galement permettre de positionner un nouveau texte par rapport aux regroupements obtenus sur un corpus pr existant Nous proposons de d velopper une m thodologie de profilage qui prolonge les travaux de D Biber 5 2 2 Choix de marques linguistiques D marches On peut partir d un type d nonc et chercher les marqueurs linguistiques qui y correspondent Par exemple asso
20. 98 CorTeCs 1 06 Manuel de l utilisateur Laboratoire de Lexicom trie et Textes Politiques UMR 9952 CNRS ENS Fontenay Saint Cloud IDE N amp V RONIS J 1995 The Text Encoding Initiative Background and context Dordrecht Kluwer Academic Publishers ILLOUZ G HABERT B FLEURY S HEIDEN S amp LAFON P 1999 Ma triser les d luges de donn es h t rog nes In A CONDAMINES C FABRE amp M P P RY WOODLEY Eds Corpus et traitement automatique des langues pour une r flexion m thodologique pp 37 46 Carg se JAKOBSON R 1963 Essais de linguistique g n rale Paris Edition de Minuit KARLGREN J 1999 Stylistic experiments in information retrieval In T STRZALKOWSKI Ed Natural language information retrieval Text speech and language technology chapter 6 pp 147 166 Dordrecht Kluwer KERBRAT ORECCHIONI C 1980 L nonciation de la subjectivit dans le langage Coll Linguistique Paris Armand Colin KILGARIFF A 1997 Using word frequency lists to measure corpus homogeneity and similarity between corpora In Fifth ACL Workshop on Very Large Corpora Beijing KILGARIFF A amp ROSE T 1998 Measures for corpus similarity and homogeneity In 3rd Conference on Empirical Methods in Natural Language Processing pp 46 52 Granada LABB D 1990 Normes de saisie et de d pouillement des textes politiques Cahier 7 CERAT Institut d tudes Politiques de Grenoble Saint Ma
21. D Maingueneau Maingueneau 1996 p 34 on utilisera plut t les termes de plan embray discours et plan non embray histoire moins ambigus que les d nominations choisies par Benveniste 3 6 Malaise dans la classification Ce titre emprunt J L Chiss Chiss 1987 rend compte de l parpillement des travaux typologiques Ce manque de convergence a m me pu conduire des tentatives de typologie des typologies Petitjean 1989 en fonction des crit res utilis s distingue ainsi d abord les typologies de textes ou les typologies de s quences travaux de J M Adam o les crit res sont homog nes et o les textes constituent le domaine de validit ensuite les typologies de discours E Benveniste et J P Bronckart o des crit res h t rog nes sont articul s dans une m me perspective la mise en situation des textes et enfin les typologies de genres aux crit res totalement h t rog nes dimensions discursive communicationnelle et textuelle 4 Typologies inductives de textes Une autre optique consiste faire merger les types de textes consid r s comme des agglom rats de traits linguistiques gr ce un traitement statistique de textes tiquet s ou non Cette d marche inductive pr sent e section 4 1 peut se centrer sur des textes sp cialis s section 4 3 ou au contraire chercher traiter la langue g n rale section 4 2 Elle peut galement s attacher aux sous r gula
22. Des corpus repr sentatifs de quoi pour quoi comment B Habert UMR 8503 ENS Fontenay Saint Cloud bh ens fcl fr il n y a pas de caract risation globale du langage dans son ensemble qui soit satisfaisante Biber 1993 p 220 La francophonie c de l engouement pour les corpus avec quelque retard par rapport aux initiatives et aux recherches anglo saxonnes Les rencontres et les projets s encha nent non sans quelque confusion le mot corpus est tiraill dans des directions parfois bien loign es La r alit m me des corpus a en outre beaucoup volu La vieille question de la repr sentativit des corpus resurgit Il importe d valuer si les termes m mes dans lesquels elle se posait se sont ou non d plac s La section 1 est consacr e aux corpus nouveaux mais aussi au changement d acteurs cr ateurs ou utilisateurs de corpus La seconde section rappelle deux positions classiques l accroissement de la taille des donn es disponibles sous forme lectronique fait de ces donn es des chantillons de plus en plus repr sentatifs des usages langagiers vs la diversit langagi re est encore mal connue et suppose de constituer des corpus visant rendre compte de la variation linguistique Cette section oppose galement la tradition anglo saxonne des corpus de r f rence aux regroupements plus opportunistes qui ont aussi cours Deux directions doivent en fait tre explor es simultan ment pour am lio
23. Les classifications en termes de sujets et de domaines sont sujettes caution Trop raffin es elles se trouvent vite battues en br che par l volution des soci t s des techniques et des mentalit s Grossi res elles sont trop floues pour tre utiles Il faut alors s en servir comme d un d broussaillage imparfait mais commode Bof Kerbrat Orecchioni 1980 p 11 29 pour une critique d taill e de cette analyse qui a fait flor s Naratif reportage fait divers roman nouvelle conte r cit historique parabole publicit narrative film bande dessin e descriptif description inventaire guide touristique explicatif discours didactique ou scientifique argumentatif essai publicit pr dictif proph tie bulletin m t orologique horoscope conversationnel interview dialogue et rh torique ou po tique po me chanson slogan proverbe dicton maxime Le partage narratif descriptif oppose nonc s de faire nonc s d tat 21 Sinclair Sinclair 1996 fournit les th mes et domaines utilis s dans 20 corpus diff rents Voici les cat gories recens es chaque cat gorie est suivie du nombre de corpus qui y ont recours religion 14 techniques et technologie 12 droit 11 sports 11 belles lettres 10 politique 9 histoire 8 m decine 8 philosophie 7 conomie 8 ducation 7 psychologie 7 sciences 8 sociologie 8 loisirs 8 civilisations 6 physique 6 biologie
24. POL ING ART EMS pour le vocabulaire ont t tudi s les 15 438 articles totalisant 7 millions de mots extraits des 14 millions de mots provenant par choix al atoire de num ros entiers parmi ceux des ann es 1987 1989 1991 1993 et 1995 Naulleau 1998 qui constituent la partie Presse du corpus r alis dans le cadre du projet europ en PAROLE Pour les cat gories syntaxiques ont t examin s 241 484 mots provenant de 7 num ros de septembre 1987 qui ont t extraits de l ensemble pr c dent tiquet s automatiquement et corrig s manuellement pour la partie du discours toujours dans le cadre de PAROLE ST Dans une perspective donc plus large que Kilgariff amp Rose 1998 Kilgariff 1997 8 Dans le cadre du projet TyPTex Typage et Profilage de Textes commun au LIMSI et l UMR 8503 et soutenu financi rement par ELRA European Language Resources Association En s appuyant sur Brown pour l inventaire des couples forme cat gorie ibid p 212 et sur Quirk et al 1985 pour l criture de r gles de d sambigu sation Certains mots trop polymorphes sont laiss s de c t as that au maximum D Biber fournit pour chacun des traits l algorithme pour son rep rage automatique une description des r les jou s par ce trait et un renvoi aux tudes pr existantes sur lui ibid p 221 245 Un certain nombre de traits ne pouvant tre identifi s automatiquement ont t cart s de l tu
25. articulier partir d un corpus donn d en extraire un sous ensemble sur des crit res tout fait pr cis La version lectronique et ses sources Ce premier volet distingue nettement la version lectronique et ses sources 1 letitre On distingue par exemple en ajoutant version lectronique ce titre de celui de la source utilis e pour souligner les carts ventuels entre les deux tats du document On note d une part l auteur qui correspond celui de la source et le responsable du contenu intellectuel de l dition lectronique la mention d dition en particulier le num ro de version de l dition lectronique de ce document la taille approximative par exemple en caract res et mots du document Ces indications permettent en particulier de pr voir la place n cessaire pour le document 4 les indications sur la diffusion possible Elles regroupent la mention de l diteur l adresse mais surtout des pr cisions sur la disponibilit du document son usage est il soumis des restrictions comme un copyright 5 la description bibliographique de la source utilis e LR Choix d annotation Les objectifs sous jacents au corpus s accompagnent d une description des m thodes choisies pour s lectionner les documents retenus Le type d annotation effectu est d crit globalement choix op r s pour la segmentation traitement des citations corrections apport es au texte de d pa
26. ber 1995 Biber utilise registre pour cette conception largie des genres C est ce terme englobant qui sera utilis par la suite 3 4 2 Les registres un inventaire g om trie variable L inventaire des registres est destin rester ouvert L ventail disponible volue en effet au fil du temps L mergence d un nouveau m dium entra ne la naissance de nouveaux registres ou la transformation de registres existants Maingueneau 1996 p 43 C est le cas avec Internet Beaudoin amp Velkovska 1999 courrier lectronique forums news listes de diffusion lectroniques l inverse d autres registres reculent ou disparaissent le sermon et la confession ont p ti de la baisse de la pratique religieuse L ancrage institutionnel des registres varie en outre Les registres majeurs sont clairement identifi s et ventuellement objets de normes Ils sont enseign s L apprentissage de certains de ces registres tient une place importante dans la scolarit dissertation oraux de concours etc La plupart des secteurs d activit poss dent leurs registres majeurs sp cifiques dont la ma trise est n cessaire comme la th se ou l article etc dans le champ universitaire Ces registres reconnus au nombre limit dans chaque domaine rejettent dans l ombre l existence du grand nombre d autres classes d nonc s qui ne font pas l objet d une transmission explicite mais qui r gulent n
27. ble Dans Le directeur de nuit de John Le Carr Robert Laffont 1993 traduction de The hight manager on rencontre cependant la phrase suivante Seul Amato le bras droit am ricano v n zuelien de Strelski restait de marbre L tonnant bras gauche de Strelski tait un Irlandais ob se au visage empat nomm Pat Flynn 64 La ET si P Pee g f zig M me s il reste d terminer la mani re de mesurer cette significativit selon les niveaux linguistiques en cause GEFFROY A amp LAFON P 1982 L ins curit dans les grands ensembles Aper u critique sur le vocabulaire fran ais de 1789 nos jours d Etienne brunet MOTS 5 129 141 HABERT B 1983 tudes des formes sp cifiques et typologie des nonc s les r solutions g n rales des congr s de la CFTC CFDT de 1945 1979 MOTS Presses de la Fondation Nationale des Sciences Politiques 7 97 124 HABERT B FABRE C amp ISSAC F 1998 De l crit au num rique constituer normaliser exploiter les corpus lectroniques Informatiques Paris Inter ditions Masson HABERT B NAZARENKO A amp SALEM A 1997 Les linguistiques de corpus U Linguistique Paris Armand Colin Masson HEIDEN S 1999 Encodage uniforme et normalis de corpus application l tude d un d bat parlementaire Mots 60 113 132 Presses de Sciences Po HEIDEN S CUQ A DUCOUT D HORLAVILLE P ROBERT J P PRIEUR V amp DOHM B 19
28. bordonnants adverbiaux Tableau Dimensions de Biber et traits correspondants Soulignons deux apports de ce programme La simple lecture ne per oit qu une partie limit e des sur emplois effectifs Elle est bien en peine de juger s ils sont significatifs ou non Les sous emplois le creux d une partie au regard de l ensemble chappent le plus souvent la conscience Ils sont ici d gag s Voir n anmoins Karlgren 1999 pour les probl mes que pose l tude de traits qui ne rel vent pas forc ment tous de la m me loi de probabilit 4211 additionne les fr quences des traits correspondant aux traits positifs de l axe et soustrait celles des marques ressortissant aux traits n gatifs de l axeDans les deux cas il s en tient aux traits significatifs qui sont constitutifs de laxe 4 2 Typologies inductives g n rales 4 2 1 Les travaux de J P Bronckart J P Bronckart croise deux param tres qui aboutissent quatre architypes discursifs cf tableau Architypes discursifs de Bronckart repris de Bronckart 1996 p 42 Le premier est le rapport la situation d nonciation l metteur peut int grer dans son texte des renvois explicites aux param tres de l nonciation locuteur interlocuteur temps et lieu param tres alors impliqu s dans le texte ou bien il peut liminer ces indications le texte autonome par rapport sa situation de production n
29. cier un style informationnel d contextualis les nominalisations les passifs sans agent etc comme le fait Biber Biber 1985 p 344 345 On peut l inverse partir d l ments relevant de niveaux diff rents de l analyse linguistique et examiner quels sont leurs usages en discours et en quoi ils marquent tel ou tel type de texte Par exemple certains suffixes valuatifs ard dans chauffard tre dans verd tre indiquent une certaine implication personnelle de l nonciateur et paraissent peu compatibles avec un style informationnel Trait et fonction Un trait linguistique isol ne donne pas le plus souvent d indications sur le type de texte dans lequel il s ins re C est dans son alliance avec d autres traits qu il prend sens Ainsi le pronom ind fini on associ des pronoms de la premi re et de la deuxi me personne du singulier peut renvoyer un discours familier tandis qu accompagn du pr sent de l indicatif du passif et sans premi re et deuxi me personne du singulier il peut pointer un discours factuel vulgarisation communication sciencifique Examen de deux palettes de traits Comparer les choix faits par Bronckart Bronckart ef al 1985 p 147 167 et Biber Biber 1988 p 211 245 pour leurs typologies g n ralistes r v le des convergences et des divergences qui aident mettre au point une grille d analyse pour le fran ais 5 2 3 Architectures tiquetage et sur tiquetag
30. de Pour certains traits de Sueur 1982 la finesse des distinctions op r es pour les emplois des d terminants par exemple exclut clairement l automatisation tandis que le rep rage d autres marques rel verait aujourd hui soit d tiqueteurs ordinaires soit de programmes d velopper de mani re sp cifique Organisation d ensemble Comme le montre la figure Architecture de profilage de textes on dispose au d part d une base de textes Chacun comprend un cartouche suivant les recommandations de la TEI Dunlop 1995 Les crit res d une requ te ou d une s lection aboutissent un corpus c est dire un ensemble de textes rassembl s en fonction d une recherche ou d une application d termin e Chacun de ces textes est soumis un tiquetage morpho syntaxique qui permet d associer chaque mot ou unit polylexicale un lemme une partie du discours et des indications morphosyntaxiques plus fines Le marquage typologique utilise l ensemble de ces informations et les remplace par de nouvelles cat gories correspondant aux traits linguistiques dont on veut tudier la distribution embrayeurs modalit s pr sentatifs usage des temps passif classes d adverbes n gation degr et de d terminants etc Le corpus marqu et ventuellement corrig par le biais de CorTecs Heiden et al 1998 est alors soumis des logiciels d analyse textuelle En particulier on construit la matrice des fr qu
31. e De l tiquetage manuel l tiquetage automatique L absence d tiqueteurs morphosyntaxiques pour le fran ais au d but des ann es 80 explique l utilisation des convergences dans l emploi d un certain nombre de mots en particulier outils dans Bergounioux et al 1982 et dans Habert 1983 Le travail de Biber qui a t r alis au milieu des ann es 80 il y a un peu plus d une dizaine d ann es donc est parti de versions nues des corpus choisis Si une version tiquet e du LOB est devenue disponible au moment de la recherche rapport e l absence de son quivalent pour London Lund a conduit D Biber d velopper un ensemble unique de programmes en PL 1 pour traiter ces textes non tiquet s D Biber a commenc par r aliser lui m me un tiquetage morpho syntaxique des textes La recherche de patrons plus sp cifiques et marqueurs d un trait donn constitue la deuxi me tape La v rification manuelle est limit e SETR ranger ECO nomie POL itique ING information g n rale sport faits divers ART m dias spectacles EMS ducation m decine soci t etc Ce sont les classifications utilis es par la r daction du journal Le Monde qui sont reprises dans les champs signal tiques de la version lectronique distribu e par ELRA On ne dispose pas toujours de la signification des libell s par exemple pour ING et EMS d o le point d interrogation SETR ECO
32. e etc L accent mis sur la diffusion effective certifie la repr sentation d usages majeurs de l anglais Pour l oral des conversations spontan es ont t recueillies partir d un chantillonnage d mographique en termes d ge de sexe de groupe social et de r gion Ont t galement int gr es des transcriptions d interactions orales typiques dans divers domaines affaires r unions prises de parole syndicales consultations m dicales ou l gales ducation et information cours et conf rences informations radio t l vis es prises de parole publiques sermons discours politiques discours parlementaires et l gaux loisirs commentaires sportifs r unions de clubs Ces interactions institutionnelles ont t jusqu pr sent relativement mal repr sent es dans les corpus d oral 2 2 3 Panachage et chantillonnage La volont de repr senter une diversit maximale de situations de communication dans un corpus de r f rence s accompagne souvent dans les travaux anglo saxons d une d marche d chantillonnage La logique de cette position conduit quilibrer en taille les chantillons retenus de taille limit e de 2 000 40 000 mots voire ne pas retenir des empans de texte continus de mani re ne pas risquer de sur repr senter des lieux du texte aux caract ristiques particuli res l introduction par exemple L chantillonnage touche donc la fois le cho
33. e depuis plus de dix ans des chercheurs de diff rentes disciplines et de toutes nationalit s pour proposer des conventions sur ces types de La collection de documents r unie des fins de veille sociale pour le projet Scriptorium peut ainsi faire l objet d extractions multiples par acteur en fonction d une sous p riode par genre de document autour de mots pivots aj peut s agir de textes complets comme dans Frantext mais aussi de fragments ou d extraits comme dans le BNC voire de paragraphes ou de phrases par exemple contenant un mot cl donn ou une construction syntaxique d termin e Il peut m me s agir de segments textuels discontinus comme les prises de parole successives d un m me orateur lors d un d bat public Heiden 1999 Plus le grain c est dire la taille moyenne des composants de la base est fin plus il permet de constituer des sous ensembles distincts et adapt s une t che donn e Par exemple si l on dispose des indications signal tiques attach es chacun des articles des CD Roms du Monde on peut extraire des corpus en fonction d un type de document donn n crologie interview portrait ou d une th matique pages financi res sport politique internationale documents Elle a d bouch sur des Recommandations en 1994 De nombreux projets de constitution de corpus et de ressources linguistiques ont adopt la TEI le BNC par exemple Pour reprendre les ter
34. e requiert aucune connaissance de celle ci pour son interpr tation La repr sentation du monde fournie dans l nonc peut tre pr sent e comme mise distance de l interaction sociale en cours les faits sont racont s comme s ils taient pass s c est la disjonction Elle peut inversement se situer dans le monde de l interaction sociale en cours c est la conjonction le texte montre des tats des actions des v nements acccessibles dans le monde des protagonistes de l interaction Rapport au monde Conjonction Disjonction Rapport interactif Implication Discours interactif R cit la situation Autonomie Discours th orique Narration tableau Architypes discursifs de Bronckart 4 2 2 Les travaux de D Biber Les 67 traits tudi s ressortissent 16 cat gories distinctes comme marqueurs de temps et d aspect adverbes et locutions adverbiales de temps et de lieu pronoms et pro verbes questions passifs modaux coordination n gation L objectif est l inclusion d un grand nombre de caract ristiques linguistiques repr sentant l ventail des possibilit s fonctionnelles de l anglais Biber 1988 p 211 partir des cinq dimensions issues de l analyse factorielle en utilisant la classification automatique Biber aboutit huit types de textes tableau Types de textes postul s par Biber en fonction de leur place sur chacune de ces dimensions Ces types ne correspondent pas forc ment aux
35. ences de chaque trait dans chaque texte Cette matrice sert tant la recherche optimale de traits pertinents une opposition qu la classification inductive ou supervis e E 6 Articuler autrement intuition et attestation Nous avons d taill les conditions externes et internes qui aident s lectionner des donn es langagi res en fonction des emplois d une langue que l on souhaite repr senter Nous avons essay de montrer les t ches qui en r sultent en mati re de documentation de corpus et de profilage des composants de corpus Ces principes de pr caution n emp chent pas de r examiner la question de l articulation entre les r gularit s constat es dans un corpus et les r gles postul es J C Milner affirme Milner 1989 p 55 l activit grammaticale ne consiste pas enregistrer les donn es de langue elle consiste mettre sur ces donn es un jugement diff rentiel c est dire isoler l impossible de langue ibid Dans le m me esprit S Auroux Auroux 1998 p 197 rappelle La r gle est une hypoth se sur les faits les faits contiennent aussi bien du possible que de l impossible Il continue ibid p 240 Il y a h t rog n it essentielle entre l tude statistique de la r gularit et l existence de r gles Suppposons en effet qu existe une r gle la r gularit des actions connect es avec une r gle contient la fois de
36. ergences manifest s dans le corpus qui vient d tre rassembl Ces renseignements doivent couvrir la fois la description pr cise du contexte de production du composant et une caract risation en termes de domaine th matique et de genre au sens indiqu supra Comme chaque document pr sent dans le BNCest assorti d informations pr cises sur la situation de communication dans laquelle il s ins re et sur les donn es originelles dont cette version lectronique d rive le BNCfonctionne effectivement comme une r serve corpus En fonction d une recherche ou d une application d termin e on peut extraire les documents qui correspondent le mieux ce qu on veut tudier On peut ainsi ne retenir que l crit Ou s en tenir l oral voire tre plus pr cis les locuteurs d un certain ge ou d une certaine r gion du Royaume Uni ou s attacher une certaine situation d interlocution conf rence par exemple 5 1 2 Normaliser les corpus et leur documentation S parer repr sentation physique et repr sentation logique des documents SGML et XML L change des corpus et leur r utilisation ont but jusque r cemment sur l clatement des codages pratiqu s Un travail de normalisation est en cours pour y rem dier Cette normalisation s pare repr sentation physique et repr sentation logique des documents Elle propose des conventions g n rales pour les diff rents types de textes Le
37. es entre elles Les pronoms de la premi re personne les compl tives en that marquent Introduction et Conclusion La section M thodes se caract rise par un emploi tr s fr quent des passifs sans agents et par un privil ge donn au pass sur le pr sent La partie Discussion fait un appel important aux modaux de possibilit et au pr sent Ces travaux raffinent l id e de types de texte Un texte donn n est pas forc ment homog ne sur le plan des types de texte auxquels il recourt Il peut inclure des sous types ou faire appel pour telle ou telle part un autre type que celui qui y pr domine Le grain pour l tude des types de textes n est donc pas forc ment un document dans son ensemble m me s il est bref ce qui est le cas des articles de m decine tudi s par Biber et Finegan 4 5 valuation 4 5 1 Fiabilit des typologies d gag es Les traits employ s par les travaux analys s sont l vidence fragiles arbitraire relatif On ne saurait constituer une liste ferm e de traits Les limites fix es tiennent la fois la formation linguistique du chercheur et aux tendances linguistiques dominantes au moment de la recherche la strat gie d tiquetage choisie l tiquetage manuel permet un grain plus fin et aux outils statistiques convoqu s fiabilit de l tiquetage L tiquetage morphosyntaxique simple est moins fiable moins homog ne quand il est manuel plut t qu
38. es huit regroupements obtenus sont alors consid r s comme des types de textes au terme d une nouvelle phase d interpr tation qui s appuie en particulier sur l examen des textes les plus proches du centre de chacune des classes d finies 1 Production impliqu e Production informationnelle Verbes priv s omission de that n gation analytique Noms mots longs adjectifs attributs pr positions adverbiaux de subordonnants de cause pronoms ind finis relatives questions en lieu WH modaux de possibilit do comme pro verbe be comme verbe principal pr sent d monstratifs contractions du type don t 1 et 2 personne du singulier pronom it 2 Orientation narrative Orientation non narrative Verbes au pass pronoms de la 3 personne verbes publics Verbes au pr sent adjectifs attributs n gation synth tique propositions participes 3 R f rence explicite R f rence d pendante de la situation d nonciation Propositions relatives en position objet et en position sujet Adverbes de temps et de lieu adverbes coordination de syntagmes nominalisations 4 Vis e persuasive explicite Infinitifs modaux de pr diction de n cessit et de possibilit verbes de persuasion conditionnelles auxiliaires discontinus 5 Style abstrait Style non abstrait Conjonctions passifs sans agent propositions au participe pass passif avec agent en by past participial WHIZ deletions autres su
39. hoix al atoire de num ros entiers parmi ceux des ann es 1987 1989 1991 1993 et 1995 du journal Le Monde Naulleau 1998 Les donn es rassembl es sont certes vari es mais sans pouvoir pr tendre pour autant repr senter de mani re coh rente les emplois principaux du fran ais La presse n est pr sente que par un seul journal quotidien La presse r gionale les hebdomadaires la presse sp cialis e sont absents Les langages techniques et scientifiques galement hormis les sciences humaines et des notes tr s br ves de vulgarisation dans des domaines extr mement vari s Cette perspective se rapprochant d un vide grenier est explicite dans le projet SILFIDE Serveur Interactif sur la Langue Fran aise son Identit sa Diffusion et son tude de l AUPELF UREF pour 1996 2000 o il s agit de rendre accessibles des ressources et des outils linguistiques pr existants dans un cadre logiciel unifi Dans tous les cas se trouvent agr g s des documents avant tout parce qu ils sont faciles d acc s leur mise en relation n a pas t r ellement pens e On part non pas des emplois du fran ais que l on souhaite repr senter mais des donn es disponibles et des annotations dont on veut les enrichir 2 4 philologie de la mis re Dans ce qu on pourrait appeler des regroupements opportunistes certains emplois du fran ais sont privil gi s tandis d autres restent dans l ombre 2 4 1 Emplois d
40. ingtaine effectivement retenue par Biber Il s agit plut t de savoir si les registres retenus donnent acc s l int gralit des dimensions sous jacentes aux textes et nonc s en circulation dans une communaut langagi re La multiplication des corpus et des outils d tiquetage devrait permettre de r pondre cette interrogation 4 5 2 G n ralit des typologies d gag es Biber Biber 1995 a appliqu la m me d marche quatre corpus le corpus anglais initial et trois ensembles de textes en cor en somali et nukulaelae tuvaluan Malgr des diff rences nettes li es en particulier au degr d alphab tisation et la place des traditions orales dans les langues consid r es Biber ibid p 359 pense pouvoir mettre l hypoth se que les types textuels qu il d gage sont communs plusieurs langues m me si leurs r alisations linguistiques diff rent d une langue l autre 4 5 3 Valider les types propos s Biber souligne plusieurs reprises la place de l interpr tation dans la d nomination des dimensions et des types de textes et sur les pr cautions reprendre pour contraindre au mieux cette interpr tation Il montre les va et vients n cessaires entre les caract risations globales op r es par l analyse factorielle par la SD fini sp cifique d fini non sp cifique ou g n rique ind fini sp cifique ind fini non sp cifique g n rique tout etc possessif d monstratif d
41. ints de vue des acteurs sociaux constitu des fins de veille sociale interne la Direction des tudes et Recherches d EDF projet Scriptorium 1 r nin k r F r Aux corpus nus des ann es 70 se sont ajout s les corpus assortis d tiquettes morpho syntaxiques puis au d but des ann es 90 les corpus munis d arbres syntaxiques partiels ou complets La p riode actuelle est consacr e des annotations plus ambitieuses tiquetage s mantique marques de co r f rences identification d entit s comme les noms propres de personnes de soci t s de lieux transcription phon tique align e avec le signal sonore On se reportera Habert et al 1997 pour une pr sentation d taill e mais d j dat e des niveaux d annotation et de leur utilisation en linguistique 2 s TA 2 Cr Corpus comparables les textes dans des langues ou des tats de langue diff rents sont rassembl s selon des crit res similaires en ce qui concerne le domaine le genre corpus parall les les textes sont en relation de traduction corpus align s on indique la correspondance exacte entre des traductions phrase phrase ou constituant constituant etc Le fait de pouvoir s lectionner la base enti re ne menace pas ce choix terminologique c est en fin de compte valider les choix qui ont conduit la s lection des composants Un corpus est une collection de donn es langagi re
42. ion verbes d analyse verbes marquant l extension dans le temps et l espace verbes psychologiques verbes marquant un processus Sur la R solution G n rale du congr s de la CFDT de 1976 l analyse factorielle met en vidence par exemple des corr lations entre certaines classes de sujets et certains types de verbes la CFDT le congr s verbes performatifs action s lutte s combat verbes d obligation etc Par ailleurs la R solution tudi e se divise en quatre grandes parties La premi re est consacr e l analyse la seconde aux principes strat giques les deux derni res sont tourn es vers l action Les corr lations de traits linguistiques manifestent l existence au sein de ce texte unique de types distincts discours analytique th orique discours strat gique injonctif etc Par exemple la premi re partie est corr l e avec les verbes non contr lables sujet anim la seconde avec les verbes non contr lables sans sujet anim tandis que les deux derni res qui fixent des t ches pr cises pour les diff rents niveaux de l organisation sont corr l es avec des verbes contr lables sujet anim D Biber et E Finegan Biber amp Finegan 1994 sur un corpus d articles du New England Journal of Medicine et du Scottish Medical Journal montrent que les parties canoniques d un article scientifique introduction m thodes r sultats conclusion comportent des diff rences linguistiques sensibl
43. ique conomie du Monde quel que soit le volume textuel rassembl risque fort de d boucher sur une image d form e du fran ais employ par ce journal 2 1 Gros c est beau vs l ins curit dans les grands ensembles Deux positions constituent les p les entre lesquels se r partissent les cr ateurs de corpus Pery Woodley 1995 Gros c est beau pourrait tre le slogan de la premi re La conviction sous jacente est que l largissement m canique des donn es m morisables les centaines de millions de mots actuelles deviendront terme des milliards produit in vitablement un chantillon de plus en plus repr sentatif de la langue trait e Si l on n arrive pas cerner pr cis ment les caract ristiques de l ensemble des productions langagi res il ne reste qu englober le maximum d nonc s possibles terme la n cessit de choisir finirait par s estomper La seconde approche plus sensible aux variations propres aux donn es textuelles et l ins curit dans les grands ensembles constitue des ensembles aux conditions de production et de r ception plus nettement d finies et corr l es leurs caract ristiques langagi res C est cette logique qui inspire les facteurs de corpus de r f rence 2 2 L h ritage des corpus de r f rence 2 2 1 La tradition des corpus panach s Plusieurs projets de constitution de corpus de r f rence ont t men s bien aux
44. ivers pronom anaphorique dans ce cas sont indiqu es les caract ristiques du SN auquel ce pronom se r f re scr les travaux de J M Adam Adam 1992 Adam amp Revaz 1996 qui visent d gager au sein des textes con us comme h t rog nes des composantes homog nes les s quences relevant du r cit de la description de l explication de l argumentation et du dialogue TL insistance sur les embrayeurs dans Bronckart et al 1985 renvoie ainsi la place des probl matiques nonciatives dans la linguistique fran aise des ann es 70 48L angue parl e par environ 5 millions de personnes en Somalie Djibouti en thiopie et au Kenya 4L angue parl e par 350 personnes sur l atoll Nukulaelae du groupe Tuvalu Pacifique 50 Les dimensions textuelles sont des constructions th oriques issues de l interpr tation des r sultats d une proc dure statistique connue sous le nom d analyse factorielle C est dire que l analyse factorielle identifie les traits linguistiques qui cooccurrent tr s fr quemment dans les textes et chaque groupe de traits cooccurrents peut tre interpr t pour d terminer la fonction de communication sous jacente la plus largement partag e par ces traits Biber 1985 p 338 classification automatique et l examen des traits linguistiques correspondants et des textes li s C est la compl mentarit qu il souligne dans Biber 1985 entre approche macroscopique e
45. ivers avec SAS traitements linguistiques avec LEXTER Bourigault 1993 etc Wie mot est de Lucien Fevre dans sa le on inaugurale au Coll ge de France du 13 d cembre 1933 Cerquiglini 1989 p 17 et il y est n gatif 2 Des corpus repr sentatifs de quoi Curieusement l expression corpus repr sentatif se rencontre parfois sans que l on pr cise quelle population langagi re le corpus en cause est cens repr senter le fran ais dans son ensemble la langue litt raire la langue famili re un langage sp cialis D un point de vue statistique on peut consid rer un corpus comme un chantillon d une population d v nements langagiers Comme tout chantillon un corpus est passible de deux types d erreurs statistiques qui menacent les g n ralisations partir de lui Biber 1993 p 219 220 l incertitude random error et la d formation bias error L incertitude survient quand un chantillon est trop petit pour repr senter avec pr cision la population r elle Une d formation se produit quand les caract ristiques d un chantillon sont syst matiquement diff rentes de celles de la population que cet chantillon a pour objectif de refl ter Un extrait de 2 000 mots d une interview de F Mitterrand par Y Mourousi ne permet gu re d extrapoler et d en tirer des conclusions sur le fran ais mitterrandien ou sur l interaction journaliste homme politique Utiliser les articles de la seule rubr
46. ix des documents int grer et la partie de ces documents conserver Ce saucissonnage rend par contre impossible l tude des changements de corr lations de traits linguistiques au fil des textes C est le titre de Geffroy amp Lafon 1982 13 i ai z PT P Ce corpus mis au point par Francis et Kucera de l Universit Brown aux Etats Unis comprend un million de mots 500 extraits de 2 000 mots et regroupe des textes am ricains preduits en 1961 et relevant de 15 genres diff rents Il a t soigneusement tiquet une cat gorie morpho syntaxique est attach e chaque mot Par sa mise dans le domaine public il a jou un r le moteur dans le renouveau des recherches sur corpus 14 one a HR Acronyme de Lancaster Oslo Bergen les universit s qui l ont mis au point Ce corpus a t explicitement con u pour tre l quivalent anglais du corpus de Brown Il comprend galement 500 extraits de 2 000 mots relevant des m mes genres mais de textes anglais cette fois ci produits aussi en 1961 15 A z ajir PP r PA On notera que la taille correspondant un gros corpus ne cesse de cro tre Au d but des ann es 80 un million de mots tiquet s correspondait une r alisation d ampleur Quinze ans apr s ce sont cent millions de mots tiquet s que le BNC rend accessibles 16 P http info ox ac uk bnc Tof Bronckart et al 1985 p 69 Biber consacre plusieurs articles
47. la cr ation du corpus le cartouche du corpus ceux des composants et les composants eux m mes 53 P ms z D gt j Emplacement r serv la l gende ou au titre situ au bas d un tableau d une carte g ographique etc Le Petit Robert 5 2 Mesurer ma triser l h t rog n it langagi re profilage de corpus 5 2 1 De l h t rog n it subie l h t rog n it vis e On serait tent de voir dans les nouveaux corpus g om trie variable du texte texte dont on ne sait pas toujours tr s bien de quels usages langagiers il est repr sentatif Les donn es du journal Le Monde disponibles sous forme lectronique rassemblent ainsi des textes de longueur tr s diff rentes de quelques dizaines de mots dans les br ves des milliers de mots pour les articles de dossiers relevant de domaines distincts les rubriques ou sections et de genres multiples biographie chronique chronologie encadr correspondance entretien opinion portrait rectificatif revue de presse L tude Illouz et al 1999 men e sur les 6 rubriques principales de ce journal montrait ainsi des carts significatifs entre ces rubriques la fois pour le vocabulaire utilis et pour les cat gories syntaxiques qui y sont privil gi es Les nouveaux corpus n cessitent donc des outils de profilage pour valuer leur homog n it interne pour pouvoir d gager des sous parties homog nes pour d
48. lait auparavant de pair avec l diction de normes de saisie C est maintenant l abondance de donn es et la multiplicit des formats qui pr valent pages HTML issues de la Toile fichiers provenant de traitements de texte ou de reconnaissance optique etc L homog n isation s op re d sormais a posteriori Gigantisme Une dizaine d ann es du journal Le Monde sur CD ROM repr sentent une masse textuelle d passant ce qui a t engrang dans Frantext en 40 ans La cisation Disposer de texte sous forme lectronique m me en grande quantit n est plus l apanage des institutions De nombreux logiciels sont galement port e de la main tant par leur prix que par leur facilit de maniement Les ressources et outils permettant de travailler sur corpus se multiplient Plusieurs tiqueteurs sont accessibles pour le fran ais Il en sera bient t de m me pour les analyseurs syntaxiques automatiques ou parseurs C est d j le cas pour les outils statistiques sans compter les facilit s offertes par les suites bureautiques Les micro ordinateurs offrent d sormais l environnement mat riel et logiciel n cessaire Le temps des traitements et des sauvegardes sur gros syst mes est r volu Celui des informaticiens assurant les passages et les ajustements logiciels aussi Il en r sulte la n cessit pour le corpiste d assurer tout ou partie des t ches d coulant du recours au corpus
49. les par eux C est le cas des corr lations entre traits linguistiques constitutives des types de textes mis en vidence par les traitements statistiques multidimensionnels En ce sens les corpus actuels et les outils de traitement qui les accompagnent donnent voir repr sentent des dimensions du langage relativement mal explor es R f rences AARTS J 1990 Corpus linguistics an appraisal In J HAMESSE amp A ZAMPOLLI Eds Computers in Literary and Linguistic research pp 13 28 Paris Gen ve Champion Slatkine ADAM J M 1985 Quels types de textes Le fran ais dans le monde 192 ADAM J M 1992 Les textes types et prototypes Paris Nathan ADAM J M amp REVAZ F 1996 L analyse des r cits N 22 in M mo Paris Seuil ANDR J 1996 Balises structures et tei Cahiers Gutenberg 24 11 22 AUROUX S 1998 La raison le langage et les normes Sciences modernit s philosophies Paris Presses Universitaires de France BAKHTINE M 1984 Esth tique de la cr ation verbale Biblioth que des id es Paris Gallimard Traduction d Alfreda Aucouturier Pr face de Tzetan Todorov BARKEMA H 1993 Idiomaticy in English NPs In J AARTS P DE HAAN amp N OOSTDIJK Eds English language corpora design analysis and exploitation pp 257 278 Amsterdam Rodopi BARKEMA H 1994 Determining the syntactic flexibility of idioms In U FRIES G TOTTIE amp P SCHNEIDER Eds Creating
50. mes de J Andr Andre 1996 p 17 la TEI constitue un inventaire une sorte de flore au sens de Buffon des divers l ments pouvant constituer un document litt raire et elle repr sente en ce sens une avanc e dans la description et la formalisation des types de documents en circulation dans les diverses communaut s langagi res Elle fournit ainsi indirectement des l ments pour les typologies de textes et les tudes sur les genres discursifs Lier la documentation au corpus La TEI fait obligation aux concepteurs de corpus de faire figurer au tout d but du corpus un en t te header ou encore cartouche Ce cartouche documente quatre aspects du corpus 1 le rapport entre les sources utilis es et la version lectronique 2 les choix d annotation effectu s 3 des renseignements sur le contexte du corpus langues et dialectes repr sent s type de textes retenus etc 4 le d tail des r visions subies par le corpus en quelque sorte le livre de bord des responsables du corpus On distingue le cartouche dominant l ensemble du corpus et les cartouches des composants du corpus Le cartouche du corpus met en facteur les choix qui valent pour toutes les donn es textuelles englob es dans le corpus Chaque composant du corpus peut comporter son propre cartouche qui d taille les informations qui lui sont propres C est cette r partition entre informations partag es et renseignements particuliers qui permet en p
51. n de certaines marques linguistiques section 3 4 ou bien sur une combinaison de ces crit res 2 La seconde d velopp e section 4 proc de a posteriori les types obtenus reposent sur les propensions d un groupe de textes recourir un ensemble de traits linguistiques et en viter d autres 3 1 D finition de la situation de communication Une des difficult s ce stade est que font partie de la situation de communication non seulement les donn es objectives sur le destinateur et le destinataire mais galement les repr sentations que poss de le destinateur de lui m me et de son public Kerbrat Orecchioni 1980 p 22 26 3 2 Pr cision de la fonction vis e Le classement porte sur la fonction du texte distraire informer convaincre etc dans la tradition par exemple de Condillac qui distinguait le didactique le normatif et le descriptif Chiss 1987 p 24 ou dans la lign e de d composition de la communication en six facteurs par Jakobson Jakobson 1963 qui associe chaque facteur une fonction linguistique d termin e Les textes se distingueraient dans cette perspective par la domination de telle ou telle fonction m me si chacun d eux fait appel toutes la suite de Werlich 1975 qui distinguait les textes descriptifs narratifs expositifs argumentatifs et instructifs J M Adam Adam 1985 proposait sept types textuels de base 3 3 Rattachement des th mes et des domaines
52. ne bouscule pas la lisi re entre possible et impossible Ce genre de fus e langagi re en joue et s en joue ce qui est pr cis ment une mani re de la confirmer La troisi me cat gorie correspond la variation interne la langue dans une perspective proche de celle de Labov La quatri me troitement li e t moigne de l volution des r gles Ce qui s pare les deux premiers types des deux derniers c est la fr quence Les premiers sont n gligeables Le nombre d occurrences des seconds est significatif On peut en outre refuser de suivre S Auroux quand il affirme ibid p 183 La recherche d attestations dans des textes quelles que soient sa sophistication et l utilisation de moyens techniques co teux voire informatiques la constitution d un corpus ne rel vent pas directement des protocoles exp rimentaux cela deux raisons i elles ne sont pas en relation directe avec une hypoth se explicite tester ii elles ne correspondent pas la production d un ph nom ne L existence de corpus annot s permet au contraire de tester des hypoth ses explicites C est la d marche d fendue dans Aarts 1990 La mesure par Barkema Barkema 1993 Barkema 1994 Habert et al 1997 p 58 60 du degr de figement de s quences en rel ve Par ailleurs un certain nombre de ph nom nes langagiers qui affleurent dans les corpus chappent la perception des locuteurs et sont difficilement explicitab
53. ormatique o la r f rence bibliographique au fil du texte peut se r duire au num ro d ordre dans la bibliographie fournie in fine 3 5 Types linguistiques postul s Jakobson Jakobson 1963 ch 9 a caract ris les embrayeurs a shifters comme les unit s linguistiques dont la valeur r f rentielle n cessite de conna tre les conditions de leur nonciation c est dire le moment le lieu et l identit des co locuteurs dans je viens ici demain l interpr tation de je ici et demain suppose de conna tre l identit du locuteur ainsi que la localisation de l nonciation dans le temps et dans l espace On peut alors opposer les nonc s qui organisent leurs rep rages par rapport la situation d noncation et qui recourent donc aux embrayeurs et ceux dont les rep rages reposent sur l nonc lui m me Cette opposition a donn lieu la distinction par Benveniste Benveniste 1966 entre discours et histoire Dans le discours quelqu un s adresse quelqu un s nonce comme locuteur et organise ce qu il dit dans la cat gorie de la personne ibid p 242 tandis que dans l histoire les v nements semblent se raconter eux m mes Tant C sar dans La guerre des Gaules que De Gaulle dans ses M moires de guerre ont utilis l histoire en parlant d eux m mes la troisi me personne ils ont ainsi chang le mode de pr sentation de leurs faits de guerre et de leur r le la suite de
54. pitalier et m decine de ville compte rendu d hospitalisation CRH op ratoire intervention chirurgicale d examen d imagerie radiologie scanner chographie endographie d exploration fonctionnelle respiratoire neurologique anatomopathologie ECG EEG lectromyogramme biologique biochimique ex antibiogramme notes de suivi lettre de correspondant de sortie version plus synth tique du CRH pour adresser un patient un autre m decin prescription ordonnance demande d examen 2 Enseignement livre de cours polycopi QCM question de cours 3 Ressources monographie sur m dicament Vidal notice de m dicament r f rences m dicales opposables guide de bonne conduite protocole d essai clinique dictionnaire encyclop die 4 Publications principalement scientifiques m moire de th se article de type scientifique d p che AFP sant communication institutionnelle d entreprise p ri article r sum d article scientifique notice bibliographique forums de discussion listes de diffusion lectroniques en m decine autorisation de mise sur le march d un m dicament ISPar Georges Vignaux INaLF et moi Participants CLIPS GETA CRIN INaLF LIMSI LPL Comme ceux mis en ligne par ABU Association des bibliophiles universels http cedric cnam fr ABU 21De l ordre d 1 2 heure pour une minute d ora 72 ttp www biomath ju
55. ple On parlera alors plut t de base textuelle que de corpus c est l op ration de choix raisonn parmi les composants disponibles qui cr e un corpus Nous proposons d ailleurs une d finition de corpus encore plus restrictive que celle de Sinclair 1996 p 4 un corpus est une collection de donn es langagi res qui sont s lectionn es et organis es selon des crit res linguistiques ef extra linguistiques explicites pour servir d chantillon d emplois d termin s d une langue Corpus ouverts Beaucoup de corpus constituent des ressources achev es d s lors immuables sauf en extraire des sous corpus l inverse avec la possibilit de capter en continu des donn es dans certains secteurs les fichiers de composition de grands journaux par exemple est apparue la notion de corpus de suivi monitor corpus Renouf 1993 Par d finition un tel corpus ne cesse de cro tre Et il devient alors possible d tudier l volution de certains ph nom nes langagiers n ologismes emplois privil gi s un moment donn de certains suffixes ou pr fixes etc un peu comme les ditions papier de certains dictionnaires d usage Le Petit Larousse Le Petit Robert servent de sonde sur le lexique et ses changements Les CD ROMs du journal Le Monde permettent aujourd hui de de telles analyses pour le fran ais D autres corpus accueillent sans cesse de nouveaux composants C est le cas du corpus de po
56. possibles C est la ligne directrice des travaux de D Biber Biber 1988 Biber 1989 Il examine les cooccurrences entre 67 traits linguistiques dans les 1 000 premiers mots de 481 textes d anglais britannique contemporain crit et oral Ces textes proviennent de LOB et de London Lund et deux ensembles de lettres Les genres repr sent s sont les quinze 35 si RE Un texte peut jouer sur la violation de ce pacte C est le cas du Meurtre de Roger Acroyd d A Christie le narrateur n est autre que le criminel mais cette identit n est r v l e qu la fin du roman qui viole les conventions tacites du roman policier soit le narrateur omniscient n est pas coupable soit son crime est donn d s le d part boir aussi Beacco 1992 p 15 17 Regent 1992 pour l tude de la variation au sein d un m me registre en fonction de diff rentes langues on parle aussi d l ments d ictiques B hler d expressions sui r f rentielles d l ments indiciels de symboles indexicaux Mai ngueneau 1996 p 33 38 A mend e dans Simonin Grumbach 1975 Boe corpus tiquet Svartvik et al 1982 totalise 435 000 mots d anglais parl r partis en 87 extraits de 5 000 occurrences de locuteurs adultes ayant fait des tudes Il comprend de nombreuses informations prosodiques pauses limites etc de LOB deux de lettres personnelles et professionnelles six de London Lund conversations
57. pulation des donn es langagi res est encore extr mement fragmentaire Pour l oral par exemple il n est pas vident de sp cifier les genres les plus produits ou les plus importants en r ception Par ailleurs on peut se demander si les vari t s de langage repr sent es correspondent ce pour quoi est fait le corpus en cause Biber 1993 p 220 Pour constituer une terminologie m dicale il est probable par exemple que certains des genres recens s par P Zweigenbaum ne sont pas pertinents l entretien m decin patient voire l ordonnance et la demande d examen Dans tous les cas am liorer la repr sentativit d un corpus consiste pr ciser la production et la r ception de chacun de ses composants en lien avec les motifs qui ont conduit la cr ation du corpus mais aussi pouvoir d terminer sur des bases objectivables les diff rents emplois du langage auxquels on s int resse Ce sont ces deux dimensions externe et interne de la repr sentativit qui sont abord es dans les deux sections suivantes 3 Caract risations a priori de textes On peut opposer sommairement deux types de classification 1 La premi re op re a priori Elle repose sur les conditions de production des textes section 3 1 sur les buts vis s par les textes section 3 2 sur l inscription dans des genres section 3 3 type de classification qui sera particuli rement d taill sur l emploi ou no
58. rer l ad quation d un corpus aux utilisations qui en sont faites l analyse pr cise et la m morisation des conditions de production du corpus et de ses composants section 3 ainsi que la mesure de l h t rog n it interne en termes linguistiques du corpus section 4 La section 5 indique les t ches et les contraintes concr tes qui d coulent des deux directions esquiss es dans les deux sections pr c dentes La section 6 aborde enfin les nouvelles conditions de l articulation entre intuition et attestation 1 Les corpus ont chang leurs facteurs et leurs utilisateurs aussi C est sous langle de la repr sentativit que nous d peignons les renouvellements Nous n abordons donc ni le niveau d annotation des corpus ni les mises en relation de corpus 1 1 Les corpus nouveaux sont arriv s 1 1 1 G om trie variable des corpus R servoirs corpus c t des corpus ferm s mis au point une fois pour toute existent d sormais des r servoirs corpus Les donn es signal tiques attach es chaque composant permettent de r aliser fa on un corpus r pondant une recherche particuli re Le BNC British National Corpus qui est pr sent infra constitue le meilleur repr sentant de ces regroupemements de textes Les textes litt raires du moyen fran ais nos jours rassembl s par l INaLF Institut national de la langue fran aise dans Frantext fournissent un autre exem
59. rit s perceptibles au sein des textes c est dire aux types qui s y succ dent section 4 4 4 1 D gager des constellations de marques linguistiques Dans cette optique un type de texte est d fini par la cooccurrence d un certain nombre de traits linguistiques et ventuellement par l vitement syst matique d autres traits Un corpus est constitu pour examiner la r partition de traits consid r s pr alablement ou a posteriori comme discriminants et significatifs 4 1 1 Constitution d un corpus La d marche inductive peut avoir pour objectif de confirmer amender une typologie pr existante et de caract riser les emplois correspondant chaque type pr sum C est la logique de Bronckart et al 1985 Le postulat de d part est l existence de trois p les textuels ou architypes li s des situations de communication distinctes le discours en situation le discours th orique et la narration ibid p 43 44 Cinquante textes ont t recueillis pour chaque architype La d marche inductive peut au contraire tre purement exploratoire elle vise r v ler des types sans correspondance obligatoire avec des genres repertori s Elle peut op rer sur des textes relevant d un m me genre la r solution g n rale de congr s conf d ral dans Bergounioux et al 1982 comme dans Habert 1983 La d marche inductive peut explorer les r gularit s de textes relevant de genres aussi vari s que
60. rpr tations au sens large tiquetage morpho syntaxique projection de cat gories s mantiques lemmatisation etc Chacun de ces traitements produit une version diff rente du corpus L cart entre les versions peut tre plus ou moins important Il importe donc pour une analyse donn e de m moriser non seulement la s lection de textes sur laquelle elle op re mais aussi les traitements auxquels ces textes ont t soumis C est la condition sine qua non pour que l analyse en question soit reproductible et pour qu on puisse relier de mani re s re les constats effectu s et les caract ristiques du corpus trait L exp rience prouve que ce lien se perd rapidement restent des analyses dont on ne sait pas toujours pr cis ment sur quoi elles ont port Elles se vident alors de sens De la m me mani re que la TEI enjoint d attacher chaque corpus son cartouche de sorte que la description du corpus de son origine de l annotation r alis e des r visions faites ne puisse tre dissoci e du corpus lui m me il convient d amarrer chaque analyse au corpus sur lequel elle porte La solution minimale est le renvoi aux cartouches du corpus et des composants extraits pour l analyse Une solution interm diaire l inclusion de ces cartouches La solution optimale plus co teuse en place mais les moyens de stockage croissent continuement revient m moriser en m me temps que l analyse les choix qui ont pr sid
61. rt etc C est aussi dans cette section que sont d clar es les cat gories utilis es pour classer les composants regroup s par exempple pour Le Monde ce pourrait tre la rubrique les mots cl s fournis par la documentation du journal le type d article br ve interview Un m me composant peut tre class simultan ment sur plusieurs axes ce qui permet ensuite des extractions fines Contexte Dans ce volet sont m moris es les informations concernant la cr ation du corpus ou d un de ses composants en particulier ses dates et lieu de mise au point mais aussi les langues les registres et les dialectes repr sent s C est cet endroit que figure pour un composant sa place dans les classifications signal tiques choisies pour le corpus Historique des r visions C est le journal des modifications apport es au corpus qui sont not es s quentiellement date personne responsable de la modification et une description d taill e de la r vision effectu e Le cartouche propos par la TEI peut para tre trop d taill voire verbeux Il permet n anmoins de s assurer que les renseignements fondamentaux pour donner sens aux analyses issues de ce corpus ont effectivement t rassembl s 5 1 3 Documenter les analyses faites sur un corpus Une collection de textes permet d engendrer de multiples corpus distincts Chacun de ces corpus peut donner lieu des annotations vari es qui constituent autant d inte
62. rtin d H res LAFON P LEFEVRE J amp SALEM A 1985 Le machinal Principes d enregistrement informatique des textes Saint Cloud Klincksieck LAKS B 1996 Langage et cognition L approche connexionniste Langue raisonnement calcul Paris Herm s LEBART L amp SALEM A 1994 Statistique textuelle Paris Dunod MAINGUENEAU D 1996 Les termes cl s de l analyse du discours N 20 in M mo Paris Seuil MARCHELLO NIZIA C 1999 Le fran ais en diachronie douze si cles d volution L essentiel fran ais Paris Ophrys MARCUS M SANTORINI B amp MARCINKIEWICZ M A 1993 Building a large annotated corpus of english The Penn Treebank Computational Linguistics 19 2 313 330 MILNER J C 1989 Introduction une science du langage Des Travaux Paris Seuil 1 re edition NAULLEAU E 1998 Tranformation of Le Monde data to obtain PAROLE DTD conformance Technical report INaLF CNRS Saint Cloud PEREC G 1991 Cantatrix sopranica L et autres crits scientifiques La librairie du XX si cle Paris Seuil PETITIEAN A 1987 Les faits divers polyphonie nonciative et h t rog n it textuelle Langue fran aise 74 73 96 La typologie des discours J L Chiss J Filliolet eds PETITIEAN A 1989 Les typologies textuelles Pratiques P RY WOODLEY M P 1995 Quels corpus pour quels traitements automatiques TAL 36 1 2 213 232 Traitements probabilistes et corpu
63. s Beno t Habert resp QUIRK R GREENBAUM S LEECH G amp SVARTVIK J 1985 Comprehensive Grammar of the English Language London Longman REINERT M 1993 Les mondes lexicaux et leur logique travers l analyse statistique d un corpus de r cits de cauchemars Langage et soci t 66 5 39 RENOUF A 1993 A word in time first findings from the investigation of dynamic text In J AARTS P DE HAAN amp N OOSTDHK Eds English language corpora design analysis and exploitation pp 279 288 Amsterdam Rodopi R GENT O 1992 Pratiques de communication en m decine contextes anglais et fran ais Langages 105 66 75 Ethnolinguistique de l crit Jean Claude Beacco d SAPORTA G 1990 Probabilit s analyse des donn es et statistique Paris Technip SIGLEY R 1997 Text categories and where you can stick them a crude formality index International Journal of Corpus Linguistics 2 2 199 237 SIMONIN GRUMBACH J 1975 Pour une typologie des discours In Langue discours soci t pour Emile Benveniste pp 85 121 Paris Seuil SINCLAIR J 1996 Preliminary recommendations on Corpus Typology Technical report EAGLES Expert Advisory Group on Language Engineering Standards SPARCK JONES K amp P WILLETT Eds 1997 Readings in Information Retrieval San Francisco California Morgan Kaufmann SUEUR J P 1982 Pour une grammaire du discours laboration d
64. s CFDT CFTC CGT et FO de 1971 1976 a pour objectif de d gager le fonctionnement d ensemble de ces r solutions Les convergences des sur emplois et des sous emplois permettent d opposer ibid p 175 une structure dite analytique utilis e par la CFDT et la CGT une structure dite d clarative pr f r e par FO et la CFTC Le premier type de r solution sur emploie en particulier le verbe fre la troisi me personne de l indicatif pr sent les modaux les pronoms la premi re personne du pluriel et les possessifs de m me personne les pronoms de troisi me personne Le deuxi me type sur emploie les verbes d claratifs appelle consid re estime exige ayant pour sujet le congr s ou le sigle la CFTC suivis d une compl tive en que La CGT et la CFDT sur emploient par exemple la pr position de et ses variantes du des en raison du recours des syntagmes nominaux complexes Dans ces syntagmes nominaux se rencontrent des unit s complexes en langue comme pouvoir d achat lutte de classes mais aussi des d nominations propres ce type de syndicalisme ou un certain discours politique unit d action union de la gauche capitalisme monopoliste d tat voire la CGT ou la CFDT union des forces populaires 4 4 Typologies inductives et s quentialit Certains travaux examinent galement les changements de corr lations de traits linguistiques au fil de textes et les types qui y correspondent
65. s actions correctes et incorrectes pour les distinguer il faut conna tre la r gle Le recours renouvel aux corpus confronte effectivement des nonc s que l on juge a priori impossibles On peut r partir ces existants impossibles au moins dans quatre cat gories La premi re rel ve du simple lapsus de l erreur La seconde du viol intentionn d une r gle par le locuteur Une telle transgression SOpar exemple pour le perfect les patrons a HAVE Adverbe Adverbe Participe Pass b HAVE Nom Pronom Participe Pass questions ibid p 223 6l Par exemple Les verbes au pr sent traitent de sujets et d actions imm diatement pertinentes Ils servent galement dans le style universitaire centrer l attention sur l information pr sent e et carter le d roulement dans le temps ibid p 224 FE Laks 1996 ch 6 pour une discussion approfondie du rapport r gle r gularit Ou nettement improbables Ainsi dans Corbin 1997 D Corbin examine certaines contraintes linguistiques et pragmatiques qui emp chent l int gration dans le lexique la lexicalisation de certaines s quences pour le reste bien form es Ce sont par exemple des conventions des tabous qui font obstacle la lexicalisation de e bras gauche de Nom Propre parall le le bras droit de Nom Propre la gauche est toujours sinistre alors que c est l exemple de Le Carr cit en note
66. s commun que sont les genres the folk typology of genres Les genres sont les cat gories de textes distingu es spontan ment par les locuteurs confirm s mature d une langue par exemple les genres de l anglais incluent les romans les articles de journaux les ditoriaux les articles de recherche academic articles les discours en public les nouvelles radiophoniques et la conversation de tous les jours Pour D Maingueneau Maingueneau 1996 p 43 il s agit de dispositifs de communication socio historiquement d finis comme le fait divers l ditorial la consultation m dicale l interrogatoire policier les petites annonces la conf rence universitaire le rapport de stage etc S Branca indique Branca Rosoff 1999 p 5 Les usagers de la langue classifient spontan ment leurs productions discursives Par exemple dans les m dias les journalistes et leurs lecteurs emploient fait divers reportage d bats De m me notes de synth se compte rendu s entendent dans les bureaux et dans les entreprises dissertation th se compte rendu de lecture l Universit Au demeurant les locuteurs s en tiennent aux noms d esp ce et ne semblent pas utiliser souvent les termes englobants de genre de modes ou de types Elle souligne d ailleurs tbid p 17 qu il s agit de regroupements a posteriori sans crit res syst matiques Dans ses travaux plus r cents Bi
67. s qui sont s lectionn es et organis es selon des crit res linguistiques explicites pour servir d chantillon du langage J ajoute pour des raisons que ces pages essaient de pr ciser les crit res extra linguistiques les crit res purement linguistiques ne sont pas dans l imm diat suffisants ne serait ce parce que nous manquons la fois de typologies linguistiques de textes et d outils de typologisation cf sections 3 et 4 Par ailleurs Sinclair parle d chantillon du langage Notre ignorance de la population d v nements que constitue un langage dans son ensemble cf section 2 m am ne vouloir des objectifs plus limit s et plus sp cifiques 6 j sen s as g Ce projet qui fait l objet d un contrat pour la p riode 1997 2000 entre la Direction des Etudes et Recherches d EDF et l ENS de Fontenay Saint Cloud a pour objectif la constitution d un corpus de 20 millions de mots Les documents rassembl s sont extr mement vari s tant pour le format que pour le type Corpus ph m res vs persistants Certains corpus sont constitu s pour une recherche ponctuelle S il est envisageable parfois de les int grer dans une base de textes leur r utilisation dans une autre perspective ne s impose par toujours Certains glannages de donn es textuelles n ont m me pas vocation tre conserv s au del de l tude qui les a n cessit s Par exemple l tude de la structuration des interactions
68. simplifi e une introduction au codage des textes lectroniques en vue de leur change Cahiers Gutenberg 24 23 151 Traduction de Fran ois Role CERQUIGLINI B 1999 loge de la variante Histoire critique de la philologie Des travaux Paris Seuil CHARAUDEAU P 1983 Langage et discours l ments de s miolinguistique th orie et pratique Langue Linguistique Communication Paris Hachette CHISS J L 1987 Malaise dans la classification Langue fran aise 74 10 28 La typologie des discours J L Chiss J Filliolet eds COMBETTES B 1988 Pour une grammaire textuelle la progression th matique De Boeck Duculot CORBIN D 1997 Entre les mots possibles et les mots existants les unit s lexicales faible probabilit d actualisation In D CORBIN B FRADIN B HABERT F KERLEROUX amp M PL NAT Eds Mots possibles et mots existants pp 79 90 Lille DOLININE C 1999 Le probl me des genres du discours quarante cinq ans apr s bakhtine Langage et soci t 87 25 40 DUNLOP D 1995 Practical considerations in the use of TEI headers in large corpora Computers and the Humanities 29 85 98 Text Encoding Initiative Background and Context edited by Nancy Ide and Jean V ronis GADET F 1997 Le fran ais ordinaire U Linguistique Paris Armand Colin Masson 2 me edition la droite est adroite D Corbin pr dit donc que le bras gauche de Nom Propre est possible mais peu proba
69. ssieu fr CLEF 5 Oral cours staff r union d quipe soignante voire staff distance vid oconf rence entretien m decin patient expos de conf rence film documentaire P Zweigenbaum fournit ainsi un inventaire probablement encore compl ter des types d nonc s en circulation dans cette sph re d activit Si l on souhaite faire un corpus repr sentatif de ce domaine faut il faire figurer un chantillon de chacun des genres qui ont t isol s Ou bien peut on consid rer mais sur quelles bases objectives que certains genres partagent suffisamment de caract ristiques linguistiques pour qu il suffise de repr senter l un d entre eux le livre de cours et le polycopi par exemple On le voit au moins trois visions distinctes de la repr sentativit peuvent conduire les choix privil gier les conditions de r ception C est le choix du BNC favoriser les conditions de production Ce serait le cas d un corpus de langage m dical qui rassemblerait des chantillons de tous les types d nonc s rep r s par P Zweigenbaum retenir les types de textes On regroupe alors des nonc s dont on postule qu ils sont similaires sur le plan linguistique Quel que soit le choix ou la combinaison de choix fait nous ne disposons pas actuellement de donn es empiriques n cessaires pour pouvoir tre confiants dans la validit du corpus r sultant Notre connaissance de la po
70. structure d ensemble licite En ce sens elle constitue une abstraction loign e de la perception des sujets parlants 4 5 5 P les et continuum Les travaux examin s convergent pour concevoir les types de texte comme des constructions th oriques ventuellement jamais r alis es enti rement comme des p les multiples entre lesquels se situent les textes effectifs Bronckart et al 1985 p 137 Biber 1989 p 3 5 Sur le m tier remettre les t ches Les deux dimensions de la repr sentativit externes et internes qui ont t abord es dans les deux sections pr c dentes se traduisent en deux volets de t ches concr tes la documentation des composants de bases textuells des corpus et de leurs traitements d une part la mise au point d outils de profilage de textes d autre part 5 1 Documenter un corpus ses composants et leur histoire 5 1 1 Mieux de m moire et savoirs de m moire la vie ternelle pour les corpus Pour qu une base textuelle permette l extraction la demande des documents en fonction d une utilisation donn e il importe que chacune des unit s l mentaires qui la constituent soit autonomisable On doit poss der suffisamment d informations fines sur elle pour pouvoir l extraire de la base et l assembler avec d autres l ments de la m me base ou d autres bases sans perdre ces renseignements qui sont indispensables pour interpr ter les contrastes et les conv
71. sur la Toile suppose de prendre des chantillons dans diff rents cadres forums lectroniques pages personnelles etc Mais la Toile voluant rapidement il faut constituer r guli rement de telles carottes de sondage m me si les pr c dentes peuvent offrir des points de comparaison Au rebours d autres bases de textes sont patiemment compl t es pour fournir un corpus aussi repr sentatif que possible d un emploi d termin du langage 1 1 2 Changements de param tres Butinage glannage et pillage Les corpus taient nagu re prot g s par la complexit m me de leur constitution et de leur gestion L usage en tait sinon priv du moins restreint une petite communaut d utilisateurs La facilit actuelle d acc s aux ressources par num risation ou par simple copie rend cruciale la r solution en amont des probl mes juridiques tant par rapport aux ayants droits sur les documents primaires que par rapport aux institutions qui ont ajout de la valeur en fournissant des versions lectroniques et des annotations Le statut juridique des donn es est en effet souvent incertain ce qui ob re leur r utilisation Les pillages s accompagnent en effet d un oubli bien compr hensible de l dition lectronique ou papier dans le cas d une num risation mise contribution involontaire Homog n isation a priori a posteriori Le co t important de la mise sous forme lectronique d un corpus al
72. t approche microscopique 4 5 4 Grammaires de discours ou restrictions sur les discours J P Sueur Sueur 1982 p 148 se donne comme projet l laboration d une grammaire de discours le but de cette grammaire est de d finir le plus pr cis ment possible les caract ristiques qui permettent d identifier spontan ment un discours nous reconnaissons le discours de tel individu de tel groupe de tel parti de tel syndicat etc Or si la sp cificit du lexique joue un r le dans ce processus de reconnaissance d autres facteurs interviennent la syntaxe les faits d nonciation mais surtout la connexion entre ces divers types de faits Tel mot appara t de mani re privil gi e mais surtout il appara t de mani re privil gi e telle place et dans tel cadre Tout cela fait partie de la comp tence propre au locuteur et vient se combiner avec les traits qui d finissent les diverses formes d nonciation une r solution n est pas un discours ni la r ponse une interview etc En fait les types de textes d gag s par les travaux qui viennent d tre pr sent s ne d bouchent pas sur de v ritables grammaires Une constellation de traits n indique pas les restrictions fines l uvre mais des restrictions pr liminaires sur les mat riaux linguistiques utilisables et leurs proportions licites d emploi Par contre elle ne permet pas de conna tre les sch mas de phrase probables ou la
73. tjean 1987 est consacr au fait divers D Maingueneau Maingueneau 1996 p 43 voque galement la recette de cuisine la pri re et le journal t l vis Voir l apparition de la conversation comme genre au 18 si cle et sa non reconnaissance par la rh torique Branca Rosoff 1996 p 194 30Voire pastich s Voir par exemple La r action yellante chez la cantatrice soprano Experimental demonstration of the tomatotopic organization in the Soprano Cantatrix sopranica L pastiche d article scientifique par Georges P rec qui exer ait les fonctions de documentaliste l INSERM Perec 1991 p 11 32 Ou encore ce d tournement des remerciements par J C Anscombre Voulez vous d river avec moi Communications n 32 1980 p 123 Je remercie de leurs critiques conseils et suggestions les personnes suivantes A M Diller O Ducrot B Fradin F R canati J en ai scrupuleusement tenu compte ne tenant pas tre seul responsable des b tises diss min es a et l dans ce texte 3l Outre la n cessit d mettre des phrases bien form es et bien encha n es une suite de phrases correctes ne respecte pas forc ment les contraintes de coh sion et de coh rence qui caract risent un texte r ussi Ces contraintes ont t tudi es par le courant des grammaires textuelles Combettes 1988 32 r 5 go D La marge de man uvre est tr s faible pour les nonc s ritualis s mariage collation de
74. u fran ais major s de facto le fran ais d hier Les difficult s juridiques et la frilosit des diteurs ralentissent ou bloquent l acc s aux textes contemporains en particulier litt raires Cet obstacle pousse recourir aux textes libres de droits Dans la pratique il s agit souvent de textes datant au mieux du si cle dernier Or le fran ais comme toute langue volue Marchello Nizia 1999 Repr senter le fran ais actuel et le fran ais de jadis et nagu re n est pas la m me chose le fran ais crit Le co t de la transcription manuelle pr cise de l oral spontan aboutit une sous repr sentation manifeste de l oral et en particulier de certains types d interaction le cours ou la conf rence les discours politiques le bon usage Le recours aux crits litt raires pour tayer les entr es des dictionnaires comme Le Littr Le Robert ou Le Tr sor de la Langue Fran aise a fait place ces derni res ann es au curieux privil ge accord aux versions lectroniques des journaux Le Monde et Le Monde diplomatique Cette situation tient sans doute la politique offensive et novatrice de cette soci t de presse en mati re d acc s lectronique l information Elle s explique probablement aussi par le magist re qui est plus ou moins accord implicitement cet organe en mati re de langage Irait il aussi ais ment de soi de s appuyer sur La Montagne Sud Ouest ou L Yonne R publicaine
75. urs ancrage spatio temporel etc C est le deuxi me volet de contraintes qu une DTD SGML permet de mod liser 2 Chiss 1987 p 12 Branca Rosoff 1996 p 193 Le mot genre est issu du m talangage de la rh torique et de la po tique Le syntagme genres de discours genera dicendi appartient la tradition rh torique gr co latine qui distinguait en fonction de situations sociales codifi es le genre judiciaire qui s exerce au tribunal le genre d lib ratif l assembl e et le d monstratif ou pidictique dans les f tes publiques ces lieux d nonciation institutionnels correspondaient des actes de langage au service d une finalit pragmatique 2T est en fait la m me intuition qui est l origine de la TEI Text Encoding Initiative la proposition de normes d encodage pour les principaux types de textes utilis s en sciences humaines le d coupage des nonc s en grandes classes aux r gularit s formelles identifiables Burnard amp Sperberg Mc Queen 1996 Ide amp Veronis 1995 Une DTD D finition de Type de Document Document Type Definition est dans cette optique une mani re de formaliser un genre sa Todorov Todorov 1978 tudie comme genres non litt raires la devinette le discours de la magie le mot d esprit les jeux de mots P Charaudeau Charaudeau 1983 tudie les genres suivants information genre publicitaire instructions officielles genre litt raire Peti
Download Pdf Manuals
Related Search
Related Contents
DWC172BL CP5-Series User Manual - American Weigh Scales prologix gpib-ethernet controller 取扱説明書 3 Bair Hugger™ Wartungshandbuch 生産性と作業品質の 劇的な向上 Bedienungsanleitung Bradford-White Corp 50T65F(BN Water Heater User Manual 5047 - The Wheel Horse Manual and Documentation Website Copyright © All rights reserved.
Failed to retrieve file