Home

Construction et exploitation de corpus

image

Contents

1. 1 4 Typologie des corpus 3 corpus synchronique textes crits dans la langue d une m me poque s corpus diachronique textes d poques diff rentes corpus ferm construit une fois pour toutes archive s corpus de suivi monitor corpus re oit des ajouts r guliers au cours du temps s corpus d apprenants 1 Corpus notions g n rales A Tartier Construction et exploitation de corpus p 9 36 ns Mes 1 5 Utilit des corpus 1 s limites des dictionnaires s incompl tude s peu d information contextuelle s mise jour s absence de nouveaux termes s pr sence de termes obsol tes s lenteur de mise jour s limite des textes imprim s s lecture int grale impossible s beaucoup de temps avant de trouver l information pertinente s limite des experts difficiles trouver s limite de l intuition partialit 1 Corpus notions g n rales A Tartier Construction et exploitation de corpus p 10 36 n EL 1 5 Utilit des corpus 1 int r t des ressources lectroniques beaucoup de mat riau en peu de place information contextuelle mise jour rapide outils de consultation rapides observation de l attest 1 Corpus notions g n rales A Tartier Construction et exploitation de corpus p 11 36 ar Bit 1 6 Caract ristiques des corpus taille un petit corpus sp cialis vaut mieux qu un gros corpus g n
2. Construction et exploitation de COrpus Annie lartier Annie Tartier univ nantes fr Master FLE Universit de Nantes A Tartier Construction et exploitation de corpus p 1 36 n Y h Corpus notions g n rales 2 tapes de construction d un corpus 3 Corpus enrichis 4 Corpus multilingues D Outils d exploitation de corpus Ce cours s appuie sur un certain nombre d ouvrages et en particulier sur Bowker L amp Pearson J 2002 A Tartier Construction et exploitation de corpus p 2 36 es RAT Corpus notions g n rales tapes de construction d un corpus Corpus enrichis Corpus multilingues Outils d exploitation de corpus A Tartier Construction et exploitation de corpus p 3 36 n a 1 1 Linguistique de corpus s m thodes empiriques pour tudier l usage des langues 9 bas es sur attestation et non sur intuition gt grande quantit de mat riau textuel n cessit de moyens informatiques 1 Corpus notions g n rales A Tartier Construction et exploitation de corpus p 4 36 ns Bit 1 2 D finition d un corpus D finition de John Sinclair 1996 a Collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language grande collection de textes authentiques m moris s
3. tapes de la construction d un corpus A Tartier Construction et exploitation de corpus p 17 36 na 2 5 Annotation du corpus Cette tape facultative fait l objet d un chapitre sp cial 2 tapes de la construction d un corpus A Tartier Construction et exploitation de corpus p 18 36 na 2 6 Documentation du corpus indispensable pour quil soit utilisable description compl te du contenu et de la structure manuel de maintenance corpus ouvert o manuel d utilisation 2 tapes de la construction d un corpus A Tartier Construction et exploitation de corpus p 19 36 na h Corpus notions g n rales tapes de construction d un corpus Corpus enrichis Corpus multilingues Outils d exploitation de corpus A Tartier Construction et exploitation de corpus p 20 36 M le 3 1 D finition corpus enrichis annot s tiquet s corpus au sein duquel ont t int gr es des annotations ou marques 9 historiquement annotations ou marques destin es aux typographes pour agir sur la pr sentation du texte actuellement moyen de marquer les effets de style dans un traitement de texte deux types de textes entrelac s s texte informatif contenu du corpus s information sur le texte meta information port e par les annotations s tre capable de les distinguer et ou de les s parer tout moment 3 Corpus enri
4. gt r cup ration difficile s CDROM journaux encyclop dies etc donn es plus fiables s pas d acc s direct aux textes logiciels d exploitation propri taires s textes imprim s s num risation puis reconnaissance de caract res s parole s retranscription manuelle ou reconnaissance vocale s bases de donn es textuelles 2 tapes de la construction d un corpus A Tartier Construction et exploitation de corpus p 15 36 na 2 3 S lection des textes s laborer les crit res de choix s en fonction des objectifs de l tude en respectant les crit res de qualit taille repr sentativit etc s paradoxe instrument de mesure destructif s S lectionner est indispensable pour disposer d un corpus homogene et repr sentatif s mais s lectionner agit et modifie les donn es observ es ventuellement constitution raisonn e des fragments tape la plus d licate de la construction de corpus 2 tapes de la construction d un corpus A Tartier Construction et exploitation de corpus p 16 36 na 2 4 Organisation physique du corpus encodage des caract res isolatin U TF8 projet UNICODE format des textes source et int gr s au corps texte brut txt texte avec balises SGML HTML XML texte compil pdf ps doc e 9 structure du corpus s un texte ou un fragment par fichier s plusieurs textes ou fragments par fichier 2
5. ral ordres de grandeur de x 1000 x 100000 pour les langues de sp cialit extraits de textes ou textes entiers Structure nombre de textes taille des textes nombre d auteurs diff rents 20000 mots 20 1000 textes de 20 auteurs diff rents ou 2 longs textes du m me auteur crit oral retranscrit th me genres des textes source langue p riode o 6 evve 1 Corpus notions g n rales A Tartier Construction et exploitation de corpus p 12 36 Fes RAT el OT A N Corpus notions g n rales tapes de construction d un corpus Corpus enrichis Corpus multilingues Outils d exploitation de corpus A Tartier Construction et exploitation de corpus p 13 36 na 2 2 1 Acquisition des droits s des compromis in vitables Un corpus imparfait peut tre utile condition de connaitre ses d fauts et d en tenir compte au moment de l interpr tation des r sultats 1 copyright et autorisations textes lectroniques soumis au copyright comme les textes imprim s gt contacter auteurs et diteurs s expliquer les objectifs demander les autorisations contrat d utilisation 2 tapes de la construction d un corpus A Tartier Construction et exploitation de corpus p 14 36 na 2 2 Mati res premi res s web s origines non contr lables d pendance des moteurs de recherche s mat riau le plus souvent multimedia s hypertexte
6. Corpus multilingues A Tartier Construction et exploitation de corpus p 27 36 i Nes 4 2 Pr paration l alignement Pr paration manuelle o r alis e par des programmes num roter les paragraphes supprimer les retours chariots inutiles siun paragraphe de correspond deux paragraphes de B concat ner les deux paragraphes de B en ins rant un symbole sp cial de mani re pouvoir restituer B dans Sa forme originelle siun paragraphe de n est pas traduit dans B ins rer un paragraphe fictif paragraphe non traduit siun paragraphe existe dans B qui ne correspond rien dans ajouter dans un paragraphe fictif paragraphe ajout dans la traduction dans quelles langues Corpus multilingues A Tartier Construction et exploitation de corpus p 28 36 N 4 3 Programme d alignement cr ation de liens entre les paragraphes et les titres qui se correspondent cr ation de liens entre les phrases qui se correspondent calcul d un score pour chaque paire de phrase mises en correspondance correspondance n est pas forc ment biunivoque 4 Corpus multilingues A Tartier Construction et exploitation de corpus p 29 36 i es RAT 4 4 Corpus comparables ensemble de textes en diff rentes langues qui ne sont pas les traductions les uns des autres textes choisis pour tre mis ensemble parce qu ils ont un certain nombre
7. chis A Tartier Construction et exploitation de corpus p 21 36 Fes RAT 3 2 M thodes d annotation s diff rentes mani res de mettre des annotations type de marquage directement li au logiciel d exploitation s difficile de communiquer simplement entre diff rents syst mes de marquage gt OU tils permettant la standardisation de l annotation des corpus s 1960 SGML Standard Generalized Markup Language s maintenant 1998 XML eXtended Markup Language s projet CES Corpus Encoding Standard s El Text Encoding initiative J Corpus enrichis A Tartier Construction et exploitation de corpus p 22 36 N pW ET 3 3 Nature des annotations trois cat gories d information documentation meta donn es langue taille s composition du texte titres sections corps de texte notes paragraphes phrases mots d d d a s informations linguistiques s parties du discours cat gorie grammaticale genre nombre temps du verbe s annotations syntaxiques structure de la phrase s annotations s mantiques traits s mantiques 3 Corpus enrichis A Tartier Construction et exploitation de corpus p 23 36 na 3 4 Outils d annotation s programmes de segmentation utilisent des d limiteurs des patrons expressions r guli res et des listes d exclusion stop liste s tiqueteurs grammaticaux s attribution d tiquettes partir de lexique
8. de caract res communs th me type de texte p riode pas de correspondance entre des parties de textes comme c est possible dans un corpus comparable 4 Corpus multilingues A Tartier Construction et exploitation de corpus p 30 36 IF 8 RAT el Corpus notions g n rales tapes de construction d un corpus Corpus enrichis Corpus multilingues Outils d exploitation de corpus Tartier Construction et exploitation de corpus p 31 36 linas 5 1 Analyse statistique Premi re tude d un texte comptages pour chaque texte et pour tout le corpus nombre de mots nombre de vocables lex mes formes de mots types longueur des mois nombre de mots de chaque longueur e nombre de phrases 5 Outils d exploita tion A Tartier Construction et exploitation de corpus p 32 36 naz EL 5 2 Listes de mots 1 Liste des mots et de la fr quence de leurs occurrences class e par ordre alphab tique s ordre alphab tiques des fin de mots groupe de mots cluster digrams trigram 9 fr quence croissante hapax ou d croissante mots grammaticaux en t te en excluant les mots d une liste d exclusion stop liste D Outils d exploita tion A Tartier Construction et exploitation de corpus p 33 36 N eu Ines 5 2 Listes de mots 2 Attention s les homographes sont confondus nom et verbe les diff rent
9. es formes grammaticales singulier pluriel formes conjug es d un mot sont compt es de mani res distinctes les mots sont sortis de leur contexte traitement des mots compos s ou des locutions d pend de la segmentation recherche de mots cl s ceux qui ont une fr quence anormalement lev e dans un texte par rapport leur fr quence dans d autres textes D Outils d exploita tion A Tartier Construction et exploitation de corpus p 34 36 N pW Inss 5 3 Concordanciers visualisent l usage des mots dans leur contexte format KWIC keyword in context concordance bilingues si corpus align s on peut faire varier la longueur des contextes gauche et droit par d faut les lignes de concordances sont dans l ordre d apparition dans le texte on peut classer les lignes de concordances on peut filtrer les lignes de concordances expressions r guli res pour obtenir des concordances plus labor es un verbe et toutes ses formes 5 Outils d exploitation A Tartier Construction et exploitation de corpus p 35 36 Aan Inas l ments de bibliographie References Biber D 1994 Bowker L amp Pearson J 2002 Habert B et a 1997 Habert B etal 1998 Sinclair J 1995 BIBER D 1994 Representativeness in corpus design Linguistica Computazionale vol IX X pp 377 408 BOWKER Lynne PEARSON Jennifer 2002 Working with S
10. pecialized Language a practical guide to using corpora New York Routledge HABERT Beno t NAZARENKO Adeline SALEM Andr 1997 Les linguistiques de corpus Paris Armand Colin Masson HABERT Beno t FABRE C cile ISAAC Fabrice 1998 De l crit au num rique Constituer normaliser et exploiter les corpus lectroniques Paris InterEditions SINCLAIR John 1995 Corpus Concordance Collocation Oxford University Press A Tartier Construction et exploitation de corpus p 36 36 Aan Inas
11. s ou de dictionnaires s mots inconnus s d sambigu sation l aide du contexte et ou de calculs statistiques s lemmatiseurs s utilisent les marques grammaticales calculent les formes canoniques lemmes annotation manuelle J Corpus enrichis A Tartier Construction et exploitation de corpus p 24 36 naz EL el Corpus notions g n rales tapes de construction d un corpus Corpus enrichis Corpus multilingues Outils d exploitation de corpus A Tartier Construction et exploitation de corpus p 25 36 na a 4 1 Corpus parall les textes crits dans leur langue d origine et leurs traductions dans une ou plusieurs autres langues deux textes parall les ne sont pas forc ment la traduction l un de l autre mais peuvent tre la traduction dans deux langues diff rentes d un m me troisi me on ne sait pas toujours quel est le texte d origine il peut y avoir des traductions de traductions communaut europ enne s alignement pour exploiter ces corpus 4 Corpus multilingues A Tartier Construction et exploitation de corpus p 26 36 Aan RAT 4 2 Sources pour corpus parall les organismes sp cialis s LDC ELRA textes de la communaut europ enne m moires de traduction des entreprises de traduction revues ayant des correspondances Scientific American Pour la science Bild der Wissenschaft 4
12. sous forme lectronique rassembl s selon un ensemble de crit res sp cifiques avec un objectif d tude pr cis gt attention l usage abusif du mot corpus 1 m Corpus notions g n rales A Tartier Construction et exploitation de corpus p 5 36 N eu Inss 1 3 Exemples Voir document annexe 1 Corpus notions g n rales A Tartier Construction et exploitation de corpus p 6 36 ns 1 4 Typologie des corpus 1 corpus de r f rence repr sentatif d une langue donn e dans son ensemble s crit et parl m lange de genres journaux rapports radio t l d bats etc s diff rents th mes vie quotidienne des locuteurs corpus sp cialis s th me particulier s genre particulier s communaut de locuteurs s langue de sp cialit 1 Corpus notions g n rales A Tartier Construction et exploitation de corpus p 7 36 i es RAT 1 4 Typologie des corpus 2 9 corpus crits corpus oraux transcriptions crites de paroles prononc es discours d bats etc s corpus monolingues s corpus multilingues s corpus parall les textes crits dans une langue d origine et leurs traductions dans d autres langues s corpus comparables textes crits dans leurs langues d origine ayant des points communs th me poque etc 1 Corpus notions g n rales A Tartier Construction et exploitation de corpus p 8 36 ns Et

Download Pdf Manuals

image

Related Search

Related Contents

Downloaden  ADC® DiagnostixTM Fingertip Pulse Oximeter  Rexel 2102007 magazine rack  Acer Aspire L310 Owner's Manual  CD-RW4U - Teacmexico.net  Handbuch herunterladen (5.1Mb, )  Détecteur multi-gaz Sirius® Mode d`emploi  Poder de proyección en un diseño compacto  DZ250/DZ251/DZ254 - Hegewald & Peschke Mess  Linee Guida RER  

Copyright © All rights reserved.
Failed to retrieve file