Home

75 GOOFRE VERSION 2 : VOIR ET TRAITER 600 MILLIARDS DE

image

Contents

1. re E_ADP_ XIXe SIECLE XXe SIECLE a 1929 ETS E AN RDV CATEGORIES NOMINALES _ 1910 GADY ADK pron G_ADP CRE E 1978 woun FE F_ADP_ E_DET_ S_DET_ I_ADP_ F_PRON_ F_CONJ_ F_DET_ Il semble pourtant que des ph nom nes de simplification soient l uvre dans la syntaxe comme dans la ponctuation Non seulement la phrase se d pouille de ses constructions lourdes qui tournent autour du verbe conjonctions et pronoms relatifs notamment mais aussi le langage para t faire l conomie de attirail l ger qui accompagne habituellement le nom d terminants et pr positions Des mesures compl mentaires semblent le prouver quand deux constructions sont en concurrence par exemple Pr p Nom pr f r Pr p D t Nom ou Verb Nom plut t que Verb D t Nom Si les pr positions h sitent entre la mont e en espagnol la stabilit en allemand et la descente partout ailleurs la d croissance Texto Digital Florian polis Santa Catarina Brasil v 10 n 2 p 75 97 jul dez 2014 ISSNe 1807 9288 89 des d terminants est g n rale alors que partout les substantifs et les adjectifs sont en progression Jamais jusqu ici on n avait observ cette dislocation du groupe nominal le substantif marchant seul en t te suivi distance de l adjectif et plus loin des pr positions et des d terminants qui peinent suivre la progression Doutes et vertiges Mais du haut de la Tour de Babel avec
2. 0 0500 homme 0 0400 0 0300 0 0200 0 0100 0 0000 1800 1820 1840 1860 1880 1900 1920 1940 1960 1980 2000 Jisk an linallahal fnr faomup Le parall lisme entre les donn es de Google Books et les corpus de Culturomics diverge au fil du temps Les premi res sont volutives et s enrichissent chaque jour Les seconds sont statiques et repr sentent un tat fig des premi res une date donn e La version 2012 est ainsi une mise jour de la version 2009 D autres mises jour sont pr vues dans les ann es venir Une fois compl t es les zones de remplissage les mots cherch s les dates de d but et de fin le corpus choisi et l option de lissage la cha ne envoy e sur le r seau est ici https books google com ngrams interactive_chart content femme 2Cfemmes 2Chomme 2Ch ommes amp year_start 1800 amp year_end 2000 amp corpus 19 amp smoothing 3 Texto Digital Florian polis Santa Catarina Brasil v 10 n 2 p 75 97 jul dez 2014 ISSNe 1807 9288 76 On peut s arr ter avec le curseur n importe quelle ann e pour interpr ter les coups de l histoire et constater par exemple le sursaut des hommes en temps de guerre L ann e 1915 isol e sur le graphique montre le d tail des relev s il s agit de la part en pourcentage que prennent cette ann e l les mots consid r s dans le vocabulaire de l ann e Mais l enseignement majeur est l orientation des courbes L cart en
3. 10 n 2 p 75 97 jul dez 2014 ISSNe 1807 9288 75 ou radicalement nouveaux si bien que le corpus de 2012 n est superposable au pr c dent ni dans sa composition ni dans son exploitation Et l analyse de ce projet gigantesque doit tre reprise sans a priori Pour ceux qui abordent cette question pour la premi re fois il convient d expliquer que les millions de livres d pouill s sont rep rables et consultables sur le r seau travers la grille de Google Books qui filtre plus ou moins les donn es selon les contraintes du copyright Or cette d marche classique dont l entr e est un mot et la sortie un contexte peut tre accompagn e d une interrogation portant sur les fr quences L entr e l encore est un mot ou un ensemble de mots mais la sortie d livre un graphe reproduisant l volution des fr quences du mot consid r entre deux dates Un site particulier Culturomics est d di cette exploitation statistique du corpus Consultons le sur le couple de substantifs homme femme qui vient souvent en t te dans les listes de fr quence Fig 1 Interrogation de la base Culturomics Le couple homme femme de 1800 20004 Google books Ngram Viewer Graph these comma separated phrases femme femmes homme hommes case insensitive between 1800 and 2000 fromthe corpus French 7 with smoothing of 3 X s 0 0800 0 0700 0 016913478388 0 0130768235 0 0374247711 0 0391767256 0 0600
4. es et les femmes dans les tranches r centes et dans les deux cas il distingue le singulier et le pluriel ce dernier occupant la position extr me L opposition semble ainsi moins forte entre l homme et la femme qu entre les hommes et les femmes Les d bats sur la place de l homme et de la femme dans la soci t peuvent certes utiliser la valeur g n ralisante du singulier mais le plus souvent le constat des in galit s se fait l aide de classes collectives les ouvriers les travailleurs les riches les femmes Fig 7 Analyse factorielle du m me couple homme femme E_woman 1986 L_ donna rt 1967 G_M nner E_man 1813 women 1964 G Luomini S_hombres F French E English G German S Spanish I Italian 1933 Axe 1 66 Axe 2 16 3 L interrogation crois e de corpus diff rents est plus robuste quand chappant aux approximations de la traduction on propose l analyse des l ments stables qui ne changent pas d une langue l autre C est le cas des ponctuations des toponymes des noms de personnes et moindre degr des parties du discours 2 Tant t c est la convergence qu on observe tant t les particularismes nationaux 12 Le m me jeu de huit tiquettes grammaticales a servi pour tous les corpus NOUN VERB PRON ADJ ADV DET CONJ et ADP pr position postposition Il nest pas certain qu il convienne de fa on homologue toutes les langues
5. 600 milliards de mots entass s sous les pieds voil que surgissent le vertige et le doute Les nuages qui enveloppent le sommet cachent les fondations Comment s assurer que l difice r sistera la mal diction la zizanie linguistique qui a frapp la Tour de la Bible Les auteurs de Culturomics ont jou honn tement le jeu de la transparence en permettant tout un chacun de v rifier l exactitude des chiffres II ne s agit pas seulement de contr ler les renvois au texte faute de temps et de patience un sondage de cet ordre ne peut s exercer que une frange infinit simale des donn es et si d aventure la r f rence annonc e se r v lait fausse ou manquante aucune conclusion g n rale ne pourrait tre tir e de ce manquement particulier Un contr le v ritable ne peut tre fait qu en reprenant les calculs la base ce qui suppose qu on ait acc s aux donn es brutes Certes on ne peut remonter le processus jusqu aux images scann es et il faut se contenter des relev s et comptes qui en ont t tir s et qui sont t l chargeables Il ne faut pas trop s effrayer du nombre et de la taille des fichiers transf rer si l on se satisfait des unigrams ou mots individuels Ici on se f licite d un progr s notable par rapport aux donn es de 2009 les fichiers sont class s selon l initiale des mots Reste pour chaque lettre proc der aux op rations lourdes de tri de compactage et de regroupement dans une s
6. S y ajoutent deux codes de moindre int r t PRT sigles et X mots trangers Texto Digital Florian polis Santa Catarina Brasil v 10 n 2 p 75 97 jul dez 2014 ISSNe 1807 9288 85 L exemple des signes de ponctuation est typique du premier cas d un mouvement uniforme semblable la d rive des continents Partout l obsolescence frappe le point virgule qui figure pourtant parmi les plus anciens signes du syst me M me d clin des signes o l expression se fait plus intense et plus directe exclamation et interrogation Ces signes voisinent avec les tranches loign es dans le temps qu on retrouve droite de la figure 8 A l oppos le point les deux points et les points de suspension s orientent gauche en accord avec les tranches les plus r centes A quoi peut on rattacher cette sorte de glaciation universelle qui se contente d une expression plus neutre plus froide plus tourn e vers le constat que vers l motion Sans doute moins l volution des langues qu un changement dans la composition des corpus Les publications les plus r centes qui sont aussi les plus nombreuses n ont pas t soumises au tri de l histoire c est le tout Venant de l dition o pullulent les ouvrages d information les trait s techniques et les sujets les plus divers Les livres plus anciens ont surv cu l oubli et la perdition parce que leur int r t se maintenant des r ditions ont eu lieu qui
7. Sommaire acer un mo EART jR E ER BA Rechercher Vider Import ExP Choix du corpus E w GRAPHIQUE GRAPHIQUE FREQU MODIF FACTOR ARBRE ES 4 Ea re 2m2 dun MOT dune COLONNE titre dela zone bleue 211020 242257 188494 170801 160131 225357 479274 578344 686386 628959 438095 567516 605324 670360 699216 833459 558164 649523 855930 1037959 1130068 1148824 1036121 705116 526965 582597 621989 609151 595430 620484 579230 589015 615949 659736 655433 642825 580191 539105 299030 259434 395704 459704 467652 467613 439762 435262 330090 199130 1813885 530711 489124 502932 573148 728330 852237 1032488 1252545 942754 854109 872633 901090 960708 948291 1048204 1116027 1256394 1571180 43424969 homme 198594 220071 177818 163450 148390 247693 533790 637751 717493 637799 422161 573436 619969 627284 660830 840584 562310 612919 742567 915700 984130 965148 888846 629018 491950 488818 528693 501556 505524 515661 486988 518533 27709 562916 582367 559923 482048 455270 314306 289530 333719 339524 332795 354041 320291 293345 235936 148153 peut 339055 318982 333912 376650 476961 597512 705076 859570 673801 609657 617020 620406 663488 650270 721617 96227 876258 1121899 35494019 hommes 62461 100704 93187 80224 71603 68009 139488 199138 241535 231406 155594 200945 226543 201298 231805 278094 194622 206684 269965 344108 358847 353936 370559 259544 203581 235898 282901 291875 300986 331730 273486 308892 318239 844368 354148 340424 323160 261087 135561 1169
8. facile comprendre quand un mot est mal saisi ou mal interpr t le lemmatiseur perd ses rep res et tombe dans une erreur qui son tour en g n re une seconde Et pour peu que le lecteur optique se trompe de nouveau on entre dans un lacis inextricable o le fil est perdu Le second traitement est probablement d des d cisions autoritaires qui obligent le choix dans l alternative Faut il accorder cr dit la bonne foi du premier traitement qui se 1 Encore doit on supposer correcte la lecture des trois lettres ind pendamment des accents En r alit beaucoup des e reconnus sont des faux des a ou des o d guis s Et inversement beaucoup de vrais t s se sont perdus dans le d dale de l alphabet Texto Digital Florian polis Santa Catarina Brasil v 10 n 2 p 75 97 jul dez 2014 ISSNe 1807 9288 93 trompe souvent mais de fa on al atoire ou l autorit p remptoire du second qui peut conduire l erreur syst mique Pour en d cider portons nous la fin de l alphabet l o les lexicographes en fin de chantier rel chent leur attention Et observons le mot ver avec l orthographe correcte L analyse ne semble pas avoir t supervis e puisqu on y trouve beaucoup de codes fantaisistes que ne permet pas la grammaire fran aise non plus que l espagnole qui donne un autre sens au m me mot 758187 ver 9446 ver det 88034 ver_verb 42188 ver_adj 528603 ver_noun 83771 ver x 135 ver_adp
9. le r quilibrage de deux mots signe appliqu au moins fr quent Ces signes du m talangage sont activ s si besoin est par les parenth ses ou d sactiv s par les crochets 4 Les progr s ne r sident pas seulement dans l annotation des textes ni dans la sophistication de l exploitation Ils viennent aussi des tapes initiales qui ont t reprises partir des images scann es Une lecture optique am lior e a permis de reconna tre les s longs des ditions anciennes ou du moins de corriger par quelque moyen les erreurs syst matiques que provoquait cette graphie De m me la segmentation ou tokenization qui primitivement ne s appuyait que sur les blancs a introduit un s parateur la fin des phrases en emp chant les ngrams de transgresser cette barri re Inversement la fronti re de la page a t abolie Il faut applaudir ces changements tout en regrettant que les d cisions de bon sens n aient pas t prises du premier coup Acc s plus souple et plus puissant Un handicap pourtant emp chait encore le libre d veloppement de la base Culturomics en obtenant une courbe opaque au lieu d une s rie de nombres on se heurtait un terminus ad quem qui interrompait la cha ne des traitements ult rieurs On pouvait d autant plus se sentir frustr qu on sentait en filigrane les donn es attendues en promenant la souris sur une ann e particuli re on voyait les pourcentages pr cis surgir dans une fe
10. par exemple le DET ou le PRON Une dizaine de suffixes est disponible pour d signer les codes grammaticaux Grosso modo ils se retrouvent inchang s 5 Les multiples fa ons d interroger la base Culturomics sont d taill es l adresse http books google com ngrams info Texto Digital Florian polis Santa Catarina Brasil v 10 n 2 p 75 97 jul dez 2014 ISSNe 1807 9288 TT d une langue l autre Noter que ces codes peuvent tre soumis directement l interrogation soit seuls soit en combinaison avec d autres codes ou des mots individuels On peut ainsi dresser la courbe r capitulative de tous les verbes cumul s _VERB_ ou de la construction pr position d terminant substantif _ADP_ DET_ _NOUN ou de tous les noms qualifi s de vieux vieux ADJ _NOUN_ _NOUN _ vieux ADJ On admirera la puissance du programme dans la figure 2 qui cumule plus de 300 milliards de mots du corpus anglais et r partit les parties du discours dans le temps de 1800 2000 Jamais jusqu ici la progression du nom et de l adjectif et le d clin variable de toutes les autres cat gories n avait t observ s une telle chelle Fig 2 L volution des parties du discours dans le corpus anglais pse comma separated phrases VERB NOUN DET ADJ ADV ADP CONJ PRON case insensitive 1800 and 2000 fromthe corpus English Le with smoothing of 3 e _NOUN_ 25 0 1833 RI 14 3833935261 VERB NOUN 2
11. que l anglais distingue avec woman et wife En tant que wife la femme fran aise a moins de raison de s opposer la gent masculine C est l occasion de souligner que la quantit ne dissipe pas toutes les incertitudes M me dans un cas apparemment simple il est dangereux de franchir le pont entre deux langues les quivalences qu on tablit entre termes sym triques brutalisent toujours peu ou prou la r alit s mantique Fig 6 Le couple homme femme dans cinq langues occidentales Analyse arbor e portant sur 20 mots et 762 millions d occurrences women S_hombre En face d un tel tableau l analyse factorielle figure 7 propose quelques compl ments Cette m thode a l avantage de mettre ensemble les lignes et les colonnes et d interpr ter les unes en s aidant des autres Du c t des colonnes les choses sont claires la chronologie r gne sans partage Toutes les tranches de 1800 1933 sont droite toutes les autres gauche Du c t des lignes comme dans l analyse pr c dente les choix sont tranch s et les camps Texto Digital Florian polis Santa Catarina Brasil v 10 n 2 p 75 97 jul dez 2014 ISSNe 1807 9288 84 retranch s les femmes gauche les hommes droite Ici aussi la femme fran aise joue avec la fronti re et confirme sa propension l ind pendance sinon la trahison Le premier facteur qui accapare 66 de la variance place les hommes dans les tranches loign
12. t 234 te 614 t t _adv Le lecteur optique peut tre responsable d un tiers de ces erreurs chacune des deux voyelles du mot pouvant admettre six interpr tations il y a donc 36 combinaisons possibles dont aucune n a t n glig e Les deux tiers restants viennent le la lemmatisation II y a d abord un doublage m canique qui rend compte du deuxi me tiers Chaque forme doit pouvoir tre interrog e sous deux formes avec et sans codage grammatical Reste le dernier tiers imputable aux mauvais choix du parser En principe il ny a que deux options possibles pour t Ou bien on a affaire la saison estivale ou bien c est le verbe tre au participe pass Or c est bien ce que l on constate quand l orthographe est correcte sans mention de code le mot a 129 257 681 emplois dont 2171786 avec l tiquette nominale et 127085852 comme verbe Il ne manque qu une broutille au total peine 43 occurrences Voil semble t il de quoi rassurer le linguiste Mais cette exactitude providentielle peut le troubler quand il observe la panique du lemmatiseur confront aux formes inconnues et distribuant les codes l aveuglette Dans le tableau 11 on retrouve le jeu complet des codes disponibles mis part celui des conjonctions Comment concilier deux comportements aussi diff rents de la machine un d sarroi irr m diable dans les situations confuses et un d coupage au laser dans les contextes r put s clairs Le premier est
13. 0 6513266478 20 0 DET__ 1414994677050 TADJ T 7 014973323552 ADV 4 3616365641 ADP 12 5192012106 15 0 CONJ 3 858129378110 PRON 62696943858 CONJT 38129378110 _VERB_ A DETZ ADI 10 0 PRON Te _ _ LADV_ CONI CON 0 0 1800 1820 1840 1860 1880 1900 1920 1940 1960 1980 2000 click on line label for focus 2 Aux codes grammaticaux s ajoutent quelques symboles d finissant la place des mots dans la phrase _START_ ou _END_ ou le rapport des mots entre eux gt lt _ROOT Naturellement l interrogation peut porter non seulement sur un mot unique lemmatis ou non mais aussi sur une cha ne de plusieurs mots de 1 5 chacun d entre eux pouvant admettre des filtres En certains cas La pente para t faible et presque imperceptible pour certaines cat gories parce que les carts sont traduits en pourcentages Mais mesur s en termes probabilistes les variations sont tr s consid rables et tr s significatives Texto Digital Florian polis Santa Catarina Brasil v 10 n 2 p 75 97 jul dez 2014 ISSNe 1807 9288 78 cependant la mention ajout e de codes grammaticaux r duit la port e 3 mots seulement 3 Certaines manipulations num riques sont possibles pour stipuler le regroupement de plusieurs mots dans une seule requ te signe le rapport proportionnel d un mot l autre par la soustraction signe ou le quotient signe ou
14. 057482e 07 35820311728e 07 94908764241e 07 813993376609e 07 83726529662e 07 En r alit la r ponse de Google Books est une liste de 201 pourcentages chacun repr sentant une ann e de 1800 2000 dans le corpus consid r Pour transformer cette fr quence relative en fr quence absolue et permettre ainsi le calcul de l cart r duit on a fait intervenir l tendue de chaque ann e dans ce corpus dont les donn es ont t puis es dans des fichiers r capitulatifs de Culturomics Ainsi sachant que l tendue de l ann e 2000 est de 1 182 754 941 mots dans le corpus fran ais de 2012 on re oit de l API la Il ne s agit pas toutefois d une API v ritable et certifi e mais de la captation du message retourn par Culturomics en r ponse toute interrogation Les l ments qui servent tablir les coordonn es des points de la courbe figurent dans cette r ponse et sont saisis au passage Ce d tournement reste fragile et subordonn la stabilit du dialogue serveur client Un tel changement est intervenu r cemment et a rendu inop rant le premier programme GetNgrams py distribu par les auteurs de Culturomics Laurent Vanni du laboratoire BCL s est charg des rectifications n cessaires et pourra assurer le maintien de ce service Une l g re retouche due aussi Laurent Vanni convertit dans le codage ANSI traditionnel les caract res accentu s de l unicode Texto Digital Florian polis Santa Ca
15. 14 190216 219082 230752 231805 204493 185304 143556 72850 92836 160883 166925 170135 186133 230180 300901 352804 424260 342892 369068 398119 401887 427352 420290 454754 504499 562510 738236 17546277 femme 63944 63289 60144 53638 45490 49822 107298 122328 169325 141627 99481 141293 152679 144374 156404 180283 110319 136848 161067 210323 220983 217689 214864 150082 122598 138473 159550 160236 163920 171373 169787 171066 195091 213797 222394 202705 185752 166025 103346 96999 123670 134787 136690 146207 120586 109015 87116 41060 66406 100707 103800 113997 133097 162938 209713 272207 322526 274111 320398 381197 413811 458225 441060 508210 604373 708224 507964 13218801 femmes La constitution de tels tableaux n est pas des plus rapides chaque ligne faisant l objet d une interrogation particuli re lanc e sur le r seau Il faut pr voir une ou deux secondes pour chacune Mais aucune limitation dans les param tres de la Texto Digital Florian polis Santa Catarina Brasil v 10 n 2 p 75 97 jul dez 2014 ISSNe 1807 9288 81 recherche laquelle peut m langer impun ment les formes brutes les formes cod es les cat gories prises dans leur ensemble les contraintes sur l environnement prosodique grammatical ou s mantique On peut m ler dans le m me ensemble des mots simples ou unigrams ou des expressions complexes de 2 3 4 ou 5 mots On peut enfin glisser dans le m me tableau des observations issues de corpus dif
16. 1503 ver_pron 526 ver_adv 3506 ver_prt En revanche le mot vers a re u un traitement exp ditif qui verse toutes les occurrences il y en a 38 millions sur le compte de la pr position en oubliant les po tes qui font des vers et les morts qui en font d autres On saisit l la preuve d un double traitement Le singulier ver s est pr t innocemment l automate et s est trouv bizarrement tron onn avec tout de m me un ratio de bonnes r ponses de 2 sur 3 528603 sur 758187 Le pluriel s est trouv assujetti une d cision automatique sans gard au contexte Or de telles d cisions arbitraires frappent tous les mots fr quents On a observ tous les mots dont la fr quence d passe le million Or il s en est trouv 6001 qui ont un code unique ce qui est facile rep rer puisque le mot sans code et le mot avec code ont le m me total Il est impossible qu un lemmatiseur loyal n ait pas rep r tort ou raison des homographes dans ce lot norme qui repr sente la grande majorit des occurrences soit 60 milliards sur 70 Esp rances et pers v rance Pouvait on faire autrement On peut en douter vu la double contrainte d une masse gigantesque traiter en un temps limit Les donn es de Frantext ont certes une fiabilit sup rieure due une saisie manuelle et des contr les r it r s pendant plus de quarante ans Avant que l informatique ait t appel e traiter les Texto D
17. Artigo Original http dx doi org 10 5007 1807 9288 2014v10n2p75 GOOFRE VERSION 2 VOIR ET TRAITER 600 MILLIARDS DE MOTS Etienne Brunet Laurent Vanni R SUM Les donn es de Google Books ont doubl en deux ans en franchissant le cap des 500 milliards de mots Un nouveau traitement a repris les images scann es pour en proposer une lecture plus fid le Et pour la premi re fois les textes enregistr s ont b n fici de la d sambigu sation et de la lemmatisation Enfin le site Culturomics a fourni les outils n cessaires pour en assurer la diffusion II convenait donc de proc der une nouvelle expertise et de cr er une nouvelle base pourvue de tout l appareillage statistique qu exige en r seau ou en local l exploitation des grands corpus MOTS CL S Google Books Culturomics Statistique textuelle Vocabulaire fran ais L entreprise de Google Books dont nous avons rendu compte lors des JADT de 2012 a eu l impact d un branlement plan taire Faire main basse l aide de scanners sur les livres du monde entier ne pouvait pas ne pas d clencher une r action de d fense conomique culturelle et presque religieuse Et chacun de d fendre ses eaux territoriales contre les filets de l envahisseur Des projets nationaux ou europ ens ont t b tis pour relever le d fi sans emp cher la croissance de la Tour de Babel que certains appellent la Tour de Babil Or en deux ans la hauteur a doubl pour le fran ai
18. ete_no un 2853 ete_pro n 78 ete_prt 79049 ete_ver b 3271 ete_x 126767 et 123 et _ 111 et _ad p Texto Digital Fig 11 Les avatars du mot t 20076 et _adv 48605 et _no un 1493 et _pro n 54731 et _ver b 1485 et _x 415 et 99 et adv 119 et _ no un 91 et ver b 75 et 26 et adv 66 et 64022 te 3960 te_ adj 12181 te_adv 8065 te_det 2103 te_ no un 276 te_pro n 37184 te_ ver b 58 te_x 12925768 1 t 444 t _ 410 t _ ve rb 2171786 t _ no un 12708585 2 t ver b 962 t 53 t _det 41 t _ no un 823 t ver b 345 t 48 t det 39 t no un 212 t ver b 773 t 81 t adv 109 t det 36 t no un 515 t ver b 2482 te 459 te adv 131 te det 1310 te no un 131 te pro n 366 te ver b 40 te x 981 t 51 t no un 923 t ver b 1000 t 67 t adv 135 t det 751 t ver b 6259 te 90 te_adij 297 te adv 769 te det 1511 te no un 148 te pro n 41 te_prt 3224 te ver b 66 te x 9955 t Florian polis Santa Catarina Brasil v 10 n 2 p 75 97 jul dez 2014 ISSNe 1807 9288 92 114 355 120 t 46 39 t _det t adj t no 39 te adv 531 354 un t _adv 75 te_det t _ver t _adv 8954 39 71 b 102 t _ver t _ver te_no 109 t t _det b b un 44 42
19. eule et m me base Les auteurs de Culturomics vont m me jusqu recommander cette duplication afin de d velopper l exploitation de leurs donn es tout en soulageant leur serveur M me en concentrant les donn es en neutralisant la distinction majuscules minuscules en r duisant 200 ann es en 12 tranches chronologiques en cartant les mots rares qui ont beaucoup de chances de n tre que des erreurs de Texto Digital Florian polis Santa Catarina Brasil v 10 n 2 p 75 97 jul dez 2014 ISSNe 1807 9288 90 lecture on aboutit avec des chiffres seuls et sans aucun texte une base de 300 millions d octets grosse de 1 5 million d entr es Bien s r le but avou de cette co teuse op ration n est pas seulement de contr ler les donn es mais surtout d en permettre une exploitation facile et imm diate sans les pesanteurs et les lenteurs li es au r seau On a surtout eu le souci de s affranchir des simples pourcentages et de retrouver les chiffres ou effectifs absolus qui seuls permettent le plein d ploiement de la statistique et l application des m thodes multidimensionnelles On verra plus loin un aper u de l exploitation de cette base quand l expertise des donn es aura t faite Une discordance initiale nous inqui te d j les chiffres que nous relevons dans les donn es t l charg es ne correspondent pas exactement ceux qu on obtient par le r seau Reprenons l exemple du mot homme dont le t
20. f rents pourvu que la p riodicit reste constante et que les jalons chronologiques ne soient pas d plac s 2 Ainsi aux quatre repr sentants fran ais du tableau 4 ajoutons leurs homologues anglais allemands espagnols et italiens en r unissant dans un m me total les femmes de toutes les nationalit s et sym triquement le coll ge international des hommes L volution que l on constate est sans appel Si la masse des hommes est le double de celle des femmes 221 millions d occurrences contre 548 leur sup riorit s amenuise au fil des ans Les femmes sept fois moins nombreuses au d part voient diminuer leur handicap au point de d passer les hommes dans la derni re tranche pr s de 10 millions contre 8 Si l on superpose les deux courbes comme dans la figure 5 l inversion des tendances est manifeste 1 La loi hyperg om trique habituellement utilis e en lexicom trie est inutilisable l chelle du milliard On a donc eu recours la loi normale et au calcul classique de l cart r duit Noter que les courbes et les analyses factorielles ou arbor es prennent appui sur ces carts qui font toujours r f rence la totalit du corpus consid r On s abstiendra donc de consid rer le tableau des fr quences comme un tableau de contingence qui se suffirait lui m me et dont les totaux marginaux permettraient d tablir les effectifs th oriques et les mesures du CHI2 Un tel calcul pourrait se l git
21. i res Il reste certes une solidarit nationale surtout chez les hommes le singulier et le pluriel se reconnaissant comme compatriotes et se serrant la main Mais ce n est l qu un crit re secondaire Sachant que de fa on g n rale sur deux si cles le pluriel tend s effacer devant le singulier ce qu on observe dans les d terminants notamment dans le rapport de e a l versus les on pouvait imaginer que cette distinction du nombre se retrouverait dans des mots si courants Il n en est rien Ni le nombre ni la langue n imposent leur domination C est le genre ou plus pr cis ment le sexe qui fait la loi et qui fait s affronter deux camps irr conciliables les hommes font bloc en bas du graphique et les femmes en 11i peut se faire qu un m me mot par exemple un nom propre soit commun plusieurs corpus On verra alors la popularit du personnage ou du toponyme voluer dans la g ographie comme dans l histoire En de tels cas un symbole initial est utile pour la distinction des langues F french E english G german S spanish italian Texto Digital Florian polis Santa Catarina Brasil v 10 n 2 p 75 97 jul dez 2014 ISSNe 1807 9288 83 haut On a la situation radicale de Sodome et Gomorrhe m me si un mot s approche effront ment de la ligne de d marcation la femme fran aise qui lorgne du c t des hommes Cela tient peut tre l ambigu t du mot femme qui r unit deux statuts
22. igital Florian polis Santa Catarina Brasil v 10 n 2 p 75 97 jul dez 2014 ISSNe 1807 9288 94 donn es des quipes de linguistes y avaient balis le terrain et inventori les difficult s et les rem des Et le but initial la fabrication d un dictionnaire tait clairement linguistique L entreprise de Google Books n est que documentaire mais son ambition est sans limites L o Frantext se contentait de millions Culturomics brasse des milliards On peut esp rer qu un jour la qualit accompagnera la quantit Mais en deux ans que de chemin parcouru vers l un et l autre objectif On en donnera un seul exemple tir du verbe tre figure 12 Maintenant que les formes verbales ont t d sambiguis es m me grossi rement une seconde suffit pour r unir dans un m me tableau toutes les graphies qui appartiennent au mod le m me les formes homographes comme t tre ou tais Malgr sa n cessit dans tout discours et sa pr sence presque dans chaque phrase ce verbe dont la fr quence culmine 1 4 milliard est en d clin r gulier corr lation chronologique 0 96 comme la plupart des verbes Survivent cependant les formes impersonnelles du participe et de l infinitif tant t et tre et celles du pr sent suis es est sommes sont Tout le reste est rejet dans les poques loign es et accompagne le XIXe si cle A la simplification de la ponctuation et de la syntaxe s ajoute d
23. imer on l a m me facilit pour l analyse factorielle mais on a pr f r pour plus de g n ralit et de stabilit consid rer toujours le corpus entier comme la r f rence interne pour les partitions chronologiques dont il est la somme Dans le cas de corpus diff rents trait s en m me temps cette pond ration est indispensable sans quoi les r sultats ne seraient que le reflet de la taille des corpus et sous corpus Texto Digital Florian polis Santa Catarina Brasil v 10 n 2 p 75 97 jul dez 2014 ISSNe 1807 9288 82 Fig 5 Hommes et femmes dans cinq langues occidentales Evolution inverse totfemme 221194664 tothomme 548349988 Comel 0 845 RE oem G ETES Cliquer sur le titre ci dessus pour le changer 1885 1877 862 1881 1889 1854859 1888872 1885 1833839843847 15928979098031800509 i o T 3919924 122 1813 39 Zone r serv e une l gende suppl mentaire cliquer En maintenant les 20 lignes et les 50 colonnes du tableau on peut recourir l analyse arbor e S ajoutant tant de publications relevant des gender studies la figure 6 apporte une confirmation int ressante puisqu elle rend compte de l opposition homme femme dans diff rentes langues On a ainsi loccasion rare de croiser le temps et l espace et d observer si les fronti res nationales emp chent un mouvement de propager ses ondes dans le monde entier On pouvait penser que les langues imposeraient leurs front
24. ira vez os textos registrados se beneficiaram com a desambigua o e a lematiza o Enfim o site Culturomics forneceu as ferramentas necess rias para assegurar sua difus o Convinha ent o proceder a uma nova estimativa e criar uma nova base provida de toda aparelhagem estat stica que exige em rede ou local a explora o dos grandes corpora PALAVRAS CHAVE Google Books Culturomics Estat stica textual Vocabul rio franc s Bibliographie 18 Il est trop tard pour en d tailler la structure et en expliquer le mode d emploi Pr cisons seulement que cette base permet trois modes d exploitation 1 obtention de courbes sur Internet comme dans les figures 1 et 2 2 obtention de donn es num riques sur le r seau avec exploitation locale figures 3 10 3 exploitation enti rement locale du corpus fran ais figure 12 Texto Digital Florian polis Santa Catarina Brasil v 10 n 2 p 75 97 jul dez 2014 ISSNe 1807 9288 96 BOHANNON John Google Books Wikipedia and the future of Culturomics Science v 331 14 jan 2011 Disponible lt http www terceracultura net tc wp content uploads 2011 01 culturomics pdf gt BOHANNON John The Science Hall of Fame Science v 331 14 jan 2011 Disponible lt http www sciencemag org content 331 6014 143 3 full gt BRUNET Etienne Au fond du GOOFRE un gisement de 44 milliards de mots JADT p 7 21 2012 La base GOOFRE est t l chargeable l adresse
25. lt http logometrie unice fr pages bases gt et sur le site lt http ancilla unice fr GOOFRE EXE gt DELAHAYE J P GAUVRIT Nicolas Culturomics Le num rique et la culture Paris Odile Jacob 2013 224 p LIEBERMAN Erez et al Quantifying the evolutionary dynamics of language Nature Nature publishing Group p 713 716 2007 MICHEL J B et al Quantitative Analysis of Culture Using Millions of Digitized Books Science d c 2010 Dispobible lt http www sciencemag org content 331 6014 176 full html gt Texto recebido em 10 11 2014 Texto aceito em 05 12 2014 Texto Digital Florian polis Santa Catarina Brasil v 10 n 2 p 75 97 jul dez 2014 ISSNe 1807 9288 97
26. n tre ph m re sans qu on puisse les retenir et les enregistrer 7 La figure 1 montre ainsi un zoom partiel op r sur l ann e 1915 et la figure 2 sur l ann e 1833 Texto Digital Florian polis Santa Catarina Brasil v 10 n 2 p 75 97 jul dez 2014 ISSNe 1807 9288 79 1 Les auteurs de Culturomics ont donc propos une API t l chargeable qui pour un mot donn distribue les 201 pourcentages observ s le long de la chronologie Ce court programme crit en langage Python peut tre facilement modifi et int gr dans une cha ne de traitement La fen tre ci dessous montre le r sultat obtenu quand le programme est lanc avec ses param tres explicites ou par d faut un seul tant exig le mot cherch ici day Fig 3 R sultat de l API getngrams py CENT 5 E D CAHYPERBAS cmd exe python getngrams py day Microsoft Windows XP version 6 1 76611 lt C gt Copyright 1985 2681 Microsoft Corp C HYPERBAS gt python getngrams py day http hbooks google com ngrams graph content day amp vear_start 1806 amp vear_end 2666 amp c orpus 19 amp smoothing G amp share http hbooks google com ngrams graph content day amp vear_ start 1806 amp vear_end 2866 amp c orpus 19 amp smoothing B amp share 56453642275e 07 52347694086e 07 83127144232e 67 PAPELPTAUT ETS VE 54569727876e 07 9865998913e 06 65162766888e 07 238918762e 07 43623998539e 07 059 853201e 07 01846
27. onc celle de la conjugaison Mais si l analyse arbor e de la figure 12 plante le verbe dans le temps avec la t te au pr sent et les racines dans le pass futur et conditionnel occupant l espace interm diaire elle est aussi sensible aux personnes la troisi me tenant les deux bouts de la cha ne tandis qu une pelote compacte concentre les deux autres 1 Et celle de l orthographe Qu il y ait ou non des r formes officielles l usage anticipe sur la loi Ainsi l analyse de 350 milliards de lettres montre que l accent circonflexe tend dispara tre m me dans les cas o sa suppression n est pas l galement envisag e Texto Digital Florian polis Santa Catarina Brasil v 10 n 2 p 75 97 jul dez 2014 ISSNe 1807 9288 95 Fig 12 Analyse arbor e des formes d sambigu s es du verbe tre PERSONNE 3 Pr sent De PERSONNE 3 FUTUR ET CONDITIONNEL PERSONNE 3 Pass Des milliers de graphes semblables peuvent tre extraits de la base GOOFRE2 que nous offrons au public dans sa virginit premi re Qu on en profite sans attendre L esp rance de vie de tels produits est courte une version nouvelle de Culturomics est en pr paration GOOFRE VERS O 2 VER E TRATAR 600 BILH ES DE PALAVRAS RESUMO Os dados do Google Books dobraram em dois anos ultrapassando a marca dos 500 bilh es de palavras Um novo tratamento retomou as imagens escaneadas para propor uma leitura mais fiel delas E pela prime
28. ont augment leur chance de survie C est l le privil ge des uvres litt raires rarement le cas des publications techniques que le progr s condamne tr s vite La figure 8 ne fait pas mention du point d interrogation cart par prudence cause de la sp cificit de son emploi en espagnol En r alit la distorsion ne se produit pas et le point d interrogation est rang sans ambages c t du point d exclamation En revanche la virgule n a pas pu prendre place dans l enqu te comme ce signe appartient au m talangage du moteur de recherche il chappe toute investigation de m me que les guillemets Texto Digital Florian polis Santa Catarina Brasil v 10 n 2 p 75 97 jul dez 2014 ISSNe 1807 9288 86 Fig 8 Analyse factorielle des signes de ponctuation Axe1 75 Axe2 15 F 160 19577 19244945 1912 1963 1909 990 IRAYA EXCLAMATION DEUX POINTS F France E Engiand G Germany S Spain I Italy L orthographe des toponymes comme celle des personnages historiques varie peu en passant les fronti res Avec quelques ajustements on peut mesurer la notori t variable qu un nom propre de lieu ou de personne peut avoir dans un pays particulier et une poque d termin e 14 Ainsi Rome se dit Roma en italien et London Londres en fran ais Mais ni Paris ni Berlin ni Madrid n admettent de variantes nationales Texto Digital Florian polis Santa Catarina B
29. otal s levait 43 millions pr cis ment 43424969 dans le tableau 4 extrait de Culturomics On en compte presque deux millions de plus exactement 45191302 dans les donn es transf r es Il faut en conclure que les comptes d finitifs fix s en 2012 ont t sujets retouches et que la taille de chaque ann e du corpus a t calcul e apr s le rejet des rebuts Certes le profil chronologique du mot se subit pas de graves perturbations mais l approximation diminue un peu le cr dit qu on pr te aux relev s Quant au volume des rebuts nous ne pouvons en faire une estimation puisqu ils ont t caviard s dans une purge pr alable aux relev s disponibles Mais on en aura une id e partir de l extrait de la figure 11 qui recense toutes les vari t s retrouv es quand l interrogation porte sur le mot t Avec deux accents dans l espace de trois lettres les avatars orthographiques se multiplient l infini et une centaine d avortons lexicaux sont n s de cette prolif ration d sordonn e 15 On a plac la barre 100 occurrences largement au dessus de celle de Culturomics qui est de 30 La taille du corpus s en est trouv e r duite 70 milliards de mots dans le domaine fran ais Texto Digital Florian polis Santa Catarina Brasil v 10 n 2 p 75 97 jul dez 2014 ISSNe 1807 9288 91 249614 ete 130 ete_ 5601 ete_adj 95 ete_ad p 41892 ete _adv 62 ete co nj 16211 ete_det 99993
30. rasil v 10 n 2 p 75 97 jul dez 2014 ISSNe 1807 9288 87 Fig 9 Analyse factorielle de cinq capitales dans cinq langues europ ennes l _Berlin Axe1 73 Axe 2 14 F_Londres 191 0 F French E Pari E English 1929 1894 NA G German l_Berlin E_Berlin 1950 S Spanish L_ Paris I Italian G Paris Rome 1967 I F_Paris 1878 cpg l_Roma G_London E_Madrid 1988 E London S_Berlin S_Roma 1 London 1846 S_Londgp Rome F_Madrid 1862 97 G_Madrid 181 g Paris 1_Madrid F_Rome S_Madrid Prenons l exemple des cinq capitales europ ennes correspondant aux cinq langues disponibles Les m mes noms dans les m mes divisions du temps sont successivement recherch s dans les cinq corpus tablis en 2012 L analyse factorielle figure 9 souligne un d placement de l int r t historique qui tend abandonner les cit s du sud Rome Madrid et Paris pour s attacher celles du Nord Berlin et Londres Mais le chauvinisme tend contrarier cette tendance quand la capitale du pays est en cause m me dans les tranches r centes Paris reste populaire en France et Rome en Italie les points Roma et F_Paris s orientent gauche du graphique comme E London et G Berlin l o se concentrent les tranches contemporaines La tentation est grande d aller plus avant et de ne pas se contenter de sondages m me au travers de mots ou signes tr s fr quents Envisageons l ensemble des mot
31. s comme pour les autres langues En soi cette taille devenue plus paisse pourrait ne pas changer les profils ni rendre caduques les analyses ant rieures Mais d une part le gonflement des donn es n a pas t homog ne certaines p riodes primitivement d garnies ont pris de l embonpoint et le d s quilibre entre les premi res et les derni res p riodes a t partiellement corrig D autre part les textes d j disponibles dans la version de 2009 ont t repris la base et soumis des traitements am lior s Universit de Nice Sophia Antipolis Nice France E mail prof etiennebrunet gmail com Universit de Nice Sophia Antipolis Nice France E mail L vanni5070 yahoo com 1 On en est 89 milliards pour le fran ais 349 pour l anglais o plusieurs vari t s peuvent tre isol es 53 pour l allemand 67 pour l espagnol et 33 pour l italien nouveau venu Ces chiffres correspondent aux donn es t l chargeables Ils sont sup rieurs dans la table 1 de l article publi dans Proceedings of the 50th Annual Meting of the Association for Computational Linguistics p 170 Trois autres corpus sont disponibles dont nous ne dirons rien faute de connaissances et de clavier le russe le chinois et l h breu La correction a t plus nette pour le fran ais que pour les autres langues Esta obra est licenciado com uma Licen a Creative Commons Texto Digital Florian polis Santa Catarina Brasil v
32. s et l ensemble des corpus occidentaux soit pr s de 600 milliards d observations l mentaires L objet d tude reprend et d veloppe l tude des parties du discours d j abord e dans la figure 2 consacr e au corpus anglais Or ce corpus n a rien de sp cifique les m mes tendances et les m mes accidents se retrouvent dans les autres langues une tendance nette qui s oriente en faveur des cat gories nominales Texto Digital Florian polis Santa Catarina Brasil v 10 n 2 p 75 97 jul dez 2014 ISSNe 1807 9288 88 noms et adjectifs au d triment du verbe et de ses acolytes adverbes pronoms conjonctions L encore le jugement reste perplexe s agit il d un mouvement de fond de nature proprement linguistique Ne serait ce pas plut t un simple artefact pr visible une cons quence de la loi des genres Si la collection des donn es s est faite au hasard des opportunit s ne risque t on de rencontrer l utilitaire et le bric brac dans la proximit imm diate et des objets plus rares d une valeur sup rieure dans l h ritage ancien On aurait alors l opposition bien connue entre le litt raire et l utilitaire entre l expression et l information qui se traduit par un dosage diff rent du verbe et du nom Fig 10 Analyse factorielle des parties du discours cinq corpus 600 milliards de mots E_NOUN ET g Axe 1 73 Axe2 13 1967 S_ADV_ 1950 E _PRON_ G_ADJ G_DET_ CATEGORIES VERBALES
33. tarina Brasil v 10 n 2 p 75 97 jul dez 2014 ISSNe 1807 9288 80 distribution par ann e d un mot propos par exemple le mot amour o l on rel ve la proportion 0 00013133 pour la m me ann e 2000 La fr quence r elle est donc de 1182754941 0 00013133 155331 pour le mot amour dans l ann e 2000 En r alit pour des raisons de lisibilit on a renonc au d tail menu des 201 ann es en les regroupant par tranches quilibr es Cette option affine et r partit au mieux la partition en d pla ant les jalons chronologiques de fa on galiser ou tout au moins harmoniser le poids de chaque tranche Il se trouve en effet que dans la composition du corpus les livres des poques anciennes sont beaucoup moins repr sent s que les livres modernes parce qu ils sont moins nombreux et moins disponibles dans les biblioth ques En reprenant l exemple du couple homme femme repr sent dans la figure 1 on dispose ainsi des l ments dont se repa t habituellement la lexicom trie des fr quences absolues r parties dans un tableau avec des lignes correspondant aux mots et des colonnes r serv s aux textes ou aux p riodes D s lors toutes les transformations sont possibles qui m nent aux histogrammes d une ligne ou d une colonne et aux analyses factorielles ou arbor es Fig 4 La constitution d un tableau de fr quences r elles ou absolues EN C HYPERBAS Goofre2 tbk i g Ef t CLIC MAJ i 1 m Retour
34. tre homme et femme qui tait de 1 3 au d but de la chronologie se r duit d ann e en ann e au point que les femmes ont quasiment rejoint les hommes en 2000 Il s agit l d un gain dans l expression et la communication sans doute aussi dans la conscience En r alit la pr sence grandissante du f minisme dans le discours n est pas la preuve mais tout au plus l annonce esp r e de l galit des sexes On peut parcourir sur le m me sujet les autres corpus et voir si les m mes tendances s y observent ce qu on tentera dans la suite de cet expos Am liorations et lemmatisation On pourrait croire que l interrogation de Culturomics n a pas vari depuis la premi re version et que seule l assise des donn es s est largie En r alit il existe un mode d emploi dit avanc qui change radicalement le point de vue et permet d acc der non plus seulement aux formes brutes mais des formes annot es et pourvues d un code grammatical 1 Contrairement aux corpus de l dition 2009 les donn es de l dition 2012 ont b n fici de la lemmatisation Celle ci n est pas compl te et ne permet pas d obtenir d un coup toutes les formes par exemple du verbe marcher Mais si le regroupement des formes n est pas pr vu la s paration des homographes est mise en uvre et l on obtient deux s ries s par es pour la forme le article et la forme le pronom personnel Il suffit d ajouter la cat gorie au mot recherch

Download Pdf Manuals

image

Related Search

Related Contents

Benutzerhandbuch - Sena Technologies, Inc.  三菱モータ(総合カタログ)  adhere strictly to these and all other safety instructions  Trust 4 Port USB Hub for Netbook  User`s Manual  Paradigm Speaker OM-560 User's Manual  BISON ABSORBEUR D`HUMIDITÉ    Jabra revo Wireless  American Standard 60901 Indoor Furnishings User Manual  

Copyright © All rights reserved.
Failed to retrieve file