Home
Université de Montréal Évaluation de deux méthodes d
Contents
1. LEXIE NOUVELLES FL FL PR SENTES TOTAL COL OLST TOTAL CoOL OLST ACCUSERT 1 3 Q Q 3 Q Q ACCUSERT 2 3 Q Q Q Q Q ACCUSERT 3 Q Q Q Q Q Q ACCUSERII Q Q Q Q Q Q ADMIRATION 22 3 4 11 4 1 AMII 1 23 Q 1 Q Q Q AMIT 2 13 Q Q 5 Q Q AMII 3 5 Q Q 1 Q Q AMIIT Q Q Q 1 Q Q ANCRE Q Q Q Q Q Q APPLAUDISSEMENTS 15 1 Q 6 1 2 APPLAUDIRI 4 1 Q 7 Q Q APPLAUDIRIT L Q 1 Q Q Q AVERSION 6 Q Q 3 Q Q BAGAGEI 1 11 Q Q 2 Q Q BAGAGEI 2 Q Q Q 1 Q Q BAGAGEII 7 Q Q 2 1 1 BATEAU 53 1 1 22 4 4 CATASTROPHE I 54 7 2 11 1 L CATASTROPHEII 1 4 Q Q 7 2 Q CATASTROPHEII 2 3 1 Q 2 Q Q CRIME TA 79 8 Q 34 2 Q CRIMEI B 25 1 Q 19 1 Q CRIMEII 3 Q Q Q Q Q GIFLEI 5 Q Q 2 Q Q GIFLEIT 5 1 Q 1 Q Q HONTE 1 7 6 Q 5 4 Q HONTET 2 Q Q Q 1 1 Q HONTEIT Q Q Q 1 1 Q IRRITATIONI 6 Q Q 2 2 Q IRRITATIONII 1 2 1 Q Q Q Q IRRITATIONII 2 2 1 Q Q Q Q PLAIEI 15 3 3 7 3 Q PLAIEII 1 3 1 Q Q Q Q PLAIEIT 2 1 Q Q Q Q Q POISSONI A 44 6 2 Q Q Q POISSONI B 33 4 1 5 Q Q POISSONII Q Q Q Q Q Q Table 10 La distribution des VFLP parmi les nouvelles FL et les FL d j pr sentes dans les fiches 76 Nous constatons ici que l immense majorit des valeurs sugg r es dans le cadre de notre tude sont encodables par des FL qui n apparaissaient pas pr alablement dans les fiches DiCo de 77 leurs mots cl s Globalement 74 11 des valeurs sugg r es sont associ es des FL qui ne figuraient pas dans la
2. Lexie Standard Non standard Total OLST COL Total OLST COL ACCUSERT 1 4 Q Q 2 Q Q ACCUSERT 2 1 Q Q 3 Q Q ACCUSERT 3 Q Q Q Q Q Q ACCUSERII Q Q Q Q Q Q ADMIRATION 33 5 6 8 1 Q AMII 1 27 1 Q 1 Q Q AMIT 2 12 Q Q 2 Q Q AMII 3 6 Q Q Q Q Q AMIIT Q Q Q Q Q Q ANCRE 1 Q Q Q Q Q APPLAUDISSEMENTS 19 2 2 2 Q Q APPLAUDIRI 11 Q 1 Q Q Q APPLAUDIRIT 1 1 Q Q Q Q AVERSION 11 Q Q Q Q Q BAGAGEI 1 4 Q Q 9 Q Q BAGAGET 2 1 Q Q Q Q Q BAGAGEII 2 1 1 7 Q Q BATEAU 26 2 1 49 3 4 CATASTROPHE I 43 1 8 23 2 Q CATASTROPHEIT 1 11 Q 2 Q Q Q CATASTROPHEIT 2 5 Q 1 Q Q Q CRIME La 80 Q 6 34 Q 5 CRIMEI b 34 Q 2 10 Q Q CRIMEII 3 Q Q Q Q Q GIFLEI 7 Q Q Q Q Q GIFLEIT 6 Q Q 1 Q Q HONTE 1 12 Q 8 Q Q Q HONTEI 2 1 Q 1 Q Q Q HONTEIT 1 Q 1 Q Q Q IRRITATIONI 8 Q 2 Q Q Q IRRITATIONII 1 2 Q 1 Q Q Q IRRITATIONII 2 2 Q 1 Q Q Q PLAIET 12 1 3 10 2 3 PLAIEII 1 3 Q 1 Q Q Q PLAIEIT 2 1 Q Q Q Q Q POISSONT a 21 Q 2 23 2 4 POISSONI b 35 1 2 3 Q 2 POISSONII Q Q Q Q Q Q Table 9 Le caract re standard ou non des valeurs sugg r es 72 13 Nous pouvons constater que le taux de valeurs sugg r es li es des FL non standards est plus lev que le taux retrouv dans le DiCo Ici 29 98 des donn es sont encodables par des FL non standards alors que c est le cas de 17 92 des donn es du DiCo Pour les fiches originales des vocables que nous avons choisis ici le taux de valeurs encod es par des FL
3. HONTEI 2 QSyn d shonneur QAnti fiert I 2 gloire honneur Magn grande ant pos Oper1 tre faire la gt de N X tre faire la honte de la famille lt sa honte gt Liqu2Func r parer ART Y est une situation Il faut absolument r parer cette honte nationale HONTEII QSyn scandale crime Il QAnti merveille A0 honteux nonc pour communiquer que Oper1 C est une de voir a Quelle de voir a 55 IRRITATION IRRITATIONI QSyn agacement litt courroux nervement m contentement Cf mauvaise humeur la col re Gener sentiment d QAnti plaisir satisfaction S2 cause raison de ART source de CART A1 _en proie_ une avec modificateur irrit Able1 irritable Able2 irritant Qual2 _casse pieds_ ad j Adv1 AdviPermiManif avec CART Magn grande profonde vive ant pos exasp ration IncepPredPlus augmenter s accro tre cro tre grandir monter CausPredPlus accentuer ART AntiMagn l g re ant pos IncepPredMinus se calmer diminuer tomber CausPredMinus calmer ART Magn1 quant g n rale postpos Magn temp constante postpos incessante AntiMagn temp passag re postpos Ver manifestation visible AntiVer manifestation secr te ant pos cach e postpos sourde ant pos contenue postpos Propt dans A poss X Dans
4. sp c irritatif Un syndrome irritatif ne signifie pas forc ment que l on est en pr sence d une cystite aigu bact rienne IRRITATIONII 2 QSyn d mangeaison Able2 irritable une peau irritable Able3 irritant pour N Y un produit irritant pour les yeux Magn forte ant pos aigu postpos intense p nible IncepPredPlus s accentuer augmenter AntiMagn petite ant pos discr te l g re IncepPredMinus diminuer Oper12 prouver ressentir sentir ART N Y sp c souffrir de ART N Y Oper3 causer entra ner provoquer ART irriter N Y FinFuncQ cesser passer PLATE PLAIEI QSyn blessure coupure d chirure corchure entaille Gener l sion Magn profonde large lt b ante AntiMagn superficielle petite Qui contient du pus infect e purulente postpos Qui r sulte d un coup sp c contuse postpos IncepPredPlus s largir s ouvrir IncepPredMinus FinFunc se cicatriser se fermer se refermer CausFunc causer faire ouvrir provoquer produire ART CausDe_nouveauFunc rouvrir raviver ART 57 individu LiquFunc gu rir soigner ART qqch LiquFunc cicatriser fermer ART essayer de LiquFunc bassiner ART caut riser d sinfecter LART laver nettoyer ART panser ART soigner ART sonder ART suturer ART Bords de bords l vres de
5. 29 17 15 38 0 23 68 BATEAU 71 43 28 57 40 43 41 76 19 41 56 40 52 71 CATASTROPHE I 76 47 50 68 94 12 50 80 CATASTROPHEII 1 66 67 33 33 55 56 f 91 67 16 67 66 67 CATASTROPHEI I 2 33 33 0 14 29 f 66 67 0 28 57 CRIMEI A 55 54 55 50 54 55 65 59 09 50 61 36 CRIMEI B 57 14 88 89 85 71 70 27 61 90 88 89 100 75 68 CRIMEII 25 25 50 50 GIFLEI 36 84 13 33 0 25 71 42 11 6 67 0 25 71 GIFLEII 53 85 0 41 18 f 61 54 25 41 18 HONTEI 1 41 18 37 50 40 48 44 12 50 45 24 HONTEI 2 75 25 50 75 50 62 50 HONTEII X 25 25 0 0 IRRITATIONI 30 95 18 75 27 59 f 30 95 18 75 27 59 IRRITATIONII 1 5 88 0 3 85 f 11 76 0 7 69 IRRITATIONII 2 11 11 0 9 09 f 22 22 25 22 73 PLAIEI 50 0 0 36 84 f 53 57 12 50 0 42 11 PLAIEII 1 62 5 20 46 15 75 40 61 54 PLAIEII 2 50 0 0 20 50 33 33 40 POISSON A 55 55 25 30 19 55 56 45 45 47 17 POISSONT B 50 16 67 25 25 33 33 31 25 POISSONII 0 0 0 0 Table 11 Le taux de rep rage des valeurs du DiCo 78 79 Globalement 38 76 des valeurs de FL du DiCo ont t rep r es sur les listes de cooccurrents de OLST et 45 17 sur les listes de cooccurrents de l Universit de Cologne Les valeu
6. Le tableau suivant d taille la distribution par vocable des donn es pertinentes l encodage des fiches lexicographiques La colonne VFLP contient le nombre de cooccurrents par liste qui ont t marqu s comme valeurs de fonction lexicale possibles alors que la colonne 66 D1Co contient le nombre de donn es par liste qui apparaissait d j dans les fiches lexicographiques du DiCo La colonne Total pr sente la somme des deux colonnes qui la pr c dent accuser 6j 21 27 11 34 45 8 AMI 5z7z 66 123 74 89 163 anere l az o AN 214 B AVERSION 9 8 17 14 14 28l BAGAGE 25 35 60 24 39 63 BATEAU 84 89 173 91 126 217 CATASTROPHE 67 32 99 94 37 131 HONTE 1 36 46 25 44 69 IRRITATION 8j 19 27 12 23 35 arratz 96 41 137 126 57 183 Table 6 D tail des donn es pertinentes Globalement les VFLP repr sentent 55 9 des donn es pertinentes des listes de cooccurrents de POLST et 53 04 des donn es pertinentes de listes de cooccurrents de l Universit de Cologne 111 2 Les valeurs sugg r es II1 2 1 Le nombre de valeurs sugg r es par fiche Les 668 donn es tiquet es comme VFLP dans nos diff rentes listes de cooccurrents nous ont permis globalement de sugg rer un total de 654 nouvelles valeurs de FL dans le DiCo Le 67 tableau suivant indique le nombre total de suggestions de valeurs pour chacune des acceptions des vocables tudi s ic
7. faire 1 de N X _ tre l objet de ART IncepOper23 s attirer emporter 1l gt de N X avec par N Z lt en V part Z gt IncepOper3 provoquer soulever susciter ART Magn IncepLabor31 frapper ravir saisir soulever N X d Func3 se porter sur N Z Son admiration se porte plus particuli rement sur les toiles de Chagall Caus1Manif montrer ART Caus1Manif2 t moigner de l N Y A poss X N Y SQSingCaus1Manif t moignage II 3 de ART S SingManif frisson 1 d Elle ne put r primer un frisson d admiration Un frisson d admiration parcourut l assistance Tout comme les versions augment es des fiches DiCo les fiches DiCo r duites sont disponibles en annexe du pr sent m moire 1 6 3 Utilit des fiches modifi es Les fiches DiCo modifi es nous permettent de rendre compte visuellement des r sultats de nos comparaisons Puisque les donn es identifi es comme VFLP peuvent appara tre deux fois dans les listes de cooccurrents cause de la prise en compte de leurs orientations lin aires dans le corpus et comme la m me donn e peut correspondre plus d une valeur de FL les fiches de DiCo augment es nous permettent d valuer l apport r el des listes de cooccurrents au DiCo De plus elles nous ont permis de noter deux informations lors de leur cr ation Dans un premier temps nous avons calcul le rapport entre les valeurs de FL sugg
8. victime Les FL Smed Smod SLoc retournent respectivement des noms de moyen de m thode et de lieu typiques Smod vIiEl 2 genre mode style Smod DIG RER acide gastrique suc digestif SLOC ABEILLE ruche rucher 1 2 3 4 Les fonctions lexicales complexes et les configurations de fonctions lexicales Les FL standards simples se combinent de deux fa ons soit en configurations de FL ou en FL complexes Ces deux types de combinaisons de FL se distinguent au niveau de leur structure interne Une FL complexe est constitu e de FL li es syntaxiquement entre elles Le sens de chacune des FL d une FL complexe est cumulatif et une FL complexe a une valeur globale Les FI complexes sont beaucoup plus fr quentes dans le DiCo que les configurations de FL Les FL 16 verbales phasiques et causatives doivent tre utilis es sous forme de FL complexes en conjonction avec soit un verbe support vide ou une FL de r alisation 15 IncepOper1i CoMBAT commencer engager entamer entreprendre Que nous pouvons lire comme commencer son combat CausFunc CBOUQUET assembler composer cueillir faire Que nous pouvons lire comme causer qu il y ait un bouquet Les FL adjectivales ou adverbiales se combinent aussi r guli rement sous forme de FL complexes Par exemple la FL paradigmatique Anti peut se combiner avec toutes les FL adjectivales 16 AntiBon COMP TITION1 d loyale malsaine AntiM
9. Le champ nb ou nota bene sert inscrire les informations li es la lexie vedette qui ne peuvent tre encod es directement dans aucun autre champ Ces informations incluent les connotations les marques d usage et les liens de FL inverses Les liens de FL inverses se trouvent dans les fiches de lexies qui sont des valeurs de FL Par exemple la lexie NAISSANCEL 1 est une valeur de la FL S CNA TRE On retrouve donc dans son champ nb la notation SQ na tre Les connotations quant elles sont tr s fr quentes entre autres dans les fiches des lexies d notant des animaux Le champ nb de la lexie SERPENT par exemple contient les connotations suivantes Comportement de pr dateur menace mort le Mal sinuosit Le champ tr ou tableau de r gime d crit le r gime syntaxique du mot cl Nous pouvons observer ici que les premier et deuxi me actants s mantiques de la lexie BAGAGEL 1 sont respectivement exprim s en tant que premier et deuxi me actants syntaxiques profonds Nous pouvons aussi observer les diff rentes fa ons dont ces actants peuvent tre r alis s au niveau syntaxique de surface le premier actant est par exemple exprim soit par un groupe 24 pr positionnel gouvern par la proposition DE les bagages de Bertrand ou par un adjectif possessif ses bagages Les champs syn et fL ou synonyme et fonctions lexicales sont les champs qui nous int ressent principalement dans le cadre de la pr se
10. ai un v lo de randonn e dans mes bagages Caus1Func faire pr parer A poss X s PerfCaus1Func boucler finir terminer A poss X s Il faut que j aille boucler finir terminer mes bagages Liqu1iFunc d faire A poss X s X faire inscrire sur une liste avant de prendre l avionk enregistrer ART s LQqn examiner le contenu de fouiller inspecter ART s Tapis roulant sur lequel X r cup re dans un a roport carrousel s Individu qui s occupe de bagagiste Individu qui porte dans une gare ou un a roport porteur C de Cs Endroit o l on laisse consigne Dispositif d un v hicule servant soutenir contenir porte s Partie d un avion o sont entrepos s les soute s Chariot servant transporter les chariot s Sangl caddie BAGAGEI 2 QSyn caisse cantine coffre fourre tout malle paquet sac _sac dos_ _sac de voyage_ valise ballot baluchon S1 voyageur 47 S2 contenu de ART Mult pile tas de s lt montagne de s bagage I 1 AntiMagn _ main_ Que X garde avec lui dans un voyage en avion f1 accompagn postpos de cabine Antifl non accompagn enregistr postpos Loc in _ l int rieur de_ dans ART Liqu 1 Func vider ART BAGAGEII de connaissances intellectuel QSyn comp tence connaissances ducation instruction culture rudition savoir ex
11. emparer de N X ContOper1C MAJORIT T 2 conserver garder ART pr server A poss X FinFunc CCRAINTE se calmer se dissiper CausFuncICENTHOUSIASMEL communiquer ART N X PermOper1CABANDONT 2b laisser _la isser aller_ N Y l1 LiquFUnc CCRAINTE apaiser calmer chasser dissiper lever balayer LART Nous reparlerons la section 1 2 3 4 de l assemblage des FL Notons finalement quelques unes des principales FL syntagmatiques verbales qui ne sont pas group es La FL Manif a le sens approximatif de se manifester alors que la FL Son lie son mot cl au verbe d notant le son typique du r f rant de son mot cl La FL InvoLv a quant elle le sens affecter impliquer Consid rons quelques exemples de ces FL tir s du DiCo 9 Man if CONSTERNATION se peindre se refl ter sur le visage I a de N X SonCABEILLE bourdonner InvolV CFRONTI REI 1 traverser N passer par N 1 2 3 3 Les fonctions lexicales paradigmatiques 13 Les FL paradigmatiques sont utilis es afin d encoder les d riv s s mantiques de leurs mots cl s Nous parlons ici de d riv s s mantiques puisque les FL permettent d encoder des lexies li es par leur sens sans que celles ci ne poss dent n cessairement de lien morphologique Nous consid rons qu une lexie L2 est d riv e s mantiquement d une lexie L1 si les trois conditions suivantes sont satisfaites Mel uk Polgu
12. gt de CART CY tre l objet de de X 0per2 faire 1 de N X _ tre l objet_ de ART Z tre l objet de de X 0per3 forcer inspirer m riter valoir l faire l de N X _ tre l objet_ de ART fasciner N X Y Z1 tre l objet d intense Magn Oper2 3 remplir N X d Y1 commencer tre l objet de de X IncepOper23 t s attirer emporter 1 gt de N X avec par N Z lt en V part Z gt 2 Z commencer tre l objet de IncepOper3 provoquer soulever susciter ART Magn IncepLabor31 frapper ravir saisir soulever N X d a pour objet Z Func3 se porter sur N Z Son admiration se porte plus particuli rement sur les toiles de Chagall Y 2 causer que X ait Caus20per1 Caus30per1 attirer d clencher provoquer ART 2 X manifester son Caus1Manif montrer ART Caus1Manif2 t moigner de l1 N Y A poss X N Y X communiquer communiquer Oper1 avouer dire exprimer partager A poss X X communiquer avec intensit Magncommuniquer Oper1 clamer X causer que ne se manifeste pas Caus1NonManif cacher masquer taire A poss X Manifestation par X de son S0SingCaus1Manif t moignage II 3 de CART Sensation qui est une manifestation de S SingManif frisson 1 d Elle ne put r primer un frisson d admiration Un frisson d admira
13. pour chaque liste de cooccurrents le nombre de donn es pertinentes l encodage de la fiche DiCo de son mot cl en additionnant le nombre de sorties tiquet es comme valeurs de FL possibles VFLP et le nombre de valeurs tiquet es comme tant d j pr sentes dans le DiCo D1Co De plus pour chaque fiche DiCo tudi e nous avons comptabilis le nombre de valeurs de FL qui ont t retrouv es dans nos listes de cooccurents Nous avons exclu du calcul les valeurs multilex miques parce que leur pr sence dans le corpus est impossible d terminer l aide des seules listes de cooccurrents Dans un premier temps il est possible qu un cooccurrent multilex mique soit consid r tort comme absent si l un de ses membres est dans le corpus Le Monde 2002 syst matiquement loign du mot cl par plus de 3 mots puisque nous travaillons avec une fen tre de 3 lemmes Si un mot forme constituant un phras me se retrouve en dehors de cette fen tre il ne se retrouvera pas dans la liste de cooccurrents m me s il tait pr sent dans le corpus de base Consid rons par exemple la phrase suivante qui contient une valeur de FL multilex mique 21 Michel et Bertrand sont des amis de tr s longue date Ici les lemmes constituant la valeur de FL de longue date li e la lexie AMI ne seraient pas tous relev s puisque le lemme date se trouve une distance de 4 lemmes de ami Dans un deuxi me temps l
14. 13 53 11 45 6 25 27 12 34 10 6 4 78 0 23 GIFLE Voc I II Voc I II 20 39 12 5 15 79 15 74 5 08 6 09 HONTE Voc I II 1 II 2 Voc I IST NI 2 8 01 16 7 9 1 22 1 22 9 7 7 88 1 13 1 27 IRRITATION Voc TA I 2 II Voc Al I 2 II 14 14 13 61 2 62 2 62 14 52 12 03 2 49 3 32 PLAIE Voc I ISA II 2 Voc I II 1 II 2 14 52 14 19 4 52 97 14 65 12 85 4 37 1 8 POISSON Voc I a I b II Voc I a I b II 14 41 9 6 14 0 53 15 28 8 76 5 59 8 35 ACCCUSER Voc I 1 12 T3 II Voc I 1 2 113 II 0 87 0 68 10 48 0 23 0 13 1 22 10 84 10 6 0 19 0 22 APPLAUDIR Voc I II Voc I II 7 10 7 10 0 36 5 74 5 44 0 3 Table 5 Le taux de donn es pertinentes par liste de cooccurrents 65 la lumi re des donn es contenues dans le tableau pr c dent nous pouvons conclure que de fa on g n rale les cooccurrents contenus dans les listes sont particuli rement utiles l encodage de la lexie de base des vocables tudi s qui comme nous l avons vu pr c demment est celle qui poss de g n ralement la plus grande richesse combinatoire Ici seul le vocable GIFLE contrevient cette r gle Nous pouvons bien s r expliquer le nombre plus important de cooccurrents de la lexie GIFLEII que de la lexie GIFLEI par le contenu journalistique de notre corpus En effet nous nous attendons assez peu qu il soit question de GIFLEI qui d sign
15. 42 86 HONTEII 1 28 57 50 HONTE_II 2 42 86 55 56 IRRITATION_VOC 35 18 32 33 33 58 24 07 45 71 IRRITATIONI 1 34 62 48 28 IRRITATIONI 2 40 33 33 IRRITATIONIT 20 25 PLAIE_VOC 77 24 84 62 22 113 29 05 61 4 PLAIEI 63 63 64 PLAIEII 1 57 14 52 94 PLAIEII 2 0 14 29 POISSON_VOC 225 23 83 53 28 337 28 13 57 92 POISSONT A 54 88 57 14 POISSONT B 55 17 58 21 POISSONII 20 0 ACCUSER_VOC 441 14 24 37 04 565 15 31 31 11 ACCUSERI 1 47 62 35 48 ACCUSERI 2 40 36 36 ACCUSERI 3 71 43 42 86 ACCUSERII 25 12 5 APPLAUDIR_VOC 90 16 39 51 28 126 18 53 61 54 APPLAUDIRI 51 28 64 86 APPLAUDIRII 50 0 Table 13 Le pourcentage de donn es pertinentes dont le log likelihood est sup rieur 10 83 88 89 Nous constatons que dans chaque cas sauf un le pourcentage de donn es pertinentes dont le og likelihood est sup rieur ou gal au de 10 83 est sup rieur au pourcentage de donn es de la liste dont la valeur de log likelihood est inf rieure ce m me seuil ce qui indique une concentration plus importante de donn es pertinentes parmi ces cooccurrents Cependant POLST pour 30 des 38 lexies en pr sence et Cologne pour 27 de celle ci moins de la moiti des donn es pertinentes ont des valeurs de log likelihood sup rieur au seuil de 10 83 ce qui semble indiquer que celui ci pourrait tre trop limitant Nous pouvons d ailleurs constater dans le tableau suivant qui
16. 85 sont par contre faciles cerner en identifiant l importance de leur intersection de sens avec leur mot cl Finalement nous pouvons expliquer la pr sence de nombreuses valeurs de la FL Magn par le potentiel de cette FL tre exprim e par un nombre important de valeurs Alors que chaque FL du DiCo encode une moyenne de 2 01 valeurs les FL contenant la FL Magn retournent en moyenne 2 63 valeurs et la FL simple Magn une moyenne de 3 57 valeurs Nous pouvons pr sumer que les valeurs de la FL Magn sont l g rement moins sp cifiques leur mot cl que les valeurs des autres FL du DiCo ce qui permet aux listes de cooccurrents de g n rer un grand nombre de candidats pour cette FL IV 2 Optimisation de l utilisation des listes de cooccurrents Dans le cadre de notre recherche nous avons constat que la consultation int grale des listes de cooccurrents tait fastidieuse principalement dans le cas des listes tr s longues telles que celles des vocables ACCUSER et AMI Comme les donn es pertinentes repr sentent au plus 20 de l ensemble des donn es de ces listes il est primordial d tablir un mode de consultation optimal des listes de cooccurrents IV 2 1 La s lection des cooccurrents selon leur partie du discours Toutes les parties du discours n tant pas propres contenir des valeurs de FL une premi re tape d optimisation des listes de cooccurrents consiste en retirer les cooccurrents appar
17. Lexies Total Synt Para Para reg ADMIRATION 67 55 11 1 ANCRE 22 17 5 Q APPLAUDISSEMENTS 52 36 15 1 AVERSION 44 32 12 Q BATEAU 172 66 95 11 AMII 1 36 24 12 Q AMIT 2 12 4 7 1 AMII 3 13 3 13 Q AMIII 21 5 16 Q BAGAGET 1 37 22 14 1 BAGAGEI 2 26 8 15 3 BAGAGE ILI 43 27 15 1 CATASTROPHE I 30 22 8 Q CATASTROPHEIT 1 25 17 8 Q CATASTROPHEIT 2 10 5 5 Q CRIMEIA 56 28 25 3 CRIME IB 40 23 10 7 CRIMEII 4 Q 4 Q GIFLLEI 39 21 17 1 GIFLEIT 17 13 4 Q HONTEI 1 54 38 16 Q HONTET 2 8 4 4 Q HONTEIT 8 Q 8 Q IRRITATIONI 68 49 19 Q IRRITATIONIT 1 30 21 9 Q IRRITATIONIT 2 23 19 4 Q PLAIEI 43 33 8 2 PLAIEII 1 16 11 5 Q PLAIEIT 2 5 2 3 Q POISSONIA 57 11 46 Q POISSONIB 21 4 17 Q POISSONII 7 1 6 Q ACCUSERT 1 31 15 16 Q ACCUSERT 2 25 5 20 Q ACCUSERT 3 5 4 1 Q ACCUSERIT 11 Q 11 Q APPLAUDIRI 25 11 14 Q APPLAUDIRIT 3 Q 3 Q Table 1 Nombres de liens de FL dans les fiches DiCo trait es Nous pouvons constater que les valeurs de FL syntagmatiques sont g n ralement plus nombreuses que les valeurs de FL paradigmatiques Parmi les fiches choisies ici celles dont le 42 nombre de liens de FL paradigmatiques est plus lev que le nombre de liens de FL syntagmatiques appartiennent pour la plupart des verbes C est le cas des deux fiches du vocable APPLAUDIR et de 3 des 4 fiches du vocable ACCUSER Les seuls substantifs li s plus de valeurs de FL paradigmatiques que de valeurs de FL syntagmatiques sont les lex
18. Nous pr senterons dans les sections qui suivent le contenu de ces listes et de ces tables et leur mode de constitution 11 2 Le choix des vocables Nous avons choisi dans le cadre de la pr sente tude de travailler tant t sur des vocables monos miques et tant t sur des vocables polys miques Nous avons dans un premier temps travaill sur les vocables monos miques choisis afin d tablir les enjeux m thodologiques li s de fa on g n rale une approche statistique en LEC Nous avons ensuite proc d l exp rimentation sur les vocables polys miques afin d isoler les difficult s li es sp cifiquement la polys mie Le premier crit re dans le choix des vocables utilis s dans le cadre de notre exp rience fut bien videmment sa pr sence en statut 0 dans le DiCo Nous croyons qu il est essentiel que la mati re premi re de notre tude soit achev e afin que celle ci refl te le type de produit lexicographique engendr de fa on g n rale par la m thodologie adopt e par les lexicographes du DiCo Si des fiches avaient t cr es sur mesure dans le but de notre exp rimentation celles ci ne seraient pas pass es par le processus normal de validation des fiches DiCo et ne seraient donc pas repr sentatives de ce qui est normalement produit POLST Nous avons exclu de travailler sur des fiches en construction pour cette m me raison 39 Notre deuxi me crit re de s lection a t la ri
19. _monde du _ p gre 52 Organisation qui se consacre f2 _ organis _ mafia _syndicat du _ Qqch que l on trouve sur le lieu de et qui peut permettre d identifier X indice 1 CRIMEI b Syn soutenu crime I a _de sang_ QSyn assassinat homicide n meurtre Gener crime I a A0 criminel adj l 1 criminel adj I 2 S1 auteur de ART complice de ART criminel n S2 victime de ART Sloc lieu de ART sc ne de ART Stemp heure du Sinstr arme de ART Magn atroce affreux brutal postpos lt horrible inqualifiable odieux sordide _contre nature_ _du si cle_ AntiAble2Real IT parfait postpos IL pense avoir commis le crime parfait A2Prepar1 pr m dit postpos Dont la raison est l amour passionnel postpos Oper1 accomplir commettre perp trer ART ex cuter ART pr par l avance en tant que complice Oper1 tremper dans ART CausOper1 pousser N X ART S1CausOper1 mobile motif de ART X essayer de faire croire que est un N maquiller ART en N IL a maquill ce crime en accident suicide Prepar1 comploter m diter pr m diter pr parer ART CRIMEII QSyn scandale honte II QAnti merveille A1Pred criminel adj II GIFLE GIFLEI Syn fam baffe vieilli soufflet QSyn fam beigne fam calotte claque fam mandale fam et
20. ation de dictionnaires grand public tels que le LAF dont nous avons parl pr c demment Chacune des valeurs de FL peut aussi tre pr c d e d une marque d usage qualifiant le registre de langue associ cette valeur vulg pour vulgaire f am pour familier soutenu pour soutenu sa variance g ographique Qu b pour fran ais qu b cois FFr pour fran ais hexagonal ou autre Sp c pour les valeurs appartenant une terminologie particuli re etc Chaque valeur est aussi associ e son r gime syntaxique et ces contraintes d utilisation Lors de la compilation des fiches chaque valeur est enregistr e individuellement et est consultable comme telle dans l interface DiCou be Prenons l exemple 25 des valeurs de la fonction lexicale Magn sentiment dans la fiche de la lexie AMIL 1 que nous pouvons observ la figure 2 Magn sentiment bon antepos proche intime postpos lt meilleur antepos Figure2 Extrait de la fiche FileMaker dans la lexie AMIL 1 Toutes les valeurs sont group es dans un m me ensemble On y voit les expressions ant pos pour ant pos et postpos pour postpos qui sont pr c d es de l op rateur Il s agit des contraintes d utilisation des valeurs et celles ci s appliquent l ensemble des valeurs qui les pr c dent Ainsi les valeurs bon et meilleur pr c dent ami dans la phrase alors que proche et intime
21. auditoire foule public salle X type qui SingQS1 spectateur Beaucoup Magn abondamment Avec intensit Magn intensit avec enthousiasme beaucoup bruyamment chaleureusement debout fort fortement fr n tiquement vigoureusement vivement lt _ tout rompre_ tr s lt extr mement au passif IL a t tr s extr mement applaudi Longtemps Magn temp longuement Avec peu d intensit AntiMagn intensit discr tement distraitement De fa on non sinc re AntiVer t chichement mollement poliment _du bout des doigts_ Appareil servant mesurer l intensit avec laquelle X applaudim tre Groupe d individus pay s pour claque APPLAUDIRII QSyn approuver se r jouir QAnti d sapprouver 10 Nom pour X S1 supporteur Avec intensit Magn intensit avec enthousiasme bruyamment chaleureusement vivement lt _des deux mains_ APPLAUDISSEMENTS QSyn acclamations bravo hourra ovation vivat CF bis QAnti hu es sifflet 3 toll VO applaudir I N Y Ensemble de X type qui met QS1 assembl e assistance audience foule public X type qui met SingQS1 spectateur Mesure de l amplitude de ampleur force Y faire qqch en recevant Adv1 sous les entrer sous les applaudissements de la foule M taphore Magn Figur salve d lt concert d lt tonnerre d Intens
22. chargement de ART Dispositif destin trier l a roport trieur de s X faire inscrire sur une liste avant de prendre l avionk enregistrer ART s Y tre Oper2 constituer ART LQqn examiner le contenu de fouiller inspecter ART s SO Qqn examiner le contenu de contr le fouille de ART s Portion de qui d passe la quantit permise en trop Merok exc dent surplus de Dispositif sur lequel X r cup re dans un a roport tapis roulant Tapis roulant sur lequel X r cup re dans un a roport carrousel s Individu qui s occupe de bagagiste Individu qui porte dans une gare ou un a roport porteur de s Endroit o l on laisse consigne Dispositif d un v hicule servant soutenir contenir porte s Partie d un avion o sont entrepos s les soute s Chariot servant transporter chariot s angl caddie BAGAGEI 2 QSyn caisse cantine coffre fourre tout malle mallette paquet sac _sac dos_ _sac de voyage_ valise ballot baluchon Nom pour X S1 voyageur Nom pour Y S2 contenu de ART Ensemble de Mult pile tas de s lt montagne de s bagage I 1 Petit et qu on transporte facilement AntiMagn _ main_ Que X garde avec lui dans un voyage en avion accompagn postpos de cabine Que X ne garde pas avec lui dans un voyage en avion non accompagn enregis
23. cipiter LART Qqch causer aqch CausFunc causer d clencher entra ner occasionner provoquer LART r sulter en une pr cipiter ART Ce qui cause S1CausFunc cause de ART 22 CATASTROPHEIT 1 Syn fam cata QSyn d sastre drame pit v ritable vraie ant pos A0 catastrophique Son retard est catastrophique il va manquer son avion De grande importance Magn grande grosse importante ant pos lt norme effroyable pouvantable X faire face Oper1 _faire face_ ART vivre ART 2 X tre sur le point de faire face ProxOper1 friser fr ler risquer la une IncepProx0Oper1 s acheminer vers ART lt courir la X causer que ne se produise pas Caus1iNon0Oper1 viter X qui est sur le point de faire face A1ProxOper1 _au bord_ de la 2 a lieu Func arriver _avoir lieu_ se d rouler se produire survenir Qu il est possible d viter AbleiNonFunc vitable Func1 arriver N X toucher N X Qqn causer qqn CausFunc causer occasionner provoquer ART pr cipiter ART Qqch causer qqch CausFunc causer occasionner donner une Cette nouvelle l gislation a finalement donn une catastrophe entra ner provoquer ART r sulter en une pr cipiter ART Ce qu on dit en constatant C e
24. gories de liens Certaines lexies li es de fa on paradigmatique leur mot cl ont tendance se trouver l int rieur des corpus r guli rement dans son entourage imm diat comme par exemple les valeurs de FL paradigmatiques qui prennent presque syst matiquement leur mot cl dans leur r gime Les diff rents types de valeurs seront par contre jug s s par ment dans notre tude et nous pr voyons que les valeurs trouv es seront principalement des valeurs de FL syntagmatiques En effet alors que la cooccurrence de lemmes li s de fa on paradigmatique arrive l occasion la relation entre les lemmes d un corpus est par d finition syntagmatique Les listes qui n ont subi aucun traitement sont donc constitu es uniquement d une suite de mots formes et de syntagmes contenus dans la premi re colonne d une table Lors du traitement des donn es d autres colonnes seront ajout es manuellement aux tables pr sentant les listes de valeurs du DiCo Nous en parlerons la section IL 5 1 2 Ces donn es ont t tir es de l interface web du DiCo le DiCou be Comme nous l avons vu la section I 3 2 il est possible partir de l interface DiCou be de cr er sur mesure des tables ne contenant que l information choisie par l utilisateur partir du mode standard il est possible d interroger le DiCou be sur 14 types de donn es alors qu en mode expert utile principalement aux lexicographes du
25. inclure N Y X utiliser Real1 _mettre en pratique_ utiliser ART de X devient meilleur IncepPredPlusBon s am liorer s enrichir Qqch Qqn am liorer de X CausPredPlusBon am liorer enrichir ART de X devient moins bon 15 Degrad se d grader Leur maigre bagage scolaire se d grade de jour en jour BATEAU QSyn navire b timent vaisseau Cf embarcation barque radeau Gener _engin de navigation_ Type de Hypo bac bateau mouche bateau citerne barcasse barge brise glace cargo canot chalutier drakkar ferry fr gate gabare gal re hors bord houseboats hydravion kayak jonque paquebot p niche p trolier transbordeur trimaran trois m ts yacht Nom pour individu X S1 membre d quipage marin matelot navigateur mousse timonier pilote marinier Ensemble de X MultS1 Equip quipage Nom pour Y S2 passager cargaison chargement Individu Y qui utilise ill galement frauduleusement AntiBonS2 passager clandestin Ensemble de Mult flottille de x flotte Individu responsable de Cap capitaine commandant de ART Individu qui est responsable de de plaisance dans de plaisance Cap skipper Individu qui tend tre sur Qual1 p cheur De grande taille Magn grand gros ant pos volumineux lt norme gigantesque immense De petite taille AntiMagn petit ant pos
26. la gt de N X Cela fait la honte de toute la famille inspirer LART Y tre la raison de intense Magn Labor21 accabler couvrir remplir N X de Y ne pas pouvoir tre la raison de Non0per2 ne pas _y avoir_ de V inf Y IL n y pas de honte vouloir r ussir dans la vie intense est prouv e par X Magn Func1 accabler ronger submerger tenailler N X Qqch causer que cesse d tre prouv e LiquFunc effacer laver ART X ne pas se laisser influencer par NonPermiFact ravaler A poss X que doit prouver X nuit La r putation de N Involv rejaillir sur N Sa honte rejaillit sur tous ses coll gues X manifester Sympt1 se cacher se cacher le visage fr mir rougir trembler de X dont se manifeste Magn A1Sympt1 rouge de rouge _comme une tomate_ _comme une pivoine_ X faire qqch en manifestant A1 AdviManif la au front le rouge au front X ne pas laisser se manifester NonPermiManif cacher dissimuler ART HONTEI 2 QSyn d shonneur ris e QAnti fiert Il 2 gloire honneur Importante Magn grande ant pos Y tre Oper1 tre faire la gt de N X tre faire la honte de la famille lt sa honte gt X faire cesser Liqu2Func r parer ART Y est une situation Il faut absolument r parer cette honte nationale
27. la lumi re de ces d cisions nous avons fait une s lection de 5 vocables monos miques et de 11 vocables polys miques Nous consid rons ici comme vocables monos miques les vocables dont une seule lexie a t d crite dans le DiCo bien qu il ne soit pas exclu que ces vocables comprennent d autres acceptions qui n aient pas fait l objet d une description dans le DiCo Il est aussi possible que certaines acceptions des vocables polys miques choisis n aient pas t document es dans le DiCo Les usages trop techniques sont g n ralement omis du DiCo tout comme les lexies dont la distribution est tr s limit e Nous omettrons par exemple une lexie utilis e dans une seule r gion ou par les membres d un corps de m tiers particulier Deux crit res suppl mentaires ont guid le choix des vocables polys miques Nous avons premi rement pr f r les vocables qui contiennent un nombre limit d acceptions Une 40 polys mie tr s riche implique g n ralement des carts s mantiques tr s fins dont le traitement alourdirait inutilement notre analyse Les vocables polys miques que nous avons s lectionn s pr sentent donc au plus quatre acceptions Deuxi mement nous avons privil gi les vocables comportant deux niveaux de proximit diff rents parmi ses lexies Ainsi nous avons choisi des vocables dont au moins deux des acceptions sont li es par m tonymie ou par causation et dont au moins une lexie est li e
28. lexie vedette Une fois les FL identifi es elles servent de point de d part la recherche d autres valeurs De ce fait nous pouvons conclure que l utilit d une liste de cooccurrents ne peut tre d termin e exclusivement sur la base de la pr sence de la majeure partie des valeurs de FL de son mot cl mais aussi sur la base du nombre de liens lexicaux instanci s qu elle peut permettre d identifier puisque les ressources actuelles sont assez efficaces pour identifier les valeurs des FL qui ont t identifi es 84 Nous pouvons parler d exception ici pour certaines FL et certains pointeurs pointeurs conceptuels que nous avons ici pour les besoins de nos calculs assimil s des FL Les valeurs que nous avons ajout es des FL et des pointeurs d j pr sents dans les listes ont t majoritairement ajout es un ensemble de 2 FL et de 3 pointeurs MAGN QSYN CF MERO HYPO Les pointeurs CF MERO HYPO ont une base plus conceptuelle que s mantique De ce fait ils ont le potentiel de prendre un nombre tr s important de valeurs Le pointeur CF rappelons le encode les lexies qui sont proches de la lexie vedette sans en tre des synonymes Les pointeurs MERO et HYPO lient respectivement leur mot cl au nom de ses parties et ses hyperonymes Certaines lexies ont particuli rement tendance avoir comme cooccurrents des valeurs possibles pour chacun de ces pointeurs Les noms de sentiment par exemple on
29. s Caus1MultOper1 s entourer d s rassembler ART X tre de Y Labor12 fr quenter N Y Y1 tre de X Labor21 fr quenter X causer qu il continue avoir CausiContOper1 garder ART Y causer qu il continue avoir Caus2ContOper2 garder ART Qui fait partie du monde int rieur d un enfant imaginaire postpos X causer qu il n ait plus Liqu10per1 renier trahir ART Y causer qu il n ait plus Liqu20per2 renier trahir ART X et Y continuent d tre ContOper1 2 rester Repas festif pris entre agapes AMII 2 Cf associ collaborateur confr re mentor QSyn connexions relation contact alli QAnti ennemi l rival De sexe f minin amie Nombreux Magn quant nombreux Qui l est depuis tr s longtemps Magn temp vieil ant pos dans une p riode ant rieure et qui n est plus ancien Qui est utile Ver puissant Qui agit comme il se doit Ver comportement loyal Qu il est d savantageux d avoir AntiVer AntiBon k encombrant Nom pour Z QS3 administration haut lieu IL a des amis en haut lieu X qui ont un poste important dans Z poste important dans Z A1 bien haut plac s Loc in N Z postpos des amis haut plac s dans l administration Y1 avoir f Oper2 avoir ART s Y causer que f IncepOper2 se faire ART s X agir te
30. standards Les FL non standards contrairement aux FL standards sont tr s nombreuses et en nombre toujours croissant puisqu elles doivent tre cr es au besoin pour chaque lien qui n est pas encodable par les FL standards L exemple de FL non standard le plus courant dans la litt rature Sens Texte est celui du collocatif noir utilis avec la base caf pour exprimer le sens sans ajout de produit laitier La relation entre noir et caf est une collocation puisque que noir est un cooccurrent sp cifique de caf et que son sens est exprim avec caf de fa on idiomatique Le sens sans ajout de produit laitier ne peut constituer une FL standard puisqu elle violerait les conditions de cardinalit et de diversit des FL standards Polgu re 2003 La FL sans ajout de produit laitier ne peut logiquement s appliquer qu un ensemble s mantiquement tr s contraint d unit s lexicales Les valeurs qu elle rend ne peuvent donc pas tre tr s diversifi es 18 Il est rare de trouver des lexies riches en liens lexicaux qui ne contr lent aucune FL non standard Les lexies d notant des entit s tr s marqu es culturellement ou techniquement tels les noms d aliments ou de v tements sont particuli rement susceptibles de contr ler des FL non standards Les FL non standards peuvent encoder des liens syntagmatiques ou paradigmatiques Elles sont des paraphrases du lien encod et sont r dig es en langue
31. valeurs de FL verbales standards Ils sont suivis par les causatifs qui repr sentent 19 73 du stock de valeurs verbales sugg r es Globalement les suggestions de valeurs des deux FL Manif et communiquer repr sentent 15 65 des valeurs verbales sugg r es Ces derni res FL sont ici surrepr sent es en rapport de leur pr sence dans le DiCo En effet nous avons d nombr 204 occurrences de FL simples ou complexes exprimant le sens de la FL Manif dans le DiCo et 33 occurrences du FL non standards communiquer En contrepartie nous avons rencontr un total de 703 occurrences de la FL Oper 284 occurrences de la FL Func qui retournent des verbes support Cela semble indiquer que les valeurs de FL syntagmatiques verbales les plus communes aient de fa on g n rale d j t compil es dans le DiCo Nous en traiterons la section IV 1 3 I11 2 3 Le caract re standard ou non des valeurs de fonctions lexicales sugg r es 71 Le tableau suivant indique pour chacune des fiches DiCo choisies le nombre de valeurs sugg r es encodables par des FL standards dans la colonne Standard et le nombre de valeurs encodables par des FL non standards dans la colonne Non standard Les colonnes principales sont ensuite divis es comme le tableau pr c dent afin d indiquer le nombre de donn es exclusives chacune des listes de cooccurrents
32. 3 Mod lisation des collocations selon la lexicologie explicative et combinatoire LEC 00 7 1 2 3 1 Les fonctions lexicaleS sssssssssssssssssssssssossssossosssossssosnses sass stos botons obuke p saunos Esos so sious bo sibs ss tees dettes 7 I 2 3 2 Les fonctions lexicales standards syntagmatiques esse 8 I 2 3 3 Les fonctions lexicales paradigmatiques ssssseeneeense 12 I 2 3 4 Les fonctions lexicales complexes et les configurations de fonctions lexicales eeseeseeseesoe 15 I 2 3 5 Les fonctions lexicales non standards e sseesseeseeesooesoossoossssssesssesssesssesssessosssoosoossoossosssosssossssss 17 I 3 Pr sentation du DiCo comme base notre recherche 18 1 3 1 Introduction au DiCOssscsssssissssssssssssrosonesosssosseosseessesssrosoossossosesososasstesstasossosssscsesss sssorossesosssopesossso 18 L 3 2 Analyse d une fiche DiCo ssssssstssssesssssrssstuossessssessutesssosksssiossossicsssusecs ssop sro suvo se vs ssop sies sv toss rrot Ssss 20 I 3 3 M thodologie actuelle de cr ation d une fiche DiCo sesssssssssssssssesssesssessecssoosoossoossooesoossoossosssoss 27 Chapitre II G n ration et traitement des donn eS sseeseessescoesoesoesooesosssesoossoesoessoesosssesoossossse 37 IL 1 Les donn es utilis es dans le cadre de la recherche 38 II 2 Le choix des vocables se soesoosseesoesooeseesoesooesossoesoossoesoeesossosssessoesoosseesossooesessoesoossossoesoossossoeee 38 II 3 Les liens lexicaux d
33. A1 accusateur adj des documents accusateurs AMI AMII 1 Cf confident pair QSyn camarade copain fam pote connaissance QAnti ennemi I rival De sexe f minin amie Conversif Conv21 implique donc une relation r ciproque A0 ami adj li N Y 2 Tr s li Y Magn sentiment bon grand ant pos cher proche intime postpos lt meilleur ant pos complice gt fr re Magn comportement d vou postpos ins parables propos de X et Y avec au pl Ce sont des amis ins parables Qui l est depuis tr s longtemps Magn temp de longue date vieux lt de toujours Nombreux Magn quant nombreux Qui l est depuis L enfance depuis l enfance Magn temp d enfance Bon Bon formidable N ritable Ver fid le loyal v ritable vrai s r postpos Qui n est pas vraiment AntiVer faux ant pos Qui n esp re rien obtenir de particulier par sa relation Ver intention d sint ress Qui esp re obtenir quelque chose par sa relation AntiVer intention interess X tre de Y Oper1 tre ART X et Y tre Oper1 2 tre ART ind f s avec modificateur Ils sont d ins parables amis lt fam tre s comme cochons lt comme cul et chemise gt Fait pour X et Y d tre S Pred amiti entre N X et N Y X et Y tre tr s li s Magn Oper1 2
34. ACCUSER 1 03 0 87 1 54 1 22 Table 12 Le taux de pertinence des listes sans donn es de parties du discours non pertinentes Nous pouvons observer une l g re am lioration du rendement de nos listes Cette am lioration n est par contre pas substantielle puisque 3 des 6 parties du discours retir es des listes de cooccurrents soit les d terminants les conjonctions et les pronoms sont des classes ferm es de lexies qui ont un nombre limit de lexies Retirer les parties du discours non pertinentes des listes sans tre inutile ne suffit pas rendre les listes de cooccurrents compl tement assimilables Il est donc n cessaire cet effet tablir un seuil partir duquel nous consid rons qu il est avantageux de consulter des donn es IV 2 2 Seuil de pertinence des donn es En tentant de d terminer un seuil de pertinence pour les listes de cooccurrents nous devons garder l esprit que la m thode de consultation des listes de cooccurrents dans une 87 perspective qualitative ne peut tre compl tement syst matique Comme nous l avons vu le nombre de donn es par liste varie grandement d une liste une autre ce qui affecte d une part la lourdeur de la t che du lexicographe qui la consulte et d autre part la quantit relative de donn es qui y sont pertinentes Alors qu il n est pas g nant de consulter dans son int gralit une liste de cooccurrents d une centaine de donn
35. ART d f Y obligatoire Oper2 avoir ART ind f Labor21 avoir N X comme AMIII QSyn bienfaiteur m c ne avocat 1 IIl d fenseur partisan protecteur angl supporter n Anti ennemi Il QAnti adversaire opposant De sexe f minin amie V0 encourager soutenir N Y prot ger N Y Qui est de Y QA1 favorable N Y Qui soutient beaucoup Y Magn grand ant pos lt fervent ant pos X tre de Y Oper1 tre l un Y avoir Oper2 avoir ART poss der des s Nom d une association qui regroupe 44 de Y Les amis de N Y ANCRE CF grappin Magn grosse ant pos grande Real1 I Real1 1 I jeter mouiller 1 Le navire a jet mouill l ancre mouiller Le navire a mouill Labreal1 11 1 I mettre N X l ancrer N X Le capitaine a ancr le navire S Labreal1 11 1 I ancrage mouillage de N X Real1 II tre l se tenir 1 SlocReal1 II ancrage mouillage rade A1Real1 II 1 ancr AntiReal1 II chasser sur A poss X Fact mordre tenir AntiFactO glisser d raper LiquiFact Liqu1i 1 Fact lever l appareiller Liqu1i 1 Fact hisser l APPLAUDIR APPLAUDIRI QSyn _battre des mains_ acclamer ovationner QAnti huer siffler S0 applaudissements Ensemble de X type qui QS1 assembl e assistance audience foul
36. Des applaudissements ont accueilli salu l orateur lt son entr e dans la salle gt LiquFunc touffer faire cesser ART AVERSION QSyn r pugnance 1 r pulsion I d go t horreur antipathie Gener sentiment d QAnti amour attirance attrait go t III passion d sir 2 Magn grande ant pos profonde violente vive lt totale insurmontable irr pressible immod r e postpos excessive Qu on ne peut pas s emp cher d prouver spontan e postpos incontr lable instinctive visc rale irraisonn e postpos 0per12 avoir concevoir prouver nourrir ressentir ART Pr p envers N Y Labor12 avoir tenir N Y en IncepOper12 se prendre d pour N Y IncepLabor12 prendre N Y en 0per21 causer inspirer ART N X NonPermiFact contr ler surmonter vaincre ART 46 PermiManif afficher manifester montrer ART Pr p envers N Y NonPermiManif cacher dissimuler ART BAGAGE BAGAGEI 1 QSyn fam barda Cf attirail quipement S1 voyageur QS2 QSing bagage I 2 NonA1 sans s Magn gros ant pos volumineux lourds AntiBon Magn embarrassants encombrants AntiMagn petits modestes ant pos l gers AntiBon AntiMagn maigres ant pos Loc in dans ART s 0per1 avoir transporter ART s Est ce que vous transportez beaucoup de bagages Monsieur Labor12 avoir transporter N Y dans A poss X s J
37. DiCo 42 types de donn es sont interrogeables Le formulaire d interrogation du DiCou be propose pour chaque type de donn e une case contr lant son affichage dans le tableau de r sultats et un champ permettant d inscrire les contraintes visant les donn es cherch es 44 nom vocable lexie vocable OL Ea no acception lexie num carac grammaticales lexie c9s B tiquette s m lexie formuleEtiquette af LIENS DE FONCTIONS LEXICALES fonction lexicale FL formuleFL glose FL glose valeur fusionn e FL estFusionnee marque d usage FL marqueDUsage Mm valeur FL lexie r gime valeur FL regime Leker ege ieie ie Figure 13 Extrait du formulaire d interrogation du DiCou be en mode standard Les possibilit s de recherche et d affichage tant immenses nous nous concentrerons ici sur la m thodologie utilis e pour cr er les listes de collocations et de d riv s s mantiques utilis s dans la pr sente recherche Nous recommandons la lecture du manuel d utilisation du DiCou be Jousse Polgu re 2005 pour une description de chaque donn e interrogeable et sur un survol des possibilit s de cette interface Pour cr er les fiches n cessaires notre recherche nous avons fait une requ te pour chaque lexie en indiquant son signifiant dans la case nom vocable et le cas ch ant le num ro d acception dans la case no acception en ne
38. HONTEII QSyn scandale crime Il drame 32 QAnti merveille A0 honteux Ce qu on dit pour communiquer que est nonc pour communiquer que Oper1 C est une de voir a Quelle de voir a IRRITATION IRRITATIONI QSyn agacement litt courroux nervement impatience m contentement Cf mauvaise humeur 1a col re malaise Gener sentiment d QAnti plaisir satisfaction Nom pour Y S2 cause raison de ART source de CART X qui prouve A1 _en proie_ une avec modificateur irrit X qui tend prouver Able1 irritable Y qui tend causer Able2 irritant Individu Y qui est susceptible de causer Qual2 _casse pieds_ ad j X faire qqch en prouvant manifestant Adv1 AdviPermiManif avec CART Intense Magn grande profonde vive ant pos exasp ration Peu intense AntiMagn moindre X causer que ne soit pas manifeste CausiNonManif contenir masquer A poss X X communiquer qu il ressent communiquerOper1 exprimer ART devient plus intense f1 IncepPredPlus augmenter s accro tre cro tre grandir monter qui devient plus intense AQOIncepPredPlus k croissante grandissante Qqch causer f1 CausPredPlus accentuer ART Peu intense AntiMagn l g re ant pos devient moins intense f2 IncepPredMinus se ca
39. Il 4 Extraits des corpus 1 4 1 Le contenu des listes de cooccurrents Les listes de cooccurrents regroupent l ensemble des lemmes rencontr s dans le corpus Le Monde 2002 gauche et droite du vocable cible dans une fen tre de 3 lemmes Ces listes sont pr sent es sous la forme d une table o chaque lemme est list conjointement aux informations qui le concernent Les cooccurrents relev s se retrouvent dans la premi re colonne MOT et sont associ s dans la deuxi me colonne TAG la partie du discours leur ayant t attribu e par un tiqueteur automatique Comme les bigrammes conservent l ordre lin aire des lemmes rencontr s dans le texte la m me forme peut se retrouver jusqu deux fois dans la liste coupl e la m me tiquette Son emplacement lin aire par rapport au mot cl est indiqu dans la troisi me colonne ORIENTATION Si la forme relev e se trouvait dans le corpus droite du mot cl un R est inscrit dans la colonne ORTENTATION Lorsque la forme se trouvait gauche du mot cl dans le corpus c est un L qui se trouve dans la colonne ORTENTATION Les colonnes suivantes LOG_LIKE et FREQ indiquent la valeur de log likelihood des paires form es par le vocable cible et chacun de ses cooccurrents ainsi que leur fr quence absolue dans le corpus Ces listes sont pr sent es par ordre d croissant de log likelihood c est dire en commen ant par le cooccurrent le plus sp cif
40. Montr al dor navant OLST La base th orique du DiCo est la lexicologie explicative et combinatoire LEC qui est le module lexicographique de la th orie Sens Texte dor navant TST La LEC propose un syst me d encodage unique des d riv s s mantiques et des collocations soit les fonctions lexicales qui seront notre centre d int r t dans le pr sent m moire Pour les besoins de notre tude nous chercherons d abord d terminer si le stock de donn es encod es dans le DiCo se retrouve dans les listes de cooccurrents extraits automatiquement sur une base quantitative du corpus Le Monde 2002 Nous cherchons aussi savoir s il est possible de g n raliser par leur type les donn es qui s y trouvent et celles qui ne s y trouvent pas Nous voulons de plus savoir si les donn es extraites automatiquement pourraient servir compl ter le stock de donn es pr sent dans le DiCo Dans ce cas aussi nous tenterons de proposer des g n ralisations bas es sur le type des valeurs en cause 1 2 Cadre th orique 1 2 1 Les notions de cooccurrence collocation et de cooccurrence statistiquement significative De fa on g n rale nous d finirons ici la cooccurrence comme tant la pr sence simultan e dans un corpus de deux items lexicaux de m me type dans une fen tre de texte relativement troite Selon le niveau d analyse choisi nous pouvons nous pencher sur la cooccurrence de signifiants de mots formes de
41. N X _ tre l objet_ de ART Oper3 forcer inspirer 1 faire 1 de N X _ tre Ll objet_ de ART IncepOper23 s attirer 42 emporter l gt de N X avec par N Z lt en V part Z gt IncepOper3 provoquer soulever susciter ART Magn IncepLabor31 frapper ravir saisir soulever N X d Func3 se porter sur N Z Son admiration se porte plus particuli rement sur les toiles de Chagall Caus1Manif montrer ART Caus1Manif2 t moigner de l1 N Y A poss X N Y SQSingCaus1Manif t moignage II 3 de CART SOSingManif frisson 1 d Elle ne put r primer un frisson d admiration Un frisson d admiration parcourut l assistance AMI AMII 1 QSyn camarade copain fam pote connaissance QAnti ennemi I De sexe f minin amie Conv21 implique donc une relation r ciproque A0 ami adj li N Y Magn sentiment bon ant pos proche intime postpos lt meilleur ant pos Magn comportement d vou postpos ins parables propos de X et Y avec au pl Ce sont des amis ins parables Magn temp _de longue date_ lt de toujours depuis l enfance Magn temp d enfance Ver fid le v ritable s r postpos AntiVer faux ant pos Oper1 tre ART Oper1 2 tre ART ind f s avec modificateur Ils sont d ins parables amis lt fam tre s comme cochons lt com
42. RS ET eee QSyn ticket fl H S1 spectateur visiteur i Nom pour Y H S2 spectacle CX avoir un B Reall I avoir poss der ART f X se procurer un B CauslReall I acheter se procurer ART Endroit l o on se procure un B SlocCausiReall I caisse guichet l 1 X utiliser un B Reall Il montrer pr senter ART a NJ B tre vendus en grand nombre et tres rapidement p q Buckingham Palace l attraction touristique la plus on reuse de la capitale Ses parents lui avaient offert pour son anniversaire ul billet pour le Barbier de Seville Figure 9 Extrait de la fiche DiCo de la lexie BILLETIL 1 en statut 3 La recherche sur corpus a ici permis au lexicographe d toffer la polys mie du vocable BILLET On constate que la fiche compte maintenant 7 acceptions Ce faisant le lexicographe a d refaire la num rotation des acceptions du vocable BILLETI est devenu BILLETI et BILLET est devenu BILLETIL 1 On peut aussi voir que quelques FL ont t ajout es chacune des fiches C est g n ralement un autre lexicographe qui proc dera au traitement linguistique de chacune des fiches Il validera premi rement le travail qui a t fait sur les fiches Il ajoutera par la suite des valeurs de FL la fiche en interrogeant son intuition de locuteur et les diff rents corpus mis sa disposition Il proc dera aussi un
43. Table de comparaison des listes de cooccurrents avec les listes de valeurs du DiCo On retrouve l int rieur de chacune de ces tables les lemmes relev s l int rieur des bigrammes comme cooccurrents de nos vocables cibles Comme les listes de cooccurrents brutes les donn es du tableau sont class es en ordre d croissant de log likelihood et de fr quence absolue Les quatre premi res colonnes du tableau sont conformes au format des listes de cooccurrents brutes et sont g n r es automatiquement On y trouve compl tement gauche le cooccurrent du vocable cible ensuite la partie du discours qui lui a t assign e par TreeTagger suivi de la valeur de log likelihood qui a t attribu son bigramme et finalement la fr quence absolue de ce bigramme dans le corpus Les autres colonnes du tableau sont remplies manuellement La colonne Statut sert indiquer un statut d termin en fonction de la pertinence de chaque donn e dans le cadre de la description lexicographique du vocable choisi Dans les tableaux des vocables monos miques on ne retrouve qu une seule colonne Statut o est indiqu e la pertinence de chaque donn e pour l encodage de la fiche de la lexie du vocable Dans les tableaux de vocables polys miques une colonne Statut est pr vue pour chacune des acceptions du vocable La colonne Statut_voc indique la pertinence de chaque donn e pour l ensemble du vocable Lorsqu une donn e et jug e pertinente
44. a et CRIMEL b d notent des actes qui marquent beaucoup l imagination des gens et dont les implications et ramifications sont tr s nombreuses alors que la lexie CATASTROPHEI d signe un v nement grave qui touche aussi une corde sensible humaine La lexie POISSONL a finalement d signe une esp ce animale qui comporte de nombreuses sous esp ces et qui est exploit e grande chelle pour la consommation Il n est donc pas surprenant que de nombreuses FL non standard la lient des lexies qui servent d crire ses caract ristiques physiques ses activit s et sa relation avec les humains Dans la majorit des cas ces valeurs de FL sont li es un aspect technique de son mot cl 74 Voici par exemple quelques valeurs de FL adjectivales ou adverbiales sugg r es et leurs FL non standard associ es 23 Qui a pour but l accomplissement d un rite religieux CRIMI a rituel Dont le motif est La haine d une ethnie CCRIMEI a raciste Qui a plusieurs coques BATEAU multicoque Chacune de ces FL pr cise respectivement un but ou une fonction une motivation et un mode de fabrication Voici maintenant quelques exemples de valeurs de FL syntagmatiques verbales sugg r es et leur FL non standard associ es 24 Qqn prendre en location dans le but de l utiliserCBATEAU affr ter Qqn arr ter en mer pour en faire le contr leCBATEAU arraisonner Qqch causer que X n a plus assumer la respo
45. au lemme fre verbe Dans le cas qui nous occupe nous avons relev chaque couple de lemmes form du vocable cible de notre requ te et tous les lemmes se trouvant gauche et droite de celui ci dans une fen tre de 3 lemmes Nous en reparlerons la section I 4 lorsque nous parlerons de la m thodologie de cr ation des listes de cooccurrents Lorsque la relation entre le vocable cible et un de ses cooccurrents est jug e int ressante au point de vue de la description lexicographique il sera question soit de collocation lorsqu il sera question d une approche plut t qualitative ou de cooccurrence statistiquement significative dor navant CSS lorsqu il sera question d une approche plus quantitative Ces deux approches se distinguent principalement au point de vue de leur m thodologie une approche qualitative implique un travail lexicographique intuitif orient principalement vers la description de liens lexicaux pr d termin s alors qu une approche quantitative mettra principalement l accent sur l interrogation statistique de corpus afin d identifier les liens lexicaux d crire La notion de collocation a fait son apparition dans la litt rature scientifique au tournant des ann es 50 avec le contextualisme britannique J R Firth figure de proue du mouvement a d abord d fini tr s vaguement la notion de collocation comme tant l association fr quente de deux mots dans une fen tre de texte rest
46. aux autres par un lien m taphorique Les trois lexies du vocable POISSON repr sentent un cas typique de cette configuration Les signifi s de POISSONL a et POISSONL b sont dans une relation de m tonymie POISSONL a d signant un animal aquatique et POISSONL b d signant la chair comestible du poissonl a alors que POISSONII d signe un le signe astrologique des individus n s l poque de l ann e o le soleil traverse une constellation dont la forme s apparente celle de deux poissonl a Nous avons choisi en nous basant sur les arguments avanc s pr c demment d tudier les vocables monos miques suivants ADMIRATION ANCRE APPLAUDISSEMENT AVERSION et BATEAU Les vocables polys miques tudi s sont ACCUSER AMI APPLAUDIR BAGAGE CATASTROPHE CRIME GIFLE HONTE IRRITATION PLAIE et POISSON Le tableau suivant d taille le contenu des fiches DiCo de chacune des lexies des vocables choisis La colonne Total indique le nombre total de lien pour chacune des lexies tudi es La colonne Synt indique le nombre de liens syntagmatiques de chaque lexie alors que la colonne Para indique le nombre de leurs liens purement paradigmatiques Finalement la colonne Para reg indique le nombre de liens entre ces lexies et des valeurs paradigmatiques dont le r gime contient le mot cl Liens de FL
47. base d un vocable alors que les listes de cooccurrents pour le vocable ANCRE sont celles qui contiennent le plus petit nombre de donn es Bien que le pourcentage de donn es pertinentes pour ces listes soit tout de m me semblable aux autres le nombre absolu de valeurs qu elles ont fourni est insuffisant Nous avons consid r trois facteurs concernant les suggestions de valeurs de fonctions lexicales Dans un premier temps nous avons not le type de FL encodant les valeurs sugg r es syntagmatique ou paradigmatiques Nous avons de plus relev le caract re standard ou non des FL encodant ces valeurs Finalement nous avons not le nombre de VFLP pouvant tre encod es par des FL d j pr sentes dans la fiche de leur mot cl et le nombre de VFLP pour lesquels une nouvelle FL devait tre ajout e la fiche 111 2 2 Le type des valeurs de fonctions lexicales sugg r es Le tableau suivant d taille le nombre de valeurs sugg r es par type de FL La premi re colonne Para indique le nombre de valeurs li es des FL paradigmatiques alors que la colonne Synt indique le nombre de valeurs li es des FL syntagmatiques Chacune des deux colonnes principales est divis e en trois colonnes la premi re colonne total indique le nombre de valeurs encodables par chacun des types de FL en pr sence alors que les colonnes suivantes indiquent le nombre de valeurs exclusives soit la liste de cooccurrents de l OLST dans la
48. cochant pas la case demandant l affichage de ces donn es Nous avons ensuite coch la case demandant l affichage des donn es de la ligne Valeur en laissant vide la case permettant la sp cification des contraintes de recherche De cette fa on toutes les valeurs diff rentes li es la lexie choisie sont affich es Voici l exemple de requ te faite pour la lexie ACCUSERI 1 45 1 C4 C nom vocable lexie vocable D accuser D no acception lexie num L1 C carac grammaticales lexie cgs C tiquette s m lexie formuleztiquette _ LIENS DE FONCTIONS LEXICALES 0 C fonction lexicale FL formuleFL C glose FL glese C valeur fusionn e FL estFusionnee O marque d usage FL marqueDUsage M valeur FL Iexie C7 r gime valeur FL regime C contrainte FL contrainte Figure 14 Requ te des valeurs de la lexie ACCUSERI 1 sur le DiCou be Une fois la requ te compl t e les r sultats sont affich s sous la forme d un tableau Exporter les r sultats bl mer condamner d noncer _faire grief_ incriminer accusation I 1 accusateur n accus n Figure 15 Extrait du tableau de la requ te de la figure 14 Comme nous pouvons le constater dans la figure ci dessus le DiCou be permet d exporter les r sultats en fichier texte Nous avons donc export les r sultats obtenus avant de les importer dans le programme Microsoft Excel 46
49. cooccurrents peuvent tre utiles l encodage des fiches DiCo IV 1 1 Diversit des taux de pertinence des listes de cooccurrents Comme nous l avons vu l utilit des listes de cooccurrents varie grandement d un vocable un autre les listes de cooccurrents du vocable ACCUSER par exemple ne contiennent que 0 87 1 22 de donn es pertinentes l encodage des fiches de ses lexies alors que les listes de cooccurrents du vocable APPLAUDISSEMENTS comptent entre 16 16 et 16 39 de donn es pertinentes Diff rents facteurs semblent influencer les taux de pertinence des listes de cooccurrents et ces facteurs bien que parfois pr visibles ne peuvent tre contourn s Nous constatons premi rement que le nombre de donn es des listes de cooccurrents semble influencer leur taux de pertinence Comme nous l avons vu la section II 1 3 les listes de cooccurrents des vocables AMI et ACCUSER ont des taux de pertinence tr s bas qui co ncident avec un nombre de donn es particuli rement lev Il semble que ces listes aient atteint leur point de saturation niveau partir duquel un nombre plus important de donn es n apporte pas de nouvelles donn es pertinentes Le taux de pertinence assez bas de la liste du vocable AMI n est pas en soi un probl me puisqu en nombre absolu elle a rendu un nombre assez int ressant de donn es 123 POLST et 163 Cologne Cependant la consultation int grale d une liste
50. d une dition papier puisqu il s agit d un dictionnaire virtuel Sa finalit est d atteindre le mode de navigation plus intuitif du type site lexical que Jousse et al d crivent comme un produit lexicographique visant mod liser la connaissance lexicale comme un r seau d entit s interconnect es Jousse et al 2008 Cette approche lexicographique vise abandonner la structure lin aire du dictionnaire traditionnel au profit d une vision plus relationnelle du lexique cet effet le DiCoPop est navigable soit par la 20 hi rarchie des tiquettes s mantiques du DiCo ou par r seau de liens paradigmatiques et syntagmatiques tiss s par le syst me des FL du DiCo 1 3 2 Analyse d une fiche DiCo Les fiches DiCo sont actuellement cr es l aide du logiciel de base de donn es FileMaker Pro Le format de base de donn es permet de diviser les fiches en champs et de travailler sur chacun de ces champs ind pendamment Les donn es encod es dans ces fiches seront plus tard compil es et disponibles pour consultation sur le Web partir du site du DiCou be http olst ling umontreal ca DiCouebe et du DiCoPop Le lecteur int ress pourra en apprendre davantage sur la compilation des fiches DiCo en format consultable par l interface du DiCou be dans Steinlin et al 2004 Les fiches DiCo sont divis es en dix sept champs Nous pouvons observer ci dessous figure 1 une reproduction de la
51. dans la colonne OLst Dans le cas contraire c est absent qui est inscrit dans la colonne OLSt Les colonnes suivantes indiquent les informations concernant les formes relev es dans le corpus Comme les cooccurrents gauche du vocable cible sont diff renci s de ceux de droite il est possible que la m me valeur ait t relev e deux reprises dans le corpus Six colonnes sont donc pr vues pour encoder les informations sur les donn es du corpus La premi re colonne or1_olst_1 sert indiquer l emplacement lin aire du lemme par rapport la forme cherch e dans le corpus Comme pour le tableau pr c dent L indique que la valeur relev e se trouvait 53 gauche du mot cl dans le corpus alors que R signifie qu elle s y trouvait droite Les deux colonnes suivantes Log_l1ike_1_olst et freq_1_olst servent indiquer respectivement la valeur de log likelihood et fr quence absolue associ e au bigramme dans lequel se trouvait la valeur trouv e Les trois colonnes suivantes sont pr vues pour l encodage des informations concernant une seconde occurrence d une forme dans la liste de cooccurrents de POLST Ainsi l orientation de cette derni re doit tre indiqu e dans la colonne or1_2_olst et les valeurs de log likelihood et de fr quence qui y sont associ es dans les colonnes Log_Llike_2_olst et freq_2_olst La colonne COL sert indiquer encore une fois par les indications pr sent et absent la pr s
52. de dire 4 Ce soldat est quip jusqu aux dents Aucune r gle de grammaire ne permet de pr dire qu une formule sera correcte alors qu une autre ne le sera pas Les collocations de chaque lexie doivent donc tre m moris es syst matiquement par un apprenant du fran ais 10 Nous pouvons distinguer 3 types de FL syntagmatiques Les premi res retournent des valeurs adjectivales ou adverbiales les secondes des pr positions et les derni res des verbes Les FL adjectivales et adverbiales retournent des modificateurs de leurs mots cl s Par exemple la FL Magn associe son mot cl un intensificateur Les valeurs de la FL Ver portent le sens tel qu il doit tre et les valeurs de la FL Bon portent le sens de bonne qualit Voici quelques exemples de FL adjectivales et adverbiales tir s du DiCo 5 MagnCHA R _ mort_ _comme la peste_ cordialement profond ment BonCCHANCE2 extraordinaire exceptionnelle honorable inesp r e Ver COUTEAU bon coupant tranchant aigu effil pointu Le second groupe de FL rassemble les FL Adv Instr Loc et Propt Les valeurs de ces FL s adjoignent au mot cl pour en exprimer divers d riv s s mantiques adverbiaux La FL Adv retourne des pr positions qui en conjonction avec le mot cl constituent l quivalent s mantique de l adverbe associ un de ses actants Les FL Instr Loc et Propt servent respectivement exprimer un
53. de nouveaux liens lexicaux instanci s et une nouvelle consultation manuelle des corpus sera alors n cessaire IV 4 Conclusion L objectif de ce m moire tait de comparer les m thodes d extraction et de compilation des collocations l int rieur de deux approches lexicographiques diff rentes afin d valuer dans quelle mesure la m thode utilis e traditionnellement dans une approche o la collocation est d finie de fa on quantitative pouvait tre adapt e la m thodologie de cr ation de fiche de dictionnaire d une approche qui d finit la collocation sur une base qualitative Pour ce faire nous avons proc d une comparaison bidirectionnelle entre le contenu de listes de cooccurrents extraites automatiquement d un corpus de texte et le contenu de fiches du DiCo Nous avons tabli que la consultation de liste de cooccurrents class es en ordre d croissant de log likelihood tait utile au travail lexicographique du DiCo en tant que source de donn es compl mentaires aux m thodes d identifications de collocations utilis es habituellement Nous croyons fermement que l application des recommandations faites pr c demment contribuerait la cr ation de fiches DiCo plus pr cises et plus compl tes Nous croyons aussi que ces recommandations peuvent 93 s adapter la cr ation de tout dictionnaire de collocations dont l approche th orique s apparente celle du DiCo Toutefois ces observations
54. des listes de cooccurrents Consid rons la fiche DiCo r duite de la lexie admiration QSyn merveillement lt adoration a enthousiasme ravissement QAnti aversion m pris VO admirer I N Y pour N Z QS1 admirateur de N Y Z S2 objet de CART S3 objet de CART source d A1 en admiratif lt plein rempli soulev transport de CART Adv1 avec Able2 3 digne de CART admirable PredAble3 porter 1 Adv Able3 admirablement Il s en est sorti admirablement Adv2 1 de N X Magn beaucoup d grande vive ant pos profonde lt folle ant pos immense lt absolue postpos _la plus compl te _sans bornes_ _sans r serve _ adoration a ind fectible AntiBon Magn aveugle b ate immod r e postpos PredMagn _ne pas conna tre de bornes_ IncepPredPlus grandir Magn1i quant g n rale universelle postpos Oper12 avoir prouver ressentir ART envers pour N Y Litt concevoir ART pour N Y vouer ART N Y tre en devant N Y nourrir ART envers pour N Y Oper13 avoir litt concevoir prouver ressentir LART pour N 7Z tre en devant N Z 59 Magn 0Oper12 3 se p mer d devant N Y 7 IncepOper12 3 tomber en devant N Y 7 Magn IncepOper1 tre soulev tre frapp de CART Oper2 faire l de N X _ tre l objet de ART Oper3 forcer inspirer l1
55. doute le Dictionnaire Explicatif et Combinatoire DEC Paru en fran ais en 4 volumes Mel uk et coll 1984 1988 1992 1999 et en un volume en russe Mel uk Zholkovsky 1984 il s agit de l ouvrage le plus complet appliquant les principes de la LEC Il pr sente une description syst matique et rigoureuse de chacune des facettes de ses lexies vedettes Le DiCo et le Lexique Actif du Fran ais LAF sont d velopp s parall lement au DEC l Observatoire de Linguistique Sens Texte OLST de l Universit de Montr al Le DiCo se distingue du DEC en ceci qu il ne se concentre que sur l aspect lexico combinatoire du lexique et que son contenu s mantique est maintenu au minimum Le DiCo constitue le c ur de notre recherche et nous en reparlerons exhaustivement la section 1 3 Nous nous int resserons ici deux aspects de la description des lexies leurs d rivations s mantiques et leur combinatoire lexicale Nous discuterons dans la prochaine section du formalisme propre la LEC utilis pour d crire ces deux ph nom nes lexicaux soit les fonctions lexicales FL 1 2 3 1 Les fonctions lexicales Les FL sont appel es fonctions parce que celles ci s apparentent formellement des fonctions math matiques de type f x y o x correspond au mot cl et y l ensemble des valeurs trouv es On les qualifie de lexicales parce que leurs variables x y sont r alis es par des items lexicaux soi
56. en tables Afin de faciliter la comparaison entre nos deux groupes de donn es nous avons choisi de les pr senter sous forme de table Notre comparaison est bidirectionnelle dans un premier temps nous avons pris les listes de cooccurrents comme point de d part et dans un deuxi me temps nous avons pris les listes de valeurs du DiCo comme point de d part Dans les sections qui suivent nous verrons comment ces tables ont t constitu es et le type d information qu elles contiennent 11 5 1 Cl d interpr tation des tables 50 11 5 1 1 Table de comparaison des listes de cooccurrents avec les listes de valeurs du DiCo Une premi re table prend comme point de d part les donn es des listes de cooccurrents extraits du corpus Le Monde 2002 Nous avons cr une table pour les donn es extraites POLST et une pour les donn es extraites l Universit de Cologne Mot Tag Orientation Log like Freq Statut VOC Statut_I_1 Statut_1_2 Statut_1_3 Statut 11 Erreurs FL prop d VER L 1146 5356 383 X xX x x x 1 tre VER R 664 879 529 X X xX X xX 0 avoir VER R 624 3508 485 X xX xX X X 0 de PRP L 621 0539 898 X Reg prep X Reg prep X Reg prep X Reg prep X Reg prep 0 l VER R 610 0309 277 X x Xx X Xx 1 il PRO R 340 3577 269 X pron X pron X pron X pron X pron 0 gouvernemei NOM L 231 7373 69 X xX xX x Xx 0 le DET R 225 8342 196 X Det X Det X Det X Det X Det 0 perte NOM L 190 9819 34 X xX Xx Xx x 0 Figure 16
57. fiche FileMaker Pro de la lexie BAGAGEL I 21 Fdo bagages QS2Ctransporter QMult bagage I 2 _ Nom pour X i S1 voyageur Nom pour Y 052 QSing bagage I 2 X qui n a pas de B NonAl sans s Importants Magn gros ant pos volumineux lourds Importants et difficiles transporter AntiBon Magn embarrassants encombrants Peu importants i AntiMagn petits modestes ant pos l gers E 1 Peu importants et tout juste suffisants Fri San Te OTTEET diiad ex Il ne reste plus qu a faire les bagages charger la voiture et en avant On peut exp dier ses bagages l a roport la veille de son d part Ils attendaient devant la porte avec leurs maigres bagages il L enregistrement des bagages s effectue dans la gare de d part Les douaniers ont saisi douze kilos d h ro ne dans les bagages de ce couple de touristes Elle r cup ra ses bagages et se rendit aussit t avec armes et bagages_ Figurel Extrait de la fiche DiCo de la lexie BAGAGEI 1 22 En en t te les deux champs nom et num ro d acception de la lexie servent identifier la lexie vedette de la fiche Dans le cas qui nous occupe BAGAGE se retrouve dans le champ Nom et le chiffre I 1 dans le champ num ro d acception de la lexie Lorsque le mot cl est issu d un vocable monos mique ce champ est laiss vide Le troisi me champ de l en t te est le champ Statut Le
58. in Lexicography and Natural Language Processing Amsterdam John Benjamins 355 p Annexe 1 Les fiches DiCo augment es Le format standard est utilis pour toutes les valeurs d j pr sentes dans le DiCo Le gras indique une valeur qui a t ajout e Le gras italique indique une valeur qui ne se trouvait que sur la liste de cooccurrents de OLST et le gras soulign indique une valeur qui ne se trouvait que sur la liste de cooccurrents de l Universit de Cologne Lorsqu une valeur est ajout e une FL d j pr sente dans la fiche seule la valeur est mise en gras Lorsqu une nouvelle FL est n cessaire pour encoder une valeur ajout e le nom de la FL est aussi mis en gras ACCUSER ACCUSERI 1 QSyn bl mer condamner d noncer _faire grief_ incriminer nonc par lequel X SQ nonc accusation I 1 de N X Nom pour X S1 accusateur n Nom pour Y QS2 accus n Type particulier de Z QS3 action comportement bl mable crime l a d faut faute I 1a m fait nonc par lequel X Al nonc accusateur adj des paroles accusatrices Y X en m me temps que X Y mutuellement r ciproquement De fa on marqu e Magn carr ment durement fortement violemment De fa on justifi e Ver motif _ raison_ justement De fa on non justifi e AntiVer motif _ tort_ faussement gratuitement _pour rien_ sans raison _ La l g re_ sans preuve De fa on non
59. indique le pourcentage de donn es du DiCo trouv es sur les listes de cooccurrents dont la valeur de log likelihood tait sup rieure ce seuil qu peine la moiti des valeurs du DiCo se seraient qualifi es comme CSS OLST Cologne Lexie Synt Para total Synt Para Total ACCUSERI 1 33 33 33 33 33 33 25 25 25 ACCUSERT 2 50 100 66 67 100 66 67 80 ACCUSERT 3 50 50 50 50 ACCUSERII 50 50 20 20 ADMIRATION 45 83 45 83 48 15 0 48 15 AMII 1 61 11 66 67 62 50 76 47 71 43 75 AMII 2 100 50 60 100 50 60 AMII 3 66 67 42 86 50 100 66 67 77 78 AMIIT 50 25 33 33 75 20 35 71 ANCRE 40 40 80 80 APPLAUDIRI 66 67 75 70 83 33 50 70 APPLAUDIRI I APPLAUDISSEMENTS 38 89 75 50 55 56 100 68 AVERSION 57 14 0 50 54 55 0 50 BAGAGEI 1 50 25 46 67 60 75 66 67 BAGAGEI 2 100 0 25 100 0 40 BAGAGEI I 0 0 0 28 57 0 22 22 BATEAU 46 67 59 09 51 79 43 75 59 38 52 94 CATASTROPHE I 61 54 75 64 71 56 25 50 55 CATASTROPHEII 1 37 50 50 40 36 36 100 41 67 CATASTROPHEII 2 100 100 50 50 CRIMEI a 72 73 25 50 69 23 46 15 59 26 CRIMEI b 91 67 25 65 38 84 62 62 50 71 43 CRIMEII 0 0 0 0 GIFLEI 42 86 5
60. justifi e et ventuellement nuisible Y AntiBon1 AntiVer motif calommieusement injustement De fa on explicite Ver mani re explicitement ouvertement _tout haut_ De fa on non explicite AntiVer mani re _de fa on d tourn e_ _tout bas_ De fa on d testable AntiBon mani re effront ment ACCUSERI 2 QSyn d f rer incriminer inculper Cf poursuivre Epit formellement officiellement S0 accusation I 2 Nom pour X S1 accusation Il _minist re public_ procureur Nom pour Y S2 accus inculp pr venu Nom pour Z S3 motif sp c _chef d accusation_ crime l a d lit m fait Nom pour W S4 cour tribunal Document l gal servant Y qui tend tre Qual2 criminel Smed _acte d accusation_ De fa on non justifi e AntiVer motif _ tort_ injustement _par erreur_ X atteindre le but vis par le fait d Y Labreal12 faire condamner N Y Y tant nombreux avoir fait Z collectivement X tant nombreux avoir subit Z d un seul Y collectivement Y X en m me temps que X Y r ciproquement ACCUSERI 3 QSyn reprocher De fa on justifi e Ver motif _ raison_ justement De fa on non justifi e AntiVer motif _ tort_ injustement ACCUSERI I QSyn d noncer d signer condamner QAnti blanchir disculper innocenter Nom pour Z S3 crime l a d lit m fait faute I la X qui Y
61. la valeur de log likelihood est sup rieure 10 83 pour chaque liste de cooccurrents La colonne suivante liste indique le pourcentage des donn es auquel se nombre correspond La derni re colonne Pert indique le pourcentage de donn es pertinentes de la liste qui se retrouve parmi ces donn es Vocable OLST COL Nb Nb Donn es liste Pert Donn es liste Pert ADMIRATION 89 22 08 100 138 23 7 91 11 ANCRE 19 23 46 18 18 33 33 33 46 15 APPLAUDISSEMENTS 61 18 6 37 36 92 25 14 46 47 AVERSION 24 19 2 41 18 66 18 97 32 14 BATEAU 239 15 39 39 31 344 17 67 48 39 AMI_VOC 552 15 30 64 646 15 03 39 39 AMII 1 34 57 94 44 AMII 2 37 04 43 59 MMII 3 25 81 42 22 AMIII 22 22 43 33 BAGAGE_VOC 57 14 04 28 33 105 21 38 41 27 BAGAGEI 1 28 57 40 54 BAGAGEI 2 25 55 56 BAGAGEII 28 57 33 33 CATASTROPHE_VOC 135 12 93 38 38 210 15 43 45 04 CATASTROPHEI 1 35 71 42 98 CATASTROPHEIT 1 36 36 39 47 CATASTROPHEII 2 25 72 73 CRIME_VOC 249 13 64 41 3 324 15 2 45 63 CRIMEI A 40 67 44 69 CRIMEI B 39 47 44 95 CRIMEII 0 20 GIFLE_VOC 28 18 42 35 48 25 12 69 45 63 GIFLEI 36 84 40 GIFLEII 41 67 50 HONTE _VOC 82 14 29 39 13 143 20 11 42 03 HONTE_I 38 46
62. lexie pour chaque type de valeurs et pour chacune des listes La colonne Synt indique le pourcentage de valeurs syntagmatiques qui ont t trouv es la colonne Para le pourcentage de valeurs paradigmatiques et la colonne Para reg le pourcentage de valeurs de FL paradigmatiques dont le r gime comprend g n ralement le mot cl OLST Col Synt Para Para Total f Synt Para Para Total reg reg ACCUSERI 1 42 86 23 08 30 57 14 30 77 40 ACCUSERT 2 66 67 6 25 15 79 f 66 67 18 75 26 32 ACCUSERT 3 100 0 66 67 100 0 66 67 ACCUSERII 18 18 18 18 45 45 45 45 ADMIRATION 52 17 0 0 41 38 f 58 70 9 09 0 46 55 AMII 1 100 60 85 71 f 94 44 70 85 71 AMIT 2 100 57 14 0 55 56 100 57 14 0 55 56 AMII 3 100 70 76 92 100 60 69 23 AMIII 80 53 33 60 80 66 67 70 ANCRE 29 41 0 0 22 73 29 41 0 22 73 APPLAUDIRI 85 71 30 77 50 f 85 71 30 77 50 APPLAUDIRII 0 0 0 0 0 APPLAUDISSEMENTS 56 25 26 67 100 45 83 f 56 25 40 100 52 08 AVERSION 22 58 8 33 18 60 f 35 48 8 33 27 91 BAGAGEI 1 45 45 28 57 100 40 54 f 45 45 28 57 100 40 54 BAGAGEI 2 16 67 23 08 0 20 33 33 23 08 0 25 BAGAGEII 29 17 7 69 0 21 05
63. naturelle g n ralement dans la langue de son mot cl Voici en 18 a quelques exemples de FL non standards paradigmatiques et en 18 b quelques exemples de FL non standards syntagmatiques tir s du DiCo 18 Pi ce d habillement que porte en cour CAVOCAT 1 pitoge robe toge qui indique que X est mari BAGUE alliance anneau nuptial anneau de mariage Vendu en poudre tr s fine SuCREa glace Qui explose l impact BALLEII dum dum explosive 1 3 Pr sentation du DiCo comme base notre recherche 1 3 1 Introduction au DiCo Le DiCo est une base de donn es lexicale du fran ais d velopp e l OLST sous la direction de Igor Mel uk et Alain Polgu re Comme nous l avons vu pr c demment cette ressource a pour base th orique la LEC et elle se distingue du DEC en ceci qu il ne contient pas proprement parler de d finitions Chaque fiche du DiCo fournit la forme propositionnelle de sa 19 lexie vedette ainsi que son tiquette s mantique mais l int r t principal du DiCo r side dans l encodage des liens paradigmatiques et syntagmatiques contr l s par chacune de ces lexies vedettes Aussi contrairement au DEC le DiCo est enti rement formalis dans la perspective du traitement automatique Son formalisme simplifi permet la production automatique et semi automatique de produits lexicographiques d riv s tels le LAF Mel uk Polgu re 2007 et le DiCoPop http olst ling
64. ne pas laisser se manifester NonPermiManif cacher dissimuler ART BAGAGE BAGAGEI 1 QSyn fam barda Cf attirail quipement Type de S1 voyageur Nom pour Y QS2 QSing bagage I 2 X qui n a pas de NonA1 sans s Volumineux Magn gros ant pos imposants volumineux lourds Volumineux et difficiles transporter AntiBon Magn embarrassants encombrants Peu volumineux AntiMagn petits modestes ant pos l gers Peu volumineux et tout juste suffisants AntiBon AntiMagn maigres ant pos Qqch contenu dans Loc in dans ART s 2 X avoir Oper1 avoir emporter porter transporter ART s Est ce que vous transportez beaucoup de bagages Monsieur Labor12 avoir transporter N Y dans A poss X s J ai un v lo de randonn e dans mes bagages X pr parer Caus1Func faire pr parer A poss X s Fait de pr parer SOCaus1iFunc pr paration de ART X finir de pr parer PerfCaus1Func boucler finir terminer A poss X s Il faut que j aille boucler finir terminer mes bagages 13 X d faire LiquiFunc d faire A poss X s Qqn mettre dans un moyen de transport charger placer ART Loc in N SOL Qqn mettre dans un moyen de transport chargement de ART CQqn retier d un moyen de transport d charger de ART SO Qqn retier d un moyen de transport d
65. pos lt majeure postpos norme effroyable pouvantable gt pire ant pos Qui est un accident impliquant un avion a rienne postpos Qui est un accident impliquant un train ferroviaire postpos Qui est un accident impliquant un vaisseau maritime postpos Qui est caus par un accident dans une usine industrielle Qui est caus e par une explosion nucl aire nucl aire postpos Qui est un accident ayant caus des morts meurtri re postpos Provoqu e par des forces naturelles naturelle postpos Qui affecte le climat climatique postpos Qui provoque un bouleversement important de l environnement cologique environnementalel postpos Qui est caract ris e par la famine alimentaire postpos Qui affecte l conomie conomique financi re postpos Qui affecte un pays en entier nationale postpos Qui affecte toute la plan te plan taire postpos Qui implique des installations technologiques technologique postpos Qui met la vie de nombreux individus en danger humaine humanitaire postpos Qui cause un grand danger la sant publique sanitaire X tre victime de Oper1 affronter endurer subir ART 2 X tre sur le point d tre victime de Prox0Oper1 appr hender craindre friser fr ler risquer la une 21 IncepProx0Oper1 s acheminer vers ART lt courir la X causer qu il ne subit pas Caus1iNon0Oprer1 viter ART X q
66. pour au moins une des lexies du vocable on l indique dans cette colonne 51 Nous avons class ici les cooccurrents en trois cat gories selon qu ils soient d j encod s dans le DiCo Di Co qu ils repr sentent une valeur de FL possible VFLP ou qu ils soient non pertinents au point de vue de la description lexicographique du vocable cible X Nous avons apport une pr cision aux valeurs de cette derni re cat gorie qui pr sentent des traits r currents Nous avons indiqu les formes qui sont des manifestations du r gime des lexies choisies Nous avons pr cis s il s agissait de pr positions r gies par le mot cl X Reg prep de noms propres X NP ou d un mot outils comme les conjonctions X Conj les d terminants X Det et les pronoms X Pron La colonne suivante Erreurs sert signaler la pr sence d erreurs dans la ligne La valeur 1 correspond la pr sence d une erreur dans la ligne alors que la valeur indique l absence de toute erreur Nous avons relev deux types d erreurs dans nos listes les erreurs d tiquetage et les erreurs de segmentation Les erreurs d tiquetage sont caract ris es par l attribution fautive d une partie du discours donn e une forme Par exemple dans la liste de cooccurrents extraite POLST pour le vocable ADMIRATION les noms propres Lionel et Pedro ont t tiquet s comme des adjectifs Il s agit d un cas classique d err
67. qu il n y ait plus LiquFuncO radiquer ART Fait d essayer de causer que n ait pas lien S0essayerCausNonFunc pr vention de ART Nom pour individu qui r soud QS1Real 1 I d tective gendarme flic pr parer l accusation de X PreparReal II soup onner suspecter N X de ART trouver X de Real 1 IIl accuser N X de ART attribuer ART N X X qui fait face la justice pour avoir fait A1Real II accus ad j Fait de juger X pour SOReal 1 III accusation 1 punir X pour Real 1 III juger N X pour ART condamner inculper N X pour ART Nom pour X qui est jug pour S2Reall 1 III accus n Fait pour X de ne pas tre puni SOAntiReal III impunit Nom pour punition de X SOReal 1 IIl ch timent peine Nom du travail de recherche X pour SOReal I enqu te Nom pour qui est l objet d une enqu te S2Real I affaire Moyen utilis lors d une enqu te pour SMedReal I preuve Fait de trouver X pour SO Real II lucidation de ART Fait de juger X pour SOReal III condamnation inculpation de N X pour ART X qui est jug pour A1Real III accus Qui n a pas t puni AQAntiReal III impuni Lieu o X est jug pour SLocReal III proc s tribunal Qui peut tre puni de la fa on passible punissable de N X dire qu il n
68. s De grande taille Magn grand gros norme immense De petite taille AntiMagn petit Nombreux Qui vit dans les lacs et les cours d eau d eau douce Qui vit dans la mer de mer marin postpos Qui a une certaine brillance argent postpos Qui a des excroissances sous la bouche qui s apparrentent une barbiche barbu postpos Qui se d place vers un autre plan d eau l hiver migrateur postpos Qui vit dans dans les mers chaudes exotique tropical postpos se d place Fact0 nager se d place contre courant dans le cours d eau contre courant Fact remonter N Qqn 1 faire l activit consistant attraper p cher N N est une esp ce de Qqn attraper trop de pour une activit commerciale AntiBonMagn quant Qqn 1l faire l activit consistant attraper surexploiter ART s Fait d attraper trop de pour une activit commerciale SOAntiBonMagn quant Qqn faire l activit consistant attraper surexploitation de ART 38 Nom pour l activit consistant attraper S0 Qqn faire l activit consistant attraper p che Individu qui fait l activit consistant attraper S1 Qqn faire l activit consistant attraper p cheur Endroit o l on fait l activit consistant attraper QSloc Qqn l faire l activit consistant attraper p cherie Professionnel
69. se basent uniquement sur un travail de comparaison entre le contenu du DiCo et le contenu de listes de cooccurrents tir s du corpus Le Monde 2002 Comme nous l avons mentionn en II 2 le vocabulaire d un corpus enti rement journalistique est assez homog ne et de nombreux vocables qu il serait souhaitable de d crire dans un dictionnaire tel que le DiCo n y sont pas repr sent s de fa on satisfaisante Nous en avons fait ici l exp rience avec les vocables ANCRE et AVERSION pour lesquels les listes de cooccurrents tir s du corpus Le Monde 2002 contenaient un nombre insuffisant de donn es Une diversification des corpus disponibles serait donc n cessaire l application de nos recommandations l ensemble des fiches du DiCo et une certaine uniformisation de l apport des listes de cooccurrents aux fiches des vocables choisis Nous sugg rons de conduire de nouvelles comparaisons bidirectionnelles utilisant d autres types de corpus afin d en valuer la performance dans la cr ation de fiches DiCo L application de nos recommandations pr suppose finalement le d veloppement POLST d une expertise dans le domaine de l extraction des donn es sur corpus afin de limiter le nombre d erreurs et de rendre la consultation des listes de cooccurrents plus efficace Bibliographie BENSON M 1989 The Structure of the Collocational Dictionary dans nternational Journal of Lexicography p 1 14 BLUMENTHA
70. son irritation il a prononc des paroles qu il regrette Oper12 prouver ressentir ART Pr p contre N Y Oper21 causer produire provoquer susciter ART Loc in N X nerver irriter vulg _faire chier_ N X _taper sur les nerfs_ de N X plusieurs X Magn Func1 _ tre son comble_ Loc in N X Chez les r sidents du quartier l irritation tait son comble IncepFunc na tre IncepFunc1 gagner N X ContFunc 1 persister Loc in N X1 IncepReal1 c der l AntiReal1 dominer ma triser ART PermiManif _laisser para tre_ _la isser voir_ manifester montrer _ne pas cacher_ ART NonPermiManif cacher dissimuler ART IRRITATIONII 1 QSyn inflammation sp c ryth me rougeur 56 QSres irritation Il 2 A2 irrit Able2 irritable une peau irritable Able3 irritant pour N Y un produit irritant pour les yeux Magn taille grosse ant pos importante IncepPredPlus taille s tendre AntiMagn taille petite ant pos discr te l g re IncepPredMinus taille diminuer Magn cons quence grave s rieuse douloureuse Oper12 avoir sp c pr senter ART Loc in N Y Oper2 tre atteint d pr senter ART Oper3 causer entra ner provoquer ART irriter N Y IncepFunc2 appara tre se manifester Loc in N Y FinFuncQ0 dispara tre se gu rir se r sorber A1Result
71. tre qualifi e de qualitative puisqu elle fait peu appel la notion de fr quence des cooccurrences Elle vise plut t r pertorier pour chaque lexie vedette l ensemble des collocatifs utilis s sp cifiquement pour exprimer des sens exprim s typiquement de fa on idiomatique Le concept de fonction lexicale repose sur l hypoth se que les cas de cooccurrence lexicale restreinte se rencontrent le plus souvent avec un nombre fort r duit de sens sp cifiques tr s abstraits et g n raux Me uk 1997 La LEC reprend la th orie de Hausmann voulant qu une collocation soit form e d une base qui conserve son sens entier et qui est choisie librement par le locuteur et d un collocatif qui est choisi en fonction de la base pour exprimer le sens voulu Par exemple supposons qu un locuteur du fran ais veuille parler d un soldat au point de vue de son armement qui est tr s imposant S il choisit d utiliser la base arm il sera contraint d utiliser un des collocatifs admis en fran ais appropri pour exprimer le sens beaucoup par exemple 2 Ce soldat est arm jusqu aux dents Si ce m me locuteur veut plut t parler de l quipement tr s labor d un soldat il pourrait choisir la base quip et il devra encore une fois choisir parmi les collocatifs admis en fran ais pour exprimer le sens beaucoup 3 Ce soldat est bien quip Il vitera par contre
72. umontreal ca DiCopop ainsi que des syst mes de traitement automatique de la langue Le LAF est un manuel de lexicographie divis en deux parties distinctes la premi re partie th orique contient entre autres une introduction la LEC et au m talangage utilis dans sa deuxi me partie qui consiste en un dictionnaire de d rivations s mantiques et collocations tir du DiCo Contrairement au DiCo le LAF est r dig dans un format accessible l utilisateur lambda Son public cible est constitu d enseignants en langue et son objectif est double La section th orique du LAF fournit des recommandations en mati re d enseignement du lexique fran ais alors que sa section dictionnaire contient des donn es lexicales int grer dans cet enseignement La section dictionnaire du LAF fournit une description vulgaris e des d rivations s mantiques et des collocations de ses lexies vedettes La section dictionnaire du LAF ne contient aucune information qui ne soit pas tir e du DiCo Un travail de reformatage et de simplification permet le passage des fiches DiCo tr s formelles aux fiches plus accessibles du LAF Polgu re 2007 Le DiCoPop est en quelque sorte un LAF virtuel Comme le LAF il est enti rement d riv du DiCo Par contre contrairement au LAF ses donn es en sont extraites de fa on compl tement automatique sans intervention d un lexicographe De plus le DiCoPop n est pas destin faire l objet
73. vers ART lt courir la Func0 arriver _avoir lieu_ se produire survenir Func1 s abattre sur N X qqn CausFunc provoquer ART pr cipiter ART aqch CausFunc entra ner provoquer ART r sulter en une pr cipiter ART CATASTROPHEIT 1 Syn fam cata QSyn d sastre drame A0 catastrophique Son retard est catastrophique il va manquer son avion Importante Magn grosse ant pos lt norme pouvantable X faire face Oper1 _faire face_ ART X tre sur le point de faire face ProxOper1 fr ler la une X qui est sur le point de faire face A1ProxOper1 _au bord_ de la X1 s approcher du point o il risque de faire face IncepProxOper1 s acheminer vers ART lt courir la 2 a lieu Func0 arriver _avoir lieu_ se produire survenir Func1 arriver N X Qqn causer aqn CausFunc provoquer ART pr cipiter ART Qqch causer 51 qqch CausFunc donner une Cette nouvelle l gislation a finalement donn une catastrophe entra ner provoquer ART r sulter en une pr cipiter ART Ce qu on dit en constatant C est une la LIndividu qui a l air d avoir constat catastroph CATASTROPHEII 2 QSyn cauchemar d sastre vulg de la merde chec A0 catastrophique Magn compl te
74. voir_ manifester montrer _ne pas cacher_ ART X ne pas laisser se manifester NonPermiManif cacher dissimuler ART IRRITATIONII 1 QSyn inflammation sp c ryth me rougeur Type de Y QS2 peau Sensation caus e par QSres irritation II 2 Y1 qui pr sente A2 irrit Y qui tend pr senter 34 Able2 irritable une peau irritable Z qui tend causer de Y Able3 irritant pour N Y un produit irritant pour les yeux Importante Magn taille grosse ant pos importante devient plus importante IncepPredPlus taille s tendre Peu importante AntiMagn taille petite ant pos discr te l g re devient moins importante IncepPredMinus taille diminuer Grave Magn cons quence grave s rieuse douloureuse X avoir Y Oper12 avoir sp c pr senter ART Loc in N Y Y1 pr senter Oper2 tre atteint d pr senter ART Z tre la cause de Oper3 causer entra ner provoquer ART irriter N Y appara t IncepFunc2 appara tre se manifester Loc in N Y dispara t FinFuncQ0 dispara tre se gu rir se r sorber Qqch qui est caus par A1Result sp c irritatif Un syndrome irritatif ne signifie pas forc ment que l on est en pr sence d une cystite aigu bact rienne Qqn ou qqch causer qu il n y ait pa
75. 0 44 44 75 0 66 67 GIFLEII 57 14 57 14 87 50 0 14 29 HONTEI 1 57 14 66 67 58 82 73 33 25 63 16 HONTEI 2 66 67 0 50 66 67 0 40 HONTEII E 0 0 IRRITATIONI 46 15 0 37 50 61 54 33 33 56 25 IRRITATIONII 1 100 100 50 50 IRRITATIONIT 2 50 50 25 100 40 PLAIET 71 43 71 43 73 33 100 75 PLAIEII 1 60 0 50 66 67 50 62 50 PLAIEII 2 0 0 0 100 50 POISSONI a 60 45 45 50 60 55 56 POISSONI b 50 0 25 100 75 80 POISSONII E Total 53 85 33 33 50 89 58 53 50 63 56 77 Table 14 Le pourcentage de valeurs trouv es du DiCo dont le log likelihood est sup rieur 10 83 90 91 tant donn les variations dans les r sultats il semble que l tablissement d une valeur de log likelihood limite qui engloberait pour chaque liste assez de valeurs pertinentes et assez peu de valeurs non pertinentes ne soit pas possible Il est ind niable que les CSS repr sentent une source importante de collocation et leur consultation pour chaque liste est indiqu e Nous constatons par contre qu un nombre trop important de donn es pertinentes est ignor e en se limitant la consultation des CSS Nous sugg rons donc aux lexicographes du DiCo de syst matiquement consulter l ensemble des CSS pour chaque liste de cooccurrents et de continuer avec les donn es dont la valeur de log likelihood est inf rieu
76. 491 1344 BATEAU 1553 5572 1947 8690 CATASTROPHE 1044 4524 1361 6011 CRIME 1825 12287 2132 13407 GIFLE 152 356 197 492 HONTE 574 1964 711 2518 IRRITATION 191 428 241 597 PLAIE 310 835 389 1103 POISSON 944 2768 1198 4175 Table 3 Le nombre de donn es par liste Nous pouvons constater que les listes de l Universit de Cologne poss dent un nombre plus important de donn es que les listes de POLST Globalement les listes de l Universit de Cologne regroupent 32 89 plus de cooccurrents que les listes de POLST et 18 53 plus de cooccurrents diff rents Ces carts sont tr s surprenants tant donn que le m me corpus a t 62 utilis dans les deux cas Puisque le nombre total de cooccurrents devrait en th orie tre un indicateur du nombre d occurrences du mot cl l int rieur du corpus et puisque chaque occurrence du mot cl devrait en principe g n rer 6 cooccurrents soit 3 gauche et 3 droite il est tr s tonnant que 32 89 plus d occurrences du mot cl aient t relev es Cologne Nous pouvons en partie expliquer cet cart par un probl me au niveau de l tiquetage puisque les lemmes inconnus auxquels l tiqueteur n est pas parvenu assigner de partie du discours pour une raison ou une autre ont t exclus des listes La pr sence d un nombre important d erreurs d tiquetage et de lemmatisation l int rieur des listes de cooccurrents de OLST est coh rente avec c
77. ART Trace laiss e sur la peau par ancienne balafre cicatrice PLAIEII 1 QSyn blessure peine I 1 Cf abc s II Magn vive postpos profonde IncepPredMinus se cicatriser se fermer se refermer Caus2Func causer ouvrir ART CausDe_nouveauFunc rouvrir raviver ART LiquFunc cicatriser fermer ART S quelle de cicatrice marque PLAIEII 2 QSyn catastrophe I d sastre fl au 0per1 constituer tre une pour N Y POISSON POISSONT a Syn sp c ichty sp c ichtyo pisci QSyn fam poiscaille Hypo anchois anguille brochet carpe colin espadon hareng lieu limande loup maquereau morue perche poisson chat _poisson rouge_ poisson scie _poisson volant_ requin sardine saumon sole truite turbot Mult usuel d f sing Le poisson est rare ici Mult actuel banc de s Qui vit dans les lacs et les cours d eau d eau douce Qui vit dans la mer de mer marin postpos LQqn faire l activit consistant attraper f p cher N N est une esp ce de SOf p che S1f p cheur professionnel S1f marin p cheur Qqn attraper attraper p cher prendre ART 58 Nom pour l ensemble des que N a attrap s p che de N IL va au march pour vendre sa p che Qqn pr parer pour le consommer nettoyer ART Je vous le nettoie votre poisson cailler
78. ART t ter ART ouvrir ART pour ouvrir le ventre vider LART pour enlever les entrailles levage de pisciculture tendue Cours d eau o il y a beaucoup de poissonneux l ment du corps de barbe barbillon bouche museau ou es t te cailles nageoire queue R servoir dans lequel on garde aquarium bocal Science qui tudie ichtyologie POISSONI b QSyn chair de poisson I a mar e l autre bout du march on trouve le secteur de la mar e Cf _fruit de mer_ Contr viande Bon Ver frais postpos AntiBon AntiVer avari pourri postpos puant ant pos Portion de darne tranche de CART filet de CART Magasin o l on vend lt Activit commerciale de vente de gt poissonnerie Personne qui vend marchand de poissonnier Restaurant qui sert surtout restaurant de s Plat pr par avec bouillabaisse brandade de morue soupe de sashimi sushi POISSONII signe III du Gener signe III astrologique signe III zodiacal signe III du zodiaque 0per1 tre Cun Ldu n sous le signe du Informations encyclop diques P riode de l ann e correspondant au signe du 19 f vrier au 20 mars Positionnement de dans la liste des signes du zodiaque 12e position
79. Fait pour de se terminer SOFinFunc fin sont mis pour Y Z Func2 3 accueillir saluer N Y Z Des applaudissements ont accueilli salu l orateur lt son entr e dans la salle gt Qqn faire cesser LiquFunc touffer faire cesser ART AVERSION QSyn d testation haine r pugnance 1 r pulsion Il d go t horreur antipathie Cf misanthropie Gener sentiment d QAnti amour attirance attrait go t III passion d sir 2 X qui prouve A1 en contre N X X faire qqch du fait son Propt par pit v ritable vraie postpos Intense Magn grande ant pos profonde violente vive lt totale insurmontable irr pressible immod r e postpos excessive Qu on ne peut pas s emp cher d prouver spontan e postpos incontr lable instinctive visc rale irraisonn e postpos 2 X prouver Oper12 avoir concevoir prouver nourrir ressentir ART Pr p envers N Y Labor12 avoir tenir N Y en 2 X commencer prouver 12 IncepOper12 se prendre d pour N Y IncepLabor12 prendre N Y en Y tre l objet de Oper21 causer inspirer ART N X susciter provoquer ART chez N X X ne pas se laisser influencer par NonPermiFact contr ler surmonter vaincre ART X laisser se manifester PermiManif afficher manifester montrer ART Pr p envers N Y X
80. I ARBATCHEWSKY JUMARIE N DAGENAIS L ELNITSKY L IORDANSKAJA L LEFEBVRE M N MANTHA S 1988 Dictionnaire explicatif et combinatoire du fran ais contemporain Recherches lexico s mantiques I Montr al Les Presses de l Universit de Montr al 332 p ME UK I ARBATCHEWSKY JUMARIE N IORDANSKAJA L MANTHA S 1992 Dictionnaire explicatif et combinatoire du fran ais contemporain Recherches lexico s mantiques II Montr al Les Presses de l Universit de Montr al 323 p ME UK I ARBATCHEWSKY JUMARIE N IORDANSKAJA L MANTHA S POLGU RE A 1999 Dictionnaire explicatif et combinatoire du fran ais contemporain Recherches lexico s mantiques IV Montr al Les Presses de l Universit de Montr al 347 p ME UK I CLAS A ET POLGU RE A 1995 Introduction la lexicologie explicative et combinatoire Louvain la Neuve Duculot 1995 256 pages ME UK L ZHOLKOVSKY A Explanatory Combinatorial Dictionnary of Modern Russian Vienna Wiener Slawistischer Almanach 1984 992 pp MooD A GRAYBILL F A BOES D C 1974 Introduction to the Theory of Statistics McGraw Hill Series in Probability and Statistics 480 p ORLIAC B 2004 Automatisation du rep rage et de l encodage des collocations en langue de sp cialit Th se de doctorat pr sent l Universit de Montr al Montr al PEDERSEN T BANERJEE S 2003 The Design Implementation and Use of the Ngra
81. L P 2004 Le Dictionnaire des collocations un simple dictionnaire d exemples dans L exemple lexicographique dans les dictionnaires fran ais contemporains Actes des Premi res journ es allemandes des dictionnaires Kligenberg am Main 25 27 juin 2004 FIRTTH J R 1957 Modes of Meaning dans Papers in linguistics 1934 1951 London Oxford University Press pp 190 215 JOUSSE A L POLGU RE A ET TREMBLAY O 2008 Du dictionnaire au site lexical pour l enseignement apprentissage du vocabulaire dans Lexique et production verbale Vers une meilleure int gration des apprentissages lexicaux coll ducation et didactiques Villeneuve d Ascq Presses Universitaires du Septentrion p 141 157 MANNING C D SCH TZE H 2000 Foundations of Statistical Natural Language Processing Cambridge MA MIT Press 680 p ME UK I 1997 Vers une linguistique Sens Texte Le on inaugurale Paris Coll ge de France 78 p ME UK I 2008 Phras ologie dans la langue et dans le dictionnaire dans Rep res amp Applications VD Journ es P dagogiques sur l Enseignement du Fran ais en Espagne Barcelone 3 5 septembre 2007 ME UK I ARBATCHEWSKY JUMARIE N ELNITSKY L IDORDANSKAIJA L LESSARD A 1984 Dictionnaire explicatif et combinatoire du fran ais contemporain Recherches lexico s mantiques I Montr al Les Presses de l Universit de Montr al 172 p ME UK
82. LET ode de paiement D aant de banque f monnaie sous Figure 5 Extrait de la fiche DiCo de la lexie BILLET1 en statut 3 nent TT SAR AANA NAACEACEAR AONAN NOAOA NASSAB EANNAN EAEAN EO NOONA ANONAI SANNAA EAR EAR EOCO NOANA aa saasaa ta tantata eANt fl presenter CA poss Figure 6 Extrait de la fiche DiCo de la lexie BILLET2 en statut 3 28 29 La figure 4 pr sente la nomenclature de la fiche Nous pouvons voir que le lexicographe a trouv 2 lexies du vocable BILLET et a cr une fiche correspondant chacune de ces lexies Dans les figures 5 et 6 on voit qu il a commenc remplir les fiches de fa on tr s sommaire Il a indiqu quelques lexies paradigmatiques li es BILLETI et un cooccurrent qui n a pas t encod formellement Une lexie li e paradigmatiquement BILLET2 a t indiqu e sans y tre encod e de fa on formelle Quelques cooccurrents qui n ont pas non plus t encod s formellement ont t relev s Suite ce travail approximatif le lexicographe consultera des corpus de textes dans trois buts valider sa division pr liminaire du vocable et rep rer les acceptions ayant t omises d couvrir quelques valeurs de fonctions lexicales suppl mentaires et trouver les phrases exemples qui seront encod es dans le champ ex de chacune des fiches du vocable Il peut ensuite consulter un dictionnaire de langue usuel qui constitue aussi un type de corpus encore une foi
83. Nom pour Z S3 crime l a d lit m fait faute I 1a X qui Y A1 accusateur adj des documents accusateurs ADMIRATION QSyn merveillement lt adoration a enthousiasme ravissement QAnti aversion m pris VO admirer I N Y pour N Z QS1 admirateur de N Y Z S2 objet de CART S3 objet de CART source d A1 en admiratif lt plein rempli soulev transport de CART Adv1 avec Able2 3 digne de CART admirable PredAble3 porter L1 Adv Able3 admirablement Il s en est sorti admirablement Adv2 1 de N X Magn beaucoup d grande vive ant pos profonde lt folle ant pos immense lt absolue postpos _la plus compl te _sans bornes_ _sans r serve_ adoration a ind fectible AntiBon Magn aveugle b ate immod r e postpos PredMagn _ne pas conna tre de bornes_ IncepPredPlus grandir Magn1i quant g n rale universelle postpos Oper12 avoir prouver ressentir ART envers pour N Y Litt concevoir ART pour N Y vouer ART N Y tre en devant N Y nourrir ART envers pour N Y Oper13 avoir litt concevoir prouver ressentir LART pour N 7Z tre en devant N Z Magn O0per12 3 se p mer d devant N Y 7 IncepOper12 3 tomber en devant N Y 7 Magn IncepOper1 tre soulev tre frapp de CART Oper2 faire l de
84. Universit de Montr al valuation de deux m thodes d identification des liens lexicaux m thode manuelle et m thode statistique Par Caroline Poudrier D partement de Linguistique et Traduction Facult des Arts et des Sciences M moire pr sent e la Facult des tudes Sup rieures en vue de l obtention du grade de M A en linguistique Mai 2010 Caroline Poudrier 2010 Universit de Montr al Facult des Etudes Sup rieures M moire intitul valuation de deux m thodes d identifications des liens lexicaux m thode manuelle et m thode statistique Pr sent par Caroline Poudrier A t valu par un jury compos des personnes suivantes Richard Patry pr sident rapporteur Alain Polgu re directeur de recherche Patrick Drouin co directeur Nathan M nard membre du jury R SUM Ce m moire pr sente une valuation des diff rentes m thodes utilis es en lexicographie afin d identifier les liens lexicaux dans les dictionnaires o sont r pertori es des collocations Nous avons ici compar le contenu de fiches du DiCo un dictionnaire de d riv s s mantiques et de collocations cr selon les principes de la lexicologie explicative et combinatoire avec les listes de cooccurrents g n r es automatiquement partir du corpus Le Monde 2002 Notre objectif est ici de proposer des am liorations m thodologiques la cr ation de fiches de dictionnaire du type du DiCo c es
85. _coquille de noix_ Mauvais AntiBon mauvais ant pos lt poubelle apposition rafiot Qui transporte trop de marchandise AntiBonMagn2 quant surcharg postpos Qui se d place gr ce N Qui FactQ gr ce N N moteur rames vapeur voile Qui sert la p che de p che Qui sert faire des croisi res de croisi re Qui a un usage non commercial de plaisance Qui sert transporter Y d un c t l autre de l Atlantique transatlantique adj transatlantique n Qui sert observer les ph nom nes m t orologiques en mer m t o postpos 16 Qui est utilis pour la recherche scientifique en mer oc anographique postpos Qui est utilis pour la r colte du go mon go monier Qui peut aussi tre utilis sur la terre amphibie Constitu d un l ment gonflable pneumatique Zodiac Qui n a qu une coque monocoque adj postpos monocoque n Qui a plusieurs coques multicoque postpos multicoque n Qui est utilis par des pirates pirate ad j Qui poss de un moteur moteur Qui fonctionne l lectricit lectrique Qui a une fonction militaire de guerre postpos Qui appartient une flotte ennemie dans un conflit arm ennemi postpos Qui est utilis en combat contre des avions militaires antia rien postpos Qui sert d miner antimines postpos Qui sert l espionnage espion apposition Dont X est disparu fant
86. a pas fait communiquer_Anti0Oper1 k nier ART ne pas punir X pour AntiReal 1 III absoudre Laver N X de ART 26 X dire qu il est responsable de communiquer_Oper1 avouer confesser reconna tre ART X dire qu il est responsable d un que X juge bon Boncommuniquer_Oper1 revendiquer ART X causer qu il soit clair que le responsable de est X Caus1ManifOper1 signer ART X causer que ne soit pas apparent CausNonManif cacher camoufler dissimuler ART Qqn dire que X est responsable de communiquer Oper1 d noncer X N pour ART Fait pour quelqu un d autre que X de dire que X est coupable de SOcommuniquer _Oper1 d nonciation Individu qui assiste t moin de ART Service de police qui s occupe de S1Real I II brigade criminelle adj I 1 Science qui tudie ce qui rapport criminologie Activit consistant commettre le IL faut aussi lutter contre le crime en milieu rural Environnement social dans lequel sont men es les activit s li es le milieu _monde du _ p gre Organisation qui m ne des activit s li es _ organis _ mafia _syndicat du _ Qqch que l on trouve sur le lieu de et qui peut permettre d identifier X indice 1 SO X agir pour compenser pour aupr s de Y r paration de ART ch causer que X n a plus assumer la responsabilit de X Lav
87. a pr sence de l ensemble des membres d un phras me l int rieur de la liste de cooccurrents ne garantit pas que ceux ci se sont trouv s rassembl s sous Le taux de pertinence n est pas sans rappeler la notion de pr cision couramment utilis e dans l valuation de la performance de syst me de recherche d information alors que le taux de rep rage s apparente la notion de rappel 55 la forme du phras me vis l int rieur du corpus puisqu il est possible que chaque lemme constituant un collocatif multilex mique se soit trouv en cooccurrence avec le mot cl diff rents endroits dans le corpus Bien que nous ayons exclu les valeurs de FL multilex miques de notre calcul final nous avons choisi de noter les formes constituant des valeurs multilex miques comme tant utiles l encodage des fiches DiCo lorsque nous avons pr c demment valu la pertinence des donn es contenues dans les listes statistiques 11 6 Cr ation de fiches DiCo modifi es 11 6 1 Les fiches DiCo augment es Pour chaque lexie tudi e nous avons produit une fiche augment e de celle ci Elle est cr e manuellement partir de chaque fiche DiCo originale et des suggestions d ajouts de valeurs qui ont t faites pour chacune d entre elles L utilisation du gras y indique l ajout d une valeur Le gras seul indique que la valeur ajout e a t relev e dans les deux corpus interrog s le gras italiqu
88. agn g miri 1 doucement faiblement Une configuration de FL est constitu e d une suite de FL qui ne sont pas li es syntaxiquement bien que partageant le m me mot cl La ou les valeurs encod es par une configuration de FL engloberont le sens de ces deux FL Voici des exemples de configurations de FL tir s du DiCo 17 17 a Magn Fact1i ANGOISSE consumer d vorer paralyser ronger tarauder torturer _nouer l estomac_ Que l on peut lire comme une angoisse intense Magn r alise son objectif inh rent Factl1 chez la personne qui la vit b AntiBon MagnCADMIRATION aveugle b ate immod r e Que l on peut lire comme une admiration qui n est pas bonne Ant1Bon et qui est intense Magn 1 2 3 5 Les fonctions lexicales non standards La soixantaine de FL standards simples et leurs combinaisons suffisent d crire l immense majorit des liens lexicaux de la langue Par exemple 82 08 des liens lexicaux du DiCo sont en effet encod s par des FL standards Il subsiste par contre un noyau de liens lexicaux qui ne peut tre d crit par des FL standards Ces liens sont grossi rement du m me type que les FL standards mais ne peuvent tre consid r s comme tels soit parce que leurs sens sont trop riches et non g n ralis s ou parce qu ils ne correspondent qu un nombre tr s limit de valeurs Ils doivent donc tre encod s par un formalisme qui leur est propre les FL non
89. aleurs En voici quelques exemples tir s du DiCo illustrant les diff rences s mantiques et syntaxiques entre ces deux groupes de FL 7 Oper1CBON SENS avoir poss der du Real1iCBON SENS _faire preuve _ _faire montre_ de manifester montrer du Func1 FRAYEUR prendre saisir N X Fact1i FRAYEUR aveugler paralyser rendre muet N X Labor21 EXCuSEI avoir N X comme Labreal21 CEXCUSEI donner _faire valoir_ invoquer brandir saisir N X comme pour all guer que PROP X Ici dans le r gime X correspond au premier actant du mot cl et au second actant N signifie syntagme nominal et Prop signifie proposition Les FL du troisi me sous groupe Incep Cont et Fin encodent les verbes phasiques qui correspondent chacun une phase d un tat ou d un v nement le d but la continuit et la 12 fin Finalement les FL du dernier groupe Caus Perm et Liqu encodent des verbes causatifs qui signifient respectivement causer permettre et terminer Les FL des troisi me et quatri me groupes ont une forme propositionnelle tr s basique qui ne permet pas elle seule d encoder l ensemble des valeurs possibles qui en expriment le sens Elles doivent donc tre utilis es en combinaison avec les FL des deux premiers groupes comme on peut le voir dans les exemples suivants 8 IncepFunc1CENTHOUSIASMEL gagner N X saisir N X s
90. ante sanguinolente devient plus large IncepPredPlus s largir s ouvrir s infecter IncepPredAntiBon _gangrener s infecter devient plus petite ou cesse d exister IncepPredMinus FinFunc se cicatriser se fermer se refermer Qqch causer CausFunc causer faire ouvrir provoquer produire ART se blesser Instrument l aide duquel qqn peut causer QSInstrCausFunc couteau Qqch causer que r appara isse CausDe_nouveauFunc rouvrir raviver ART Qqn causer que empire CausPlusPred aviver ART Qqn gu rir individu LiquFunc gu rir soigner ART 36 Qqn causer que se gu risse aqch LiquFunc cicatriser fermer ART Qqn s occuper de essayer de LiquFunc bassiner ART caut riser d sinfecter LART laver nettoyer rincer ART couvrir panser ART soigner ART sonder ART suturer recoudre ART dont on s est occup e A9 essayer de LinquFunc sut r e postpos Ce qui est utilis pour s occuper de SmedEssayerde_LiquFunc cataplasme suturation qui commence contenir du pus Bords de bords l vres pourtour de ART Trace laiss e sur la peau par ancienne balafre cicatrice Mesure de la gravit de rofondeur PLAIEII 1 QSyn blessure peine I 1 Cf abc s II Telle qu elle doit tre Ver douloureuse Grave Magn viv
91. ateur Transport effectu par transport maritime Entreprise faisant du transport par compagnie de navigation compagnie maritime soci t maritime Endroit o l on construit _chantier naval_ Endroit o l on r pare _cale s che_ L qui est en train d tre r par en cale s che Accident dans le fonctionnement de AntiVerFact AntiBonFact d river partir la d rive FinAbleiFact s chouer sur N S FinAble1Fact chouage sur N Caus1FinAble1Fact chouer ART sur N LiquFinAblelFact _remettre flot_ renflouer ART FinFunc couler faire naufrage sombrer S FinFunc naufrage IncepFinFunc _prendre 1 eau_ Ce qui reste de apr s f7 pave CausFinAble1Fact couler _envoyer par le fond_ faire sombrer ART 50 CATASTROPHE CATASTROPHE I QSyn calamit d sastre drame cataclysme sinistre fl au A0 catastrophique S1 victime de ART Magn grosse ant pos lt majeure postpos norme pouvantable Qui est un accident impliquant un avion a rienne postpos Qui est un accident impliquant un train ferroviaire postpos Qui est un accident impliquant un vaisseau maritime postpos Qui est un accident ayant caus des morts meurtri re postpos Provoqu e par des forces naturelles naturelle postpos ProxOper1 fr ler la une A1ProxOper1 _au bord_ de la IncepProx0Oper1 s acheminer
92. che de la lexie MORCEAUI la qui est la lexie de base du vocable MORCEAU et qui d signe une partie alors que les phras mes MORCEAUX CHOISIS et MORCEAU D ANTHOLOGIE se retrouvent dans la fiche de la lexie MORCEAUIIL 1 qui d signe une cr ation Finalement les champs aut ou auteur et date indiquent les initiales du dernier lexicographe avoir modifi la fiche et la date de cette modification 27 1 3 3 M thodologie actuelle de cr ation d une fiche DiCo La constitution d une entr e de DiCo commence par une tape de d grossissage cette tape au moins un lexicographe travaille d terminer le nombre d acceptions du vocable vedette ce stade il interroge principalement ses intuitions de locuteur Pour chaque acception postul e il doit cr er une fiche FileMaker Pro qui sera encod e tr s sommairement On y postulera g n ralement une tiquette s mantique pour chaque lexie trouv e et on encodera les quelques synonymes et collocatifs les plus vidents Une premi re bauche de la forme propositionnelle de la lexie est aussi propos e Des notes sont aussi occasionnellement inscrites dans le champ rem Les figures 4 5 et 6 ci dessous constituent un exemple de la fiche DiCo du vocable BILLET son stade embryonnaire y BILLET 1 3 28 01 2818 L Non 13 53 03 mode de paiement y BILLET 2 3 28 01 2818 L Non 13 54 23 document Figure 4 Nomenclature de la fiche DiCo du vocable BIL
93. chesse combinatoire des vocables Comme il est pr visible que les listes de cooccurrents permettent principalement de trouver des valeurs de FL syntagmatiques puisque la relation entre les lexies se trouvant en cooccurrence dans une m me phrase est par d finition syntagmatique nous avons favoris ce type liens dans le choix de nos vocables Le vocable F LICITER par exemple n a pas t retenu pour cette recherche puisque seuls deux liens de FL syntagmatiques sont encod s dans sa fiche Nous avons aussi rejet les vocables li s tr s peu de valeurs tel que ABDICATION ABOIEMENT et CHIFFON qui ne sont li s qu une quinzaine de valeurs chacun Nous avons de plus cherch des vocables qui selon notre intuition se retrouveraient plausiblement dans un corpus de texte journalistique Nous avons donc exclu CHAT LOUP ONGLE ROBINET et bien d autres vocables selon ce crit re Par contre comme le choix des vocables s est fait avant le d but des exp rimentations nous avons malgr cette pr caution choisi des vocables qui se sont av r s tre sous repr sent s dans le corpus Le Monde 2002 Nous avons pr f r ne pas complexifier la donne en vitant de choisir des vocables poss dant des homonymes Nous avons donc choisi d ignorer les ensembles de vocables homonymiques tels que AVOCAT Vous tes en droit d exiger la pr sence de votre avocat et 2 AVOCAT Nous avons fait une salade d avocat et concombre
94. colonne OLST ou la liste de cooccurrents de l Universit de Cologne dans la colonne Col Nous pouvons constater que le nombre de valeurs exclusives l une ou l autre des listes est n gligeable et que les diff rences observ es pr c demment entre les corpus n affectent pas notre recherche de fa on d mesur e Lexie Para Synt Total OLST COL Total OLST COL ACCUSERT 1 Q Q Q 6 Q Q ACCUSERT 2 Q Q Q 4 Q Q ACCUSERT 3 Q Q Q Q Q Q ACCUSERII Q Q Q Q Q Q ADMIRATION 11 1 31 5 6 AMII 1 15 Q Q 22 1 Q AMIT 2 4 Q Q 10 Q Q AMII 3 Q Q Q 6 Q Q AMIIT Q Q Q Q Q Q ANCRE Q Q Q Q Q Q APPLAUDISSEMENTS 5 1 Q 16 1 2 APPLAUDIRI 4 Q 1 7 Q Q APPLAUDIRIT 1 1 Q Q Q Q AVERSION 3 Q Q 6 Q Q BAGAGEI 1 7 Q Q 6 Q Q BAGAGET 2 1 Q Q Q Q Q BAGAGEII Q Q Q 9 1 1 BATEAU 30 2 4 45 3 1 CATASTROPHE I 21 3 5 45 Q 3 CATASTROPHEIT 1 2 Q Q 9 Q 2 CATASTROPHEIIT 2 Q Q 5 Q 1 CRIMEI A 26 Q 4 91 Q 5 CRIMEI B 12 Q 2 32 Q Q CRIMEII 2 Q Q 3 Q Q GIFLEI 1 Q Q 6 Q Q GIFLEIT 2 Q Q 4 Q Q HONTET 1 2 Q 1 10 Q 7 HONTEI 2 1 Q 1 Q Q Q HONTEI I 1 Q Q Q Q Q IRRITATIONI 1 Q 1 Q Q Q IRRITATIONII 1 2 Q 2 6 Q Q IRRITATIONII 2 1 Q I 1 Q Q PLAIET 1 Q 1 1 Q Q PLAIEII 1 5 1 3 17 2 3 PLAIEII 2 Q Q Q 3 Q 1 POISSONI a 30 2 6 14 Q Q POISSONI b 12 Q 2 26 1 2 POISSONII Q Q Q Q Q Q Table 8 Type des valeurs
95. ct d part IncepFact _mettre le cap_ sur N arrive destination FinFact0 I arriver au port toucher Nom propre lt le port gt Le bateau a touch Marseille lt le port gt ce matin Nom pour le fait d arriver destination S FinFact I arriv e s immobilise au lieu N f5 FinFactQ II accoster _jeter l ancre_ mouiller Loc in N _faire escale_ Loc in N Fait pour de cesser temporairement de se d placer temporaire S FinFact II escale Lieu pour f5 SlocFinFact II port rade _base navale_ dock gare b fluviale gare b maritime garage hangar Construction servant f5 construction SlocFinFact II appontement d barcad re 19 embarcad re jet e quai wharf contient Y Fact2 transporter N Y X enlever Y de LiquiFunc2 d charger ART se positionne le long d un autre aborder N Qqn arr ter en mer pour en faire le contr le arraisonner ART oscille se balancer tanguer Enregistrement officiel de immatriculation Propri taire de qui en fait l exploitation commerciale armateur Transport effectu par transport maritime Entreprise faisant du transport par compagnie de navigation compagnie maritime soci t maritime Endroit o l on construit _chantier naval_ Endroit o l on r pare _cale s che_ qui est en train d tre r par en cale s che Accident dans le fon
96. ctionnement de chappe au contr le de X et va dans une mauvaise direction AntiVerFact AntiBonFact d river partir la d rive se retrouve bloqu sur N f6 FinAbleiFact s chouer sur N Nom pour f6 S FinAble1Fact chouage sur N X causer f6 Caus1FinAble1Fact chouer ART sur N Rem dier f6 LiquFinAblelFact _remettre flot_ renflouer ART coule f7 FinFunc couler faire naufrage sombrer Nom pour f7 S FinFunc naufrage se remplit d eau ce qui risque d entra ner f7 IncepFinFunc _prendre Ll eau_ Ce qui reste de apr s f7 pave Qqn Qqch causer f7 CausFinAble1Fact couler _envoyer par le fond_ faire sombrer ART se retourne sur lui m me chavirer Ce qui reste apr s la destruction de SResAntiBonFinFunc carcasse Fait pour de se d placer de la mauvaise fa on SOAntiVerFactQ d rive 20 CATASTROPHE CATASTROPHE I QSyn calamit d sastre drame cataclysme sinistre s isme fl au Gener v nement Ensemble de Mult multiplications de s s rie de s D but de Germ menace risque de A0 catastrophique Qui sont nombreuses AOMutl cons cutives Type de Hypo avalanche d luge pid mie explosion incendie inondation ouragan s cheresse Nom pour X S1 victime de ART De grande importance Magn grande grosse important ant
97. currents taient des valeurs d j pr sentes dans le DiCo Nous savons donc qu il y aura un recoupement entre les valeurs trouv es 92 sur les listes de cooccurrents et les valeurs trouv es l aide des outils utilis s actuellement Puisque ce recoupement est in vitable nous croyons qu il est pr f rable de rencontrer une premi re fois ces valeurs sans leur contexte et de noter spontan ment une liste de valeurs pouvant tre intuitivement consid r es comme pertinentes Ces impressions pourront ensuite tre valid es lors de la consultation manuelle des corpus Nous consid rons cette approche pr f rable la m thode inverse qui consisterait utiliser les listes de cooccurrents afin de valider les valeurs trouv es l aide des autres outils de recherche puisque la fr quence des cooccurrents ne constitue pas en soi la preuve de la pertinence d une valeur dans la LEC De plus la consultation de listes de cooccurrents assez t t dans le processus de traitement linguistique des fiches DiCo permettrait th oriquement de mettre jour de nombreux liens lexicaux instanci s dont les valeurs pourront tre trouv es l aide des outils utilis s actuellement puisque nous avons vu que ces outils sont g n ralement efficaces pour trouver les valeurs de tels liens une fois qu ils ont t trouv s Si nous consultons les listes de cooccurrents apr s les autres outils ce qui a t fait ici nous risquons de d couvrir
98. currents en MI 1 1 Finalement la derni re colonne Fl_prop sert inscrire les FL que nous sugg rons pour l encodage dans le DiCo des donn es auxquelles on a attribu le statut VFLP dans la colonne Statut I1 5 1 2 Table de comparaison des listes de valeurs du DiCo et des listes de cooccurrents Une seconde table prend comme point de d part les listes de valeurs du DiCo des diff rentes lexies tudi es mot lolst lori_1_olst Log_like _1 Freq_1_olsi ori_2_olst Log_like_2 Freq_2_ols col lori_1 col Log_like _1 Freq_1_ col ori_2_co Log_like_2 Freq_2_col type la l g re absent 1 absent 1 Synt raison absent 1 s i Synt tort Q H s Synt accusateur a absent 1 absent i Para accusateur n absent H absent t Para accusation absent f absent i Para accus n absent 1 absent H Para action bl ma absent H absent Para bl mer absent i pr sent L 7 82496529 1R 7 75785523 1 Para calomnieuseiabsent i absent H Synt comportemeiabsent f absent 1 Para Figure 17 Table de comparaison des listes de valeurs du DiCo avec les listes de cooccurrents La premi re colonne de cette table contient int gralement la liste de valeurs du DiCo extraites gr ce au DiCou be La colonne suivante Olst est d di e rendre compte de la pr sence de ces valeurs sur la liste de cooccurrents de OLST Lorsque la valeur pr sente dans la colonne Mot a t relev e sur la liste de cooccurrents pr sent est inscrit
99. de grande taille est tr s exigeante en temps Les listes tr s longues soul vent donc la question de la m thodologie de consultation des donn es de quelle fa on optimiser la consultation des listes de 82 cooccurrents et quel nombre de donn es est il pertinent de consulter par liste dans le cadre de la cr ation d une fiche DiCo Nous verrons ces questions la prochaine section Les listes contenant peu de donn es sont aussi probl matiques Les listes de cooccurrents des vocables ANCRE AVERSION GIFLE et IRRITATION bien que poss dant des taux de pertinence comparables ceux des autres listes sont parmi les 5 listes offrant le moins de donn es pertinentes en nombre absolu Comme il est facile de le pr voir le succ s de la recherche de collocatifs l int rieur des listes de cooccurrents d pend en grande partie de la fr quence du vocable choisi l int rieur du corpus de base Nous avons aussi constat que la partie du discours du vocable cible influence le taux de pertinence de sa liste de cooccurrents associ s les listes de cooccurrents associ es des verbes ont obtenu ici 2 des 3 taux de pertinence les plus bas en plus d tre parmi les 6 ensembles de listes contenir le moins de donn es pertinentes en nombre absolu Ceci est d la propri t des verbes d avoir une combinatoire restreinte moins riche que celle des noms les 94 lexies verbales du DiCo ont une moyenne de 10 47 liens lexicaux
100. dinars Beaucoup de parents se d barrassent de leurs enfants le samedi soir en leur lan ant un billet de 50 marks et en leur disant d aller s amuser Pour am liorer son ordinaire il fabrique de faux billets de 500 francs juste pour son usage personnel Ils agitent sous le nez des passants leurs liasses de billets de banaue billet vert_ Le cours du billet vert Paris est sensiblement identique a ce au il etait avant la reforme du SME a 5 85 francs environ Les Figure 11 Extrait de la fiche DiCo de la lexie BILLETII en statut 0 DE L individu X POU SmedCassister Ca N Y Figure 12 Extrait de la fiche DiCo de la lexie BILLETI 1 en statut 0 36 Chapitre Il G n ration et traitement des donn es 38 11 1 Les donn es utilis es dans le cadre de la recherche Notre recherche consiste en une tude comparative des donn es g n r es automatiquement partir d un corpus de textes et des collocations compil es manuellement par un lexicographe du DiCo Afin de traiter efficacement ces donn es nous avons d abord choisi des vocables du DiCo disponibles en statut 0 Nous avons ensuite g n r les listes de valeurs de FL de ces vocables en utilisant l interface du DiCou be Nous avons ensuite extrait les listes de tous les cooccurrents trouv s dans le corpus Le Monde 2002 pour ces vocables Afin de faciliter le traitement de ces donn es nous les avons finalement distribu es sous forme de tables
101. doivent n cessairement le suivre Nous pouvons aussi observer que meilleur est pr c d de l op rateur lt Ce symbole sert signaler la gradation entre meilleur et les autres valeurs de la fonction lexicale Ces m mes donn es sont accessibles en format tubulaire dans le DiCou be tel qu illustr ci dessous lexie lexie FL FL FL FL FL vocable num formuleFL glose gradation lexie contrainte AMI L1 Magn sentiment Tr s li Y 0 bon ant pos AMI L1 Magn sentiment Tr s li Y 0 proche postpos AMI L1 Magn sentiment Tr s li Y 0 intime postpos AMI L1 Magn sentiment Tr s li Y 1 meilleur ant pos Figure 3 Version DiCou be des donn es de la Figure 2 Nous n avons ici extrait que les donn es minimales utiles des fins d introduction Les r sultats des requ tes sur le DiCou be peuvent tre tr s diversifi s selon le type d information qui est recherch Ici la premi re colonne sert nommer le vocable Le num ro d acception dans la deuxi me colonne identifie de quelle lexie de ce vocable il est question La troisi me colonne indique de quelle FL il s agit et la quatri me colonne donne une glose pour celle ci Nous pouvons constater que le contenu de ces quatre colonnes est ici identique La raison en est 26 qu une ligne de tableau est g n r e pour chacune des valeurs cit s dans la sixi me colonne correspondantes la fonction lexicale Magn sentiment de la lexie AMII 1 La ci
102. e postpos profonde Qui existe depuis longtemps Magn temp vieille devient plus grave IncepPredPlus gangr ner devient moins grave IncepPredMinus se cicatriser se fermer se refermer Y causer Caus2Func causer ouvrir ART blesser Qqch causer que ancienne r appara isse CausDe_nouveauFunc rouvrir raviver ART Qqn causer que empire CausPredPlus aviver ART Qqch causer que disparaisse LiquFunc cicatriser fermer ART S quelle de cicatrice marque PLAIEII 2 QSyn catastrophe I d sastre fl au pit v ritable X tre Oper1 constituer tre une pour N Y 37 POISSON POISSONT a Syn sp c ichty sp c ichtyo pisci QSyn fam poiscaille Cf amphibiens c phalopodes crabe crevette crustac crevisse pieuvre Partie de Mero ar te caille entrailles Esp ce de Hypo anchois anguille brochet cabillaud carpe colin daurade espadon esturgeon haddock hareng l gine lieu limande loup maquereau merlu morue mur ne perche plie poisson chat _poisson rouge_ poisson scie _poisson volant_ requin sardine saumon sole sprat truite turbot Endroit o l on trouve g n ralement QSLoc eau estuaire fleuve lac rivi re dans son ensemble Mult usuel d f sing Le poisson est rare ici Groupe de Mult actuel banc de
103. e public Avec intensit Magn intensit avec enthousiasme beaucoup bruyamment chaleureusement fort vivement lt des deux mains lt _ tout rompre_ tr s lt extr mement au passif IL a t tr s extr mement applaudi De fa on non sinc re AntiVer mollement du bout des doigts Appareil servant mesurer l intensit avec laquelle X applaudim tre Groupe d individus pay s pour claque APPLAUDIRI I QSyn approuver se r jouir 45 QAnti d sapprouver APPLAUDISSEMENTS QSyn acclamations bravo hourra ovation vivat CF bis QAnti hu es sifflet 3 toll VO applaudir I N Y QS1 assembl e assistance audience foule public Adv1 sous les entrer sous les applaudissements de la foule Magn Figur salve d lt concert d lt tonnerre d Magn intensit nourris postpos forts intenses lt vigoureux lt fr n tiques _ tout rompre_ IncepPredPlus redoubler Magn temp prolong s postpos Magn1 quant nombreux AntiMagn1l quant maigres rares ant pos clairsem s postpos Ver chaleureux enthousiastes Oper12 adresser A poss X N Y lt ne pas m nager A poss X N Y Oper2 recueillir se valoir ART Oper3 provoquer soulever susciter ART Oper32 valoir ART N Y Func cr piter r sonner Magn Func retentir Magn IncepFunc clater fuser Func2 3 accueillir saluer N Y Z
104. e signifie que la valeur n a t extraite que du corpus de POLST et le gras soulign signifie que l ajout provient exclusivement de Cologne Le format standard est utilis pour toutes les valeurs d j pr sentes dans le DiCo Lorsqu une valeur tait ajout e une FL d j pr sente dans la fiche la valeur seule tait mise en gras Lorsque nous avons ajout des valeurs des FL qui ne se trouvaient pas originalement dans la fiche nous avons aussi utilis le gras sur le nom de la FL Consid rons la fiche augment e de la lexie ADMIRATION QSyn merveillement fascination lt adoration a enthousiasme ravissement X Y QSyn narcissisme Cf amour passion respect Gener sentiment QAnti aversion d dain m pris VO admirer I N Y pour N Z Nom pour X qui prouve pour tout ce que fait Y QS1 admirateur de N Y 7 f Nom pour Y 56 S2 objet de CART Nom pour Z S3 objet de CART source d Que X a pour Y et que Y a pour X r ciproque X qui prouve A1 en admiratif lt plein rempli soulev transport de CART X qui prouve beaucoup d Magn A1 perdu pantois p tri plein d X faire qqch en prouvant Adv1 avec Y 21 envers qui quoi on tend prouver Able2 3 digne de ART admirable Z tendre tre un objet de PredAble3 porter l CZ tre fait par Y d une fa on qu
105. e un coup donn quelqu un dans un journal tel que Le Monde Bien que le geste d sign par la lexie est un geste d plac il demeure assez anodin et assez peu digne d tre l objet d une d p che dans un journal moins qu un personnage public y soit impliqu comme nous avons aussi pu l observer dans notre corpus dat 2002 avec l affaire de la gifle de Fran ois Bayrou La lexie m taphorique GIFLEIL qui d signe une action n gative vis vis de quelqu un risque d tre beaucoup plus pr sente dans un corpus journalistique puisqu elle peut prendre toutes sortes d organisations et de personne comme actants comme dans les phrases suivantes tir es du corpus Le Monde 2002 22 Les militants l ont ressenti comme une gifle Sa r int gration sonne comme une gifle un d saveu une perte de cr dibilit Nous constatons aussi que le taux de donn es pertinentes par liste oscille plus ou moins autour de 10 15 pour la plupart des listes de cooccurrents Seules les listes des vocables AMI et ACCUSER se distinguent par leurs taux de pertinence particuli rement bas Les listes de ces deux vocables sont celles qui comportent le plus grand nombre de donn es ce qui semble sugg rer que les listes de ces vocables ont atteint le point de saturation au de duquel les donn es suppl mentaires n augmentent pas consid rablement le nombre de donn es int ressantes
106. e vis e le nombre de paires contenant l un ou l autre des cooccurrents et le nombre de paires ne contenant aucun des deux cooccurrents Gr ce ces donn es il est possible d tablir le nombre d occurrences de la paire de cooccurrents vis e auquel nous aurions normalement pu nous attendre si les cooccurrents de cette paire avaient t distribu s al atoirement dans le corpus Lorsque le nombre r el d occurrences de la paire d passe de fa on importante cette cible nous pouvons conclure qu un facteur autre que le hasard a influenc la cooccurrence des lemmes en cause Manning Sch tze 2000 L identification des CSS l Universit de Cologne repose principalement sur le calcul de log likelihood Le seuil y a t tabli 10 83 Blumenthal 2004 En dessous de ce seuil la cooccurrence de deux vocables n est pas consid r e comme int ressante pour la description lexicographique d un vocable 1 2 3 Mod lisation des collocations selon la lexicologie explicative et combinatoire LEC Nous supposerons que nos lecteurs sont minimalement familiers avec la TST et la LEC Le n ophyte trouvera une introduction la TST dans Mel uk 1997 et une introduction sp cifique la LEC dans Mel uk et al 1995 Nous nous contenterons ici de discuter de l approche adopt e en mati re de collocations dans les diff rents produits lexicographiques issus de la LEC Le dictionnaire phare de la LEC est sans aucun
107. eceessssesese 40 ACCUSER eseese eeii a e ea a oe e E aeaa ia ee e e e a ii 40 ADMIRATION us E E E E E E E E E E E ENEA 41 AMT REE E A E E OA OAE E A O san ages toc 42 vil APPLAUDIR ere dedans 44 APPLAUDISSEMENTS nimes E a A A TE Eo EAEAN Aai 45 AVERSION a nan a A A R See te 45 BAGAGES ar to ti de 46 BAT AD Sn sms ua idoles 47 CATASTROPHE sissid snars ninan n no ES Kaeo EKE SSE STEE a EN Roas 50 CRIME ERA EEEE E A E AEAEE EEIN EIERE SA EEE 51 ET EE A E NE A S E ET A S 52 HONTE E AE EEE E A A E E S E EE 53 ERRITATI ON ES Ne on nat 55 PRE da E donnent nt nn un RD 56 viii Liste des tables Table 1 Nombres de liens de FL dans les fiches DiCo trait es ss 41 Table 2 R sultat de l analyse de la phrase exemple 1 49 Table 3 Lenombre de donn es par list seisseen tenian e EE E AE iii 61 Table 4 Les erreurs relev es dans chaque liste sine 62 Table 5 Le taux de donn es pertinentes par liste de cooccurrents ss 64 Table 6 D tail des donn es pertinentes ses 66 Table 7 Nombre de valeurs sugg r es par fiche DiCo sense 67 T ble 8 Type des valeurs Sugg r ess s sus ieia eaa E AAA E REEE les EA A Ea A 69 Table 9 Le caract re standard ou non des valeurs sugg r es ss 72 Table 10 La distribution des VFLP parmi les nouvelles FL et les FL d j pr sentes dans les fiches o 76 Table 11 Le taux de rep rage des valeurs du DiCo ss 78 Table 12 Le taux de pertinence des listes sans do
108. ecours l intuition dans une approche plus quantitative Comme nous l avons vu la section IIL 2 4 la majeure partie des valeurs de FL trouv es sur nos listes sont li es des FL qui ne figuraient pas dans nos fiches au d but de notre tude Nous pouvons tirer une conclusion importante de cette observation de fa on g n rale dans le DiCo lorsqu au moins une valeur de FL a t encod e pour une lexie donn e les autres valeurs li es cette FL ont aussi t encod es Par exemple si un lexicographe travaille l encodage de la fiche de la lexie D CEPTION il est plausible que qu il pense spontan ment au collocatif am re qu il encodera l aide de la FL AntiBon Magn Cette FL ayant t identifi e pour la lexie D CEPTION il est fort probable selon nos donn es que les autres valeurs de celle ci soit atroce brutale cuisante cruelle douloureuse p nible seront identifi es avant que la fiche de D CEPTION ne soit publi e sur le DiCou be Nous pouvons donc poser l hypoth se que lorsqu un lien lexical instanci a t identifi pour une lexie les comp tences lexicales du lexicographe et les corpus utilis s habituellement suffisent g n ralement trouver l essentiel des valeurs encodables par ce lien Nous supposons donc que l identification des valeurs li es une lexie se fait en deux temps On cherche dans un premier temps identifier les valeurs li es et les FL qui les lient sa
109. ement de CausFunc Lancer _mettre l eau_ ATR SQCausFunc lancement de ART Real1 naviguer sur ART piloter ART individu Y Real2 aller se d placer voyager en par prendre le individu Y Prepar1iReal2 prendre ART s embarquer monter _ bord de_ dans sur ART monter _ bord S0f2 embarquement 49 cargaison Y PreparReal2 charger embarquer N Y _ bord_ de dans sur ART S0f3 chargement embarquement de N Y tendue d eau Fact parcourir sillonner N Fact naviguer voguer _en direction de_ vers N lt cingler _en direction de_ vers N S0f4 travers e IncepFact appareiller _larguer les amarres_ _lever l ancre_ lt quitter le port lt _prendre la mer_ lt _prendre le large_ IncepFact _mettre le cap_ sur N FinFact0 I arriver au port toucher Nom propre lt le port gt Le bateau a touch Marseille lt le port gt ce matin FinFact0 II accoster _jeter l ancre_ mouiller Loc in N _faire escale_ Loc in N SlocFinFact II port rade _base navale_ dock gare b fluviale gare b maritime construction SlocFinFact II appontement d barcad re embarcad re jet e quai wharf Fact2 transporter N Y se positionne le long d un autre aborder N oscille se balancer tanguer Enregistrement officiel de immatriculation Propri taire de qui en fait l exploitation commerciale arm
110. ence des valeurs du DiCo cette fois ci dans la liste de cooccurrents extraite l Universit de Cologne Les donn es concernant les formes relev es dans le corpus sont encod es dans les six colonnes suivantes conform ment la configuration vue pr c demment La nature du lien entre la valeur de FL et le mot cl est indiqu e dans la colonne type Une relation paradigmatique sera indiqu e par l inscription Para et une relation syntagmatique par l inscription Synt Les valeurs li es au mot cl par une FL paradigmatique mais dont le r gime contient le mot cl porteront la marque Para Reg Nous indiquons finalement dans la colonne Ph si la valeur recherch e est multi ou monolex mique Notre objectif est ici d identifier les valeurs de FL qui peuvent se trouver int gralement l int rieur des listes de cooccurrents Ont t marqu es comme multilex miques toutes les lexies constitu es de plus d un mot forme dont les locutions telles qu elles sont d finies par la LEC Me uk 2008 et les verbes pronominaux Nous reparlerons la section suivante 11 5 2 Interpr tation des tableaux La pr sentation en tableaux a grandement facilit la comparaison bidirectionnelle des listes de cooccurrents et des listes de valeurs du DiCo Nous en avons tir deux types de 54 statistiques le taux de pertinence des listes de cooccurrents et le taux de rep rage des collocations du DiCo Nous avons calcul
111. er N X de ART Roman dont le th me est polar CRIMEI b Gener agression m fait Syn soutenu crime I a _de sang_ QSyn assassinat homicide n meurtre Gener crime I a Y 2 double ant pos Y 3 triple ant pos A0 criminel adj I 1 criminel adj I 2 X qui a fait A1 coupable adj X qui n a pas fait AntiA1 innocent adj X que les autorit s essaient de capturer A1 que les autorit s essaient de capturer recherch Nom pour X S1 auteur coupable de ART complice de ART criminel n 27 Nom pour Y S2 cible victime de ART Lieu d un Sloc lieu de ART sc ne de ART Moment d un Stemp heure du 0bjet utilis pour commettre un Sinstr arme de ART Qui est fait L encontre de toute consid ration thique AntiVer l che Tr s grave Magn abject atroce affreux barbare brutal capital crapuleux injustifiable innommable irr parable majeur postpos pire ant pos effroyable pouvantable gravissime impardonnable imprescriptible inexpiable monstrueux terrible lt horrible inqualifiable odieux sordide _contre nature_ _du si cle_ Nombreux Magn quant innombrables nombreux Ce qui cause que X fasse SOCausOper1 motivation de ART Dont l auteur X ne peut pas tre d couvert AntiAble2Real IT parfait postpos Il pense avoir commis le crime parfa
112. er un Prepar1 comploter m diter pr m diter pr parer ART X causer qu il soit clair que le responsable de est X Caus1ManifOper1 signer ART Fait d aider X pour faire complicit dans ART Individu qui assiste t moin de ART Qqn se d signer comme X endosser ART CRIMEII QSyn scandale honte II QAnti merveille pit v ritable vrai ant pos Fait qui est AlPred criminel adj IlI Y tre Oper2 tre ART GIFLE GIFLEI Syn fam baffe vieilli soufflet QSyn fam beigne fam calotte claque fam mandale fam et vieilli mornifle fam taloche Cf punition Gener coup geste V0 gifler N Y Type particulier de Z QS3 faute I la Ce avec quoi X donne Sinstr main de N X Deux cons cutives donn es avec la m me main sur chacune des joues de Y paire de s fam _aller et retour_ 28 29 Forte Magn bonne grosse ant pos m morable postpos forte lt magistrale terrible violente Forte et bruyante Magn bruit sonore postpos retentissante Pas forte AntiMagn petite ant pos tape tapette Que Z justifie Ver3 m rit e postpos X donner Oper12 administrer fam coller V donner fam envoyer fam flanquer fam mettre lancer ART N Y X donner forte Magn 0per12 ass ner ART N Y Y
113. erches conduites avec la collaboration d une quipe de recherche de l Universit Nancy 2 dirig e par Pascale Bernard portaient sur l laboration d un dictionnaire des CSS des noms fran ais Ce projet a depuis t abandonn pour laisser place des recherches toujours sur corpus sur l expression des motions en fran ais en collaboration avec Iva Novakova et Agn s Tutin de l Universit Grenoble 3 et sur le fran ais africain Dans une perspective quantitative telle que celle exploit e par l quipe du professeur Blumenthal la fr quence absolue et la valeur de log likelihood sont les deux donn es les plus commun ment utilis es pour identifier les CSS La fr quence absolue correspond tout simplement au nombre total d occurrences d une donn e dans un corpus choisi Par exemple dans la liste de cooccurrents du vocable ami extrait l Universit de Cologne nous pouvons constater que le pronom il a une fr quence absolue de 58 lorsqu il est plac gauche du vocable cible ami Cela signifie tout simplement qu l int rieur du corpus Le Monde 2002 le pronom il a t relev 58 reprises gauche du vocable ami dans une fen tre de 3 lemmes Il s agit l d une donn e brute sans analyse compl mentaire Une analyse bas e uniquement sur la fr quence est probl matique puisqu elle ne tient pas compte de la banalit ou de la raret relative des lemmes formant les CSS dans le corpus Pa
114. es Magn intensit bruyants fournis nourris soutenus postpos forts intenses lt vigoureux lt fr n tiques _ tout rompre_ Peu intenses AntiMagn intensit faibles mous vagues timides ant pos deviennent plus intenses IncepPredPlus redoubler Qui durent longtemps Magn temp longs ant pos prolong s postpos gt interminables mis par beaucoup de X Magn1 quant nombreux mis par peu de X AntiMagnl quant maigres rares ant pos clairsem s postpos quelques ant pos Tels que X est sinc re Ver chaleureux enthousiastes Tels que X n est pas sinc re AntiVer polis postpos Tel que X a de mauvais motifs AntiVer motif ironiques postpos X met des pour Y Oper12 adresser A poss X N Y X met de fa on accentu e Magn Oper12 ne pas m nager A poss X N Y Y tre vis par Oper2 recueillir se valoir ART 11 2 Z tre la raison de Oper3 provoquer soulever susciter ART Oper32 valoir ART N Y 2 sont mis Func0 bruisser cr piter r sonner Magn Func retentir Qqn qqch l causer qu il y ait CausFunc d clencher commencent dans l endroit IncepFunc envahir N surgir dans N intenses commencent Magn IncepFunc clater fuser jaillir continuent ContFunc se prolonger se terminent FinFunc s estomper s arr ter
115. es comme les listes des vocables ANCRE et AVERSION une directive m thodologique est utile pour les listes plus fournies Nous avons tabli plus t t que les outils actuels de cueillette de donn es sont assez efficaces pour trouver les valeurs des FL pour lesquelles au moins une valeur a t identifi e pour une lexie donn e Nous consid rons donc qu il n est pas n cessaire de consulter les listes dans leur int gralit afin d en extraire l ensemble des valeurs de FL possibles puisqu il est g n ralement possible de compl ter l encodage des FL qui retournent au moins une valeur pour une lexie donn e l aide des outils actuels Il appara t plus profitable de ne consulter que la portion de chaque liste o les candidats de FL sont le plus concentr s afin d identifier un nombre optimal de FL non vides sans consulter trop de donn es inutiles Bien que des donn es pertinentes aient t trouv es un peu partout l int rieur des listes de cooccurrents il semble y avoir une certaine corr lation entre la valeur de log likelihood et la pertinence de donn es puisque les donn es pertinentes sont g n ralement plus denses en d but de liste Nous avons appliqu nos listes le seuil de pertinence appliqu de fa on standard aux CSS qui est appliqu l Universit de Cologne soit une valeur de log likelihood de 10 83 Le tableau suivant indique dans la colonne Nb Donn es le nombre de donn es dont
116. es listes de valeurs du DiCo n se 50 Figure 17 Table de comparaison des listes de valeurs du DiCo avec les listes de cooccurrents cosses 52 Liste des abr viations OS RSS Re Se ne Observatoire de lingistique Sens Texte LS 1 REPARER Een EE RUE TE EE RERO RO Th orie Sens Texte BEC sens assises nt irenase Lexicologie explicative et combinatoire A PERRET RE RER RER EP T Fonction lexicale CSS niet EEES Cooccurrences statistiquement significatives S aT EE E AE E EAE E NGramn statistic package Chapitre Pr sentation de la recherche 1 1 Objectifs de la recherche Le pr sent m moire se veut une tude sur les diverses m thodes d extraction et de compilation de collocations dans le cadre de diff rentes approches lexicographiques Nous qualifierons de fa on tr s sommaire la premi re de ces approches de qualitative et la seconde de quantitative Nous prendrons comme base de notre recherche un dictionnaire d approche qualitative dont la compilation des collocations se fait de fa on manuelle et repose en grande partie sur la comp tence linguistique de ses lexicographes Nous nous proposons de faire une critique du travail lexicographique de ce dictionnaire en tenant compte des m thodes de compilation d une approche plus quantitative Nous avons choisi de travailler avec les donn es du DiCo un dictionnaire de d riv s s mantiques et de collocations d velopp l Observatoire de Linguistique Sens Texte de l universit de
117. esoesoesorsessoesorseesossesseesoesessoes 82 IV 1 3 Le recours l intuition dans une approche plus quantitative ses 83 IV 2 Optimisation de l utilisation des listes de cooccurrents ss 85 IV 2 1 La s lection des cooccurrents selon leur partie du discours see 85 IV 2 2 Seuil de pertinence des dONR ES ssessessssessssooeseosssessssosessosesoosecessssccncocence 86 IV 3 Int gration des listes de cooccurrents la m thodologie de cr ation des fiches DiCo 91 IV 4 Conclusions E S ie etes qe de te cite 92 BibDHO0Sr ADI ein rentes essertise nd encnti remit ne en torios enr i ce S die este esse 1 Annexe 1 Les fiches DiCo augment es ssssssseeessenssenssssssssssssssssossss 3 PAETE Sr EEEE A E E E AAE D E E E E A E 3 AMI E A E A EE EA AE AAS AS 4 I KE A E EE TE AEE E EE EET AEE EE RA O A EE 8 APPLAUDIR anna l ee sr ln sa la Ei 9 APPLAUDISSEMENTS ce Te ne E rt sets td E ed tt tn tasse 10 PAA EO EE E E E E AEE A anses E ot este nt races E 11 B AGAGE EAE TAE AENEA TE EE EEEE NEERA AA AAA IAIA E AAE E ATE 12 BATEAU nn EEA LR RS en O EE OOE A nm Un 15 CATASTROPHE zoron iois i na e R a oaar E ia 20 CRIME TOEI EA E RAEES ESN EARR AEA TEASEE EEEE 23 AA E A E E E E E ETAETA 28 HONTE PEE AE E E E E SA SA A etat t uen i nee 30 TRRITATION AE N E O A E iar taie 32 AE AERE E EE EEE EE ET E EE Re 35 POISSON oinensis iE dede 37 Annexe 2 Les fiches DiCo r duites sesooesecsesscsocccecsessssccocececessscoocececeessosococccecssssesocec
118. ette explication La table suivante d taille le nombre total d erreurs relev par liste ainsi que le pourcentage d erreur que ces nombres repr sentent pour chaque liste Vocable OLST COL Nb Erreurs erreurs Nb erreurs erreurs ADMIRATION 51 12 66 3 0 51 ANCRE 16 19 75 3 3 03 APPLAUDISSEMENTS 32 9 76 8 2 19 AVERSION 16 12 8 1 0 29 BATEAU 145 9 34 9 0 46 AMI 892 24 24 14 0 33 BAGAGE 29 7 14 1 0 2 CATASTROPHE 94 9 4 0 29 CRIME 152 8 33 7 0 33 GIFLE 14 9 21 Q 0 HONTE 41 7 14 5 70 IRRITATION 15 7 85 Q 0 PLAIE 25 8 06 5 1 29 POISSON 58 6 14 8 0 67 ACCUSER 736 23 77 9 0 24 APPLAUDIR 72 13 11 5 0 86 Table 4 Les erreurs relev es dans chaque liste On constate que les listes de cooccurrents de l OLST ont un pourcentage global d erreurs de 15 65 alors que les listes de l Universit de Cologne obtiennent un pourcentage beaucoup plus bas 0 45 Les erreurs relev es POLST sont g n ralement du m me type dans 77 81 des cas il s agit de noms propres auxquels on a assign une partie du discours fautive Dans 51 de ces cas les noms propres ont t tiquet s comme des noms communs et dans 28 29 des cas comme des adjectifs La seconde erreur en importance avec 14 3 des 63 cas est une segmentation fautive On remarque ici des erreurs r currentes qui semblent indiquer que les apos
119. eur d tiquetage Il est noter que si une forme appartient plus d une lexie nous consid rons comme correcte l attribution cette forme de la partie du discours correspondante n importe laquelle de ces lexies puisqu il nous est impossible de v rifier syst matiquement si la bonne partie du discours est attribu e chaque occurrence de cette forme dans le texte Ainsi la liste du vocable BAGAGE contient deux sorties pour la forme jeune qui y est tiquet e une fois comme adjectif et une fois comme nom Comme l adjectif JEUNE et le nom JEUNE existent dans la langue nous consid rons ces tiquetages corrects bien qu il ne soit pas exclu que la lexie JEUNE nom et la lexie JEUNE adj aient pu tre confondues l une avec l autre lors de l tiquetage automatique du corpus Nous consid rons qu il y a une erreur de segmentation lorsqu une forme inexistante en fran ais est relev e comme un lemme Par exemple dans la fiche du vocable ADMIRATION nous retrouvons dans la colonne Mot les formes ur et hui Ces formes qui n appartiennent aucun 52 vocable du fran ais ont t isol es par un d coupage fautif lors de la segmentation du corpus La forme hui par exemple a selon toute vraisemblance t d tach e de la forme aujourd hui lors de segmentation alors que lapostrophe de cette forme a t confondue avec une fronti re de mot Nous reparlerons des erreurs relev es dans les listes de cooc
120. fam tre s comme cochons fam _ tre comme cul et chemise_ X commencer tre de Y IncepOper1 devenir rencontrer ART X et Y commencer tre IncepOper1 2 devenir ART ind f s X tre de nouveau de Y De_nouveau0per1 redevenir retrouver revoir ART X et Y tre de nouveau De_nouveau0per1 2 redevenir ART ind f s X faire en sorte qu il devient de Y X et Y tant plut t des enfants X et Y tant plut t des enfants Caus10per1 se faire avec N Y sans modificateur IL a fait lt s est fait gt ami avec sa petite voisine 2 Y avoir Oper2 avoir ART poss der des s Labor21 avoir N X comme pour Y commencer avoir IncepOper2 se faire trouver ART 2 Y causer qu il ait Caus20per2 se trouver ART Caus2Labor21 se faire un de N X Y cesser d avoir X comme Fin0per2 perdre ART J ai perdu mon meilleur ami cause d une femme Y faire qqch qui cause qu il cesse d avoir X comme cause d une action de Y FinOper2 se brouiller avec ART dans une p riode ant rieure et qui n est plus ancien X essayer de commencer avoir essayer_deIlncepOper1 chercher ART Y essayer de commencer avoir essayer_deIlncepOper1 chercher ART Qui est de 2 personnes qui sont elle memes commun X causer qu il ait beaucoup de
121. fiche de la lexie laquelle elles sont li s Cela semble indiquer que lorsqu un lexicographe identifie pour une lexie donn e un lien lexical instanci il parvient trouver la majeure partie de valeurs li es par cette FL cette lexie l aide des outils actuellement utilis s Les valeurs ajout es des FL d j pr sentes dans nos fiches appartiennent principalement la FL Magn 29 valeurs r parties dans un total de 9 fiches ont t ajout es la FL Magn parmi les 161 valeurs ajout es des FL d j pr sentes dans les fiches Un bon nombre de ces valeurs sont li es de fa on paradigmatique leur mot cl La majorit d entre elles sont li es des pointeurs en usage exclusivement dans le DiCo que nous avons ici assimil s des FL Elles sont aussi concentr es l int rieur d un petit nombre de fiches Quinze valeurs dans une fiche ont t associ es au pointeur Hypo et 3 au pointeur Mero dans une fiche Huit valeurs r parties dans 3 fiches ont t associ es au pointeur Cf Sept valeurs ont t ajout es la FL QSyn dans 6 fiches 111 3 Analyse prenant le DiCo comme point de d part Comme nous l avons mentionn pr c demment il nous a t seulement possible d valuer la pr sence des valeurs de FL monolex miques du DiCo l int rieur des listes de cooccurrents Le tableau suivant d taille le pourcentage de valeurs monolex miques qui ont t trouv es pour chaque
122. i Vocable Acception IA T2 1 3 II ACCUSER 6 4 Q Voc ADMIRATION 42 I 1 I 2 E3 II AMI 37 14 6 Q Voc ANCRE 1 Voc APPLAUDISSEMENTS 21 I II APPLAUDIR 11 1 Voc AVERSION 9 I 1 I 2 II BAGAGE 13 1 9 Voc BATEAU 75 I II 1 II 2 CATASTROPHE 66 11 5 I a I b II CRIME 117 44 5 I II GIFLE 7 6 IE 4l T2 II HONTE 12 1 1 I II 2 I 2 IRRITATION 1 8 8 I sail II 2 PLATE 2 22 3 I a I b II POISSON 44 38 Q Table 7 Nombre de valeurs sugg r es par fiche DiCo Nous pouvons constater ici qu il semble y avoir une corr lation entre le nombre de valeurs contenues dans chaque fiche et le nombre de valeurs qui leur sont sugg r es Parmi les 5 fiches qui ont obtenu le plus de VFLP 4 font aussi partie des 5 fiches qui contenaient le plus de donn es au d part Nous remarquons aussi que pour les vocables polys miques l acception de 68 base est presque toujours celle qui re oit le plus de suggestions Comme nous l avons vu pr c demment dans 10 cas sur 11 l acception de base des vocables choisis ici est celle qui regroupe le plus de donn es Le nombre de donn es pr sentes dans chaque liste de cooccurrents influence aussi n cessairement le nombre de suggestions faites pour chaque fiche La fiche de la lexie ANCRE pr sente ici le plus petit nombre de suggestions faites pour l acception de
123. i quelques exemples tir s du DiCo 11 Conv21CMOURRIR tuer emporter QConv21CADMIRER plaire La derni re instance de premier cas de figure consiste en un changement de partie du discours Les FL AQ VO SO et AdVQ retournent respectivement les quivalents adjectivaux verbaux nominaux et adverbiaux de leur mot cl En voici quelques exemples toujours tir s du DiCo 12 AOCDIG RER digestif VOCABOIEMENTI aboyerI SOCADMIRERI admiration AdVOCEXAG RERT a exag r ment Le deuxi me type de d rivation s mantique soit l antonymie exacte ou approximative est encod par la FL Anti pour l antonymie exacte ou par la FL QAnti pour la quasi antonymie En voici quelques exemples tir s du DiCo 13 AntiCX NOPHOBIE x nophilie QAntiCX NOPHOBIE tol rance QAnti CRAINTE confiance 15 Le dernier cas de figure consiste en la relation qui unit une lexie L1 d signant une situation et une lexie L2 qui est li e un de ses actants La lexie L2 peut d signer un participant un circonstant ou une caract ristique d un participant ou d un circonstant Les FL A S et Adv servent toutes d signer soit un actant ou une caract ristique d un actant de leur mot cl Ils doivent n cessairement porter un num ro qui identifie l actant vis 14 ATCC LIBATAIRE n c libataire adj ATCD CEPTION d u AdVviCTACT avec S1CBICYCLETTE cycliste S2CHOMICIDE
124. i tend provoquer de Adv Able3 admirablement Il s en est sorti admirablement Z en provoquant de X Adv2 L1 de N X Intense Magn beaucoup d norme grande ind fectible vibrante vive ant pos profonde sans limite ant pos lt folle ant pos immense lt absolue postpos _la plus compl te _sans bornes_ _sans r serve_ adoration a ind fectible Peu intense AntiMagn pointe d Exag r e AntiBon Magn aveugle b ate d raisonnable lt immod r e postpos est tr s intense PredMagn _ne pas conna tre de bornes_ devient plus intense IncepPredPlus grandir prouv e par beaucoup de X Magn1i quant g n rale universelle postpos X avoir la fois et sentiment concilier conjuguer m ler et N S0 X avoir la fois et sentiment m lange d et de N X prouver pour Y Oper12 avoir prouver ressentir ART envers pour N Y Litt concevoir ART pour N Y vouer ART N Y tre en devant N Y nourrir ART envers pour N Y X prouver pour Z de Y Oper13 avoir litt concevoir prouver ressentir LART pour N 7Z tre en devant N Z X prouver intense pour Y Z Magn 0per12 3 fondre se p mer d devant N Y 7 2 X commencer prouver IncepOper12 3 tomber en devant N Y 7 57 Magn IncepOper1 tre soulev lt frapp
125. ies du vocable POISSON Nous constatons aussi que dans 10 cas sur 11 la lexie de base de chaque vocable est celle qui regroupe le plus de liens lexicaux 11 3 Les liens lexicaux du DiCo Pour les besoins de notre tude nous avons pr f r nous en tenir au minimum de donn es nous permettant de comparer le contenu du DiCo au contenu des listes de cooccurrents Nous avons donc choisi de ne tirer du DiCo que les listes des valeurs li es chacune des lexies vis es par notre tude sans autre information Nous avons choisi de travailler sur l ensemble des valeurs li es nos vocables et non seulement avec leurs collocatifs pour deux raisons Premi rement puisque certaines configurations de phrases occasionnent la cooccurrence de lexies li es de fa on paradigmatique il est pr voir que des valeurs de FL paradigmatique se retrouvent parmi les cooccurrents de nos vocables 19 Marie avait pour Jean un m lange d amour et de haine Ici les lemmes amour et haine qui sont en cooccurrence sont li s par un lien d antonymie Michelle poss de deux chiens un basset et un l vrier Ici le lemme basset qui est un cooccurrent de chien en est un hyponyme Notons que l vrier qui est aussi un hyponyme de chien n est pas selon notre approche en relation de cooccurrence avec chien puisqu il est s par de chien par plus de 3 lemmes 43 Deuxi mement il n y a pas de fronti re tanche entre les deux cat
126. ifficilement tablir une norme en mati re de nombre de donn es par liste Nous avons calcul une moyenne de 947 75 cooccurrents diff rents par liste POLST et de 1125 81 cooccurrents diff rents par liste Cologne mais avec des carts types de 1077 25 POLST et de 1228 07 Cologne 111 1 3 Le taux de pertinence des listes de cooccurrents Comme nous l avons mentionn pr c demment nous avons calcul pour chaque liste le pourcentage de donn es pouvant tre consid r es comme pertinentes l encodage d une fiche lexicographique en consid rant comme pertinents tous les cooccurrents marqu s D1Co ou VFLP 64 La table suivante d taille le pourcentage de donn es pertinentes l encodage des fiches de chacune des lexies tudi es ici Vocable OLST COL ADMIRATION Voc Voc 15 63 15 09 ANCRE Voc Voc 13 58 13 13 APPLAUDISSEMENTS VOC Voc 16 16 16 39 AVERSION Voc Voc 13 6 8 05 BATEAU Voc Voc 11 14 11 15 AMI Voc ii 2 T3 II Voc I 1 1432 1 3 II 3 37 2 2 0 73 0 84 0 49 3 83 1 26 0 91 1 05 7 BAGAGE Voc IE al BeZ II Voc I 1 2 II 14 77 8 62 1 97 5 17 12 8 7 52 1 83 4 88 CATASTROPHE Voc I TTA II 2 Voc I TS Pier 9 48 19 39 12 11 0 38 9 7 8 89 2 79 0 8 CRIME Voc I a I b II Voc I a I b II
127. individu Cette approche nous permet de d crire une r alit mi chemin entre l addition du vocabulaire de chacun des lexicographes concern s et l intersection de ces vocabulaires Les figures 10 11 et 12 montrent le r sultat final de la fiche du vocable BILLET Nous constatons que la num rotation des lexies a t revue et que l encodage des FL y est impeccable Ces donn es sont pr tes tre diffus es sur le site web du DiCo o les fiches en statut 1 sont galement disponibles et sur le DiCoPop qui ne g re que les fiches en statut 0 Figure 10 Nomenclature de la fiche DiCo du vocable BILLET en statut 0 34 Non cg tiq fp Syn fl ex 35 BILLET II 0 N V moyen de paiement UTILISE PAR L individu X ET VALANT LA somme d argent Y de N A poss I de Num CN billet de 50 billet de 200 euros X I Y I de banque QSyn fam biffeton coupure monnaie argent liquide cash espece liquide n devise QAnti cheque Nom pour X 51 offic d tenteur de ART Nom pour Y 52 valeur de ART Etui dans lequel on met des B Sloc porte billets portefeuille Ensemble de B Mult liasse de Num s Grande quantit de B Magn quant Mult fam matelas pile fam tas de s oblig Dont Y est lev Magn2 gros ant pos La Banque nationale de Yougoslavie doit mettre en circulation un billet de 1 milliard de
128. ique statistiquement et en terminant par le cooccurrent le moins sp cifique Nous avons choisi la fr quence absolue comme second crit re de classement Ainsi s il advenait que deux cooccurrents aient exactement la m me valeur de log likelihood le cooccurrent ayant la plus grande fr quence absolue serait num r en premier Dor navant lorsque nous mentionnerons le rang des cooccurrents l int rieur des listes le classement par log likelihood sera sous entendu 1 4 2 La g n ration des listes de cooccurrents 47 Nous avons proc d de fa on g n rale de fa on tr s semblable pour g n rer chacune de nos listes de cooccurrents Pour chacune des listes le corpus Le Monde 2002 a d abord t lemmatis et tiquet automatiquement Nous avons par la suite extrait du corpus l ensemble des cooccurrents trouv s gauche et droite de chaque vocable cible dans une fen tre de 3 lemmes Le pr traitement des corpus tudi s est une tape cruciale de l tude de ses cooccurrents tant donn la taille importante des corpus tudi s les proc d s de lemmatisation et d tiquetage des corpus ne peuvent qu tre automatiques La qualit des donn es extraites d un corpus repose donc en grande partie sur la fiabilit des logiciels affect s ces t ches tant donn le nombre important de lexies partageant les m mes signifiants nous sommes confront s l impossibilit d assigner automati
129. ir ART poss der des s Nom d une association qui regroupe de Y Les amis de N Y ANCRE CF grappin De grande taille Magn grosse ant pos grande X lt quipage de X gt faire usage de Real1 I Real1 1 I jeter mouiller l Le capitaine lt Le navire gt a jet mouill l ancre mouiller Le capitaine lt Le navire gt a mouill quipage de X faire en sorte que X soit retenu par Labreal1 11 1 I mettre N X l ancrer N X Le capitaine a ancr le navire Fait de faire en sorte que X soit retenu par S Labreal1 11 1 I ancrage mouillage de N X X tre retenu par Real1 II tre l se tenir l Endroit o X est retenu par SlocReal1 II mouillage rade port X qui est retenu par A1Real1 II 1 ancr X ne pas tre bien retenu par AntiReal1 II chasser sur A poss X fonctionne Fact mordre tenir ne fonctionne pas bien X AntiFactO glisser d raper X lt quipage de X gt mettre fin au fonctionnement de LiquiFact Liqu1i 1 Fact lever l appareiller quipage de X mettre fin au fonctionnement de Liqu1i 1 Fact0 hisser l APPLAUDIR APPLAUDIRI QSyn _battre des mains_ acclamer ovationner QAnti huer siffler QConv21 saluer S0 applaudissements Ensemble type de X qui QS1 assembl e assistance audience
130. it Qui a t pr par A2Prepar1 pr m dit postpos Dont la raison est l amour passionnel postpos Dont le mobile est le d dain pour un sexe sexiste postpos Dont le motif est la haine d une ethnie raciste postpos Dont X est le conjoint de Y domestique postpos Qui consiste en un contact sexuel non d sir par Y sexuel postpos CQqn engager qqn pour commettre commanditer ART X commettre un 0per1 accomplir commettre perp trer ART ex cuter ART pr par l avance X faire nouveau de_nouveau0per1 r p ter ART Func survenir est fait avec la participation de X Func1 impliquer N X est contre Y Func2 viser N Y Qqch l causer indirectement indirectement CausFunc inspirer ART Fait d avoir pr parer S PreparOper1 pr m ditation de ART Fait de commettre S00per1 perp tration de ART X participer un en tant que complice en tant que complice Oper1 tremper dans ART Fait d avoir particip en tant que complice S0 en tant que coomplice Operi participation ART Qqn Qqch causer que X commette un CausOper1 pousser N X ART Ra ison qu a X de commettre un S1CausOper1 mobile motif de ART X essayer de faire croire qu un est un N maquiller ART en N IL a maquill ce crime en accident suicide X pr par
131. l qu il est attendu de lui avec Real1 privil gier Art X agir tel qu il n est pas attendu de lui avec AntiReal1 trahir ART Qui est de 2 personnes qui sont elles m mes commun Qui est aussi ami Il 1 de X personnel postpos AMII 3 QSyn _ami de c ur_ amoureux n _petit ami_ _petit copain compagnon partenaire Cf amant ma tresse complice flirt QAnti conjoint poux mari De sexe f minin amie X qui est de Y AL amoureux ad j Qui n est plus AOFinFuncO ancien ant pos Conversif Conv21 amie gt relation r ciproque X tre de Y Oper1 tre ART d f Y obligatoire X cesser d avoir Liqu10per1 laisser quitter ART X commencer tre de Y IncepOper1 devenir ART d f Y obligatoire rencontrer ART 2 Y avoir Oper2 avoir ART ind f Labor21 avoir N X comme fr quenter X faire avec ce qui est attendu Real1 adorer aimer A poss X AMIII QSyn bienfaiteur m c ne avocat 1 II d fenseur partisan protecteur angl supporter n Anti ennemi Il QAnti adversaire opposant De sexe f minin amie VO encourager soutenir N Y prot ger N Y Qui est de Y QA1 favorable N Y Qui soutient beaucoup Y Magn grand ant pos lt fervent ant pos X tre de Y Oper1 tre l1 un Y1 avoir Oper2 avo
132. lexicology with the lists of cooccurrents generated automatically from the Le Monde 2002 corpus Our objective here is to propose improvement in the methodology of creation of dictionary entry of DiCo like dictionaries 1 e dictionaries of a qualitative approach where collocation is defined as the recurring and arbitrary associations between two lexical items and where the principal methodological tools used are the linguistic ability of its lexicographers and the manual consultation of corpus of text The consultation of lists of cooccurrents is a practice associated traditionally with a quantitative lexicographical approach which defines collocation as an association between two lexical items which is more frequent in a corpus than what could be expected if these two lexical items were randomly distributed in corpus We want to evaluate in what respect the tools used traditionally in a quantitative approach can be used for the creation of lexicographical entries of a qualitative approach and how their use can be integrated into the current methology of creation of these entries Key words collocations lexical function Explanatory Combinatorial Lexicology lexical statistics Meaning Text theory Philom ne Godbout iv Remerciements Je tiens remercier mon directeur Alain Polgu re et mon codirecteur Patrick Drouin pour leur patience immense et leur appui au cours des derni res ann es Je souhaite aussi remercier la Mai
133. lexies ou autres Dans le pr sent m moire nous travaillerons sur la cooccurrence des lemmes que nous d finirons ici comme la forme canonique d un ensemble de signifiants associ s la m me partie du discours et qui ne se distinguent que par la flexion par une d rivation morphologique de genre nominal ou les deux Notre choix de travailler sur ces lemmes est impos par les limites du proc d d extraction automatique des cooccurrents de notre corpus puisqu il ne permet pas la d sambigu sation des lexies Les homographes et les diff rentes lexies des vocables polys miques ne sont donc pas diff rentiables Prenons l ensemble de phrases suivant 1 a Le vert de l herbe est diff rent du vert des pommes vertes b La boulang re et les boulangers travaillent depuis 5 heures ce matin c Diff rents facteurs influencent l heure d arriv e du facteur d Ces tres inf mes taient destin s tre d test s Dans la phrase exemple 1 a les mots formes vert et vert sont rattach s au lemme vert n alors que le mot forme vertes est rattach au lemme vert adj En b les mots formes boulang re et boulangers sont tout deux rattach s au lemme boulanger n bien qu ils appartiennent deux vocables diff rents En c les homographes facteurs et facteur appartiennent tous deux au lemme facteur n Finalement en d le mot forme tres appartient au lemme fre nom alors que les mots formes taient et tre appartiennent
134. lir cuire confire d couper fumer griller griller mac rer parfumer pocher saler s cher Fait pour d tre pr par S Prepar k cuisson pr paration de ART qui a t pr par AOPrepar k pr par boucan frit fum grill vapeur postpos qui n a pas t cuit AntiA Prepar k cru postpos Portion de darne tranche de CART filet de CART Magasin o l on vend lt Activit commerciale de vente de gt poissonnerie Personne qui vend marchand de poissonnier Restaurant qui sert surtout de restaurant de s Plat pr par avec bouillabaisse brandade de morue soupe de sashimi sushi Ce qui reste apr s la consommation de SRes restes de Activit de vente commercial de l tranger exportation Param tre par lequel on value fra cheur POISSONII signe III du Gener signe III astrologique signe III zodiacal signe III du zodiaque X avoir pour signe 0per1 tre Cun Ldu n sous le signe du Informations encyclop diques P riode de l ann e correspondant au signe du 19 f vrier au 20 mars Positionnement de dans la liste des signes du zodiaque 12e position 40 Annexe 2 Les fiches DiCo r duites Ici le format standard indique une valeur qui n a pas t relev e sur les listes de cooccurrents Le gras seul indique une valeur trouv e sur les deux listes de co
135. lmer diminuer se dissiper tomber Qqch causer f2 CausPredMinus calmer ART Qui est prouv e par beaucoup de personnes 33 Magn1 quant g n rale postpos Qui dure Magn temp constante postpos incessante Qui ne dure pas AntiMagn temp passag re postpos Qui se manifeste Ver manifestation visible Qui ne se manifeste pas AntiVer manifestation secr te ant pos cach e postpos sourde ant pos contenue postpos X faire qqch du fait de Propt dans A poss X Dans son irritation il a prononc des paroles qu il regrette X prouver Oper12 prouver ressentir ART Pr p contre N Y Y tre la cause de Oper21 causer produire provoquer susciter ART Loc in N X nerver irriter vulg _faire chier_ N X _taper sur les nerfs_ de N X Intense est prouv e par un ensemble de personnes plusieurs X Magn Func1 _ tre son comble_ Loc in N X Chez les r sidents du quartier l irritation tait son comble 2 commence tre prouv e IncepFunc na tre IncepFunc1 gagner N X continue d tre prouv e ContFunc 1 persister Loc in N X X commencer agir sous l influence de IncepReal1 c der l1 X ne pas se laisser influencer par AntiReal1 dominer ma triser ART X laisser se manifester PermiManif _laisser para tre_ _laisser
136. m Statistics Package dans les actes du Fourth International Conference on Intelligent Text Processing and Computational Linguistics February 17 21 2003 Mexico City POLGU RE A 2002 Mod lisation des liens lexicaux au moyen des fonctions lexicales dans les actes de TALN 2002 Nancy 24 27 juin 2002 p Il 37 II 60 POLGU RE A 2003 Lexical function standardness dans Wanner L ed Selected Topics in Meaning Text Theory In Honour of Igor Mel uk p 43 92 POLGU RE A 2007 Lesssons from the Lexique actif du fran ais les actes du Third International Conference on the Meaning Text Theory MTT 2007 Klagenfurt SCHMID H Probabilistic Part of Speech Tagging Using Decision Trees dans les actes du International Conference on New Methods in Language Processing Manchester UK 1994 p 44 49 SINCLAIR J M JONES S DALEY R KRISHNAMURTHY R Englisg collocation studies The OSTI report Continuum International Publishing Group 2004 208 pages STEINLIN J KAHANE S POLGU RE A EL GHALI A 2004 De Particle lexicographique la mod lisation objet du dictionnaire et des liens lexicaux dans les actes de EURALEX 2004 Lorient France p 177 186 SVEDKAUSKAITE ASTA MonoConc Pro 2 0 and the Corpus of Spoken Professional American English resources from Athelstan 2004 http www thefreelibrary com Svedkauskaite 2c Asta a11943 WANNER L 1996 Lexical Functions
137. me postpos Qui est de nature fantomatique fant me postpos Qui est utilis pour transporter les gens d un endroit un autre taxi postpos Qui permet de passer d une rive l autre d une rivi re passeur postpos Qui sert transporter de la marchandise diverse de marchandises Qui sert transporter les passagers d un plus gros en cas d accident de sauvetage postpos ui est utilis pour d truire des missiles antimissile Corps de l arm e qui utilise marine Qqch se trouvant dans Loc in _ bord_ de dans sur ART En utilisant AdviReal1 2 par Partie de Mero bord coque flanc quille passerelle pont cabine carr des officiers cockpit mess poste d quipage coutille hublot cale ballast soute m t voile chemin e moteur membrure Partie avant de l avant Mero proue sp c trave Partie arri re de l arri re Mero poupe sp c tambot C t gauche de en regardant vers l avant gauche Mero b bord C t droit de en regardant vers l avant droite Mero tribord Sculpture qui se trouve L avant de sculpture l avant Mero _figure de proue_ Dispositif bord de servant mettre un fort signal sonore sir ne de ART 17 Dispositif servant diriger gouvernail barre du gouvernail Instrument servant immobiliser ancre amarre Passerelle servant acc de
138. me cul et chemise gt S Pred amiti entre N X et N Y Magn Oper1 2 fam tre s comme cochons fam _ tre comme cul et chemise_ IncepOper1 devenir ART IncepOper1 2 devenir ART ind f s De_nouveau0per1 redevenir ART De_nouveau0per1 2 redevenir ART ind f s X et Y tant plut t des enfants Caus10per1 se faire avec N Y sans modificateur IL a fait lt s est fait gt ami avec sa petite voisine Oper2 avoir ART poss der des s Labor21 avoir N X comme pour IncepOper2 se faire trouver ART Caus20per2 se trouver ART 43 Caus2Labor21 se faire un de N X FinOper2 perdre ART J ai perdu mon meilleur ami cause d une femme cause d une action de Y FinOper2 se brouiller avec ART AMII 2 QSyn connexions relation contact alli QAnti ennemi I De sexe f minin amie QS3 administration haut lieu IL a des amis en haut lieu poste important dans Z A1 bien haut plac s Loc in N Z postpos des amis haut plac s dans l administration Oper2 avoir ART s IncepOper2 se faire ART s AMII 3 QSyn _ami de c ur_ amoureux n _petit ami_ _petit copain compagnon partenaire Cf amant ma tresse QAnti conjoint poux mari De sexe f minin amie Conv21 amie gt relation r ciproque Oper1 tre ART d f Y obligatoire IncepOper1 devenir
139. moyen une localisation et une cause Voici quelques exemples de FL adverbiales tir s du DiCo 6 AdVICBONNE HUMEUR dans la ADV2CRUMEURI 1 selon ART Instr P E A avec ART de A poss X l ProptCCRAINTE par de dans la Il est noter que la partie entre crochets indique le r gime des valeurs qui les pr c dent Le tilde correspond au mot cl alors que ART indique la pr sence requise d un d terminant 11 Les FL syntagmatiques verbales encodent les diff rents verbes qui entrent dans la combinatoire restreinte des mots cl s nominaux Elles se d taillent en 4 sous groupes contenant chacun trois FL Il existe de plus une dizaine d autres FL verbales qui ne sont pas group es Le premier sous groupe est compos des verbes supports vides Oper Func et Labor qui ne servent qu verbaliser les noms pr dicatifs et le second de verbes de r alisation Real Fact Labreal qui servent exprimer l objectif inh rent du r f rent du mot cl Les trois FL de ces groupes ne se distinguent que par leur structure syntaxique Les valeurs des FL Oper et Real prendront le mot cl comme compl ment et un des actants du mot cl comme sujet alors que les valeurs des FL Func et Fact prendront le mot cl comme sujet Les valeurs des FL Labor et Labreal prendront un des actants du mot cl comme sujet et un autre comme compl ment Le mot cl sera le troisi me compl ment de ces v
140. nettoyage de la fiche en en corrigeant les fautes d orthographe et en y effa ant les diverses notes qui y figurent La fiche passera ensuite en statut 2 ce qui signifie que le travail effectu sur la fiche a progress mais que certaines manipulations dont le nettoyage de la formalisation doivent encore tre effectu es Au terme de ce traitement elle atteindra le statut 1 ce stade elle sera pratiquement achev e mais son contenu devra encore tre valid Elle est par contre formellement suffisamment valide pour tre incluses dans le DiCo On doit s assurer ce stade que toutes les coquilles ont t retir es de la 33 fiche et que la formalisation est impeccable Le tout dernier stade de la progression d une fiche de DiCo est le statut 0 ce stade l tat de la fiche est jug satisfaisant bien qu elle pourrait tre modifi e afin de favoriser l uniformit entre les fiches dans certaines circonstances la fin de cette cha ne de montage une fiche DiCo aura g n ralement t vue par un minimum de trois personnes et parfois beaucoup plus Certaines fiches du DiCo ont t tudi es par des comit s complets de lexicographes Cette approche permet d obtenir une description optimale de la combinatoire des lexies vedettes En multipliant le nombre d individus impliqu s dans la confection d une fiche nous vitons que celle ci ne rende compte que de la r alit linguistique d un seul
141. nn es de parties du discours non pertinentes osese 86 Table 13 Le pourcentage de donn es pertinentes dont le log likelihood est sup rieur 10 83 c oaicnoceceeeenee 68 Table 14 Le pourcentage de valeurs trouv es du DiCo dont le log likelihood est sup rieur 10 83 90 IX Liste des figures Figurel Extrait de la fiche DiCo de la lexie BAGAGEI 1 21 Figure2 Extrait de la fiche FileMaker dans la lexie AMIL 1 25 Figure 3 Version DiCou be des donn es de la Figure 2 25 Figure 4 Nomenclature de la fiche DiCo du vocable BILLET ire 27 Figure 5 Extrait de la fiche DiCo de la lexie BILLET en statut 3 28 Figure 6 Extrait de la fiche DiCo de la lexie BILLET2 en statut 3 28 Figure 7 Nomenclature de la fiche DiCo du vocable BILLET en statut 3 30 Figure 8 Extrait de la fiche DiCo de la lexie BILLETI en statut 3 31 Figure 9 Extrait de la fiche DiCo de la lexie BILLETIL 1 en statut 3 32 Figure 10 Nomenclature de la fiche DiCo du vocable BILLET en statut 0 34 Figure 11 Extrait de la fiche DiCo de la lexie BILLETII en statut 0 35 Figure 12 Extrait de la fiche DiCo de la lexie BILLET 1 en statut 0 36 Figure 13 Extrait du formulaire d interrogation du DiCou be en mode standard 44 Figure 14 Requ te des valeurs de la lexie ACCUSERI I sur le DiCou be Us 45 Figure 15 Extrait du tableau de la requ te de la figure 14 nn 45 Figure 16 Table de comparaison des listes de cooccurrents avec l
142. nnenennnnnnnnnnnnnsnnnsssesee 59 Chapitre II Pr sentation et analyse des r sultats obtenus ss 60 vi HI 1 Analyse prenant les listes de cooccurrents comme point de d part 61 HI 1 1 Comparaison des listes de cooccurrents seeseesseeeseeeseoesooeeoeeseesoeesseesoesseessoesseoesooesoesoeesoeesseesoee 61 IIL 1 2 Contenu des listes de COoocCcuUrrentS seesseesseesseeseeesooesooreoeeeoeeseesoeeseeesseesseeseesooesooessoeesoeeoeesseesoee 63 IIL 1 3 Le taux de pertinence des listes de cooccurrents e seeseeseesessoesoesoesoesosseesoesessoeeosseesoesessoesoesoseeee 63 ML LES valeurs SUD D T RS Sense ein sen ns ieoa eo ete esse ne eseas nes s tea ests 66 IIL 2 1 Le nombre de valeurs sugg r es par fiche ssssseeseeeeeenenessssssee 66 IIL 2 2 Le type des valeurs de fonctions lexicales sugg r es sense 68 IIL 2 3 Le caract re standard ou non des valeurs de fonctions lexicales sugg r es 70 HI 2 4 La distribution des valeurs sugg r es l int rieur des fiches DiCo ss nrsrsenreens se 74 HI 3 Analyse prenant le DiCo comme point de d part ses 77 Chapitre IV Observations recommandations et CONCIUSION rss 80 IV 1 Utilit relative des listes de cooccurrents sessoesoessessoesoossessossoossoesoesooesossoesoossossossoossoesoeee 81 IV 1 1 Diversit des taux de pertinence des listes de cooccurrents ses 81 IV 1 2 Les limites des listes de cooccurrents e ssesesssesorsessoesoessesoesesseesorsesso
143. non standards est un peu plus bas 16 8 Le taux global de FL non standards est par contre trompeur puisque la majeure partie des FL non standards est concentr e l int rieur d un petit nombre de fiches Ici les fiches des lexies BATEAU CRIMEL a POISSONL a CATASTROPHE PLAIEI et CRIMEL b regroupent 78 01 des valeurs sugg r es li es des FL non standards La plupart de ces fiches contenaient d j un nombre important de valeurs li es des FL non standards les fiches des lexies BATEAU POISSONL a et CRIMEL a sont en effet les trois fiches parmi l ensemble des vocables choisis qui comprennent le plus grand nombre de valeurs li es des FL non standards La fiche de la lexie PLAIEI arrive en 6 position et la fiche de la lexie CRIMEL b en 11 position sur un total de 38 fiches Comme nous l avons mentionn en 1 2 3 5 les FL non standard sont particuli rement fr quentes dans les fiches de lexies d notant des objets concrets ou des actes tr s marqu s que ce soit culturellement techniquement ou autre Les fiches qui comportent ici de nombreux liens lexicaux d crits par des FL non standard peuvent toutes tre d crites de cette fa on La lexie BATEAU peut d signer de nombreux v hicules dont l apparence l utilisation qui en est faite le mode de propulsion et le fonctionnement g n ral peuvent diff rer grandement et dont de nombreux aspects doivent tre d crits de fa on idiomatique Les lexies CRIMEL
144. nqui me colonne rend compte de la gradation des valeurs Les trois premi res valeurs marqu es d un expriment approximativement la m me intensit alors que la derni re marqu e d un 1 exprime une intensit sup rieure Finalement la derni re colonne indique les contraintes d utilisation de chacune des valeurs pr c dentes Il est possible de g n rer chacune de ces colonnes individuellement C est de cette fa on que nous avons g n r les listes de collocations et de d riv s lexicaux dont nous avions besoin pour notre tude Nous en reparlerons la section II 3 Le champ ex ou exemple de la fiche FileMaker Pro contient des phrases exemples contenant la lexie vedette L objectif de ce champ est d illustrer le comportement de la lexie vedette dans un contexte textuel Le champ ph ou phras me rassemble les locutions form es l aide de la lexie vedette Comme la lexie vedette ne participe pas s mantiquement la composition des locutions on trouve souvent la majeure partie des locutions dans la fiche de la lexie de base du vocable moins qu il existe un lien m taphorique vident entre une locution et une lexie particuli re d un vocable Dans ce cas cette locution se trouvera dans le champ ph de la fiche de cette lexie Par exemple les phras mes EN MORCEAUX EN UN SEUL MORCEAU SE FAIRE COUPER EN MORCEAUX POUR N GROS MORCEAU RECOLLER LES MORCEAUX SACR MORCEAU se retrouvent dans la fi
145. nsabilit de XCCRIMEI a laver Qqn engager qqn pour commettre C CRIMET a commanditer Les pointeurs Hypo et Mero que nous avons assimil s des FL non standard dans nos calculs ont contribu faire grimper le nombre de FL non standard pour ces quelques fiches La fiche de la lexie BATEAU contient 9 nouvelles valeurs de Hypo et 4 nouvelles valeurs de Mero la fiche de la lexie CRIMELa est li e 15 nouvelles valeurs de Hypo et la fiche de la lexie CATASTROPHEI 9 valeurs de Hypo I1 2 4 La distribution des valeurs sugg r es l int rieur des fiches DiCo Le tableau suivant d taille la distribution des valeurs de FL sugg r es l int rieur des diff rentes fiches du DiCo On y indique dans la colonne Nouvelles FL le nombre de valeurs devant tre encod es pas des FL qui ne figuraient pas dans la fiche DiCo de leur mot cl Le nombre de valeurs ajout es des FL d j pr sentes dans la fiche DiCo de son mot cl est indiqu dans la colonne FL pr sentes Encore une fois ces deux colonnes principales ont 75 chacune t divis es en trois colonnes La premi re de ces colonnes indique le total des valeurs qui ont t trouv es pour chacune des cat gories de FL Les deux colonnes suivantes servent indiquer le nombre de valeurs de ce total qui n ont t trouv es que sur l une ou l autre des listes de cooccurrents
146. nte recherche Le premier champ r pertorie les lexies li es au mot cl par les relations apparent es la synonymie Les deux FL Syn ou QSyn que nous avons vu en 1 2 3 3 et Gener qui pointe vers les lexies utilis es comme g n rique de la lexie vedette peuvent tre encod es dans ce champ en plus des deux pointeurs exclusifs au DiCo et Cf Le pointeur lie la lexie vedette l ensemble des expressions form es de celle ci et d un modificateur redondant C est une variante de la FL standard Epit Par exemple le syntagme guichet automatique est li e la lexie GICHET2 par le pointeur Le pointeur Cf encode les lexies qui sont proches conceptuellement de la lexie vedette sans en tre des synonymes Par exemple les lexies PUNAISE RIVET et CROCHET constituent des valeurs de la fonction Cf pour la lexie CLOU II est noter que les diff rents pointeurs du DiCo ont t assimil s des FL dans le cadre de notre analyse La fonction Syn encode les synonymes du mot cl La fonction QSyn qui encode le lien de quasi synonymie est par contre plus commune dans les fiches DiCo tant donn la raret de la synonymie exacte Le champ fl r pertorie l ensemble des relations lexicales paradigmatiques autre que Syn et Gener et les FL syntagmatiques Ces relations sont encod es par des FL et chaque FL standard est pr c d e d une glose de vulgarisation la paraphrasant approximativement Ces gloses sont utiles lors de la cr
147. num ro de statut indique le stade d avancement de la fiche La fiche de BAGAGEL 1 est en statut 0 ce qui signifie que la fiche est consid r e comme finalis e Nous parlerons plus amplement du statut des fiches DiCo la section suivante Les champs ULB unit lexicale de base et rem remarque ne sont pas visibles ici Le premier champ sert indiquer si le mot cl est l acception de base de son vocable Ce champ est marqu soit d un OUT ou d un Non Pour chaque vocable du DiCo l acception de base est aussi sa premi re acception consid r e au point de vue d un classement ascendant des valeurs alphanum riques de leurs num ros d acception Une seule lexie par vocable peut en tre l acception de base Le champ rem ne sert qu aux lexicographes devant communiquer des notes entre eux ou voulant prendre des notes en aide m moire Les informations grammaticales sont inscrites l int rieur du champ suivant Cg ou caract ristiques grammaticales Pour les vocables polys miques les caract ristiques grammaticales qui sont communes toutes les lexies du vocable sont inscrites l int rieur de la fiche de pr sentation du vocable qui ne correspond aucune lexie et dont le champ Num ro d acception du vocable contient le chiffre 0 L essentiel des informations s mantiques sur la lexie vedette est inscrit dans le champ tiquette L tiquette s mantique d une lexie correspond grosso modo son gen
148. occurrents Le gras soulign indique une valeur exclusive la liste de cooccurrents de l Universit de Cologne et le gras italique une valeur exclusive la liste de cooccurrent de POLST ACCUSER ACCUSERI 1 QSyn bl mer condamner d noncer faire grief_ incriminer SQ nonc accusation I 1 de N X S1 accusateur n QS2 accus n QS3 action comportement bl mable crime l a d faut faute I 1a m fait Al nonc accusateur adj des paroles accusatrices Magn violemment Ver motif _ raison_ justement AntiVer motif _ tort_ faussement gratuitement _pour rien_ sans raison _ la l g re_ sans preuve AntiBon1 AntiVer motif calomnieusement injustement Ver mani re ouvertement _tout haut_ AntiVer mani rer _de fa on d tourn e_ _tout bas_ ACCUSERI 2 QSyn d f rer incriminer inculper Cf poursuivre Epit formellement officiellement S0 accusation I 2 S1 accusation Iil _minist re public_ procureur S2 accus inculp pr venu S3 motif sp c _chef d accusation_ crime l a d lit m fait S4 cour tribunal Smed _acte d accusation_ AntiVer motif _ tort_ injustement _par erreur_ Labreal12 faire condamner N Y ACCUSERT 3 QSyn reprocher 41 Ver motif _ raison_ justement AntiVer motif _ tort_ injustement ACCUSERII QSyn d noncer d signer condamner QAnti blanchir disculper innocenter
149. os Qui touche toute une nation national postpos Qqn se d signer comme X endosser ART Fait d avoir pr parer S PreparOper1 pr m ditation de ART Ce qui cause que X fasse SOCausOper1 motivation X commettre Oper1 accomplir commettre perp trer ART X faire nouveau De_nouveau0Oper1 k r p ter ART Fait de commettre S00per1 perpr tation de ART X participer en tant que complice en tant que complice Oper1 tremper dans ART Fait d avoir participer en tant que complice S0 en tant que complice Oper1 participation ART Fait d aider X pour faire complicit dans ART Qqn engager qqn pour commettre commanditer ART X essayer de faire croire que n est pas d guiser ART X causer que devienne plus grave Caus1PredPlus aggraver ART a lieu Func survenir est fait avec la participation de X Func1 impliquer N X est contre Y Func2 viser N Y Qqch causer indirectement indirectement CausFunc inspirer Qqn essayer d emp cher Mult Essayer_deLiquFunc combattre le lutter contre le Force publique charg e d emp cher police 25 3 Qqn s occuper de Real I instruire ART enqu ter sur ART Real II lucider ART trouver l auteur de ART Real III punir ch tier r primer ART venger ART Qqn causer
150. p rience S2 connaissance savoir n S3 discipline domaine mati re A1 avec ART muni de ART Magn Bon bon s rieux solide vaste ant pos lt imposant impressionnant lt consid rable AntiMagn faible maigre mince ant pos lt nul postpos Bon bon ant pos lt remarquable Ver pr cieux utile n cessaire Oper1 avoir d tenir poss der ART IncepOper1 acqu rir ART PerfIncepOper1 compl ter ART Oper2 _faire partie_ de ART La connaissance de la logique formelle fait partie du bagage de tout bon scientifique Func2 comprendre inclure N Y Real1 _mettre en pratique_ utiliser ART Degrad se d grader Leur maigre bagage scolaire se d grade de jour en jour BATEAU QSyn navire b timent vaisseau Cf embarcation barque radeau Gener _engin de navigation_ Hypo bac bateau mouche bateau citerne barge brise glace cargo chalutier drakkar ferry fr gate gal re jonque paquebot p niche p trolier transbordeur yacht S1 membre d quipage marin matelot mousse timonier pilote MultS1 Equip quipage S2 passager cargaison chargement AntiBonS2 passager clandestin Mult flottille de x flotte Cap capitaine commandant de ART 48 Magn grand gros ant pos lt norme AntiMagn petit ant pos _coquille de noix_ AntiBon mauvais ant pos rafiot Qui FactQ gr ce N N moteur rames va
151. par fiche alors que les 1233 lexies nominales du DiCo ont une moyenne de 19 3 liens lexicaux par fiche IV 1 2 Les limites des listes de cooccurrents Il serait impossible de g n rer les fiches du DiCo seulement l aide des listes de cooccurrents tir s du corpus Le Monde 2002 puisque comme nous l avons vu les valeurs monolex miques du DiCo n ont t retrouv es l int rieur de celles ci que dans 38 76 et 45 17 des cas POLST et l Universit de Cologne Il tait attendu que les listes de cooccurrents soient particuli rement utiles pour trouver des valeurs de FL syntagmatiques mais m me en nous limitant aux valeurs de FL syntagmatiques le taux de valeurs trouv es n est que de l ordre de 48 33 et 53 35 Qui plus est ce calcul ne tient pas compte des valeurs de FL multilex miques de chaque fiche Un dictionnaire tel que le DiCo ne peut faire l conomie des collocatifs multilex miques Les valeurs multilex miques repr sentent 23 28 de toutes les valeurs du DiCo En moyenne 83 chaque vocable multilex mique est li 1 3 mot cl du DiCo alors que chaque vocable monolex mique y est li une moyenne de 2 54 valeurs Les valeurs multilex miques ont donc tendance tre li es de fa on plus privil gi e leurs mots cl s que les valeurs monolex miques Les ignorer reviendrait donc ignorer une grande partie de ses valeurs les plus idiomatiques du dictionnaire IV 1 3 Le r
152. peur voile Qui sert la p che de p che Qui sert faire des croisi res de croisi re Qui a un usage non commercial de plaisance Qui sert transporter Y d un c t l autre de l Atlantique transatlantique adj transatlantique n Qui est utilis par des pirates pirate ad j Loc in _ bord_ de dans sur ART AdviReal1 2 par Mero bord coque quille passerelle pont cabine carr des officiers cockpit mess poste d quipage coutille hublot cale ballast soute m t chemin e l avant Mero proue sp c trave l arri re Mero poupe sp c tambot gauche Mero b bord droite Mero tribord sculpture l avant Mero _figure de proue_ Dispositif bord de servant mettre un fort signal sonore sir ne de ART Dispositif servant diriger gouvernail barre du gouvernail Instrument servant immobiliser ancre amarre Passerelle servant acc der passerelle d embarquement Drapeau utilis sur pavillon Petite embarcation de secours transport e sur canot de sauvetage Charge que l on met sur pour le stabiliser lest Quantit de marchandise que peut transporter sp c tonnage de ART capacit de ART Mesure de la taille de sp c calaison sp c d placement sp c _tirant d eau_ de ART Unit de mesure pour la vitesse de n ud Fonctionn
153. quement une partie du discours aux lemmes d un corpus l aide seulement d un syst me de reconnaissance des formes Alors qu une forme quivoque est facilement reconnue par le lecteur humain lorsqu elle est mise en contexte la donne se complexifie pour la machine L objectif d un programmeur est donc de cr er un logiciel qui reproduit le mode d identification des lexies chez le lecteur humain G n ralement on utilise le principe du calcul de la probabilit cet effet Le principe de ce type de logiciel est de d terminer quelle partie du discours est la plus susceptible de se trouver la suite d une s quence donn e G n ralement une forme de processus Markov est utilis e cette fin POLST comme l Universit de Cologne notre corpus a t tiquet l aide du logiciel TreeTagger Pour vulgariser la particularit de TreeTagger repose dans sa structure en arbre de d cision binaire utilis e pour estimer la probabilit des transitions de parties du discours et qui se distingue l g rement du mod le Markov Schmid 1994 TreeTagger utilise des contextes plus larges que le mod le Markov traditionnel pour d terminer la probabilit des encha nements Cette approche a l avantage de faire une meilleure analyse des probabilit s basses et des donn es clairsem es Il a t utilis avec succ s dans plusieurs langues dont l allemand l anglais l italien le russe et le fran ais Il peut aussi
154. qui fait l activit consistant attraper professionnel S1 Qqn faire l activit consistant attraper marin p cheur Qqn 1 attraper attraper p cher prendre ART Qqn remettre dans l eau qu il a p ch rejeter ART Nom pour l ensemble de que N a attrap s p che de N IL va au march pour vendre sa p che Qqn pr parer un pour le consommer nettoyer ART Je vous le nettoie votre poisson cailler ART t ter ART ouvrir ART pour ouvrir le ventre vider LART pour enlever les entrailles levage de levage pisciculture tendue Cours d eau o il y a beaucoup de poissonneux l ment du corps de barbe barbillon bouche museau ou es t te cailles nageoire queue R servoir dans lequel on garde aquarium bocal Science qui tudie ichtyologie v nement de la bible multiplication des ART s POISSONI b QSyn chair de poisson I a mar e l autre bout du march on trouve le secteur de la mar e Cf _fruit de mer_ Contr viande Unit de Sing plat de Qui est bon au go t Bon d licieux excellent lt meilleur Qui est frais Bon Ver frais postpos Qui n est pas frais au point d tre impropre la consommation AntiBon AntiVer avari invendable pourri postpos puant ant pos Qqn pr parer 39 Prepar braiser boucaner bouil
155. r passerelle d embarquement Drapeau utilis sur pavillon Petite embarcation de secours transport e sur canot de sauvetage Charge que l on met sur pour le stabiliser lest Quantit de marchandise que peut transporter sp c tonnage de ART capacit de ART Mesure de la taille sp c cala ison sp c d placement sp c _tirant d eau_ de ART Unit de mesure pour la vitesse de n ud Retirer le m t de d m ter ART Construction permettant de remonter un cours d eau cluse Qqn pr parer tre utilisable PreparFact immatriculer ART circule en zigzag louvoyer Nom pour X qui tient la barre de S1 qui tient la barre du bateau dans la direction souhait e barreur Fait pour X de se pr parer cesser d utiliser S PrepariLiquiReal1 mouillage avoir un trajet pr tabli entre le lieu 1 et le lieu 2 relier N 1 et N 2 Endroit o doit se rendre destination Manoeuvre consistant prendre d assaut abordage participer une r gate r gater Course de r gate Fonctionnement de Qqn prendre en location dans le but de l utiliser affr ter Qqn louer qqn affr ter ART Individu qui loue qqn affr teur Qqn mettre en service f1 CausFunc construire fabriquer ART lancer _mettre l eau_ ATR Nom pour f1 SQCausFunc lancement de ART X u
156. r cup rer tous les cooccurrents gauche et droite de nos vocables cibles dans une fen tre de 3 lemmes de chaque c t Comme nous l avons dit plus t t les lemmes trouv s gauche ont t diff renci s de ceux trouv s droite Consid rons la phrase suivante 20 Le voisin a deux chats noirs et un chat blanc En prenant le lemme noir comme cible notre requ te donnerait le r sultat suivant 49 Mot Tag Orientation Fr quence AVOIR VER L DEUX NUM L 1 CHAT NOM L 1 ET KON R 1 UN DET R 1 CHAT NOM R 1 Table 2 R sultat de l analyse de la phrase exemple 1 Le logiciel MonoConc est avant tout un concordancier qui permet l utilisateur d afficher les contextes l int rieur desquels un lemme donn est trouv dans un corpus Les tableaux tudi s ici ont t obtenus en utilisant une option de ce logiciel qui reprend les lemmes formant les contextes et les reformule sous forme de listes de cooccurrents ordonn es selon leur fr quence Comme NSP MonoConc permet l utilisateur de choisir la largeur de la fen tre l int rieur de laquelle les lemmes sont relev s ce qui nous a permis de r cup rer tous les cooccurrents gauche et droite des vocables cibles encore une fois dans une fen tre de 3 lemmes Les r sultats obtenus par MonoConc sont donc tr s comparables ceux obtenus par NSP Svedkauskaite 2004 11 5 Pr sentation des donn es
157. r es appartenant des FL d j pr sentes dans les fiches et celles qui appartiennent des FL qui n y figuraient pas pr alablement Nous avons aussi pris en note le rapport entre les valeurs sugg r es qui appartiennent des FL standards et celles qui appartiennent des FL non standards Nous en reparlerons en IIL 2 3 et I11 2 4 Chapitre III Pr sentation et analyse des r sultats obtenus 61 111 1 Analyse prenant les listes de cooccurrents comme point de d part I11 1 1 Comparaison des listes de cooccurrents Bien que des m thodes assez semblables aient t utilis es afin de g n rer les listes de cooccurrents POLST et l Universit de Cologne ces deux ensembles de listes se distinguent au niveau du nombre de donn es relev es et du nombre d erreurs trouv es La table suivante d taille le nombre de cooccurrents relev s dans chacune des listes de cooccurrents POLST et l Universit de Cologne La colonne Cooc diff d taille le nombre de cooccurrents relev s par listes alors que la colonne Cooc total d taille le nombre total de cooccurrents trouv s Vocable OLST COL Cooc Cooc Cooc Cooc diff Total diff total ACCUSER 3096 13228 3691 23252 ADMIRATION 403 1274 583 1562 AMI 3680 18536 4299 30323 ANCRE 81 128 99 238 APPLAUDIR 549 1404 680 2049 APPLAUDISSEMENTS 328 835 366 1154 AVERSION 125 288 348 598 BAGAGE 406 1016
158. r exemple l occurrence de il la gauche de ami relev e 58 fois dans le corpus est plus accidentelle que l occurrence de intime la droite de ami bien que intime n ait t relev que 25 fois la droite de ami La raison en est tout simplement que il est beaucoup plus commun que intime dans la langue et plus particuli rement dans le corpus Le Monde 2002 Un calcul statistique est donc n cessaire afin de d terminer la probabilit selon laquelle deux cooccurrents se retrouveraient li s uniquement par le hasard C est g n ralement le calcul de log likelihood qui est utilis cet effet bien que d autres tests tels que le chi carr et le test t peuvent aussi tre utilis s et reposent approximativement sur le m me principe Le calcul de log likelihood dont une pr sentation pr cise est disponible dans Mood et coll 1974 est g n ralement pr f r aux autres calculs probabilistes parce qu il est plus appropri pour les donn es clairsem es et que son interpr tation est plus intuitive Manning Sch tze 2000 Son r sultat prend la forme d un indice num rique imm diatement interpr table alors qu il est par exemple n cessaire de consulter un tableau pour interpr ter le calcul de chi carr Le calcul de log likelihood permet de quantifier la force d attraction des l ments des paires de cooccurrents en consid rant trois param tres pour le corpus choisi le nombre d occurrences de la pair
159. r trahi sa famille X qui prouve intense Magn A1 accabl couvert mort adj plein rempli de X faire qqch sans prouver de NonAdv1i sans sans modificateur Qqn faire Y en faisant prouver X Adv2 la X oblig Il a abandonn ses tudes la honte de toute sa famille X qui tend ne pas prouver AntiAblel effront _sans vergogne_ Y envers quoi on peut prouver Able2 honteux un comportement honteux Intense Magn grande ant pos lt indicible X faire qqch du fait de Propt de par X prouver Oper1 avoir conna tre prouver ressentir subir vivre ART X prouver tr s intense communiquer Oper1i exprimer A poss X Magn Oper1 fam crever mourir III de fam _ne pas plus savoir o se mettre_ Qqn dire que X devrait prouver propos de Y communiquer que X devrait Oper12 N X devrait avoir Y obligatoire IL devrait avoir honte de son attitude Il devrait en avoir honte Ce qu on dit pour communiquer que X devrait prouver nonc pour communiquer que X devrait Oper12 N X Honte lui X causer qu il ne ressente plus 31 Liqu10per1 se d faire de A poss X surmonter vaincre ART 2 Y tre la raison de de X Oper21 tre une pour N X la gt de N X faire N X faire
160. re 10 83 aussi longtemps qu elles pr sentent une concentration int ressante de valeurs de FL IV 3 Int gration des listes de cooccurrents la m thodologie de cr ation des fiches DiCo Notre recherche nous a permis de conclure que les listes de cooccurrents peuvent tre utiles aux lexicographes de dictionnaire d approche qualitative tel que le DiCo comme source compl mentaire de donn es celles utilis es jusqu maintenant Nous devons donc d terminer de quelle fa on int grer la consultation des listes de cooccurrents lors de la r daction de fiches DiCo Nous avons vu en III 2 1 que les listes de cooccurrents sont riches principalement en valeurs pertinentes l encodage de la lexie de base des vocables vedettes Nous croyons donc que les listes de cooccurrents ne sont pas utiles pour d terminer le d coupage de la polys mie des vocables Qui plus est le contexte entier d une phrase contenant le vocable vedette permet d en d terminer l acception utilis e dans cette phrase Les cooccurrents seuls sans contexte sont de peu d aide cet gard Nous consid rons donc qu il n est pas utile de les consulter l tape de d grossissage des fiches Nous croyons par contre qu il est souhaitable de consulter les listes de cooccurrents au d but du traitement des fiches en statut 3 Premi rement nous avons constat que pr s de la moiti des donn es pertinentes trouv es sur nos listes de cooc
161. re 2001 L2 et LI poss dent au moins une composante commune de sens Dans le cas le plus typique L2 se d finit en terme le L1 La relation entre L2 et L1 est r currente dans la langue La relation entre L2 et L1 s exprime ventuellement mais pas n cessairement de fa on morphologique On rel ve trois familles de d rivation s mantique repr sent es par les trois cas de figure suivants 1 Les deux lexies poss dent approximativement le m me sens 2 Les deux lexies poss dent des sens oppos s 3 Une des deux lexies d signe un l ment de la situation d sign e par l autre Il existe 3 instances du premier cas de figure soit de la relation entre des lexies poss dant approximativement le m me sens Il peut s agir de synonymie exacte ou approximative d une relation de conversion ou d un changement de partie du discours Les synonymes exacts ou approximatifs sont respectivement encod s par les FL Syn et QSyn En voici quelques exemples tir s du DiCo Il est noter que la synonymie exacte tant extr mement rare dans la langue la FL QSyn est beaucoup plus fr quente que la FL Syn dans le DiCo 10 QSynCvERVE loquence faconde bagout volubilit conversation b 14 SynCBICYCLETTE v lo Un conversif exact ou approximatif poss de les m mes actants que son mot cl mais sous une configuration diff rente La relation de conversion est encod e par la FL Conv En voic
162. re prochain Cette information s mantique minimale permet souvent de dissocier les diff rentes acceptions des vocables polys miques l int rieur du DiCo Par exemple les lexies FR MISSEMENTI 1 En remuant sans arr t faire r chauffer jusqu au premier fr missement du bou 1 1on et FR MISSEMENTIIL Nous admirons le fr missement des vagues et les voiliers se ber ant sur la mer tale tir es du DiCo qui ont toutes deux la m me forme propositionnelle de L entit X se distinguent par leurs tiquettes s mantiques 23 FR MISSEMENTI 1 d signe le mouvement de quelque chose alors que FR MISSEMENTIII d signe un son Les tiquettes s mantiques permettent de plus de g n raliser certaines propri t s de combinatoires des lexies Le champ fp ou forme propositionnelle pr sente la structure actancielle de la lexie vedette Cette information est primordiale puisque c est la lumi re de celle ci que seront encod es les relations lexicales contr l es par la lexie vedette Aussi tout comme l tiquette s mantique les formes propositionnelles de deux lexies peut permettre de les distinguer l une de l autre C est le cas des lexies TERRITOIRE la et TERRITOIRE b qui ont toutes deux l tiquette tendue de terrain occup e La premi re lexie prend la forme propositionnelle DE L entit politique ou groupe social X alors que la seconde prend la forme propositionnelle DE L animal X
163. recevoir Oper2 fam prendre fam se prendre recevoir ART Y tendre tre passible de PredAble2 m riter ART Y recevoir forte Magn 0Oper2 encaisser ART Y 1 essayer de ne pas recevoir essayer de Non0Oper2 se prot ger le visage Y se pr parer recevoir Prepar20per2 tendre la joue ART tendre la joue N X produit un son Son claquer GIFLEII QSyn affront humiliation insulte offense Cf d saveu honte Qui est diffus e par les m dias m diatique lpostpos pit vraie ant pos Qui affecte beaucoup Y Magn grosse ant pos cinglante magistrale m morable monumentale retentissante Qui a un effet positif salutaire postpos X1 tre pour Y pour X1 Oper12 constituer tre repr senter ART _ l gard_ _ l endroit_ pour N Y X2 donner Y pour X2 Oper12 administrer donner infliger ART N Y X2 donner qui affecte beaucoup Y pour X2 Magn 0Oper12 ass ner ART N Y Y tre la cible de Oper2 essuyer recevoir subir ART 30 HONTE HONTEI 1 QSyn d shonneur humiliation embarras g ne Cf culpabilit disgr ce Gener sentiment de QAnti fiert I 1 M taphore Figur le rouge de la Nom pour Y S2 objet de CART honte I 2 Instance de Sing bouff e de X qui prouve A1 honteux honteux d avoi
164. reinte Firth 1957 Les deux tendances qualitative et quantitative du traitement des collocations d coulent de cette premi re d finition tr s vague Parmi les successeurs de Firth notons Hausmann qui propose une d finition plus qualitative des collocations vers la fin des ann es 70 en y ajoutant deux pr cisions Premi rement il d finit la collocation non plus comme une association r currente entre deux mots mais plut t comme une association r currente et arbitraire entre deux mots Benson 1989 Pour Hausmann une association libre entre deux mots m me fr quente ne pr sente pas d int r t au point de vue de la description lexicographique Hausmann apporta de plus la notion d orientation de la collocation Pour Hausmann la collocation est en effet form e d une base qui est choisie librement par le locuteur et d un collocatif qui est choisi en fonction de cette derni re La d finition de Hausmann constitue encore aujourd hui un noyau important dans les th ories plus qualitatives sur la collocation dont la th orie de la LEC que nous verrons la section 1 2 3 D autres successeurs de Firth dont Halliday et Sinclair offrent quant eux une d finition beaucoup plus quantitative de la collocation D j en 1967 tous deux collaboraient au Lexis Research Project C LP 08 de l Office of Scientific and Technical Information Halliday titre de concepteur et Sinclair titre d investigateur p
165. rincipal Les r sultats de cette recherche ont t publi s petite chelle en 1970 et r dit s r cemment plus grande chelle Sinclair et al 2004 Ce projet jette les bases de la linguistique de corpus et on y d finit les collocations ici CSS comme la cooccurrence de deux items lexicaux dont la cooccurrence est plus fr quente que ce qui pourrait tre attendu en regard de la fr quence respective de chacun de ces items et de la longueur du texte Nous nous garderons ici de faire un portrait exhaustif des diff rentes th ories qui d coulent des th ories de Halliday Sinclair et Haussmann Le lecteur trouvera une chronologie plus compl te chez Orliac 2004 Nous nous contenterons ici de pr senter les deux approches rencontr es dans le cadre de notre tude soit l approche probabiliste du laboratoire linguistique de l Universit de Cologne et l approche de la LEC adopt e par les lexicographes du DiCo 1 2 2 tudes cooccurrences statistiquement significatives Gr ce la pr cieuse collaboration de la Maison Internationale de l Universit de Montr al et l octroi d une bourse de mobilit du minist re de l ducation du Qu bec nous avons pu en mai 2007 visiter l quipe de travail du professeur Peter Blumenthal du d partement des langues romanes de l Universit de Cologne dont les travaux s inscrivent dans une perspective plut t quantitative Lors de notre passage leurs rech
166. rs de FL syntagmatiques ont t rep r es dans 48 33 des cas l OLST et dans 53 35 des cas l Universit de Cologne alors que les valeurs de FL paradigmatiques l ont t dans 27 01 des cas POLST et dans 35 71 des cas l Universit de Cologne Ces r sultats sont donc coh rents avec les r sultats observ s pr c demment au niveau des suggestions de FL et ce que nous avions pr alablement suppos les valeurs de FL syntagmatiques en comparaison des valeurs de FL paradigmatiques sont largement pr dominantes dans notre corpus Cependant seulement la moiti de ces valeurs a t rep r e l int rieur des listes de cooccurrents Chapitre IV Observations recommandations et conclusion 81 IV 1 Utilit relative des listes de cooccurrents Les donn es pr sent es au chapitre III nous permettent de conclure la non concordance de nos deux ensembles de listes de donn es Dans un premier temps nous avons trouv sur les listes de cooccurrents des valeurs de FL qui ne se trouvaient pas dans les fiches DiCo des vocables concern s Dans un deuxi me temps environ la moiti des valeurs de FL des vocables tudi s ici n ont pas t relev es dans nos listes de cooccurrents Nous devons donc conclure que le recours des listes de cooccurrents dans la cr ation de fiches DiCo est souhaitable bien que compl mentaire aux m thodes d j utilis es Voyons maintenant dans quelle mesure les listes de
167. s CausNonFunc pr venir ART IRRITATIONII 2 QSyn d mangeaison Type de Y QS2 peau Y o X tend ressentir Able2 irritable une peau irritable Z qui tend causer Y Able3 irritant pour N Y un produit irritant pour les yeux Intense Magn forte ant pos aigu postpos intense p nible I devient plus intense IncepPredPlus s accentuer augmenter Peu intense AntiMagn petite ant pos discr te l g re I devient moins intense IncepPredMinus diminuer X ressentir 35 Oper12 prouver ressentir sentir ART N Y sp c souffrir de ART N Y Z tre la cause de Oper3 causer entra ner provoquer ART irriter N Y cesse FinFuncO cesser passer Qqn ou qqch causer qu il n y ait pas CausNonFunc pr venir ART PLATE PLAIEI QSyn blessure coupure d chirure corchure entaille Cf br lure bosse h matome Gener l sion Tel qu elle doit tre Ver douloureuse Qui ne pr sente pas de risque d infection Bon propre De grande taille Magn profonde large lt b ante De petite taille AntiMagn superficielle petite L g re Nombreuses Magn quant multiples Qui contient du pus infect e purulente suintante postpos Qui r sulte d un coup sp c contuse postpos De laquelle coule du sang h morragique ouverte sangl
168. s pour s assurer de la validit du d coupage de son vocable en lexies Au terme du d grossissage la fiche du vocable est en statut 3 ce qui signifie qu elle a t l objet d un travail minimal Les figures 7 8 et 9 montrent le r sultat de cette deuxi me tape de travail Figure 7 Nomenclature de la fiche DiCo du vocable BILLET en statut 3 30 SnmmmmmmmmenmenmenNeNnmenNENEnNmnNnEnNnennennEnnNnnnNnnnNENnEnNEnNEEmennennennnnnnnnnnnnnnnnnnnnennenennnnnenenennn as nine nent PAR L i en mme nn de N A poss I de Num CN billet de 50 billet de 200 euros de banque QSyn coupure monnaie espece gent liquide QAnti cheque Nom pour Y 52 valeur de ART Dont Y est lev Magn2 gros ant pos Dont Y est peu eleve AntiMagn2 petit antepos Uti lisable Ver en circulation valide postpos tre utilisable PredVer _avoir cours_ Non utilisable car trop ancien Trop ancien AntiVer perime postpos ale de Yougoslavie doit re en circulation un llet de 1 milliard de dinars Beaucoup de parents se debarrassen leurs enfants le samedi soir en leur lan ant un billet de 50 mark et en leur disant d aller s amuser Pour am liorer son ordinaire fabrique de faux billets de 500 francs juste pour son usage personnel Ils agitent sous le nez des passants leurs liasses de Figure 8 Extrait de la fiche DiCo de la lexie BILLET en statut 3 31 32
169. sime impardonnable imprescriptible inexpiable monstrueux terrible Nombreux Magn quant innombrables nombreux lt norme postpos amp plut t non violent AntiBon Magn abominable inqualifiable _contre nature_ Pas tr s grave AntiMagn petit ant pos Grave contre la population Y contre la population Y Magn _ contre L humanit _ Qui est motiv par une haine de X envers Y haineux postpos de haine Qui consiste tuer l individu Y soutenu _de sang_ assassinat crime Il b homicide n meurtre Qui est commis par des soldats pendant une guerre de guerre Dont le mobile est le d dain pour un sexe sexiste postpos Dont le motif est la haine d une ethnie raciste postpos Qui est une atteinte au souverain de l se majest postpos 24 Dont X est le conjoint de Y domestique postpos Qui cause des morts sanglant postpos Qui consiste en un contact sexuel non d sir par Y sexuel postpos Qui a pour but l accomplissement d un rite religieux rituel postpos Qui est commis contre l environnement cologique Ipostpos Qui est commis par l entourage de Y dans le but de pr server son honneur mis en jeu par Y d honneur postpos Qui est li aux finances conomique financier postpos Qui implique l usage de la violence sur Y violent Ipostpos Qui touche la communaut internationale global international postpos Qui touche plusieurs nations transnational postp
170. son Internationale de l Universit de Montr al qui m a permis d obtenir les fonds n cessaires pour effectuer un stage de recherche de deux mois l Universit de Cologne Je voudrais aussi remercier Peter Blumenthal et Sascha Diwersy pour leur accueil exceptionnel lors de mon passage en Allemagne Je voudrais aussi remercier l association Cigogne pour son pr cieux soutien et la halte garderie le Baluchon pour leur travail formidable et leur flexibilit Je d sire finalement remercier mes parents Jocelyne et Donald pour leur d votion hors du commun mon conjoint Yann Godbout pour sa culture et son intelligence et la Soci t Secr te pour tre le meilleur club clandestin auquel on peut aspirer faire partie Table des mati res RESUME dede en nn en ces i ABSTRACT assiste ten dates nd Sens to este ssu net en eus in s s ii Liste des taPleSsosssssiscsssotess trossets en Re nee viii List des HORS osinsmssnsdndmioaninnantninidiiantdntsdaioni ix Liste des APF VAIONS nn el den een rt ei a stat sis tue ira x Chapitre I Pr sentation de la recherche sessseessoossosssosesssesssoossoosssosssossssosssosssosssosssssesssessssosso 1 J1 Opjectts de rh nssnennaninnmtinaamnninanaidaania 2 12 Cadre d QUE ms snmenpmanmmaneemmtusmnaemmaadnnioanmen 2 L 2 1 Les notions de cooccurrence collocation et de cooccurrence statistiquement significative 2 1 2 2 tudes cooccurrences statistiquement significatives see 5 L2
171. st une la LIndividu qui a l air d avoir constat catastroph CATASTROPHEIT 2 pit vraie v ritable QSyn cauchemar d sastre vulg de la merde chec A0 catastrophique Compl te Magn compl te totale X tre Oper1 tre constituer repr senter s av rer tre une X commence tre IncepOper1 tourner la 23 CRIME CRIME1a Gener m fait Syn _acte criminel_ QSyn d lit infraction forfait crime l b viol kidnapping cambriolage vol fraude A0 criminel adj I 1 Type de Hypo attaque blanchiment d argent braquage empoisonnement enl vement p dophilie s questration vol banditisme complot corruption trahison attentat torture g nocide Fait qui est AlPred criminel adj I 2 X qui fait A1 coupable adj responsable adj de ART X qui n a pas fait AntiA1 innoncent ad j Nom pour X S1 auteur coupable de ART complice de ART criminel n Nom pour Y S2 cible victime de ART Ensemble de qui se suivent succession Mult s rie suite de s vague de s diff rents X Ensemble de commis dans une soci t donn e dans une soci t Mult criminalit d linquance 2 Grave Magn abject barbare capital crapuleux injustifiable innommable irr parable majeur postpos pire ant pos effroyable pouvantable grave gravis
172. sugg r es 69 Comme nous l avions pr vu la section IL 3 les VFLP li es des FL syntagmatiques sont beaucoup plus nombreuses que les VFLP li es des FL paradigmatiques globalement 441 70 valeurs de FL syntagmatiques ont t sugg r es contre 207 valeurs de FL paradigmatiques Pour presque toutes les fiches le nombre de valeurs de FL syntagmatiques d passe le nombre de valeurs de FL paradigmatiques La seule exception est la lexie POISSONL a qui a r colt un nombre important de VFLP li es au pointeur Hypo qui encode les hyponymes de son mot cl et au pointeur Cf Nous avons assimil ces pointeurs dans nos calculs des FL paradigmatiques non standards La majeure partie des valeurs de FL syntagmatiques qui ont t sugg r es sont des valeurs de FL adjectivales ou adverbiales Elles repr sentent 53 95 des valeurs de FL syntagmatiques propos es ici Viennent ensuite les valeurs de FL syntagmatiques verbales qui repr sentent 45 des valeurs de FL syntagmatiques sugg r es Les valeurs de FL standards repr sentent 64 88 des valeurs de FL adjectivales ou adverbiales sugg r es Ces valeurs sont dans 62 41 des cas des indicateurs d intensit valeurs des FL Magn AntiMagn et leurs d riv s et dans 17 29 des cas des indicateurs de qualit valeurs des FL Bon Ant1Bon Ver AntiVer et leurs d riv s Les verbes supports sans valeur s mantique repr sentent 25 85 des suggestions de
173. t dire des dictionnaires d approche qualitative o la collocation est d finie comme une association r currente et arbitraire entre deux items lexicaux et o les principaux outils m thodologiques utilis s sont la comp tence linguistique de ses lexicographes et la consultation manuelle de corpus de textes La consultation de listes de cooccurrents est une pratique associ e habituellement une approche lexicographique quantitative qui d finit la collocation comme une association entre deux items lexicaux qui est plus fr quente dans un corpus que ce qui pourrait tre attendu si ces deux items lexicaux y taient distribu s de fa on al atoire Nous voulons mesurer ici dans quelle mesure les outils utilis s traditionnellement dans une approche quantitative peuvent tre utiles la cr ation de fiches lexicographiques d approche qualitative et de quelle fa on leur utilisation peut tre int gr e la m thodologie actuelle de cr ation de ces fiches Mots cl s collocations fonctions lexicales Lexicologie Explicative et Combinatoire statistique lexicale th orie Sens Texte il ABSTRACT This paper presents an evaluation of the various methods used in lexicography in order to identify the lexical bonds in dictionaries where collocations are indexed We compared the contents of entries of the DiCo a dictionary of semantic derivatives and collocations created according to the principles of explanatory and combinative
174. t tendance tre r guli rement en cooccurrence avec d autres noms de sentiments qui sont des valeurs potentielles du pointeur CF Nous avons pu l observer ici avec la lexie ADMIRATION dont environ 4 5 des cooccurrents taient des noms de sentiments sur chacune de nos listes de cooccurrents Plusieurs noms d art facts et d esp ces vivantes ont aussi le potentiel de prendre plusieurs valeurs pour les pointeurs MERO et HYPO et une recherche sur une liste de cooccurrents peut faire ressortir plusieurs de ces valeurs Le jugement du lexicographe est particuli rement n cessaire lors de leur encodage vu leur valeur conceptuelle afin d viter d y inclure des valeurs superflues La pr sence d une valeur possible sur un corpus est bien entendu un argument en faveur de son inclusion dans le DiCo mais le lexicographe doit toujours tenir compte de son intuition de locuteur lors de la consultation de listes de cooccurrents afin d viter d inclure dans le DiCo des valeurs trop techniques ou trang res une majorit de locuteurs natifs L encodage du pointeur CF n cessite une sensibilit particuli re aux associations conceptuelles entre les mots La pr sence des nombreuses valeurs de QSyn sur les listes de cooccurrents est comme la pr sence de nombreuses valeurs de CF attribuable la propension de certains types de lexies prendre des lexies de m me champ s mantique comme cooccurrents Les vraies valeurs de QSyn
175. t des lexies ou des syntagmes Il existe deux classes de FL toutes deux pr sentes dans le DiCo les FL syntagmatiques et les FL paradigmatiques Les FL paradigmatiques servent encoder les d riv s s mantiques de leur mot cl alors que les FL syntagmatiques en encodent les collocatifs Nous verrons les FL syntagmatiques la section 2 3 2 et les FL paradigmatiques la section 1 2 3 3 La vaste majorit des liens lexicaux des dictionnaires Sens Texte sont formalis s par des FL standards Il existe une soixantaine de FL simples standards Une FL standards simple se doit d tre applicable un grand nombre de mots cl s d une m me langue d tre applicable dans la plupart des langues et d tre r alis e par un grand nombre de valeurs diff rentes Les FL standards simples peuvent tre combin es afin de former des FL complexes et des configurations de FL Nous traiterons de cette question la section 1 2 3 4 Lorsque les FL standards ne suffissent pas d crire tous les liens lexicaux d une lexie il est possible de faire appel aux FL non standards Nous en parlerons dans la section 1 2 3 5 Nous ne pr senterons ici qu un bref survol des FL Un guide plus complet est disponible dans Mel uk et al 1995 p 125 154 1 2 3 2 Les fonctions lexicales standards syntagmatiques Les FL syntagmatiques sont utilis es pour encoder la combinatoire lexicale restreinte des lexies Cette approche descriptive peut
176. tenant aux parties du discours qui ne sont g n ralement pas pertinentes pour l encodage de FL soit les abr viations les d terminants les conjonctions les noms propres les adjectifs num raux et les pronoms Le tableau suivant indique le pourcentage de donn es pertinentes des listes de cooccurrents auxquelles on a retir les cooccurrents de chacune des parties du discours mentionn es plus haut et consid r es comme non pertinentes Pour chaque ensemble de listes de 86 cooccurrents la colonne Sans PDDNP indique le pourcentage de donn es pertinentes des listes auxquelles on a retir ces cooccurrents et la colonne GLobal indique le pourcentage de donn es pertinentes des listes compl tes tel qu ils avaient t donn s dans le tableau 4 OLST Cologne Vocable Sans PDDNP Global Sans PDDNP Global ADMIRATION 19 81 15 63 19 82 15 09 AMI 4 1 3 37 4 93 3 83 ANCRE 18 97 13 58 18 46 13 13 APPLAUDISSEMENT 19 19 16 16 20 54 16 39 AVERSION 17 53 13 6 10 26 8 05 BAGAGE 18 86 14 77 15 52 12 8 BATEAU 12 66 11 14 12 87 11 15 CATASTROPHE 10 16 9 48 10 75 9 7 CRIME 15 41 13 53 13 9 12 34 GIFLE 26 05 20 39 18 13 15 74 HONTE 8 82 8 01 10 76 9 7 IRRITATION 17 88 14 14 17 07 14 52 PLAIE 16 09 14 52 17 03 14 65 POISSON 16 21 14 41 17 16 15 28 APPLAUDIR 8 44 7 10 6 58 5 74
177. tiliser Real1 naviguer sur ART conduire op rer piloter ART Individu Y utiliser individu Y Real2 aller se d placer voyager en par prendre le Fait pour un de plaisance d tre utilis de plaisance S Fact croisi re Individu Y se pr parer utiliser f2 18 individu Y PrepariReal2 prendre ART C s embarquer monter _ bord de_ dans sur ART monter _ bord_ Invididu Y cesser d utiliser individu Y Liqu2Real2 d barquer de ART X cesser d utiliser LiquiReal1 amarrer ancrer ART X cesser d utiliser sur lequel X est en danger AntiBonLiqu1Real1 abandonner ART Nom pour S0f2 embarquement Qqn mettre la cargaison Y dans f3 cargaison Y PreparReal2 charger embarquer N Y _ bord_ de dans sur ART Nom pour f3 S0f3 chargement embarquement de N Y se d place sur l tendue d eau N tendue d eau Fact parcourir sillonner N se d place vers le lieu N f4 Fact0 naviguer voguer _en direction de_ vers N1 lt cingler _en direction de_ vers N Nom pour f4 SQf4 travers e qui est enregistr dans un pays AOf4 battant pavillon 2 commence se d placer IncepFact appareiller _larguer les amarres_ _lever l ancre_ lt quitter le port lt _prendre la mer_ lt _prendre le large_ Fait pour de commencer se d placer SolncepFa
178. tion parcourut l assistance Ce que l on dit lorsque l on a ah oh Les versions augment es de chacune des fiches des lexies tudi es ici sont disponibles en annexe du pr sent m moire 1 6 2 Les fiches DiCo r duites Pour chaque fiche DiCo tudi e ici nous avons cr une fiche DiCo r duite Comme les fiches DiCo augment es les fiches DiCo r duites ont t cr es manuellement partir des fiches 58 DiCo originales des vocables tudi s ici Nous avons d cid pour all ger le texte d en retirer les gloses puisque celles ci sont disponibles l int rieur des fiches DiCo augment es Alors que les fiches DiCo augment es servent rendre compte des ajouts de valeurs de FL propos es l int rieur de la table prenant les listes de cooccurrents comme point de d part les fiches DiCo r duites servent rendre compte des donn es pr sentes dans la table prenant les listes de valeurs du DiCo comme point de d part Ainsi on y a indiqu l aide du gras les valeurs de FL qui ont t trouv es dans les listes de cooccurrents Comme pour la fiche DiCo augment e le gras seul indique une valeur commune aux deux listes de cooccurrents alors que le gras soulign indique une valeur exclusive la liste de cooccurrents de l Universit de Cologne et le gras italique une valeur exclusive la liste de cooccurrents de POLST Les valeurs en format standard n ont t rep r es sur aucune
179. totale 0per1 tre s av rer tre une CRIME CRIMEI a Syn _acte criminel_ QSyn d lit forfait crime I b viol kidnapping cambriolage vol fraude A40 criminel adj I 1 A1Pred criminel adj I 2 S1 auteur de ART complice de ART criminel n S2 victime de ART succession Mult s rie suite de s vague de s diff rents X dans une soci t Mult criminalit d linquance Magn grave lt norme postpos amp plut t non violent contre la population Y Magn contre l humanit AntiBon Magn abominable inqualifiable _contre nature_ Qui est motiv par une haine de X envers Y haineux postpos Qui consiste tuer l individu Y soutenu _de sang_ assassinat crime I b homicide n meurtre Qui est commis par des soldats pendant une guerre de guerre 0per1 accomplir commettre perp trer ART en tant que complice Oper1 tremper dans ART Mult Essayer_deLiquFunc combattre le lutter contre le Force publique charg e de f1 police Real I instruire ART enqu ter sur ART Real II lucider ART trouver l auteur de ART Real III punir ch tier r primer ART venger ART S1Real I II brigade criminelle adj I 1 Science qui tudie ce qui rapport criminologie Activit consistant commettre f2 le IL faut aussi lutter contre le crime en milieu rural Environnement social de f2 le milieu
180. tr postpos Y contenu dans Loc in _ l int rieur de_ dans ART 14 X Qqn sortir Y de Liqu 1 Func vider ART BAGAGEII de connaissances intellectuel QSyn comp tence connaissances ducation instruction culture rudition savoir exp rience Y informations techniques sur Z technique Y informations th orique sur Z th orique Y traditions de X culturel Y donn es acad miques scolaire Z 1e droit juridique Qui est propre un seul X personnel postpos Que plusieurs X poss dent commun postpos Nom pour Y S2 connaissances savoir n Nom pour Z S3 discipline domaine mati re X qui a A1 avec ART muni de ART Important Magn Bon bon s rieux solide vaste ant pos monumental postpos lt imposant impressionnant lt consid rable Peu important AntiMagn faible maigre mince ant pos lt nul postpos Bon Bon bon ant pos lt remarquable Utile Ver pr cieux utile n cessaire postpos suffisant lpostpos X avoir Oper1 avoir d tenir poss der ART X commencer avoir InepOper1 acqu rir ART X terminer l acquisition de PerfincepOper1 compl ter ART Y tre un l ment de de X Oper2 constituer _faire partie_ de ART La connaissance de la logique formelle fait partie du bagage de tout bon scientifique inclut Y Func2 comprendre
181. tre adapt pour n importe quelle langue pour laquelle nous poss dons un lexique et un corpus annot manuellement 48 Apr s cette premi re tape de traitement nous avons proc d l extraction des donn es du corpus l aide des logiciels NGram Statistic Package NSP POLST et MonoConc l Universit de Cologne Ces logiciels servent identifier et analyser des s quences de Ngram c est dire des s quences form es d un nombre N de tokens d fini par l utilisateur Les tokens sont les unit s minimales pouvant tre cherch es par NSP est peuvent tre d finies par l utilisateur NSP fonctionne en deux tapes afin de g n rer des listes de cooccurrents Premi rement il analyse le corpus qui lui est soumis et proc de sa segmentation en tokens tels qu ils ont t d finis par l utilisateur Dans le cas qui nous occupe les tokens correspondent aux lemmes qui ont pr alablement t tiquet s par Treetagger Afin d tre analys par NSP le corpus tiquet a t reconstruit dans un format qui y est compatible puis a t segment nouveau La deuxi me tape du traitement consiste en l assemblage des s quences de N tokens en Ngram Ici nous avons choisi de travailler avec des bigrammes soit des s quences form es de 2 lemmes Le programme nous permet de former des bigrammes avec des tokens non contigus dans une fen tre d finie par l utilisateur Nous avons choisi de
182. trophes ont t consid r es comme des fronti res de mots Les formes fautives aujourd et hui ainsi que la forme fautive quelqu qui apparaissent toutes plus d une reprise dans les listes semblent provenir respectivement des formes aujourd hui et quelqu un qui contiennent chacune une apostrophe Les formes jusqu et qu quant elles n ont pas t associ es leurs formes compl tes jusque et que On remarque aussi l absence compl te de noms compos s l int rieur des listes de l OLST alors qu ils sont pr sents sur les listes de cooccurrents colonaises L utilisation de corpus d entra nement diff rents et de versions diff rentes de Treetagger peut expliquer en partie les diff rences observ es ici Une version de TreeTagger pour Mac OS a en effet t utilis e POLST alors qu une version Windows a t utilis e Cologne Les r gles de segmentation ont d ailleurs t corrig es dans les versions plus r centes de Treetagger pour Mac OS 111 1 2 Contenu des listes de cooccurrents Nous avons observ d importantes variations entre le stock de donn es contenu dans chaque liste de cooccurrents Comme nous pouvons le constater dans la table 3 la liste de cooccurrents de l OLST poss dant le moins de cooccurrents diff rents en poss de 81 alors que la liste qui en poss de le plus en a 3680 Cologne le nombre de cooccurrents diff rents par liste oscille entre 99 et 4299 Nous pouvons donc d
183. u DiCo e sssssesssesoossoesoesooesoessesooesoesoessoesoossessossoosseesossoossossoesoossoesoesoossosssese 42 I 4 Extraits d s COFDUS seems denenecennsntenedinsninneienseiid arentete 46 II 4 1 Le contenu des listes de cooccurrents ssssssssesseenenennssnsensenssssesssse 46 IL 4 2 La g n ration des listes de cooccurrents sseeeneneennennennennennnnnssnnensnsessese 46 II 5 Pr sentation des donn es en tables ssessoesoessesoossoessessoesoossessoesoosseesossooesoesoesoossoesoesoossossses 49 IL 5 1 Cl d interpr tation des tables ssesesssesoeseesseseessesoroosseesoeseesoesoeseesoeseesoeeoeseesorsoeseesossessoeeoeseseeso 49 IL 5 1 1 Table de comparaison des listes de cooccurrents avec les listes de valeurs du DiCo 50 IL 5 1 2 Table de comparaison des listes de valeurs du DiCo et des listes de cooccurrents e 52 IL 5 2 Interpr tation des tableaux ssesessseseessesoesessoesoesessoesesseesoesessoesossoeeoecesseseoeseesoesoeseesoesessoesorseseeee 53 II 6 Cr ation de fiches DiCo modifi es e seessoesoesseseoesoesseesoesosssessoesoosseesoesooesoesoesoossoesoesoossossoee 55 IL 6 1 Les fiches DiCo augment es eesessossesssesoessesoesoessesoeseesoesocseesoesessoesocssecorceeseeeosseesoesorseesossessoecorseseee 55 IL 6 2 Les fiches DiCo r dtit S ssssessisssesssssiosssssssessusssssosssssossusstosssssosistuserssvossbessssssississsssssresssssssosssssssss 57 IL 6 3 Utilit des fiches modifi es sseseeeenennsns
184. ui est sur le point d tre victime de A1ProxOper1 _au bord_ de la Qqn causer que X survive CausNonReal1 sauver N X de ART Individu qui a surv cu S1AntiReal rescap survivant a lieu Func arriver _avoir lieu_ d ferler se produire survenir a X pour victime Func1 s abattre sur N X frapper toucher N X se produit nouveau de_nouveauFunc se r p ter se reproduire est sur le point de se produire ProxFunc1 menacer ART N X Fait pour d tre sur le point de se produire S ProxFunc imminence de ART Qu il est possible d viter AbleCausNonFunc vitable postpos Qu on ne peut pas viter AntiAbleCausNonFunc in vitable postpos Qqn communiquer que est imminente communiquerProxFunc annoncer pr dire ART Qui est sur le point de se produire A ProxFunc imminent Qu il est possible de pr voir AOManifProxFunc pr visible Qu on ne peut pas pr voir AOAntiManifProxFunc impr visible Qqn emp cher que se produise CausNonFunc pr venir ART Fait d essayer d emp cher que se produire S0essayer_deCausNonFunc pr vention de ART Qqn causer que ne soit pas imminente CausAntiProxFunc retarder ART postpos agir comme il se doit sur X Fact1 d truire d vaster emporter ART Qqn causer qqn CausFunc d clencher provoquer ART pr
185. uvert mort adj plein rempli de NonAdvi sans sans modificateur Adv2 la X oblig IL a abandonn ses tudes la honte de toute sa famille AntiAblel effront _sans vergogne_ Able2 honteux un comportement honteux Magn grande ant pos lt indicible 54 Propt de par Oper1 avoir prouver ressentir ART Magn Oper1 fam crever mourir III de fam _ne pas plus savoir o se mettre_ communiquer que X devrait Oper12 N X devrait avoir Y obligatoire IL devrait avoir honte de son attitude Il devrait en avoir honte devrait prouver nonc pour communiquer que X devrait Oper12 N X Honte lui Oper21 tre une pour N X la gt de N X faire N X faire la gt de N X Cela fait la honte de toute la famille Magn Labor21 accabler couvrir remplir N X de NonOper2 ne pas _y avoir_ de V inf Y IL n y pas de honte vouloir r ussir dans la vie Magn Func1 accabler N X LiquFuncO effacer Laver ART NonPermiFact ravaler A poss X Involv rejaillir sur N Sa honte rejaillit sur tous ses coll gues Sympti se cacher se cacher le visage fr mir rougir trembler de Magn A1Sympt1 rouge de rouge _comme une tomate_ _comme une pivoine_ A1 AdviManif la au front le rouge au front NonPermiManif cacher dissimuler ART
186. vieilli mornifle fam taloche Cf punition 53 Gener coup VO gifler N Y QS3 faute I la Sinstr main de N X Deux cons cutives donn es avec la m me main sur chacune des joues de Y paire de s fam _aller et retour_ Magn bonne ant pos forte lt magistrale terrible violente Magn bruit sonore postpos retentissante AntiMagn petite ant pos tape tapette Ver3 m rit e postpos Oper12 administrer fam coller V donner fam envoyer fam flanquer lancer ART N Y Magn 0per12 ass ner ART N Y 0per2 fam prendre fam se prendre recevoir ART Magn 0per2 encaisser ART essayer de Non0Oper2 se prot ger le visage Prepar20per2 tendre la joue ART tendre la joue N X GIFLEII QSyn affront humiliation insulte offense Magn cinglante magistrale monumentale retentissante pour X1 Oper12 constituer tre repr senter ART _ l gard_ _ l endroit_ pour N Y pour X2 Oper12 administrer donner infliger ART N Y pour X2 Magn Oper12 ass ner ART N Y 0per2 essuyer recevoir ART HONTE HONTEI 1 QSyn d shonneur humiliation embarras g ne Gener sentiment de QAnti fiert I 1 Figur le rouge de la S2 objet de CART honte I 2 Sing bouff e de A1 honteux honteux d avoir trahi sa famille Magn A1 accabl co
Download Pdf Manuals
Related Search
Related Contents
T。URNAMENT AーRーW取扱説明書 離野幌 Lightolier C6DAIC User's Manual Advertisement Licensing System (ALS) User Manual Copyright © All rights reserved.
Failed to retrieve file