Home
Caractéristiques linguistiques des questions d`utilisateurs d
Contents
1. ss ssesss 40 t i Crit re d S l c T ons rs nano Eee en ER Rene den a ER 40 1 2 Sessions non retenues ss ssssese 40 1 3 Organisation des donn es 41 2 Obstacles et limites ERE ENERE ERE A EA E 42 3 Corpus et m thode d tude 43 3 1 Quelques d finitions 43 3 2 Typologie des recherches et des utilisateurs 44 3 3 M thode d atude sye crea aAA ENEO RRE REE RTE aies eus AN 45 II Evolution de la formulation du pr questionnaire la premi re requ te 46 l Typologie des premi res requ tes 46 2 Comparaison PR24 premi re requ te par titre 47 3 Comparaison PR24 premi re requ te par auteur 48 4 Comparaison PR24 premi re requ te par auteur titre sssssnse seems erseses site se ses sereenne ns eee ne 48 5 Comparaison PR24 premi re requ te par mot s du titre de l auteur ou du sujet 49 6 Comparaison PR24 premi re requ te par sujet 50 6 1 Typologie syntaxique 50 6 2 Typologie s mantique s 51 6 3 De PR24 la premi re requ te par sujet 52 6 3 1 Identit uen a a em Re due Eere ee
2. et les termes entr s durant sa recherche Les sessions sont pr sent es dans un ordre alphab tique et num rique qui permet au lecteur de se reporter directement une session donn e ordre alphab tique des postes puis ordre chronologique des jours d enregistrement puis si n cessaire num ro d ordre croissant de la session sur ce poste et pour ce jour Citer ces divers enregistrements au cours de l tude n cessite enfin d utiliser un certain nombre de codes notamment pour distinguer chaque session Afin de faciliter la lecture des r sutats l annexe 4 du second volume propose une liste de ces codes et abr viations CHAPITRE 1 Traitement de la requ te en langue naturelle Le traitement linguistique dans les OPACS et les bases de donn es intervient deux moments essentiels de la conception et de l utilisation des syst mes la structuration des donn es de la base et l interpr tation des requ tes Nous nous int resserons plus particuli rement cette seconde tape et tenterons de d gager des orientations dans l abondante litt rature consacr e aux syst mes de recherche d information comment peut on envisager le traitement de la question de l utilisateur notamment lorsque celle ci est formul e en langage naturel Par commodit nous distinguerons cette tape traitement de la requ te de l tape structuration des donn es bien qu elles soient en pratique difficilement dissociabies Nous mettron
3. 23 ST Objectifs ss ME Ed ns dede tee nee lea eue dune este D eee 23 3 2 Premi re analyse des donn es 23 3 3 Prolongements l analyse linguistique 24 IV Mod lisation d une question en langage naturel 25 1 Typologie linguistique de la question POIL 25 l 1 Types de T DONSES 2 isa roemess notes essaie seras 26 1 2 Types de recherches sons estimated ere tie enia ai ean 27 1 3 Typologie s mantique e e sssesssssssseusee 28 1 4 Analyse morpho lexicaie 29 1 4 1 Nombre de mots par r ponse 29 1 4 2 Cat gories morpho lexicaies 29 1 5 Analyse syntaxique eeeessse sssereee 31 1 5 1 Cat gories syntaxiques 31 1 5 2 Quelques ph nom nes syntaxiques 32 2 Comparaison PR24 PO 11 4 sce 34 DT Identit o inclusi ns 5eme ann lente dre tarte nie de eee eee 35 2 2 Reprise de termes dr Liu detente ser ane RE Re tie 36 223 Lier s mantiques ina nn hr nd Panne es se nan et Be atoa 37 Chapitre 2 Formulation de la requ te du pr questionnaire au postquestionnaire 39 I M thodologie 45e ments eat eee de eee ne meet 40 1 Constitution d un corpus
4. D E A SCIENCES DE L INFORMATION ET DE LA COMMUNICATION UNIVERSITE LYON 2 UNIVERSITE LYON 3 ENSSIB CARACTERISATION LINGUISTIQUE DES QUESTIONS D UTILISATEURS D OPACSs Recherche partir d un corpus de sessions d utilisateurs recueillies sur Jl OPAC de la M diath que de La Villette Nathalie RAMEL Sous la direction de Sylvie LAINE CRUZEL et Mohamed HASSOUN 1993 SOMMAIRE Volume 1 Introduction ie diseke en men OEE O WEN RAAE E ere tes Chapitre 1 Traitement de la requ te en langue naturelle I Le traitement linguistique de la requ te l Typologie des catalogues en lignes 2 Mod les de recherche documentaire 2 1 Diff rents mod les de recherche documentaire 2 2 Le mod le bool en et ses iimites 2 2 1 Le mod le bool en standard 2 2 2 Limites du mod le bool en et des syst mes de recherche classiques 2 3 Un OPAC de ia seconde g n ration i OPAC de la M diath que de La Villette 3 Les syst mes s attachant au traitement de la question s US ere LA a Mie Pb ne fe ND er ste Ale a an 3 1 Les Interfaces ses denis eds eds dde one ee a ne eee eee 3 1 1 Quelques r alisations 3 1 2 Critique de ces syst mes 3 2 Les syst mes traitant de la m me
5. Au terme de notre tude de sessions nous estimons cependant qu une tude linguistique compl te ne peut s effectuer sans le regard et les commentaires de l utilisateur Ils auraient permis par exemple de comprendre pourquoi certains ont choisi d alterner plusieurs recherches dans la m me session ou de multiplier les recherches ind pendantes Ils auraient confirm ou infirm les quelques cas d instanciation qui ont t mis en vidence L examen d une session en compagnie de l utilisateur aurait surtout servi justifier chacun de ses choix linguistiques et peut tre d gager de v ritables strat gies d interrogation Le postquestionnaire lectronique ne fournit pas le retour n cessaire une interpr tation linguistique pouss e 3 Limites du postquestionnaire Le postquestionnaire a t labor dans le but de caract riser l appr ciation port e par l usager sur sa propre recherche Il lui est donc demand d valuer sa recherche en 11 questions auxquelles il ne peut apporter que des r ponses tr s subjectives Le rapport r dig sur le projet PARINFO OPACS signale d ailleurs cet cueil et remarque en outre que ces questions pr sentent certaines ambigu t s 7 Le catalogue ne peut tre valu partir des seules r ponses de l usager en effet la subjectivit de l utilisateur intervient fortement dans toutes les r ponses aux questions concernant l appr ciation port e sur les r sultats de la recherc
6. de ce postquestionnaire l enqu teur pourrait alors demander l utilisateur de reformuler sa requ te non pas dans un syst me id al mais comme s il s adressait un sp cialiste Cette formulation de la question n est pas exempte d une certaine subjectivit mais ce d faut nous para t compens par le fait qu elle permettrait d obtenir de v ritables nonc s du sujet et non des remarques personnelles ou des avis sur le syst me test Si de plus la m me question avait t pos e dans un pr questionnaire lectronique il deviendrait possible de comparer toujours avec l utilisateur l volution ou la stabilit de sa r ponse 2 Quelle population 2 1 Le public de la M diath que de La Villette L enqu te conduite la M diath que de La Villette n a pas t cibl e sur un public particulier Le seul filtrage mis en place avait pour but d carter les enfants les groupes d au moins trois personnes et les utilisateurs qui consultaient le catalogue en anglais48 Nous avons d j rappel qu il ne s agissait pas d un public ordinaire la M diath que offre la fois des ouvrages de vulgarisation scientifique au grand public et des ouvrages d histoire des sciences et techniques aux tudiants et aux chercheurs 48 Quelques principes m thodologiques extrait du document fourni aux enqu teurs In ECOLE 93 Annexe E p 1 88 Une enqu te sur les usagers de la M diath que r alis e en 1991 a fait
7. un niveau sp cifique d interrogation l extension du domaine s mantique ou passage d un niveau sp cifique un niveau g n rique le d placement s mantique c est dire le changement de domaine d interrogation ou l association de plusieurs domaines mesurer ce d placement s av re souvent d licat voire subjectif et le recours l utilisateur serait souvent n cessaire pour expliciter son cheminement la stabilit s mantique rare mais attest e dans certaines sessions Certaines sessions combinent 2 types d volution rarement davantage Seules les recherches par mode sujet sont concern es ce qui conduit liminer les sessions suivantes AC13 11 recherche qui porte sur un auteur TTA19 5 recherche par mot du titre uniquement sur le mot aser aser les recherches par titre MEO5 14 ME09 8 ME12 11 ME16 5 et ME17 10 On observe 10 cas d extension du domaine d interrogation contre 4 restrictions Il semble que l utilisateur ait davantage tendance interroger d embl e un niveau sp cifique puis n obtenant aucune r ponse satisfaisante largir sa formulation 43 Kolmayer E Analyse des changes op rateur syst me lors de l interrogation de GEAC 9000 In ECOLE 93 p 76 note 1 65 Extension ME03 4 PR24 protocole centronica Liaison parallele ler terme communication parall le R ponse 0 2 me terme t f communication Restriction ME03 11 PR24 information sur
8. 6 3 1 Identit 15 On peut parler d quivalence linguistique syntaxique et s mantique au sens strict dans 9 cas sur les 15 recens s AC13 7 PR24 SUJ traitement du signal Il s agit d occurrences dans lesquelles la question PR24 comportait d j une formulation concise du sujet de recherche sous la forme d un uniterme ou d un syntagme nominal du type N A ou N SP A ce chiffre s ajoutent 3 occurrences dans lesquelles l utilisateur a entr une formulation identique mais en commettant une faute de frappe L quivalence s accompagne 2 reprises d un passage du pluriel au singulier Il t moigne d une certaine connaissance du syst me et des r gles documentaires qui exigent que les termes de recherche soient entr s au singulier AC25 5 PR24 tatouages SUJ tatouage La session TTAl6 3 pr sente une modification de pr position ou plus exactement une perte de l article qui figurait l tat d amalgame dans PR24 PR24 culture du champignon SUJ cu ture de champignon 52 Cette conservation de la formulation peut s expliquer par le fait que l utilisateur n a pas jou le jeu en renon ant expliciter son sujet les questions PR24 de ces sessions ne comportent pas de v ritables descriptions de la recherche ult rieure 6 3 2 Inclusion du sujet dans la r ponse PR24 352 Il arrive que la question PR24 regroupe plusieurs th mes de recherche et que la premi re requ te ne soit que l un d e
9. Il remod le automatiquement les requ tes Un tel syst me mais il en est de m me dans le syst me I3R19 tire parti des recherches cognitives et non plus seulement linguistiques Il t moigne aussi d une tendance forte de la recherche en informatique documentaire les chercheurs s int ressent davantage d sormais au processus de recherche d information par opposition notamment la repr sentation des documents cela les conduit n cessairement tudier le point de vue de l utilisateur et son langage afin de pouvoir les mod liser D o une nouvelle approche du traitement linguistique dans les OPACSs et les bases de donn es 18 DEFUDE B Etude et r alisation d un syst me intelligent de recherche d information le prototype IOTA Th se de doctorat Grenoble USMG 1986 19 CROFT W B THOMPSON R H I3R A new approach to the design of document retrieval systems Journal of the American Society for Information Science 1987 Vol 36 n 6 p 389 404 13 Il Le traitement linguistique au service de l utilisateur Toutes les recherches actuelles sur les OPACSs les bases de donn es et les syst mes experts tentent de r pondre aux enqu tes r alis es sur le comportement des utilisateurs qui mettent en vidence leurs difficult s devant les syst mes propos s on citera pour m moire les travaux de C Borgman de M Hancock Beaulieu Le traitement linguistique volue dans deux directions compl m
10. galement comporter une recherche de titre d auteur Les r ponses POIL identiques PR24 ont t limin es de m me que les r ponses nombreuses nous le verrons qui pr sentent un commentaire personnel de l utilisateur ou un nonc caract re g n ral Cette analyse s est d abord attach e mettre en vidence les probl mes typographiques et orthographiques GSI ERLI a employ ses outils linguistiques Aleth pour tenter de redresser certaines erreurs Une tude morpho lexicale a ensuite conduit proposer une classification des cat gories morpho syntaxiques rep r es dans le corpus Une analyse syntaxique rapide a enfin permis de dresser un catalogue des principaux ph nom nes syntaxiques relev s Selon Pierre Le Loarer Directeur de projet pour la soci t GSI ERLI cette premi re approche a fait appara tre un condens de tous les probl mes de la linguistique automatique 34 LE LOARER P Opacit et transparence des catalogues informatis s pour l usager Bulletin des Biblioth ques de France 1989 Vol 34 n 1 p 69 et suiv 23 3 3 Prolongements l analyse linguistique L tape suivante consiste s interroger sur la nature de la reformulation que l utilisateur op re lorsqu on lui laisse la possibilit de formuler sa question en langage naturel Sylvie Lain Cruzel qui s est plus particuli rement int ress e cette formulation libre de l usager met l hypoth se que la formulation du
11. mani re documents et questions 3 3 Les syst mes experts de recherche documentaires oser en biens e nee TRE she a II Le traitement linguistique au service des utilisateurs l Linguistique et convivialit des syst mes 1 1 Etudes sur les langages documentaires distance et niveau linguistiques 1 2 Techniques de navigation dans les OPACS 1 3 La reformulation s sssessse 1 3 1 D finition et m thodes 1 3 2 Quelques syst mes proposant une reformulation 2 Langage de l utilisateur et mod les mentaux Sr ANT a lars IIl Une recherche exploratoire le programme PARINFO OPACS seseeseeeessesesessses 1 Le programme PARINFO ss e 2 Le projet PARINFO OPACS 2 1 OBT CELES ns su dela sreb ee tee deeso nerd sedenti daerenn stes 2 2 Les participants au projet 2 3 Terrain d enqu te s ss ese 2 4 M thodologie sue van dues diese compote ea dela ae 2 4 1 Trois phases sus sosie des sp ee ere renes ts 2 4 2 Mise en oeuvre de l enqu te 2 4 3 Perspectives e sesesseesese 3 Composante linguistique du projet
12. AC19 3 eglises et paroisses AC16 12 communications et unix UG27 1 bibliographie et sciences Dans le premier cas l utilisateur recherche des documents portant sur les glises et ou sur les paroisses dans le second il souhaite vraisemblablement croiser les deux termes le connecteur s apparente ici au et de la recherche bool enne Le fait est encore plus apparent dans le troisi me exemple PR24 confirme que l utilisateur recherche des documents de bibliographie scientifique Outre l ellipse et la coordination on rep re quelques structures qui pourraient cr er des difficult s si on souhaitait traiter ces formulations de mani re automatique Anaphores 3 AC13 18 excusez moi de vous deranger mais vous savez ou sont les bouquins de zola marcel de son prenom UG13 3 dernier ouvrage d ALBERT JACQUARD et autres ouvrages sur ce th me UG09 10 je cherche Les techniques de construction des serres et Les principes Structures appos es qui visent reformuler le sujet 5 AC11 6 ou puis je trouver des Livres dans a collection d couvertes gallimard notamment sur Les d couvertes polaires Certaines de ces pr cisions figurent entre parenth ses UG14 3 Anecherche d un guide geographique region paris Inversions de termes 3 ME11 7 math lere proba exo ME13 11 electronique interfaces parallele technique ME27 4 Mathematical models des constructions syntaxiques famili res ou incorrec
13. International Journal of Man machine Studies 1986 Vol 24 p 47 64 Le concept de mod le mental est utilis pour d signer le m canisme cognitif l oeuvre lorsqu on tente de se repr senter un syst me ou un probl me et que l on inf re des connaissances sur ce syst me ou ce probl me 92 Cette enqu te a fait appara tre des difficult s d utilisation du syst me plus importantes que pr vu et a permis de mettre en vidence l efficacit d une formation par mod le conceptuel pour r soudre des t ches complexes 1 2 Recherche par reformulation Prudence Dalrymple a con u une exp rience similaire par ses m thodes l Universit de Wisconsin Madison exp rience destin e tudier les processus de reformulation et le comportement des utilisateurs selon qu ils consultent un catalogue papier ou un catalogue en lignes3 Elle a test 2 groupes de 20 tudiants chaque groupe consultant l un ou l autre des catalogues L int r t de cette exp rience r side dans le retour qu elle pr voit sur les donn es r colt es au moyen d un m me questionnaire propos deux fois aux utilisateurs Durant la premi re tape l utilisateur est invit crire sans proc der aucune recherche de quelle information il a besoin pour r soudre les 6 probl mes pos s Pendant la seconde il doit rechercher les informations n cessaires la r solution de ces m mes probl mes soit dans le catalogue papier soit dans
14. Une des 3 recherches par mot contient 7 notices compl tes mais il s agit d une session dans laquelle l utilisateur n a entr que 2 termes de recherche diff rents 7 reprises laser et Lasers Il n a donc pas utilis l indexation des notices compl tes La session ME05 14 pr sente peut tre un cas de reprise de donn es fournies par le syst me mais il ne s agit que d une hypoth se D apr s la question PR24 et sa premi re requ te l utilisateur recherche des documents sur excel pas sur windows Il utilise le mode titre Apr s avoir affich la notice Excel 3 pour windows cran 8 il recommence sa recherche avec le titre windows Il est vraisemblable qu il a t influenc par la recherche pr c dente et les titres fournis par le syst me Il semble en d finitive que les recherches en plusieurs tapes et un mode ne se pr tent gu re aux techniques labor es de reformulation On ne peut cependant nier l existence d une interactivit avec le syst me mais une interactivit par d faut devant les refus du syst me de reconna tre ses termes de recherche l utilisateur se doit de r agir et de proposer non pas des reformulations linguistiques mais des d placements s mantiques Cette interactivit d bouche cependant sur des t tonnements rarement sur une recherche coh rente 67 4 Recherches en plusieurs tapes et plusieurs modes de recherche On distinguera 2 types de sessions selon le nombre de modes
15. ques de France 1991 Vol 36 n 4 p 314 L outil lectronique pr sente deux avantages majeurs celui de supprimer l enqu teur m diateur dont le comportement pourrait influencer l utilisateur dans ses r ponses il offre donc certaines garanties d objectivit durant la collecte des informations celui de fournir des donn es imm diatement exploitables par le biais de l informatique des donn es homog nes avec celles que peut fournir la session Nous pouvons cependant nous demander si les donn es du questionnaire lectronique suffisent toujours dans le cas d une tude linguistique 2 Linguistique et questionnaires 2 1 Aspects linguistiques dans les deux questionnaires d enqu te 3 questions ouvertes ont t sp cialement int gr es aux questionnaires afin de servir de point de d part une tude linguistique la question 24 du pr questionnaire les questions 8 et 11 du postquestionnaire Nous avons volontairement cart la question 8 de notre tude Pour aider quelqu un faire la m me recherche que vous sur le syst me actuel quels modes de recherche lui conseilleriez vous de taper Elle pr sente nos yeux deux inconv nients l utilisateur est invit m langer dans une m me formulation modes et termes de recherche 40 de nos 154 sessions poss dent une r ponse cette question mais 17 seulement pr sentent la fois une r ponse P08 et une r ponse P011 ce qui ne permet pas une
16. 2 UG19 4 et TTA24 4 Une variante de cette d marche est un d placement progressif comme le montre la session AC25 5 PR24 tatouages ler terme tatouage 2 me terme tatouages polyn siens 3 me terme polyn sie fran aise 4 me terme tahiti Le second terme de recherche introduit une d limitation g ographique qui devient ensuite th me principal de recherche l utilisateur tentant d approcher le sujet sous ce nouvel angle Le cas est unique dans ce groupe de sessions Troisi me cas de figure un d placement que ni la formulation initiale du sujet ni les r ponses apport es par le syst me ne permettent d expliquer et dont on mesure mal comment il pourrait permettre l utilisateur de mieux cerner son sujet Ainsi la session ME16 8 PR24 consequences du traitement automatique du langage naturel sur a angue et La culture ler terme informatique et culture 2 me terme intelligence artificielle 3 me terme informatique passage un terme g n rique Les sessions UG10 4 et TTAO4 5 suivent ce mod le Les 3 recherches ont t men es par des utilisateurs novices et non sp cialistes du domaine d interrogation 3 4 Instanciation Aucune des recherches par auteur ou par titre de ce groupe de sessions n a donn lieu un affichage de notice compl te susceptible de fournir de nouveaux termes de recherche le fait que la recherche se soit poursuivie sur le m me mode en constitue d ailleurs une preuve
17. Analyse linguistique du corpus de questions In ECOLE 93 p 94 102 14 r ponses se pr sentent sous la forme d une structure coordonn e coordination de deux unitermes AC19 3 eglises et paroisses coordination d un uniterme et d un syntagme nominal AC27 9 energie et pays en voie de developpement UG23 10 sujet veterinaire et revue coordination de deux syntagmes nominaux UG13 3 dernier ouvrage d ALBERT JACQUARD et autres ouvrages sur ce th me coordination de deux syntagmes pr positionnels TTA07 2 recherche sur L enfant et L urbaniime La coordination est le plus souvent exerc e par et mais on note aussi une utilisation de ou ainsi que des signes et amp TTA11 5 xecyclage puis aluminium ou metaux ME05 21 DOMAINE unix autheur UG16 10 BASE amp donnees L emploi de la coordination g n re parfois des ambiguit s syntaxiques comme dans les exemples suivants AC25 3 Aponsonring et mecenat pour es PME TTA20 10 information bwr a concurrence industrielle et sur a regtementation de a concurrence en europe s agit il de concurrence industrielle ou de concurrence industrielle en europe Il semble cependant que le cas soit moins fr quent en P011 qu en PR24 La coordination engendre aussi des ambigu t s sur le plan s mantique ambigu t s li es aux multiples interpr tations possibles du connecteur et La confrontation de ces trois nonc s suffit le prouver
18. GSI ERLI mais en tentant de chiffrer l importance des ph nom nes rep r s 1 4 1 Nombre de mots par r ponse Chaque r ponse comporte en moyenne 6 5 mots les r ponses la question PO11 semblent plus courtes que celles concernant la question PR24 alors que l on pouvait esp rer le contraire La majorit des unit s lexicales consiste en noms communs et adjectifs On note cependant la pr sence moindre par rapport PR24 de noms compos s de noms propres de sigles d abr viations et de num riques ainsi qu une utilisation sup rieure des verbes La totalit des sujets est exprim e en fran ais une exception pr s ME27 4 Mathematical models 1 4 2 Cat gories morpho lexicales Les verbes constituent une cat gorie importante On en rel ve 67 le plus souvent conjugu s 42 au mode indicatif 13 au mode infinitif 6 au mode participe 5 aux modes subjonctif ou conditionnel 1 au mode imp ratif 30 Ces verbes jouent un r le introducteur dans la formulation du th me de recherche AC12 2 je cherche des documents concernant e KANT UG17 18 ou peu on trouver des documents sur Le systeme solaire ME23 10 Trouve moi tous Les documents bur Les contrats de partenariat Ils constituent donc des termes vides par rapport une ventuelle reformulation du sujet On rel ve un cas unique de mot compos Acience fiction dans la session ACI1 7 Un quart des sessions comporte des noms propres
19. Les catalogues interactifs en Grande Bretagne et aux Etats Unis Syst mes et interfaces Bulletin des Biblioth ques de France 1989 Vol 34 n 1 p 22 33 NIE J Un mod le logique g n ral pour les Syst mes de Recherche d Informations application au prototype RIME Th se Grenoble Universit Joseph Fourier Grenoble 1 Laboratoire de G nie Informatique IMAG 1984 238 p NORMIER B Interfaces en langage naturel avec des bases de donn es T l com n 87 1991 p 36 39 Autre source GSI ERLI 91 p 7 10 PUJO P D veloppement d une interface conviviale pour l interrogation en langage naturel d une base de donn es avec utilisation des concepts et des moyens de l intelligence artificielle Th se Paris Universit Paris XI 1989 RADASOA H P M thode d am lioration de la pertinence des r ponses dans un syst me de bases de donn es textuelles Th se Paris Universit de Paris Sud Orsay 1988 156 p R pertoire des services T l tel MGS La lettre de T l tel n 18 3 me trimestre 1989 p 12 15 Autre source GSI ERLI 91 p 11 14 ROLLAND C PROIX C Une approche linguistique pour la conception des syst mes d information In Les syst mes d informations labor es Congr s Ile Rousse 1989 05 31 Paris Universit Paris 1 Soci t C R I L 1989 p 17 40 103 104 ROUAULT J Linguistic methods in information retrieval systems In Advances in intelligent retrieval Info
20. Les systeme informatiques ler terme syst me informatique R ponse 9 sujets 2 me terme unix L utilisateur peu familiaris avec les OPACS peut aussi alterner extensions et r ductions du domaine d interrogation c est le cas dans 5 sessions d utilisateurs novices AC16 6 ME20 2 UG20 3 UG16 10 et surtout ME07 6 le niveau d interrogation G pour g n rique et S pour sp cifique est indiqu la suite PR24 modufation de fr quence ler terme telecommunication G R ponse au moins 10 sujets 2 me terme modutation G gt S 3 me terme telecommunication S gt G 4 me terme t l phone G gt S 5 me terme communication S gt G 6 me terme telecomun ication S gt G 7 me terme lectronique telecomunication stable 14 sessions ont engendr des d placements de sujet il est parfois n cessaire de recourir la question 24 du pr questionnaire et la question 11 du postquestionnaire pour les justifier La session AC16 9 pr sente un d placement priori inexplicable ler terme ogitiel 2 me terme commodore La question PR24 montre cependant que les deux sujets sont li s dans l esprit de l utilisateur ogitiel pour commodore amiga Le d placement correspond en fait un clatement du sujet de recherche initial en 2 th mes ou points d acc s possibles On observe la m me d marche dans les sessions AC18 9 et TTA10 4 AC24 7 UG03 7 UG11 12 UG12 8 UG19
21. UG07 5 et UG16 9 Dans le premier cas il n existe aucun rapport entre la notice et le terme de recherche suivant qui figurait d j dans la question PR24 Dans le second la notice compl te est une r f rence li e qui ne pr sente pas d indexation En revanche les 2 sessions suivantes t moignent peut tre d un r investissement d informations fournies par le syst me ME19 6 apr s avoir affich dans une recherche sujet 2 notices abr g es poss dant une cote du type I 6 l utilisateur a conduit une recherche en mode NUM par la cote 6 Il a s lectionn par ce biais une nouvelle r f rence dans son domaine de recherche l informatique de gestion ME10 3 la suite d une recherche sujet sur le terme refrigeration l utilisateur n a obtenu qu une seule r f rence celle d un ouvrage de Michel Guyot La derni re tape de la session tente une recherche par auteur sur le nom guyot qui ram ne d ailleurs la m me notice Ces 2 occurrences sont les seuls cas d instanciation que nous avons identifi s pour les sessions utilisant 2 modes de recherche Aucun n a pu tre rep r dans les sessions en 3 ou 4 modes 71 5 Sessions compos es de recherches ind pendantes 26 utilisateurs ont conduit au cours d une m me session plusieurs recherches ind pendantes le plus souvent successivement 20 cas parfois aussi en les intercalant 6 cas Ces derni res sessions se caract risent souvent par leur manque
22. aussi un risque de bruit et d limination de documents 3 NIE J Un mod le logique g n ral pour les Syst mes de Recherche d Informations application au prototype RIME Th se Grenoble Universit Joseph Fourier Grenoble 1 Laboratoire de G nie Informatique IMAG 1984 p 4 4 VAN SLYPE G Les langages d indexation conception construction et utilisation dans les syst mes documentaires Paris Les Editions d Organisation 1987 p 222 pertinents constitue un r el progr s par rapport aux op rateurs bool ens qui n exercent pour leur part aucune contrainte sur la situation des descripteurs dans le document Certains syst mes exploitent en outre les relations s mantiques d un th saurus ce qui leur permet d ajouter automatiquement les descripteurs quivalents g n riques sp cifiques ou associ s au descripteur entr Ce sont par exemple les syst mes STAIRS TLS MISTRAL et GOLEMS 2 2 2 Limites du mod le bool en et des syst mes de recherche classiques Depuis la question pos e par C Hildreth en 1983 To boolean or not to boolean de nombreux articles et tudes s accordent d noncer les limites de la logique bool enne pour l utilisateur non averti N Mitev et C Hildreth le soulignent Ces techniques sont bien adapt es pour les bases de donn es sp cialis es index es en profondeur et qui comportent de longs abstracts quand l interrogation est faite par des interm diaires professionn
23. biblioth que de l UCLA et les vedettes LCSH Library of Congress Subject Headings ou vedettes mati res de la Biblioth que du Congr s qui sont utilis es dans un grand nombre de biblioth ques universitaires am ricaines et dans leurs catalogues en ligne Il s agissait d valuer la concordance entre le vocabulaire de l utilisateur et les vedettes LCSH lors d une interrogation du catalogue afin de mesurer la performance des vedettes L enqu te confronte 171 expressions d utilisateurs avec la vedette simple ou multiple contenue dans les LCSH et d finit leur degr de similitude sur le plan lexical et syntaxique correspondance exacte 20 CARLYLE A Matching LCSH and user vocabulary in the library catalog Cataloging amp Classification Quarterly 1989 Vol 10 n 1 2 p 37 63 14 correspondance exacte une variation de ponctuation pr s correspondance exacte mais variation de l ordre des mots etc Elle ne tient pas compte des correspondances s mantiques pourtant fondamentales mais qui supposeraient une autre approche m thodologique L analyse lexicale et syntaxique devrait donc tre compl t e dans l avenir par une analyse s mantique Mais cette tude montre d j comment la linguistique peut aider am liorer le fonctionnement d un syst me en ligne Elle permet en effet de tester le niveau linguistique du langage documentaire utilis par le catalogue Dans le cas des LCSH les questions qui se posen
24. compte les difficult s de l utilisateur Le concept m me de syst me de recherche d information s largit pour int grer l usager et instaurer un dialogue avec lui ces travaux sur la convivialit des syst mes font galement appel la linguistique Dans ce contexte les tentatives de mod lisation de l utilisateur et de ses requ tes constituent la fois une orientation pour la recherche et un enjeu pour le d veloppement des OPACS et des bases de donn es grand public 24 VICKERY B C Knowledge representation a brief review Journal of Documentation 1986 Vol 42 n 3 p 145 159 25 KOLMAYER E Bases de donn es grand public et organisation des connaissances Bulletin des Biblioth ques de France 1992 Vol 37 n 6 p 8 13 18 III Une recherche exploratoire le programme PARINFO OPACS 1 Le programme PARINFO Le Programme d Aide la Recherche en Information PARINFO a t lanc en 1990 par le minist re de la Recherche et de la Technologie et celui de l Education nationale de la Jeunesse et des Sports Partant du constat que le domaine de l information sp cialis e conna t actuellement d importantes mutations li es notamment une volution rapide des technologies ces deux minist res ont mis en place conjointement un programme de financement de la recherche Un appel propositions a t lanc dans ce sens destin amener des chercheurs de disciplines et d horizons diff rents collabor
25. de l informatique documentaire Bulletin du Centre de Hautes Etudes Internationales d Informatique Documentaire 1988 n 32 p 11 40 kkkk
26. des menus non demand s Ex quand on consu te une fiche dans une liste peut on revenir sur a Liste des fiches sans passer par a Liste des sujets Pour cet utilisateur et pour beaucoup d autres il existe deux listes celle des sujets et celle des fiches autrement dit des r f rences Au cours de sa recherche LIS l a renvoy la premi re alors qu il souhaitait revenir la seconde Un apprentissage des fonctions distinctes de ces commandes l adjonction d une explication l cran ou l adoption d une nouvelie d nomination pour la commande CHO permettraient d all ger consid rablement certaines recherches plus complexes que ME03 4 Dans la session que nous venons d analyser l utilisation de CHO aurait permis d liminer 2 crans Un grand nombre d utilisateurs ne ma trisent pas non plus la technique du feuilletage et ses commandes AVA ARR Ainsi dans la session pr c dente il suffisait l utilisateur d actionner la commande AVA partir de la premi re notice abr g e cran n 9 pour passer la seconde notice puis la troisi me soit une recherche totalisant 12 crans distincts au lieu de 16 Cette recherche tait simple et le nombre de notices visualiser suffisamment r duit pour autoriser la strat gie mise en place par l utilisateur Mais elle s av re tr s lourde dans certains cas Les commandes AVA ARR sont propos es l utilisateur avec des d finitions en apparence explicites not
27. es Ces prolongements possibles ne r pondent pas seulement des objectifs linguistiques mais font galement appel aux sciences cognitives aux sciences de l information et de la communication Elles sont pluridisciplinaires et s inscrivent donc bien dans la ligne du projet PARINFO 56 LE MAREC J Les OPACS sont ils opaques La consultation des catalogues informatis s la BPI du centre Pompidou Bulletin des Biblioth ques de France 1989 Vol 34 n 1 p 80 57 HANCOCK BEAULIEU M Les catalogues en ligne jug s par les utilisateurs Bulletin des Biblioth ques de France 1991 Vol 36 n 4 p 314 M Hancock Beaulieu d finit l analyse transactionnelle comme une m thode d observation qui consiste examiner le processus m me de l interrogation par opposition aux enqu tes d acceptabilit 95 CONCLUSION Quels sont les enjeux d une recherche telle que l enqu te PARINFO OPACS pour les biblioth ques Que peuvent en attendre les principaux int ress s biblioth caires et usagers A des biblioth ques d sormais bien engag es dans le processus d informatisation la recherche offre un moyen d valuer cet outil de travail que constitue le catalogue en ligne et de mieux comprendre les relations parfois ambivalentes qui vont se nouer entre cet outil et leur public Le catalogue quelle que soit sa forme constitue en effet le pivot d une biblioth que et ce d autant plus lorsqu elle n est pas en acc s li
28. exclusivement ce mode tandis que 119 77 contiennent au moins une recherche par sujet Le tableau suivant permet de situer le degr de familiarit avec l OPAC des utilisateurs dont nous avons retenu la session Ces donn es peuvent tre confront es celles fournies pour l ensemble de l enqu te dans le rapport d tude qui lui a t consacr Nous avons regroup certaines cat gories corpus enqu te Usage lt 1 fois par mois 50 5 Usage 1 2 fois par mois Usage gt 1 fois par semaine E Kolmayer propose une caract risation des usagers41 l usager expert se sert de l OPAC de la m diath que plus d une fois par semaine l usager novice l utilise moins d une fois par mois La cat gorie interm diaire repr sentera pour nous celle des utilisateurs moyens 40 R sultats de l tude statistique In ECOLE 93 p 54 4l Kolmayer E Analyse des changes op rateur syst me lors de l interrogation de GEAC 9000 In ECOLE 93 p 76 Notre corpus offre une proportion l g rement sup rieure d utilisateurs experts mais stable de novices l ensemble de sessions retenu ne modifie pas de mani re significative la r partition des utilisateurs et peut tre consid r sur ce point comme repr sentatif de l enqu te 3 3 M thode d tude Nous nous proposons d tudier dans un premier temps le passage de la question 24 du pr questionnaire la premi re formulation entr e c est dire la m
29. la question 24 du pr questionnaire contenait des syntagmnes nominaux complexes ou des th mes connexes coordonn s ou juxtapos s c est dire une description du sujet qui se pr tait peu l laboration d une requ te concise d o la difficult de devoir passer du th me la requ te puis reformuler le sujet en cas d insatisfaction Le recours un mode diff rent pourrait il tre fonctionner comme un palliatif 69 4 2 Mode de recherche et volution de la formulation Il nous semble inutile de reproduire ici les diff rents mod les de base que l on peut identifier dans ces sessions comme dans le cas des recherches en plusieurs tapes et un mode de recherche chaque session poss de sa propre configuration Certaines recherches en mode double pr sentent cependant un trait commun dans 18 cas sur 31 un changement de mode intervient apr s un mod le 2 D autrement dit apr s l entr e d un terme non reconnu par l OPAC et des propositions du syst me refus es par l utilisateur On retrouve ce cas de figure dans 3 sessions en 3 ou 4 modes AC11 7 l re tape AUT king stephen R ponse 0 pas de s lection de vedette proche 2 me tape SUJ science fiction L chec d un mode de recherche justifie bien dans ces conditions l essai d un autre mode On peut alors se demander ce qu il advient de la formulation du sujet l utilisateur la conserve t il d un mode l autre Dans le cas des sessions en mode doub
30. la recherche Les premi res requ tes par titre auteur auteur titre pourraient servir de points de d part la mise en oeuvre d une strat gie d instanciation l utilisateur reprenant dans la suite de sa recherche des termes d indexation contenus dans les notices affich es en r ponse 40 sessions 26 du corpus seulement commencent par une recherche de ce type c est dire par une entr e de donn es connues de l utilisateur Si une telle strat gie d instanciation existe elle ouvre rarement la recherche alors que cela constituerait pourtant une de ses principales fonctions 5 Comparaison PR24 premi re requ te par mot s du titre de l auteur ou du sujet 10 cas 7 sessions commencent par une recherche sur mot s du titre soit que le mode MOT ait t directement s lectionn soit qu il s agisse d une recherche en mode TIT transform e par la commande MOT La session MEO7 4 porte sur 2 mots figurant dans la question PR24 capteurs et pression par la syntaxe adopt e T capters pression l utilisateur choisit d obtenir les r f rences contenant l un ou l autre terme dans leur titre On aurait pu s attendre ce qu il croise les deux termes il a cependant pu commettre une erreur de syntaxe cette requ te succ de en effet 3 essais refus s par le syst me La recherche n a pas donn les r sultats escompt s par suite d une faute de frappe dans le mot capteurs mais a permis d afficher des r f ren
31. le catalogue en ligne Il ne dispose pas de ses premi res r ponses au questionnaire Ses commentaires durant la recherche doivent tre exprim s haute voix afin d tre enregistr s Les r ponses crites sont analys es selon une grille de contenus En choisissant ce type de dispositif de questions contr l es P Dalrymple estime avoir r duit les risques de variation inh rentes aux recherches fond es sur de v ritables questions d utilisateurs A ceux qui pourraient juger trop artificielles les questions de ce test elle r pond que dans un tablissement universitaire la plupart des besoins d information sont galement g n r s artificiellement notamment par les cours 1 3 Enqu te exp rimentale sur deux types d instruction pour les usagers de catalogues informatis s Cette enqu te r alis e en Septembre 90 et rapport e par Joan Cherry et Marshall Clinton ne porte pas sur un catalogue en ligne celui de l Universit de Toronto mais sur une nouvelle formation possible des utilisateurs de ce catalogue 4 au moyen d un didacticiel L encore le dispositif comprend plusieurs groupes d tudiants tous issus d un m me cours de premi re ann e un groupe de contr le qui n a re u aucune formation au syst me un groupe form au moyen du didacticiel un groupe form de mani re classique durant un cours donn par un biblioth caire 53 DALRYMPLE P W Retrieval by reformulation in two library catalogs t
32. me on rep re 9 mod les de type A ou B mais plus encore il se limite un affichage de r f rences 24 occurrences des mod les 1 C ou 2 C sur 46 mod les 28 des recherches n aboutissent pas Dans 56 des cas l utilisateur n a s lectionn qu une proposition du syst me pas de s lection 11 1 vedette s lectionn e 26 2 vedettes distinctes 5 3 vedettes distinctes 2 Ces chiffres confirment le caract re rapide des recherches et leur pauvret linguistique 5 2 Recherches en plusieurs tapes et un mode de recherche 18 On retrouve une forte proportion de recherches par sujet comme dans le cas des sessions uniquement compos es de ce type de recherche SUJ 12 TIT 2 AUT 2 MOT 2 8 de ces recherches n ont pas t annonc es dans le pr questionnaire les autres reprennent un th me de PR24 l exception de TTA04 4 qui ne poss de pas de r ponse cette question Sur le plan syntaxique la plupart des recherches pr sentent une conservation de termes d une tape une autre 12 cas Ces recherches sont donc redondantes sans que l on puisse toujours d terminer la raison qui pousse l utilisateur proposer la m me requ te Il arrive que l utilisateur revienne une recherche ant rieure apr s en avoir commenc une autre Sur les 4 recherches dissoci es 3 sont en effet des reprises 73 AC13 1 PR24 ogiciels micrao infounatique l re recherche SUJ syst me nerveux R p
33. nous avons pu constater que les r ponses cette question taient tr s subjectives variant en fonction du niveau de formation de l utilisateur aux OPACS de sa connaissance du domaine du degr de pr cision et de sp cialisation de sa question Les sessions retenues devraient aussi permettre de d terminer si le mat riau linguistique contenu dans les r f rences affich es a ensuite t r utilis en quelque sorte r inject dans une ventuelle reformulation de la question au cours d une tape suivante de la recherche La visualisation de r f rences permet elle une reformulation linguistique en est elle une tape n cessaire ou facilitante 1 2 Sessions non retenues Nous n avons pas eu la possibilit mat rielle tant donn s le nombre de donn es et le temps qu une telle tude aurait repr sent de nous int resser aux 444 sessions que nous avons cart es 40 Il faut cependant noter que ces enregistrements 3 4 du corpus total ont donn lieu un nombre d affichages de r f rences tr s faible inf rieur ou gal 2 121 sessions sans affichage 202 1 affichage 121 2 affichages On peut alors se demander si le corpus retenu ne concentre pas toutes les sessions linguistiquement difficiles les autres ayant ou bien totalement chou ou bien imm diatement satisfait l utilisateur Divers facteurs nous paraissent r futer cette hypoth se qui ne serait d ailleurs pas con
34. qu ils sont beaucoup plus exigeants son gard alors que les utilisateurs du catalogue papier gardent une vision concr te de ce qu il est possible d obtenir par son interm diaires 58 LE LOARER P Opacit et transparence des catalogues informatis s pour l usager Bulletin des Biblioth ques de France 1989 Vol 34 n 1 p 65 59 DALRYMPLE P W Retrieval by reformulation in two library catalogs toward a cognitive model of searching behavior Journal of the American Society for Information Science 1990 Vol 41 n 4 p 277 96 Ces conclusions rejoignent celles de Jo lle Le Marec6 ou de Jean Dickson t qui observent que l utilisateur entre dans le catalogue en ligne des termes de recherche qu il n utiliserait probablement pas pour rechercher une information dans un catalogue papier termes trop g n raux recherches au pr nom de l auteur Ce constat induit une autre question importante pour le biblioth caire faut il former l utilisateur l OPAC et par quels moyens Doit on lui enseigner les principales proc dures lui fournir un mod le conceptuel du syst me au sens que Christine Borgman donne ce mot ou bien mettre sa disposition le r f rentiel du catalogue Les avis divergent sur ce point Le v ritable enjeu qui d passe d j les OPACS mis en place dans nos biblioth ques est l acc s au document lectronique un acc s qui doit tre ouvert tous D o l int r t des recherches condui
35. r aliser une typologie des enqu t s31 une analyse des changes op rateur syst me conduite par E Kolmayer32 une analyse linguistique du corpus de questions r alis e par la soci t GSI ERLI33 Diff rents travaux en cours notamment L ENSSIB prolongent l une ou l autre de ces directions et approfondissent les r sultats de l enqu te tude faisant appel la psychologie cognitive sur l organisation des connaissances des utilisateurs d un OPAC par E Kolmayer analyse dans le cadre d un m moire de DCB du degr de correspondance pouvant exister entre les termes entr s par un utilisateur et le syst me d indexation utilis la M diath que de la Cit des Sciences et de l Industrie par M Encrenaz m moire de DEA en Sciences de l Information et de la Communication visant constituer une typologie des usagers etc Le pr sent m moire s inscrit dans la troisi me direction de recherche qui centre son tude sur des questions d ordre linguistique et se propose d tudier le dialogue qui s instaure parfois difficilement avec l OPAC 31 R sultats de l tude statistique In ECOLE 93 p 45 74 32 KOLMAYER E Analyse des changes op rateur syst me lors de l interrogation de GEAC 9000 In ECOLE 93 p 75 85 33 GSI ERLI Analyse linguistique du corpus de questions In ECOLE 93 p 86 110 22 3 Composante linguistique du projet 3 1 Objectifs Sur le plan plus sp cifiquemen
36. sont 2 strat gies majeures pour viter de reformuler seul son sujet Elles se r v lent cependant insuffisantes 26 sessions compos es de recherches ind pendantes confirment un certain manque de m thode et de strat gies la technique dominante est ici celle des essais et erreurs L tude des 154 sessions de notre corpus confirme en d finitive certaines hypoth ses relatives aux difficult s linguistiques des utilisateurs d OPACS et la pauvret de la reformulation Une confrontation entre les r ponses aux questions PR24 et P011 et les sessions de recherche s impose cependant pour valider ces conclusions nous l avons men e sur les 39 sessions disposant d une r ponse la question POII 3 Question PO11 et reformulation Une session nous para t illustrer ce que l on pourrait appeler un cas de reformulation de la question ME16 8 PR24 consequences du traitement automatique du angage naturel sur a Langue et La culture Recherche en plusieurs tapes et un mode SUJ II SUJ intelligence artificielle S lection de vedettes propos es par le syst me intelligence artificielle philosophie sciences cognitives intelligence artificielle SUJ informatique POL1 Les enjeux humains et culturels du traitement automatique du langage naturel Ind pendamment de la recherche qu il vient de mener l utilisateur propose ici un nouvel nonc complet de son sujet Ce n est pas le cas dans la plupart des autres
37. sur le poste TTA Nous avons repris par commodit les noms des fichiers de synth se correspondant chaque session fichiers d analyse automatique con us par Mohamed Hassoun36 35 BELET F Id p 27 36 HASSOUN M Traitement informatique des r sultats de l enqu te In ECOLE 93 P 113 135 25 Nous avons distingu au moyen de caract res en script les termes et phrases entr s par les utilisateurs dans les questionnaires et plus tard dans les sessions Ils sont reproduits int gralement et sans correction de notre part la typographie majuscules minuscules et surtout l orthographe adopt es par l utilisateur ont t conserv es On remarquera que les utilisateurs ont entr leur texte et leurs termes de recherche en adoptant une typographie tant t riche tant t pauvre en majuscules en minuscules ou en typographie mixte avec accent ou sans accent Nous n avons pas pris ce ph nom ne en compte dans nos analyses pour diverses raisons l adoption de telle ou telle typographie ne semble pas toujours correspondre un choix linguistique de l utilisateur qui sait ou ignore par exemple qu un nom propre commence par une majuscule mais plut t son niveau de ma trise du clavier D autre part des probl mes techniques li s aux PC utilis s puis au transcodage des donn es ont pu modifier la graphie de d part probl mes dont nous ne pouvons valuer l ampleur GSI ERLI analyse ces probl mes dans s
38. sur un corpus aussi important que celui de 1l OPAC de La Villette et n avait pas t pr vu dans le dispositif exploratoire Une enqu te future devrait peut tre envisager de le mettre en place 87 II Quelques r orientations 1 Pour un postquestionnaire oral Un nouveau dispositif pourrait tre tudi dans lequel le postquestionnaire lectronique serait remplac par un entretien L utilisateur volontaire pour ce type d enqu te serait invit relire et expliquer sa d marche un enqu teur Celui ci pourrait disposer d une grille d analyse et de codage relativement fine n excluant pas cependant de consigner toute remarque utile pour le traitement ult rieur et l interpr tation des donn es voire d enregistrer ces commentaires La grille devrait notamment prendre en compte les diff rentes recherches men es leur lien ou absence de lien leur s mode s leur volution syntaxique et s mantique tenter de mettre en correspondance ce que l usager a inscrit au clavier et ce qu il a r ellement voulu entrer a t il voulu entre autres largir son sujet le pr ciser Le terme entr constituait il pour lui un synonyme d un terme de recherche pr c dent S agissait il d une expression connue ou a t il repris un terme fourni par le syst me ventuellement au cours d une recherche ant rieure Ces questions ne sont que des pistes qui nous ont t fournies par nos analyses de sessions Dans le cadre dirig
39. tude significative La question la plus int ressante sur le plan linguistique est incontestablement la question POIL elle a t con ue pour lib rer la formulation des contraintes du syst me et devait permettre d obtenir une r criture du sujet en langue naturelle Nous avons montr au cours de cette tude qu il n en a rien t 2 2 Exploitation de la question P011 Rappelons tout d abord le taux lev de non r ponses cette question 202 sur 598 soit 34 Un faible pourcentage de r ponses comporte une nonciation de sujet 148 soit 25 Le taux de non r ponses peut s analyser diversement L explication la plus rapide consiste dire que l utilisateur n a pas su reformuler sa question c est d ailleurs l une des hypoth ses que se proposait de tester cette question ouverte Elle serait confirm e par le taux lev de r ponses du type idem comme je L ai fait de La m me fa on 65 cas et par le nombre galement important de reprises totales ou partielles de formulations ant rieures que nous avons mis en vidence dans le chapitre pr c dent 84 85 Deux facteurs perturbent cependant cette interpr tation L tude a montr que la session exer ait une influence parfois difficile valuer sur la formulation retenue par l utilisateur Mais elle influe galement sur sa volont de r pondre Pourquoi l utilisateur satisfait du d roulement de la session ou d courag par son r sultat ch
40. ve Elle peut s appliquer un domaine de connaissances encyclop dique L analyse linguistique de la question se d roule en trois temps une analyse morpho lexicale la r solution des ambigu t s grammaticales une analyse syntaxique A l issue de ce traitement la question de d part est constitu e de zones de texte pertinentes ou nonc s un nonc se compose de deux descripteurs et des relations syntaxiques qui les unissent La s quence d nonc s g n re alors une quation bool enne qui int gre aussi tous les descripteurs que le syst me a jug s mantiquement quivalents ceux de la question Cette quation vise extraire non pas des documents mais les phrases des documents qui r pondent la question La sp cificit du syst me r side alors dans ce qu il proc de un remodelage linguistique de la question Il repose sur la constitution automatique d une matrice de paraphrases gr ce des proc dures d analyse distributionnelle permettant de rep rer des r gularit s syntaxiques formelles Ces proc dures sont 16 IZABEL Y Sur le traitement de l information en langage naturel le syst me SPIRIT M moire Paris Conservatoire National des Arts et M tiers Institut National des Techniques de la Documentation 1984 90 f 17 BASSANO J C DIALECT un syst me expert pour la recherche documentaire Th se Universit Paris Sud Bulletin du Centre de Hautes Etudes Internationales d Informatiq
41. 1 l utilisateur cherche vraisemblablement croiser les termes suites math matiques et informatique pour en tudier le rapport Mais il se cr e une ambigu t entre le nom et l adjectif informatique le singulier pourrait permettre ici de lever l ambigu t bien que l abondance des fautes de frappe et 50 d orthographe relev es dans les questionnaires et les sessions rendent hasardeux le recours ce crit re Il en est de m me dans AC25 1 du fait du syntagme nominal anaphorique motivation des salari s Ces cas sont cependant rares par rapport ceux que l on peut relever dans la formulation en langage naturel ou quasi naturel de PR24 ou POIL On trouve quelques juxtapositions de termes par ellision de pr position ou de pr position suivie d article AC14 7 progession patissier ellision de de AC17 19 protection nature ellision de de la par simple apposition de noms ou de syntagmes nominaux qui traduit une volont de sp cifier le premier terme ou syntagme trop g n ral au moyen du second TTA25 2 nutrition Afrique ME19 6 informatique normalisation UG05 8 soins infirmiers d cret de comp tence Coordination et juxtaposition constituent des tentatives de recherche bool enne de type ET dans un mode de recherche qui ne le permet pas Les utilisateurs concern s sont des novices ou des usagers moyens de cet OPAC et des OPACs en g n ral Leurs formulations auraient pu tre utilis es
42. 15 31 COURRIER Y Analyse et langage documentaires Documentaliste 1976 Vol 13 n 5 6 p 178 189 CROFT W B THOMPSON R H I3R A new approach to the design of document retrieval systems Journal of the American Society for Information Science 1987 Vol 36 n 6 p 389 404 DACHELET R Etat de l art de la recherche en informatique documentaire la repr sentation des documents et l acc s l information In INRIA Le document lectronique Cours INRIA 11 15 Juin 1990 Rocquencourt INRIA 1990 p 107 132 100 101 DALRYMPLE P W Retrieval by reformulation in two library catalogs toward a cognitive model of searching behavior Journal of the American Society for Information Science 1990 Vol 41 n 4 p 272 281 DANIELS P J Cognitive models in information retrieval an evaluative review Journal of Documentation 1986 Vol 42 n 4 p 272 304 DE BRITO M R alisation d un analyseur morpho syntaxique pour la reconnaissance du syntagme nominal utilisation des grammaires affixes Th se Lyon Universit Claude Bernard Lyon 1 1991 221 p DEBILI F FLUHR C RADASOA P About reformulation in full text IRS Information processing and Management 1989 Vol 25 n 6 p 647 657 DEFUDE B Etude et r alisation d un syst me intelligent de recherche d information le prototype IOTA Th se de doctorat Grenoble USMG 1986 DICKSON J An analysis of user errors in searching an online catalog
43. 2 C ME16 8 2 D 2 D 1 A 2 D ME17 10 2 D 1 A ME19 4 2 D 2 D 2 D 1 A ME20 2 2 B 2 B 2 D ME21 14 2 D 1 A UG03 7 1l C 1 D 2 A 1 A UGl10 4 1 A 2 D 1 C UG11 12 2 C 1 C 1 C UG12 8 l C 1 C 1 D 2 D UG14 3 1l C 2 C 1 C UG16 10 1 D 1 D 1 D 1 D 2 D 2 D 1 C 1 D 1 C MOT UG16 13 2 D 1 A 1 C UG18 3 2 D 1 B UG19 2 1 C 1 C 1 B UG19 4 1 D 1 C 1 A 2 D 2 D UG20 3 1 D 2 D 2 D 2 D 2 D 2 D 2 D 2 D 1 C 1 C 1 C 2 D 2 D 2 D 2 D 1 D 1 D MOT TTAO4 5 1 A 2 C 2 A TTA10 4 2 D 1 D 1 A TTA11 5 l A 2 C 2 D TTA13 2 2 C 1 B TTA16 5 2 C 1 A TTA19 5 1 C 1 D 1 C 1 C 1 C 1 D 1 C MOT TTA24 4 1 A 2 D 1 C 2 D 1 B 2 D mais sa pr sence est r v latrice par l utilisateur n est pas adapt la recherche en cours g n rique ou ambigu sur le plan s mantique Le mod le de base 1 D appara t peu en dehors des recherches par mot il t moigne du fait que le terme entr car trop ainsi le terme culture entr dans le cadre d une recherche sur la gestion de la culture session UG19 4 est pris dans son sens agricole par le syst me En AC24 7 UG03 7 UG19 4 et TTA10 4 l usager choisit ensuite d aborder le sujet par un autre de ses aspects En UG12 8 il pr cise son sujet sans succ s Une comparaison entre les mod les de type 1 et les mod les de type 2 perm
44. 4 4 PR24 Logique et jeux math matiques TIT jeu math matique MEO5 14 UG13 2 La premi re requ te r sulte d une troncature du titre propos en PR24 bien que la troncature soit peu utilis e dans l ensemble des sessions que nous avons tudi es ME19 3 PR24 avion de chasse TIT avion de 2 exemples 13 premi res requ tes ne pr sentent aucune correspondance linguistique mais seulement un lien s mantique avec la question PR24 qui comporte un nonc de sujet sans r f rence un titre pr cis L objet de la recherche n est alors plus n cessairement le titre lui m me TTA09 2 PR24 th rapie par Le jeu TIT ducation domicile de L enfant IMC S lection et affichage de la r f rence 2 L ducation domicile de l enfant infirme moteur c r bral La derni re session ME09 8 n a pas re u de r ponse la question PR24 7 titres seulement ont imm diatement t reconnus par le syst me 6 titres proches ont t s lectionn s dans la liste propos e par le syst me tandis que 12 recherches ont chou Il est cependant permis de se demander si certains utilisateurs qui interrogent par titre connaissent effectivement le titre entr ou s ils proposent en recherche par titre ce qui pourrait aussi constituer un sujet en effet 5 des utilisateurs ayant commenc leur session par une recherche par titre ont galement affirm dans le pr questionnaire ne pas conna tre de livres ou de revues su
45. 42 noms de personnes d auteurs 13 noms d diteurs 3 titres 2 lieux g ographiques 6 syst mes ou logiciels informatiques 13 autres 3 ieu personne morale nom historique Certaines r ponses utilisent des sigles et acronymes parmi lesquels PME IGBT RMI SNCF 13 On note 9 cas d abr viations dont 3 semblent d s au syst me et non l utilisateur abr viation d un pr nom e KANT C RAULT abr viations de noms communs math proba exo maths pb pour publics asse pour assembleur etrange pour trangers et bancair pour bancaires amalgame entre sigle et abr viation Pr AO UG04 12 4 r ponses incluent des num raux ou des cardinaux windows Ju 1982 1800 et 1920 lere 5 comprennent des signes math matiques amp Etudier l ensemble des noms communs et adjectifs utilis s n apporterait pas n cessairement de donn es nouvelles sur le corpus Il nous semble cependant int ressant de signaler l importance d un champ s mantique sp cifique celui des noms de support qui fait son apparition dans les formulations en langage libre La plupart de ces termes 67 au total sont des noms communs au singulier ou au pluriel vides de sens par rapport au fonds de la M diath que Ii est en effet inutile de mentionner que l on cherche un livre ou un document En revanche des termes tels que revue ou manuel apportent une information suppl mentaire sur la nature du s
46. 9 p 21 25 BASSANO J C DIALECT un syst me expert pour la recherche documentaire Th se Universit Paris Sud Bulletin du Centre de Hautes Etudes Internationales d Informatique Documentaire 1986 N 23 et 24 Publication de la th se d tat Paris Universit Paris 11 1986 BASSANO J C Syst mes experts et strat gies de recherche de l information Bulletin du Centre de Hautes Etudes Internationales d Informatique Documentaire 1988 N 32 p 41 67 BELET F L usage du catalogue informatis l exemple de la M diath que de La Villette Paris Universit de Paris 8 D partement de documentation 1992 111 f M moire de DESS Documentation et technologies avanc es BERRENDONNER A Cours critique de grammaire g n rative Lyon PUL Presses Universitaires de Lyon Fribourg CH Editions Universitaires 1983 324 P BORGMAN C L The user s mental model of an information retrieval system an experiment on a prototype online catalog International Journal of Man machine Studies 1986 Vol 24 p 47 64 BORGMAN C L Why are Online Catalogs hard to use Lessons learned from information retrieval studies Journal of the American Society for Information Science 1986 Vol 37 n 6 p 387 400 BOUCHE R Le syntagme nominal une nouvelle approche des bases de donn es textuelles Meta 1989 Vol 34 N 3 p 428 434 99 BOUCHE R LAINE S METZGER J P Extraction de connaissances partir d une co
47. 9 sujets Quelques r ponses pr sentent des ambigu t s Amb et n ont pas t class es Ainsi la session UG04 12 pr AO titre ou sujet Ce classement refl te l crasante majorit des recherches par sujet que des enqu tes ant rieures celle de PARINFO OPACS avaient d j mise en vidence Une lecture des r ponses que nous avons class es en recherche g n rale ou justification de d marche le confirme 40 utilisateurs sur 62 choisissent la recherche par sujet 27 Tableau r capitulatif des types de recherches par poste Aut Tit Suj Cat Mult Amb Tot ACC 2 1 16 1 6 0 26 ME 1 1 38 0 3 1 44 UG 1 1 29 0 9 2 42 TTA 0 0 29 0 5 O 34 MHS 0 0 3 0 0 0 3 Tot 4 3 115 1 23 3 149 2 7 2 77 2 0 7 15 4 2 100 1 3 Typologie s mantique L enqu te de GSI ERLI sans proposer de typologie concluait une nette pr dominance des sujets informatiques dans le corpus tudi ce que l on pouvait d ailleurs pr voir tant donn es la sp cificit du fonds de la M diath que et son orientation vers les nouvelles technologies Elle estimait qu une typologie pouss e serait int ressante si elle tait conduite un niveau relativement fin Il nous a paru cependant utile de montrer non pas l importance pr visible des domaines scientifiques et techniques mais le nombre plus lev que pr vu des recherches inadapt es au fonds de la M diath que Ces formulations de requ te font le plus souvent suite des rec
48. C25 3 et UG14 3 tandis que 4 apportent des pr cisions sur l auteur ou le type de document recherch AC11 18 PR24 structure des systemes dynamiques POIL je cherche STRUCTURE DES SYSTEMES DVNAMIQUES de JM SOURIAU pourriez vous m aider L une des sessions AC11 15 pr sente un d veloppement du sujet que l on peut interpr ter comme une reformulation PR24 otite chronique POlL savoir coment ca se passe une intervention chirugicale de otite chronique A cette exception pr s la formulation reste tr s proche d un questionnaire l autre 2 2 Reprise de termes 70 cas On pourrait supposer que l utilisateur en s lectionnant des termes d j nonc s et en les recomposant a cherch reformuler son sujet En r alit un certain nombre de sessions soit pr sentent une certaine stabilit de l nonciation 24 cas soit focalisent sur un th me de recherche alors que PR24 en comportait plusieurs 10 soit encore int grent une pr cision sur le domaine ou le type de document recherch 7 Exemple de stabilit AC14 5 PR24 Technologies de transfert et stockage d image avec identification sur des crit res non descriptifs POI1 Quels sont Les documents publi s sur Le transfert et Le stockage de L image ainsi que La caract risation des images sur des crit res autres que descriptifs Exemple de r duction de th me ME12 15 PR24 TRI QUICKSORT EN LANGAGE C ET CALCUL DE COMPLEXITE DE PROGRAMMES
49. Cataloging amp classification quarterly 1984 Vol 4 n 3 p 19 38 ECOLE NATIONALE SUPERIEURE DES SCIENCES DE L INFORMATION ET DES BIBLIOTHEQUES CENTRE D ETUDES ET DE RECHERCHES EN SCIENCES DE L INFORMATION et al Les catalogues en ligne accessibles par le public OPACS recherche exploratoire rapport de l tude r alis e dans le cadre du Programme PARINFO Programme d aide la recherche en information Villeurbanne Ecole Nationale Sup rieure des Sciences de l Information et des Biblioth ques 1993 Pagination multiple 143 66 f FLUHR C Analyse de certaines fonctions que doit remplir un syst me linguistique dans une utilisation documentaire Bulletin du Centre de Hautes Etudes Internationales d Informatique Documentaire 1982 n 5 p 27 36 GAUCH S SMITH J B An expert system for automatic query reformulation Journal of the American Society for Information Science 1993 Vol 44 n 3 p 124 136 GSI ERLI Ingenierie linguistique et documentaire Recueil d articles Charenton le Pont GSI ERLI Mai 1991 166 p HANCOCK BEAULIEU M Les catalogues en ligne jug s par les utilisateurs Bulletin des Biblioth ques de France 1991 Vol 36 n 4 p 312 316 HANCOCK BEAULIEU M Query expansion advances in research in online catalogues Journal of Information Science 1992 Vol 18 n 2 p 99 103 IZABEL Y Sur le traitement de l information en langage naturel le syst me SPIRIT M moire Paris
50. Conservatoire National des Arts et M tiers Institut National des Techniques de la Documentation 1984 90 f KACPRZYK J ZADROZNY S ZIOLKOWSKI A FQUERY III a Human consistent database querying system based on fuzzy logic with linguistic quantifiers Information Systems 1989 Vol 14 n 6 p 443 453 KOLMAYER E Bases de donn es grand public et organisation des connaissances Bulletin des Biblioth ques de France 1992 Vol 37 n 6 p 8 13 LE CROSNIER H Syst mes d acc s des ressources documentaires vers des ant serveurs intelligents Th se Marseille Universit de droit d conomie et des sciences d Aix Marseille III Facult des sciences et techniques de Saint J r me 1990 355 p LE GUERN M Sur les relations entre terminologie et lexique In Actes du colloque Terminologie et industries de la langue Meta Montr al Septembre 1989 vol 34 n 3 p 340 343 LE GUERN M Un analyseur morpho syntaxique pour l indexation automatique Le fran ais moderne Juin 1991 t LIX n 1 p 22 35 LE LOARER P Opacit et transparence des catalogues informatis s pour l usager Bulletin des Biblioth ques de France 1989 Vol 34 n 1 p 64 ITa LE MAREC J Les OPACs sont ils opaques La consultation des catalogues informatis s la BPI du centre Pompidou Bulletin des Biblioth ques de France 1989 Vol 34 n 1 p 78 85 LJUNGBERG J Paraphrasing SQL to natural language In RIAO 91 Recherc
51. Dans quelle mesure la relation avec le syst me modifie t elle la formulation propos e par l utilisateur et le sujet m me de sa recherche Peut on mettre en vidence des strat gies d interrogation et en particulier des strat gies de reformulation Pour tenter de r pondre ces questions il est n cessaire d tudier l ensemble d une session du pr questionnaire au postquestionnaire I M thodologie Nous n aurions pu conduire ce type d tude sur l ensemble des sessions enregistr es la M diath que de La Villette C est pourquoi nous avons constitu un corpus en choisissant pour crit re le nombre de r f rences effectivement visualis es par l usager au cours de son interrogation Nous avons donc retenu les 154 sessions durant lesquelles l usager a affich au moins 3 notices L tude portera sur un quart environ des 598 sessions enregistr es en Juin 92 1 Constitution d un corpus 1 1 Crit re de s lection Le choix de ce crit re r pond deux objectifs sp cifiques Les sessions tudi es sans n cessairement r pondre aux attentes de l utilisateur lui ont fourni des r f rences suffisamment int ressantes sur le plan linguistique pour tre affich es Ce crit re objectif permet ainsi de d passer l appr ciation de l utilisateur notamment le jugement qu il porte sur sa propre interrogation dans la question 6 du postquestionnaire Cette recherche vous a paru tr s facile facile difficile impossible En effet
52. M diath que dans laquelle l utilisateur souhaite conduire sa recherche selon un mode donn Une tape de recherche d bute toujours par le choix d un mode de recherche et un m me mode peut tre s lectionn durant plusieurs tapes 43 44 3 2 Typologie des recherches et des utilisateurs Les 154 sessions du corpus se r partissent en cinq classes distinctes 1 les sessions en une tape et un mode de recherche ce sont des recherches que nous pouvons qualifier d homog nes 46 soit 30 2 les sessions en plusieurs tapes mais un seul mode de recherche 39 soit 25 les sessions en plusieurs tapes et plusieurs modes de recherche parmi lesquelles on peut distinguer 3 les sessions qui combinent deux modes de recherche 31 soit 20 4 les sessions qui combinent trois modes de recherche ou plus 6 soit 4 5 les sessions regroupant plusieurs recherches ind pendantes 26 soit 17 6 sessions soit 4 n ont pas t class es en raison du caract re ambigu de leur formulation il s agit des sessions AC 17 14 ME09 13 ME18 11 UG10 10 UG11 8 UG16 7 pour lesquelles il s av re difficile de d terminer si l utilisateur a poursuivi le m me th me de recherche ou s il a combin plusieurs th mes Les sessions dans lesquelles l usager n a mis en oeuvre qu un mode de recherche une ou plusieurs reprises repr sentent donc 45 du total Le mode dominant est incontestablement le mode sujet 77 sessions font appel
53. PO11 afgorythme de tri quicksort en Langage c Exemple de pr cision du type de document souhait UG28 8 PR24 documents aux Les ours bruns POLI photographies sur Les oww bruns Dans les 29 occurrences restantes la reprise de certains termes de PR24 s accompagne d une extension 7 cas d une restriction 7 cas ou d un d placement s mantique du sujet 15 cette derni re notion est parfois difficile cerner Seules ces 29 occurrences peuvent comporter une reformulation du sujet sans que ce soit syst matique Extension du sujet UG26 4 PR24 gastronomie europeenne sciences des atimentqs PO11 cherche documents gastronomie Restriction ME14 12 PR24 Information sur Les jeux de strategie RISIKO P011 Liste des titre des Livres sur Le jeu du Risiko 36 D placement TTA07 2 PR24 URBANISME ET ENVIRONNEMENT POl1 echerche bur L enfant et L urbanisme La confrontation des r ponses PR24 PO1I permet d tablir pour ces 29 occurrences que l utilisateur a r orient son sujet la fois sur le plan syntaxique et s mantique Mais elle ne permet pas d appr cier les causes de ce ph nom ne doit on y voir une influence de la session au cours de laquelle l utilisateur aurait compris que son sujet tait trop pr cis trop vague ou inadapt Son choix refl te t il alors les propositions que le syst me a mises durant la session Autrement dit y a t il ou non apprentissage linguistique durant une session Un
54. a RI E 52 6 3 2 Inclusion du sujet dans la r ponse PR24 53 6 3 3 Abandon de la formulation initiale 54 6 3 4 Un terme ou un syntagme ComMUNn e 55 Synth se essssseseesessessssesesseseeseeeetsee 55 III Etude de la formulation durant le d roulement de la session 57 1 Probl mes d utilisation des commandes 57 2 Recherche en une tape et un mode de recherche 59 2 1 Caract risation des recherches 59 2 2 Mod les de recherche 4 44 sesvsserseseeesresr esesses 59 2 3 Strat gies de recherche sss e 61 3 Recherches en plusieurs tapes t un mode de fecherehe sasn s niors nn else ere pui 62 3 1 Caract risation des recherches 62 3 2 Mod les de rechercher anne gene manne A eee eau 4e de 63 3 3 Evolution s mantique s s ssesss 65 D 4 Tn etaANCLAE LOI 788 0 hole Hans E anse die en nn A SE USE NE 67 4 Recherches en plusieurs tapes et plusieurs modes de recherche 68 4 1 Caract risation des recherches 68 4 2 Mode de recherche et volution de la formulation 70 f3 instantiation sus his BR era M a desde ER nds a
55. aires entre l utilisateur et un syst me documentaire classique Certaines permettent la formulation de la question en langage naturel les syst mes reposant sur une analyse linguistique de la base documentaire dont certains traitent de mani re identique les documents et les questions des utilisateurs les syst mes experts de recherche documentaire qui constituent des interm diaires linguistiques et documentaires entre une base et un utilisateur 3 1 Les interfaces 3 1 1 Quelques r alisations Cette technique est d sormais r pandue notamment dans le domaine industriel On pourra consulter certains articles r unis par GSI ERLIS qui pr sentent un certain nombre d applications mises en place par cette soci t Certaines interfaces ont pour but premier d apporter une assistance de type documentaire l utilisateur D autres auxquelles nous nous int resserons plus particuli rement lui offrent d abord un soutien linguistique Selon R Dachelet les interfaces en langage naturel ont d abord eu pour objectif de projeter l utilisateur ou plut t sa requ te sur la base ou les bases Puis elles se sont dot es des moyens d interpr ter le sens de la question et de construire des strat gies de recherche Certaines interfaces ne traitent pas le langage naturel mais un langage restreint ainsi le projet CITE labor la National Library of Medicine du Maryland USA qui permet de rechercher des informations dans les deu
56. alement identiques et t moignent du fait que l utilisateur ne veut pas ou ne peut pas reformuler son sujet 52 d coulent de PR24 par suppression de termes le plus souvent vides et emprunt s aux exemples du pr questionnaire ou par transformations syntaxiques du type SN complexe gt SN simple 14 pr sentent un lien syntaxique faible par un terme l utilisateur a cherch r sumer sa r ponse PR24 en recombinant certains mots 17 premi res requ tes ne conservent qu un lien s mantique avec PR24 L utilisateur prouve des difficult s d terminer quel niveau s mantique il doit lancer sa recherche elle est fonction de son domaine de recherche et de la repr sentation de ce domaine dans ie langage de 1 OPAC repr sentation dont les utilisateurs occasionnels ignorent tout Les premi res requ tes par titre et par auteur pr sentent soit un lien s mantique avec PR24 13 et 4 l utilisateur ayant formul un sujet dans le pr questionnaire soit une reprise le plus souvent partielle de ia r ponse 11 et 7 montrant qu il centre sa recherche sur un titre ou un auteur pr cis Les premi res requ tes par mot reprennent pour la plupart 9 sur 10 un l ment de la r ponse PR24 l ment recherch dans le titre 7 ou le sujet 2 Les premi res requ tes par auteur titre ou par cote sont trop peu nombreuses pour permettre des conclusions On observe en d finitive que l utilisateur auquel on a au pr alabl
57. ande CHO tr s rarement utilis e qui permet de rappeler la liste des r f rences li e une vedette sujet et non pas la liste ant rieure des vedettes sujets L utilisateur qui n a pas toujours eu le temps ou le r flexe de m moriser les titres int ressants pour sa recherche devrait se reporter ces r f rences pour effectuer une nouvelle s lection de notice Dans les faits il n en est rien L utilisateur actionne spontan ment la commande LIS Il nous semble que cette attitude a une origine linguistique Pour l utilisateur LIS retour la liste doit permettre de revenir la liste qui l int resse en priorit celle des r f rences abr g es auteur titre D autre part la commande CHO par sa d nomination m me est ambigu choix de r f rences donne probablement l utilisateur l impression qu il s agit d un nouveau choix effectuer alors qu il n a 57 pas choisi ses r f rences il a choisi un sujet pour lequel le syst me lui a propos des r f rences Ce type de confusion entre les commandes CHO et LIS appara t dans un minimum de 45 sessions sur les 154 tudi es soit 30 du corpus Un commentaire d utilisateur relev dans le postquestionnaire correspondant la session ME20 8 en donne confirmation Voici sa r ponse la question n 7 Expliquez pourquoi vous avez trouv cette recherche difficile ou impossible Parfois Les ondnes ne sont pas assez clairs On be retrouve alors bur
58. ani re dont l utilisateur formalise sa question au moment de commencer sa recherche et la transforme en requ te lors du d marrage de la session proprement dite nous comparerons pour cela PR24 avec le premier terme de recherche entr par l utilisateur Nous nous int resserons ensuite l volution de cette formulation durant le d roulement m me de la session selon la typologie en 5 classes que nous avons d gag e Nous tudierons en particulier les ph nom nes d interactivit qui s instaurent ou ne s instaurent pas avec le syst me et leur influence sur la formulation de la requ te Dans son tude Analyse des changes op rateur syst me lors de l interrogation de GEAC 9000 42 r alis e sur un autre corpus de sessions enregistr es la M diath que de La Villette E Kolmayer estime que l usager utilise peu l interactivit permise par le syst me qu il s agisse des commandes de renvois de la reprise de termes propos s par le syst me ou de l instanciation d une r f rence connue c est dire la visualisation d une notice compl te et la reprise de ses termes d indexation pour enrichir une requ te Elle note galement juste titre qu une tude fine de cette interactivit n cessiterait de disposer d un retour verbalis de l usager sur sa recherche nous ne disposons pas des postquestionnaires verbaux enregistr s l issue de certaines sessions Une tude syst matique des changes linguistiques entre l u
59. ant de parvenir T ODA on ne peut pas parier de v ritable strat gie 6 Comparaison PR24 premi re requ te par sujet 104 cas 104 sessions commencent par une recherche sujet Avant d tudier les correspondances linguistiques et ou s mantiques qui peuvent exister entre la question PR24 et ces premi res requ tes il n est pas inutile de les caract riser sur le plan linguistique et s mantique 6 1 Typologie syntaxique Le mod le majoritairement rep rable est celui du syntagme nominal simple qui se pr sente sous la forme d un uniterme d un sigle ou d un nom suivi d un adjectif ou d un nom propre On en trouve 74 cas 71 ainsi r partis Unitermes 45 dont 4 noms propres et 2 mots compos s AC12 6 multim dia Sigles RE ME03 10 tgao Nom adjectif 24 ME03 11 syst me informatique Nom nom propre 2 ME20 2 m thode SD On peut identifier 20 occurrences 19 de syntagmes nominaux complexes du type nom syntagme pr positionnel SP ou nom SP SP 2 cas ou nom adjectif SP 2 cas AC13 7 traitement du signal UG11 12 population en asie du sud est 3 occurrences contiennent une coordination de 2 termes ME16 8 informatique et culture ou de 2 syntagmes ME13 1 suites math matiques et in ormatique AC25 1 participation financi re des salaris et motivation Ces 2 derniers cas pr sentent d ailleurs une ambigu t s mantique d e la coordination par et Dans ME13
60. appara tre 7 cat gories de publics les assidus scolaires et tudiants actifs les habitu s scolaires et tudiants actifs les occasionnels scolaires et tudiants actifs le public familles compos d enfants accompagn s d adultes Dans ces cat gories on peut encore distinguer ceux qui interrogent couramment l OPAC que nous avons appel s experts du syst me et ceux qui l utilisent peu ceux qui connaissent parfaitement le domaine dans lequel ils interrogent et ceux qui le d couvrent Toutes ces cat gories dont chacune fr quente la M diath que et consulte l OPAC pour des raisons diff rentes ont eu la possibilit de participer l enqu te sans qu il soit ais de les distinguer la lecture des sessions Les tudes du public de la M diath que fournissent quelques pistes les occasionnels sont particuli rement nombreux le week end le grand public fr quente l tage d entr e tandis que la M diath que d Histoire des Sciences se caract rise par un public de chercheurs et de sp cialistes 2 2 Typologie des usagers Il aurait t int ressant de conduire sur les pr et postquestionnaires de notre corpus le m me type de traitement statistique que celui r alis L ENSSIBS0 Nous n avons pu le mettre en oeuvre dans le temps qui nous tait imparti pour achever ce travail Deux crit res nous semblaient particuli rement pertinents pour notre tude linguistique le niveau d expertis
61. at gies d instanciation du moins dans notre s lection Une fois encore le nombre d utilisateurs experts est trop limit pour en tirer des conclusions une telle recherche devrait tre conduite sur un nombre plus large d utilisateurs On distingue 2 types de sessions en plusieurs modes les sessions dans lesquelles les modes sont mis en oeuvre successivement 24 cas ME28 2 l re tape SUJ suites de fibonacci 2 me tape SUJ combinatoire 3 me tape SUJ fibonacci 4 me tape TIT fibonacci les sessions dans lesquelles les modes sont altern s 13 cas dont 4 dans des sessions 3 ou 4 modes UG07 5 l re tape AUT 2 me tape SUJ 3 me tape AUT 4 me tape SUJ cuvier g ologie physique des antikttles Lasere guy stratigraphie de a guadeloupe CES COS LOS L utilisateur qui m ne une session en mode double s lectionne en moyenne 5 25 propositions du syst me soit un peu plus d une par tape chiffre comparable celui des recherches en plusieurs tapes et un mode de recherche mais nettement inf rieur celui des recherches en une tape et un mode 2 9 Il en choisit 9 5 dans une session 3 ou 4 modes Il entre donc davantage de termes mais exploite moins les propositions du syst me Il serait difficile d expliquer l origine de ce ph nom ne sans interroger chaque utilisateur Nous pouvons cependant signaler qu 3 exceptions pr s la r ponse de l utilisateur
62. atique et statistique des donn es recueillies et la direction de recherche relative aux strat gies des utilisateurs d OPACSs une quipe de recherche britannique dirig e par Micheline Hancock Beaulieu de la City University Department of Information Science Centre for Interactive Systems Research de Londres Elle a apport son soutien m thodologique et son exp rience consid rable dans le domaine des OPACS et de leur valuation On doit cette quipe un prototype de catalogue en ligne de troisi me g n ration OKAPI qui s appuie sur une expertise pour traiter les requ tes de l utilisateur une soci t sp cialis e en ing nierie linguistique et documentaire GSI ERLI elle poss de une exp rience importante en mati re de langages documentaires d indexation automatique et a d velopp un savoir faire dans le domaine des interfaces en langage naturel Elle a en particulier r alis des interfaces d acc s aux pages jaunes pour France T l com Saritel et US West Cette soci t a plus particuli rement pris en charge l exploitation linguistique des donn es recueillies au cours de l enqu te la M diath que de la Cit des Sciences et de l Industrie de la Villette a offert un milieu d enqu te naturel son OPAC et son public L quipe d enqu teurs a t coordonn e par Maria Witt Conservateur la M diath que La M diath que qui a jou un r le de pionni re en installant le premier OPAC en Fran
63. au mode SUJ l utilisateur confondant peut tre une recherche sur des documents crits par un auteur avec une recherche sur des ouvrages dont il est le sujet 74 AC27 8 PR24 Livres de gestion de papin l re recherche SUJ association 2 me recherche SUJ malaparte R ponse 0 Pas de s lection de vedette proche AUT malaparte R ponse 0 Pas de s lection de vedette proche Nous n avons rep r aucune instanciation de donn es fournies par le syst me 75 IV Synth se 1 Tableau r capitulatif Le tableau suivant fournit une r partition des sessions par type de requ te et par classe Rappelons que nous avons d fini 5 classes 1 les sessions en une tape et un mode de recherche 2 les sessions en plusieurs tapes mais un seul mode de recherche les sessions en plusieurs tapes et plusieurs modes de recherche parmi lesquelles on distingue 3 les sessions qui combinent 2 modes de recherche 4 les sessions qui combinent 3 modes de recherche ou plus 5 les sessions regroupant plusieurs recherches ind pendantes 2 Quelques strat gies de recherche Sur 46 sessions en une tape et un mode de recherche 14 ont donn lieu la s lection d une seule vedette auteur titre ou sujet Ne ma trisant pas suffisamment les commandes de 1l OPAC l utilisateur est fr quemment amen s lectionner plusieurs fois la m me vedette Dans l ensemble cependant ces sessions sont relativement courtes et pauvres sur
64. au total n ont pu tre class es dans l un ou l autre de ces types mais il ne s agit jamais de recherches sp cifiques 37 GSI ERLI Analyse linguistique du corpus de questions In ECOLE 93 p 90 92 26 Synth se des types de r ponses par poste de consultation pas de autre r p ACC 84 26 5 14 12 26 1 ME 212 43 7 36 51 70 5 UG 187 42 0 35 34 71 5 TTA 110 34 1 17 22 34 2 MHS 5 3 0 1 0 1 0 Tot 598 148 13 103 119 202 13 24 7 2 2 17 2 19 9 33 8 2 2 La suite de notre tude des r ponses POIL ne prendra en compte que les recherches sp cifiques les seules qui proposent une nonciation du th me de recherche int ressant l utilisateur Il faut cependant d ores et d j remarquer le taux particuli rement lev de non r ponses d origines diverses l utilisateur satisfait de sa recherche ne voit pas l utilit de reformuler son sujet certains ne comprennent pas la question d autres encore ne parviennent pas imaginer un syst me id al 1 2 Types de recherches La plupart des 148 recherches sp cifiques pr sentent une recherche par auteur Aut par titre Tit par sujet Suj ou associent 2 modes de recherche voire davantage multicrit res Mult L une fait appel une cat gorie science fiction Une r ponse a t d compos e en deux parties car elle contient deux recherches diff rentes l une par titre et l autre par sujet et diteur ME14 4 D o un total de 14
65. aux complexes 41 5 des r ponses soit 62 cas sur 149 Rappelons que la session MEl4 4 comprend 2 formulations de sujets ME06 10 ngormations bur Les beries de fonction UG17 32 matabolisme des graisses dans Le foie TTA24 4 cryptage de donnees en matiere de cartes bancair Celle des syntagmes nominaux simples du type uniterme Nom Adjectif Nom commun Nom propre et des syntagmes simples coordonn s comprend 22 occurrences soit 15 du corpus ME09 15 autocad UG05 4 4emiolfogie chiruigucale TTA26 3 logiciel reflex Nous n avons identifi que 2 phrases complexes AC11 15 et AC11 18 chiffre qui semble inf rieur celui de PR24 AC11 15 avoir comment ca be passe une intervention chirugicate de otite chronique 31 32 Un autre groupe important est constitu de phrases simples de diff rentes structures structures interrogatives 27 soit 18 UG12 8 existe t il des documents bur Les musees etrange structures d claratives 17 soit 11 5 TTAO6 12 Le sujet est climat social dans L entreprise 2 structures interrogatives ont t exclues de ces comptages car elles constituent des nonc s agrammaticaux ME19 2 Quels sont Les documents nefatifs aux m moires informatiques poss dez vous ME23 4 quels rayons e situant a quels etages peut on trouver des documents de maths 11 5 des r ponses 17 cas s expriment sous la forme de structures num ratives c est dire de juxtap
66. bre Il fournit l usager un moyen privil gi d acc s aux collectionss8 dont il offre une repr sentation L informatisation de ce catalogue introduit des difficult s nouvelles que le professionnel de l information per oit intuitivement sans toujours avoir les moyens de les valuer Une tude en situation comme celle de la M diath que de la Villette met ces probl mes plat et propose des pistes d tude Elle offre des points de rep re pour l valuation d un OPAC Un certain nombre de difficult s dont on rejette aujourd hui la responsabilit sur l OPAC freinaient probablement d j l usager dans ses consultations du catalogue papier Mais elles taient masqu es par le fait que le taux de non r ponses n tait pas valuable et que cet usager n avait pas le sentiment de recevoir une r ponse n gative et d finitive ni d tre renvoy lui m me Le catalogue en ligne parce qu il amplifie les difficult s de recherche et les blocages en constitue un puissant r v lateur Il serait d ailleurs indiqu de poursuivre les comparaisons des processus de recherche mis en oeuvre par l usager selon qu il consulte un catalogue papier ou un OPAC Rappelons que l enqu te de Prudence Dalrymple que nous avons bri vement d crite dans le chapitre pr c dent fournit quelques pistes int ressantes elle explique notamment que si les utilisateurs du catalogue en ligne se montrent aussi insatisfaits de leur recherche c est parce
67. ce Nous les appellerons 1 D ou 2 D selon que le syst me reconna t ou non le terme entr par l utilisateur Ces tapes sont vides dans la majorit des cas l utilisateur n est pas satisfait des vedettes propos es par le syst me et il abandonne le terme entr Ce n est cependant pas toujours vrai certains utilisateurs peuvent tr s bien se contenter d afficher des r f rences tr s abr g es sous forme auteur titre 26 sessions contiennent un ou plusieurs mod les 1 D ou 2 D dont on d nombre au total 59 occurrences mais les 3 recherches par mot en totalisent 23 elles seules Si on excepte ces recherches par mot 29 sur 36 n ont donn lieu aucune s lection de vedette Conna tre la place de ces mod les dans la session peut alors s av rer important dans la mesure o ces tapes ont probablement oblig l utilisateur reformuler son sujet ou le d placer sur le plan s mantique 63 par session des mod les rep r s 64 A titre d exemple le tableau suivant propose une synth se session AC13 7 l1 C 1 C 2 C AC13 11 2 D 2 A AC16 6 2 D 2 D 1 B 2 D AC16 9 2 D 1 A AC18 9 1 A 2 D 1 C AC24 7 2 D 1 A 1 D 1 A AC25 5 CN 2 C 2 D 1 C ME03 4 2 D 1 C ME03 11 1 C 1 B ME05 14 1 A 1 C ME07 6 1 A laC l A 1 C 1 C 2 C 2 D ME09 8 1 C 1 C MEl2 1 l A 1 B ME12 3 2 D 1 A 1 A ME12 11 1 C 2 C 1 C 1 C ME16 5 1 A 1 C
68. ce manifeste depuis longtemps son int r t pour les questions relatives aux catalogues en ligne elle a d j organis une enqu te test sur l OPAC aupr s de ses abonn s en 199029 et des journ es d tude sur ce th me 27 ECOLE NATIONALE SUPERIEURE DES SCIENCES DE L INFORMATION ET DES BIBLIOTHEQUES CENTRE D ETUDES ET DE RECHERCHES EN SCIENCES DE L INFORMATION et al Les catalogues en ligne accessibles par le public OPACS recherche exploratoire p 2 cit plus loin comme ECOLE 931 28 Ecole Nationale Sup rieure des Sciences de l Information et des Biblioth ques 29 BELET F L usage du catalogue informatis l exemple de la M diath que de La Villette p 22 31 20 2 3 Terrain d enqu te La M diath que est une biblioth que multim dia dot e d un certain nombre de sp cificit s Elle se compose de deux sections situ es dans des locaux proches mais distincts de la Cit des Sciences et de l Industrie la M diath que publique qui propose au public un fonds dominante scientifique et technique en libre acc s la M diath que d Histoire des Sciences qui r unit des documents sur l histoire des sciences des techniques de la m decine la mus ologie des sciences et un fonds ancien de sciences Son acc s est r serv aux chercheurs et tudiants ainsi qu aux utilisateurs munis d un laissez passer Le catalogue en ligne est commun aux deux sections de la M diath que Il offre en outre la po
69. ces notamment sous forme compl te Les 6 autres recherches portent sur un terme simple emprunt PR24 avec 2 cas de passage du pluriel au singulier TTA19 5 PR24 lasers MOT T asex ME28 6 PR24 techno ogie des r seaux Locaux MOT T r seau 3 sessions pr sentent une premi re requ te par mot du sujet mot simple oracl e wordperfect ou nom sigle ODA L un d entre eux grac e ne figurait pas dans la question PR24 de la session UG16 10 informations sur agbd et informatique en g n ral l utilisateur a sp cifi sa question en passant du pr questionnaire la recherche proprement dite Entre recherche par mot du titre ou du sujet il s av re parfois difficile de trancher Il faut noter que la plupart des recherches par MOT pr sentent un grand nombre de refus du syst me de prendre en compte les termes entr s par les utilisateurs ceux ci ne respectent que tr s 49 rarement la syntaxe exig e pour ce mode de recherche syntaxe assez complexe pour un utilisateur non habitu pratiquer ce type de recherche et pr sent e sur un cran particuli rement dense et peu convivial Les cas de d couragements sont fr quents les utilisateurs revenant une recherche par titre ou par sujet ou essayant alternativement recherche par mot du titre et par mot du sujet la session UG28 7 en constitue un bon exemple 2 tentatives S ODA puis 3 T ODA correctes mais interpr t es comme OD par le syst me av
70. che 8 r f rences dont 5 notices compl tes recherches titre cad report micad affichage de la notice harvest affichage de la notice recherches par mots du titre CAO CAD conception conception assist e conception amp assist e Au total 12 r f rences ont t affich es au cours de cette session longue mais structur e Alors qu il a retrouv la plupart des titres demand s l utilisateur un ing nieur consultant d clare n avoir rien trouv du tout On constate partir de ces deux exemples qu il est impossible de s appuyer sur les r ponses du postquestionnaire pour d cider si une recherche donn e a satisfait son auteur En r gle g n rale plus un utilisateur est expert de son domaine de recherche plus sa recherche est cibl e et plus il devient exigeant et capable d appr cier la pertinence des r f rences trouv es Mais un utilisateur peut aussi s estimer satisfait d une recherche que le professionnel jugera incompl te le premier ne s apercevant pas qu il n a pas retrouv certaines r f rences que le second sait figurer au catalogue Seule une comparaison entre le profil et la session de recherche de l usager d une part et une recherche type conduite par un ou plusieurs biblioth caires d autre part pourrait permettre d valuer objectivement une session et par suite de conna tre la pertinence linguistique des choix effectu s par cet usager Ce type d tude n tait pas envisageable
71. cherche en mode mot 2 une recherche en mode auteur titre Les recherches se rattachent l un des types pr c demment tudi s mais leur int gration dans des sessions plus larges modifient leur volution linguistique Nous avons rep r au total 75 recherches distinctes 46 recherches en une tape et un mode de recherche 18 recherches en plusieurs tapes et un mode de recherche 11 recherches en plusieurs tapes et plusieurs modes 2 ou 3 72 5 1 Recherches en une tape et un mode de recherche 46 cas Le mode sujet n est plus aussi dominant que dans le cas des sessions exclusivement compos es d une recherche de ce type cf III 2 1 48 contre 78 Les recherches en mode TIT sont galement nombreuses SUJ 22 TIT 15 AUT 5 A T 3 MOT 1 Ce type de recherche a une autre fonction que lorsqu il est utilis seul celle de contr ler qu un ouvrage existe bien dans le fonds de la M diath que La preuve en est le pourcentage de ces recherches qui n avaient pas t annonc es dans la question 24 du pr questionnaire 29 sur 46 soit 63 Elles ne donnent pas lieu un r investissement des donn es au cours d une recherche ult rieure puisqu elles sont totalement ind pendantes Sur le plan linguistique les recherches qui se trouvaient mentionn es dans PR24 en reprennent syst matiquement tout ou partie une exception pr s AC27 8 L utilisateur exploite ensuite les propositions du syst
72. comme telles en respectant la syntaxe propos e par le syst me dans le cadre d une recherche par mots du sujet Dans le mode sujet elles n ont pas abouti le syst me ne proposant qu une liste de vedettes proches du premier terme entr donc du premier nom ou syntagme La tentative de sp cification du sujet a chou l utilisateur a soit s lectionn une vedette quivalente ou proche du premier terme ou syntagme soit recommenc sa recherche en proposant une autre formulation AC25 1 s lection de la vedette en aux b n fices salari s ME19 6 deuxi me recherche par le sujet informatique de gestion expression qui reprend la r ponse la question PR24 2 premi res requ tes ne peuvent tre class es un probl me d ordre technique ayant coup l enregistrement du d but de la session ou perturb la frappe du sujet UG21 1 TTA24 4 6 2 Typologie s mantique La r partition des requ tes par sujet selon les grandes cat gories classificatoires que nous avons retenues dans le premier chapitre permet de d gager les tendances suivantes Philosophie 1 Litt rature 0 Arts 1 Hist G o 5 Sc sociales 27 Sciences 13 Techniques T6 Informatique 26 T l communications 5 51 10 sujets demeurent difficiles classer ainsi par exemple bois ou maintenance Seule la suite de la recherche conduit les r partir en sciences 1 techniques 2 informatique 3 et sc sociales 4 On rel ve une pr
73. d Information Textuelle sont men s par l quipe de MM Andreewsky Debili et Fluhr depuis le d but des ann es 70 P Radasoal5 d finit ainsi le syst me dans sa th se qui a galement contribu le perfectionner Le syst me SPIRIT op rationnel depuis 1981 est un syst me de recherche documentaire qui permet la g n ration automatique de bases de donn es textuelles sans pr paration pr alable des textes et leur interrogation en langage naturel La r ponse du syst me est une liste de documents tri s selon leur proximit s mantique par rapport la question pos e Le syst me utilise un traitement linguistique et un traitement statistique La question en langage naturel subit le m me traitement que les documents de la base un traitement linguistique Puis le syst me recherche les documents ayant des termes communs avec la question L appariement entre les documents pertinents et la requ te repose aussi sur des crit res linguistiques doubl s de crit res statistiques Le syst me 14 Pour les fondements th oriques et les applications de ce mod le on pourra notamment consulter les travaux d A BERRENDONNER M LE GUERN R BOUCHE J P METZGER M DE BRITO J ROUAULT 15 RADASOA H P M thode d am lioration de la pertinence des r ponses dans un syst me de bases de donn es textuelles Th se Paris Universit de Paris Sud Orsay 1988 156 p 11 calcule une proximit s mantique entre les deux e
74. de m thode l utilisateur menant plusieurs reprises la m me recherche proposant les m mes termes et s lectionnant les m mes notices ME11 5 PR24 information sur haut parleur et micro l re tape rech 1 SUJ haut paruteur 2 me tape rech 1 SUJ microphone 3 me tape rech 1 SUJ acoustique 4 me tape rech 1 SUJ haut parlteur 5 me tape rech 2 SUJ engrais 6 me tape rech 1 SUJ hauthaut parteur faute de frappe 7 me tape rech 1 SUJ hhaut parteur faute de frappe 8 me tape rech 1 SUJ haut parleur 9 me tape rech l SUJ oncreille faute de frappe 10 me tape rech 1 SUJ oreille ll me tape rech 2 SUJ engrais 12 me tape rech 1 SUJ haut parleur Ces enregistrements comprennent en moyenne 35 crans ce qui est peu en regard du nombre moyen de recherches conduites 3 11 crans par recherche Il s agit de recherches rapides le plus souvent sans reformulation ou d placement du sujet les possibilit s du syst me sont peu utilis es On d nombre 42 de mod les de base 1 D ou 2 D c est dire de refus par l utilisateur des propositions du syst me et d abandon de l tape en cours 58 sur 139 mod les de base La r partition des modes par session s effectue de la mani re suivante 19 sessions int grent au moins une recherche en mode sujet 12 une recherche en mode titre 9 une recherche en mode auteur 5 une re
75. e Test sur le panel d utilisateurs dont nous avons propos la constitution cf supra 1 5 3 il permettrait de d terminer si les utilisateurs experts du syst me et ou du domaine se montrent plus aptes retrouver spontan ment le langage de 1l OPAC Le projet PARINFO OPACS a exp riment en France une m thodologie d observation du comportement de l usager qui consulte un catalogue en ligne Il s est inspir des m thodes d analyse transactionnelle 7 labor es par l un de ses participants la City University de Londres Cette recherche exploratoire a permis de formuler des hypoth ses de travail et de d gager des pistes pour de futures exp rimentations doubler les questionnaires lectroniques d un dialogue avec l utilisateur qui permettra d avancer dans la mod lisation des comportements linguistiques durant une recherche d information mettre en oeuvre une enqu te similaire toujours en milieu r el mais sur un panel d utilisateurs afin de tester certains crit res susceptibles de modifier les caract ristiques linguistiques d une recherche tels que le niveau d expertise par rapport au syst me et ou au domaine d interrogation laborer une enqu te plus cibl e destin e mesurer la distance qui existe entre le langage de l utilisateur et celui du syst me en certains points cl s de la recherche L interrogation pourrait alors porter non pas sur une recherche libre mais sur des t ches de recherche impos
76. e demand de formuler sa question en langue naturelle ne se d tache plus ou grand peine de cette formulation 93 sessions pr sentent un lien syntaxique reprise ou inclusion et s mantique avec PR24 38 un lien s mantique qui n est jamais un lien de synonymie 14 recomposent certains termes particuli rement significatifs de PR24 Nous pouvons nous demander si l utilisateur fait ensuite voluer la formulation de son sujet au cours de la session ou s il se laisse guider par le syst me ce qui tendrait prouver qu il n est pas capable d effectuer lui m me cette op ration Une tude des choix linguistiques de l utilisateur en cours de session devrait apporter un d but de r ponse cette question 56 III Etude de la formulation durant le d roulement de la session 1 Probl mes d utilisation des commandes L examen des sessions permet tout d abord de mettre en vidence un certain nombre de probl mes li s l utilisation des commandes de 1 OPAC Ces difficult s sont le fait de certaines commandes souvent les m mes dont les utilisateurs ne parviennent pas distinguer les fonctions Les sessions que nous avons tudi es r v lent notamment une confusion quasi g n rale entre les instructions LIS CHO et AVA ARR perceptible dans les recherches par sujet Prenons l exemple d une recherche relativement simple telle que ME03 4 L utilisateur a conduit une recherche par sujet en 2 tapes apr s une tentat
77. e mais il ne conna t pas assez les r gles documentaires ni les termes d indexation retenus par le syst me pour construire v ritablement une vedette sujet Ce constat est valable quels que soient la formation de l utilisateur et son degr de familiarit avec 1 OPAC Les seuls indices d une connaissance du syst me restent le passage du pluriel au singulier observ dans 9 cas sur 10 l abandon des pr d terminants 2 exceptions pr s TTA10 4 et TTA20 6 l abandon des pr positions l int rieur d un syntagme TTA25 2 Cet inventaire a de quoi d cevoir 6 3 3 Abandon de la formulation initiale 17 Dans plus de la moiti des cas l utilisateur a visiblement jug son sujet trop sp cifique pour tre propos comme tel il en a abandonn la formulation initiale pour le remplacer par un terme g n rique ou une expression moins technique ME07 6 PR24 modulation de fr quence SUJ t l communication UG26 1 PR24 info sur tests fungus Aux alliages aluminium info sur coef friction SUJ moisissure Ce passage du sp cifique au g n rique ne se justifie pas toujours car il oblige ensuite restreindre la recherche il constitue n anmoins une strat gie de d part chez bon nombre d utilisateurs Une tude des r ponses au pr questionnaire d enqu te permet cependant de constater que cette strat gie n est pas le fait d experts de l OPAC puisque 8 des utilisateurs peuvent tre consid r s comme d
78. e de relevance feedback une m thode qui associe statistique et linguistique Elle consiste utiliser les r sultats d une premi re recherche pour reformuler automatiquement la requ te en augmentant ou en diminuant les poids des descripteurs selon que l utilisateur a jug le document pertinent ou non Cette technique accro t de mani re significative la pr cision des r ponses Le syst me DIALECT g n re cette op ration automatiquement elle est prise en charge par ses outils d analyse linguistique qui s lectionnent des zones de texte pertinentes jusqu l obtention d une condition d arr t Le syst me SPIRIT demande l utilisateur de s lectionner les documents ou parties de documents pertinents pour la recherche il les classe par degr de pertinence puis il enrichit la question son objectif est de diminuer le silence C est le noyau syst me expert qui g re la reformulation Il s appuie sur des bases de connaissances groupes de r gles correspondant chacune des m thodes de reformulation possibles des m ta r gles contr lent le processus global de reformulation De m me dans le syst me I3R c est l utilisateur qui juge de la pertinence des documents rappel s Son valuation est alors int gr e au syst me expert request model builder celui qui a mod lis la requ te de l utilisateur 2 Au contraire le syst me IOTA pond re les descripteurs et commence sa recherche avec les mots les plus pertin
79. e des usagers par rapport au syst me que nous avons tent de prendre en compte en examinant les pr questionnaires le niveau de connaissances de l utilisateur par rapport au domaine de recherche Il s av re cependant difficile de d terminer si un usager est expert ou non du domaine dans lequel il interroge l OPAC partir des questions du pr questionnaire devrons nous appeler expert celui qui a une formation dans ce domaine et quel niveau doit alors se situer cette formation Faut il prendre en compte celui qui travaille ou a travaill dans ce domaine Mais le passionn d astronomie ou de m canique automobile n est il pas lui aussi un sp cialiste m me s il n a jamais travaill dans cette branche Or ce type d expertise n est pas relev dans le questionnaire Nous avons donc renonc retenir ce second crit re Nous pouvons d ailleurs nous demander si les crit res expertise du syst me et expertise du domaine ont une r elle influence sur les techniques de recherche et le dialogue homme machine Faute d enqu te cibl e sw ces deux crit res on ne peut qu mettre des hypoth ses ce sujet la n tre est que les recherches d utilisateurs habitu s un OPAC 49 Quelques principes m thodologiques extrait du document fourni aux enqu teurs In ECOLE 93 Annex E p 2 50 R sult ts de l enqu te statistique In ECOLE 93 p 45 74 89 donn sans tre n cessairement plus performante
80. e entr culture de champignon terme propos par le syst me culture des champignons voir champignon culture 30 des termes entr s ne figuraient pas dans l index ce qui a conduit l utilisateur choisir un terme proche par exemple TTA20 6 terme entr Le syndicalisme en europe termes s lectionn s sur proposition du syst me syndicalisme politique syndicat syndicat europe 61 3 Recherches en plusieurs tapes et un mode de recherche Ce mod le de recherche concerne 39 sessions du corpus Il semble priori plus riche que le mod le pr c dent sur le plan du dialogue usager OPAC puisque l utilisateur tout en revenant au m me mode de recherche par sujet titre auteur ou mot a entr de nouveaux termes qui peuvent ventuellement refl ter la mise en place de strat gies linguistiques et induire des d placements s mantiques Ce sont les deux aspects auxquels nous nous int resserons apr s avoir caract ris les recherches Les auteurs de ces recherches pr sentent le degr d expertise suivant par rapport au syst me novices 24 moyens li experts 4 La proportion d utilisateurs novices est donc plus forte dans ce type de recherche que dans le type pr c dent 61 5 contre 50 3 1 Caract risation des recherches La r partition par mode s effectue comme suit Sujet 30 Titre 5 Auteur 1 Mot 3 L une des sessions ME07 6 aurait pu tre class e avec les recherch
81. e gestion voir gestion de la maintenance Choix E 22 microordinateur IBM maintenance Choix E 26 logiciel maintenance Mod les 2 le syst me ne reconna t pas le terme entr l utilisateur s lectionne alors une vedette proche Il ne peut s agir que d une vedette dont la t te reprend le premier terme entr ou une partie de ce terme On retrouve les 3 cas pr c dents 2 A retour la liste et choix d autres vedettes 11 cas 2 B retour la liste et s lection de la m me vedette 1 2 C affichage de r f rences l cas Exemple type d un mod le 2 A TTA16 6 PR24 ENFANCE MALTRAITEE Terme entr enfance maltrait e R ponse 0 Choix cran 6 enfant Choix cran 13 hospitalisation enfant Les mod les de base l A et 2 A dominent l utilisateur exploite alors plus ou moins les propositions du syst me On ne compte cependant que 13 cas 30 de mod les 2 c est dire de reformulations au sens de traduction dans le langage de l OPAC et ou d placements du sujet par le syst me Les sessions en une tape et un mode de recherche sont donc essentiellement des sessions dont le sujet est nettement d fini et conforme au langage de l OPAC 2 3 Strat gies de recherche A l4 reprises l utilisateur n a s lectionn qu une vedette titre auteur ou sujet toute sa recherche consiste exploiter cette unique s lection d un terme propos par le syst me Soit la session AC27 9 18 cra
82. e la base Les catalogues et autres syst mes de recherche documentaire ont longtemps contraint l utilisateur formuler seul sa question en utilisant le langage sp cifique d interrogation du syst me C est encore le cas de la plupart des OPACs disposition dans les biblioth ques dont celui de la M diath que de La Villette Pourtant de nombreuses tudes montrent que l utilisateur non sp cialiste qui ne conna t ni la base documentaire ni l indexation des documents rencontre de grandes difficult s pour mener bien son interrogation surtout dans le cas d une recherche par sujet l1 LE CROSNIER H Syst mes d acc s des ressources documentaires vers des ant serveurs intelligents Th se Marseiile Universit de droit d conomie et des sciences d Aix Marseille III Facult des sciences et techniques de Saint J r me 1990 p 47 Ces d couvertes ont donn lieu la r alisation d interfaces et de syst mes volu s destin s prendre en charge le traitement linguistique de la question et sa traduction dans le langage interne du syst me On assiste actuellement au d veloppement de syst mes experts qui devraient remplacer le documentaliste aupr s de l utilisateur 1 Typologie des catalogues en ligne Selon C Hildreth on peut construire une typologie des catalogues en ligne en distinguant trois g n rations de catalogues Actuellement la plupart des OPACS appartiennent la deuxi me g n ratio
83. e le nombre de r f rences affich es 2 Le nombre de notices affich es prend en compte la totalit des affichages y compris les multiples s lections d une m me notice Dire qu une session par exemple AC11 7 a donn lieu 4 affichages ne signifie pas que 4 notices diff rentes ont t visualis es en r alit 2 r f rences ont t affich es 2 fois chacune Chaque choix de r f rence ou de la commande ABR est comptabilis Prenons un cas limite la session ME10 3 La recherche conduite partir des sujets pr paration des hors d oeuvre n frig ration pr paration culinaire et de l auteur Guyot Michel a effectivement donn lieu 5 affichages crans 23 26 30 32 41 mais il s agit de la m me r f rence La pr r frig ration tude conomique Les statistiques sur les affichages de r f rences ne tiennent pas compte des notices compl tes mais uniquement des notices abr g es Tout choix de r f rence partir d une liste de titres donne automatiquement lieu un affichage sous forme abr g e de m me que l utilisation de la commande ABR une notice abr g e est galement affich e automatiquement si le syst me ne trouve qu une r ponse la question de l utilisateur Une notice compl te s obtient en utilisant la commande COM Une notice abr g e comprend les informations suivantes auteur titre mention d dition diteur support localisation cote disponibilit du documen
84. e simple comparaison entre les deux questionnaires lectroniques ne permet pas de r pondre ces questions 2 3 Lien s mantique 16 cas Les enregistrements class s dans cette cat gorie se caract risent par le fait que PO1lL et PR24 ne poss dent aucun terme commun mais portent sur un m me domaine s mantique TTA24 6 PR24 evolution des sciences humaines dans Le batiment PO11 mod les d organisation du travail en travaux pb Dans ce cas pr cis l utilisateur a v ritablement reformul son sujet de fa on plus explicite qu en PR24 Dans la plupart des cas cependant l utilisateur a modifi le sujet de d part soit en le sp cifiant MEO9 11 PR24 geometrie dans L espace po yedres PO11 informations sur dodecaedre soit en le g n ralisant PR24 L homme face au risque technique L harumattan amp POli envhironnement soit en le d pla ant ormu ations definitions d optimpisation et de convexite math lere proba exo Si nous pensons que les cas de sp cifications et d extensions du sujet peuvent constituer des tentatives de reformulation il nous semble difficile d tendre cette conclusion aux cas de d placements du sujet la reformulation si elle s accompagne par d finition de modifications lexicales et syntaxiques doit conserver la position s mantique du sujet par rapport l nonc de d part ce n est pas le cas dans les sessions ME11 7 UG20 10 TTA20 10 37 La com
85. echerche c est le cas en UG10 9 PR24 savoir travailler sur un ordinateur L utilisateur a modifi son th me de recherche entre PR24 et le d but de la session ainsi dans ME12 3 PR24 ngormation sur L organisation de chantier en g nie civi SUJ aotocad ME27 7 PR24 Oracl e SUJ Le angage Ada La session comprend plusieurs recherches successives ou intercal es et PR24 ne correspond pas n cessairement la premi re AC13 1 AC17 14 et UG28 9 en constituent des exemples Inversement certaines r ponses la question PR24 regroupent plusieurs th mes de recherche qui peuvent tre soit ind pendants AC14 7 PR24 An onmation sur Le m tier de patissier de restau in onmation sur des jeux en soci t TTA21 1 et TTA24 5 suivent ce mod le soit connexes mais distincts du type AC27 5 PR24 in onmation sun Le march mondial du bois et des leurs exotiques AC18 9 AC24 7 ME24 2 UG07 5 UG23 2 TTA09 3 et MHS20 1 entrent dans ce cas de figure L usager s lectionne l un de ces th mes lors de sa premi re recherche 1 Typologie des premi res requ tes Le tableau suivant offre une r partition par mode de recherche des 154 premi res requ tes du corpus Mode de recherche Nombre de sessions Pourcentage TIT 25 16 2 AUT i 11 7 2 A T 3 2 SUJ 104 67 5 NUM i 1 0 6 MOT i 10 6 5 Total 154 100 0 11 usagers experts de l OPAC sur 20 55 commencent de pr f rence leur r
86. echerche par une requ te auteur ou titre contre 36 des utilisateurs moyens les novices commencent en majorit par une recherche sujet 61 sur 78 soit 78 Le questionnaire d enqu te ne permet cependant pas de d terminer avec certitude si ce choix constitue une strat gie d lib r e ou s il est li au degr d expertise du domaine de recherche 46 Qu appelle t on d ailleurs expert du domaine Celui qui l a tudi ou l tudie celui qui conna t des ouvrages dans ce domaine Il nous semble que ce degr ne pourrait tre d termin en toute certitude que lors d un entretien avec l utilisateur Nous reviendrons ult rieurement sur ce point 2 Comparaison PR24 premi re requ te par titre 25 cas Nous n avons identifi qu un seul cas de correspondance linguistique exacte entre la question PR24 et la premi re requ te par titre celui de la session ME20 3 bases de donn es et syst mes nefationnels Cette r f rence figurait d ailleurs dans le catalogue de la M diath que d o son affichage imm diat par le syst me Dans 10 cas le titre que l utilisateur a propos en premi re recherche se trouve inclus dans la formulation nonc e en PR24 Le titre de livre ou de revue est cit en PR24 entre guillemets UG16 7 PR24 L ouvrage A brief history og time de Stephen Hawking en angiais 5 cas Le sujet nonc en PR24 inclut le titre qui sera propos en premi re requ te 3 exemples ME0
87. el qu il est fourni par la ligne nb de r f affich es de chaque synth se Il n tait pas envisageable de reproduire l int gralit des sessions tudi es le document ainsi obtenu entre 800 et 1000 pages n aurait pas t consultable L ensemble des donn es occupe 8 disquettes 3 pouces 1 2 10 si on prend en compte les questionnaires lectroniques de sorte qu il ne nous a pas t possible non plus de les joindre sous cette forme Nous avons d nous r soudre ne fournir que les donn es indispensables extraites des fichiers de synth se et r unies dans un volume annexe L ensemble des donn es recueillies la M diath que de La Villette est conserv e l ENSSIB sous forme informatique Le lecteur trouvera deux types de listes dans l annexe 2 La premi re reproduit le classement par nombre d tapes et mode s de recherche que nous adoptons dans le second chapitre Sessions en une tape et un mode de recherche 46 Sessions en plusieurs tapes et un mode de recherche 39 Sessions en plusieurs tapes et deux modes de recherche 31 Sessions en plusieurs tapes et 3 4 modes de recherche 6 Sessions pr sentant des ambigu t s 6 Sessions en plusieurs recherches ind pendantes 26 La seconde partie de l annexe pr sente pour chaque session la r ponse aux questions 24 du pr questionnaire et 11 du postquestionnaire ainsi que les modes de recherche choisis par l utilisateur Titre Sujet
88. elle de l usager avec ses difficult s ses blocages mais aussi son int r t pour les OPACs Elle labore tudes et enqu tes destin es prendre la mesure des probl mes et mod liser cette variable jusqu alors laiss e pour compte le comportement de l utilisateur face la machine La recherche exploratoire sur les catalogues en ligne accessibles par le public lanc e en 1991 dans le cadre du projet PARINFO Programme d Aide la Recherche en Information s inscrit dans cette voie Elle constitue m me un tournant pour la recherche fran aise sur les OPACS puisqu elle aboutit la constitution d un corpus de donn es analysables dans un contexte d utilisation r elle la M diath que de la Cit des Sciences et de l Industrie de La Villette On ne disposait pas jusqu alors d un tel mat riau L enqu te s est aussi donn pour objectif de tracer de nouvelles pistes de recherche dans le domaine des OPACSs des projets pluridisciplinaires qui font appel aux sciences de l information l informatique aux sciences cognitives la linguistique Ce m moire s efforce de poursuivre les travaux d j engag s dans l un de ces domaines celui qui analyse les donn es recueillies sous un angle linguistique afin de d gager si possible des mod les et des constantes dans le dialogue homme machine A travers cette analyse de donn es formulations en langage naturel termes entr s par les utilisateurs au cours de leur ses
89. els ou des utilisateurs finals form s exp riment s et assidus et encore ces derniers peuvent eux aussi avoir des probl mes Cette critique s adresse aussi bien aux OPACS qu aux bases de donn es install es sur des serveurs commerciaux Sur le plan linguistique on peut d celer divers probl mes ou lacunes dont certains perturbent galement les recherches non bool ennes Des probl mes morpho lexicaux Les utilisateurs de catalogues ne sont pas form s l usage des vocabulaires contr l s d indexation par sujet Ils ne connaissent ni le vocabulaire ni la technique d indexation ni la structure des fichiers d un syst me ou d un tablissement donn Ils prouvent donc de r elles difficult s faire correspondre leurs propres termes ou formulations d un concept avec le langage de la base Lorsque l utilisateur retrouve les mots retenus pour l indexation ceux ci peuvent subir des d formations fautes d orthographe variantes graphiques flexionnelles d rivation ou synonymie N Mitev et C Hildreth posent un probl me linguistique capital comment l utilisateur pourrait il formuler une question sur un sujet qui pr cis ment lui est encore inconnu ou m connu L utilisateur interroge un syst me de recherche documentaire parce qu il a d cel un manque dans son savoir exprimer sa requ te ne peut que mettre en vidence les probl mes conceptuels li s ce manque Probl mes syntaxiques Le m canisme de
90. entaires mais souvent disjointes celle qui cr e ou perfectionne des outils linguistiques que les syst mes mettront la disposition de l utilisateur Elles travaillent sur l existant celle qui tudie le langage de l utilisateur et ses mod les mentaux afin de modifier la conception m me des syst mes de recherche d information La linguistique soutient ici les recherches en sciences cognitives 1 Linguistique et convivialit des syst mes On peut distinguer trois orientations de recherche certaines tudes confrontent le vocabulaire initial de l utilisateur celui de l OPAC ou de la base de donn es d autres visent orienter l utilisateur dans le syst me afin qu il puisse formuler ou enrichir sa question d autres encore prennent en charge les op rations de formulation et ou de reformulation ou aident le non sp cialiste les r ussir 1 1 Etudes sur les langages documentaires distance et niveau linguistiques Une direction particuli re du traitement linguistique dans les OPACS et les bases de donn es consiste tudier la structuration des langages documentaires ou classificatoires leur emploi par l utilisateur et leur ad quation au syst me dans lequel ils sont implant s20 Une exp rience a t conduite l Universit de Californie Los Angeles UCLA pour valuer la correspondance lexicale et syntaxique existant entre les termes entr s par des utilisateurs du catalogue en ligne de la
91. ents ou utilise ces mots pour enrichir la question Selon R Dachelet le d veloppement de ces techniques est r v lateur d une volution dans les buts que se fixe la recherche documentaire On a renonc l espoir de fournir l utilisateur LA r ponse LA question pos e Une r ponse c est aujourd hui un document ou un ensemble de documents que l utilisateur estimera pertinent s 3 22 CROFT W B Id p 393 23 DACHELET R Id p 126 17 2 Langage de l utilisateur et mod les mentaux Les probl mes pos s par la repr sentation des connaissances dans les syst mes de recherche d information sont en fait commun plusieurs sciences sciences de l information Intelligence Artificielle psychologie et linguistique ainsi que le montrent les tudes men es par B Vickery et son quipe Des travaux tels que ceux d E Kolmayer 5 tentent travers une exp rimentation conduite sur le vocabulaire et les techniques d interrogation d un groupe d utilisateurs de d gager des mod les d organisation des connaissances et de comprendre la nature de leurs blocages vis vis de la recherche automatis e d informations En tudiant la variation des descripteurs choisis pour interroger sur des sujets impos s on peut mettre en vidence les mod les cat gories logiques ou cat gories cologiques cat gories naturelles frames scripts auxquels fait appel un utilisateur L une de ses tudes a permis de constate
92. er modifier sa d marche linguistique et par suite son interaction avec le syst me Notre s lection ne nous permet cependant pas d mettre des hypoth ses sur la qualit de l change linguistique r alis dans les autres sessions Cela constitue peut tre une de ses limites 1 3 Organisation des donn es Rappelons que le lecteur trouvera dans l annexe 2 volume 2 de ce m moire quelques donn es relatives chacune des sessions qui ont servi de support l tude linguistique ainsi que leur r partition dans le plan de classement que nous adoptons dans ce chapitre Sessions en une tape et un mode de recherche 46 Sessions en plusieurs tapes et un mode de recherche 39 Sessions en plusieurs tapes et deux modes de recherche 31 Sessions en plusieurs tapes et 3 4 modes de recherche 6 Sessions pr sentant des ambigu t s 6 Sessions en plusieurs recherches ind pendantes 26 41 Nous l invitons galement se reporter au tableau des codes et abr viations utilis s en annexe 4 2 Obstacles et limites L utilisation stricte du nombre de r f rences affich es figurant dans le fichier de synth se de chaque session aurait d nous amener retenir 4 sessions suppl mentaires ME26 7 UG17 19 TTA23 7 et TTA25 3 comportent priori 3 r f rences affich es mais la premi re notice r sulte en fait de la recherche pr c dente et a t comptabilis e par erreur avec ces sessions Cela ram n
93. er sur cing th mes sp cifiques 6 mod lisation et repr sentation des connaissances et des processus de raisonnement du point de vue des contenus informationnels des flux et des acc s m thodes et outils d valuation des syst mes d information tude des d marches et pratiques informatiques des utilisateurs l information dans le processus de comp titivit et d innovation des entreprises l information ressource strat gique et industrie nouvelle Chaque proposition examin e et retenue par un comit de s lection devait tre r alis e sur une dur e maximum de deux ans C est dans ce cadre qu a t labor un projet de recherche exploratoire sur les catalogues en ligne accessibles par le public projet d pos en Juin 91 et d velopp en 92 93 2 Le projet PARINFO COPACS 2 1 Objectifs Le projet est n d une double prise de conscience Le fonctionnement des catalogues en ligne est marqu par de graves insuffisances que de nombreuses tudes ont contribu mettre en vidence Nous en citerons quelques unes pour m moire celles de C Borgman de P Le Loarer de J Le Marec Il devenait donc urgent d appeler des chercheurs appartenant aux diff rentes disciplines impliqu es dans le sujet coop rer et mettre en place un programme de travail commun conservateurs informaticiens psychologues linguistes chercheurs en sciences de l information Tels furent un des objectifs et une des cons
94. ercherait il une autre formulation de son sujet ou entrerait il une seconde voire une troisi me fois le m me nonc Certaines r ponses sont cet gard r v latrices UG09 4 je ne vois pas l utilit de neformuler ma questi ME07 16 LA FORMULATION N EST PAS REMISE EN QUESTION ME14 14 ma question est formulee correctement c est a reponse qui ne me satisfait pas Cette question qui semble redondante des questions PR24 et P0O8 para t superflue la majorit des utilisateurs Plus encore intervenant apr s les p rip ties de la session elle attire les commentaires personnels et sert parfois se d fouler Lors de l laboration des questionnaires cette question POIL a fait l objet de soins particuliers comment la formuler sans utiliser des concepts que certains utilisateurs risquaient de ne pas comprendre langue naturelle ou sans pr juger de leur r ponse La formulation retenue ne nous para t pourtant pas satisfaisante dans la mesure o elle induit en d finitive un double questionnement pour le non sp cialiste formulez votre question et imaginez un syst me id al Certains commentaires personnels obtenus la place de la formulation attendue t moignent du caract re subjectif du vocable syst me id al et des interrogations qu il suscite m me si quelques uns rel vent de la plaisanterie En voici un floril ge AC17 23 en Language naturel et avec une meilleur interface homme machi
95. es en plusieurs tapes et 2 modes mais l utilisateur n est pas parvenu formuler sa recherche par mot et s en est finalement tenu une recherche par sujet Il s agit de recherches plus longues que les pr c dentes entre 14 et 84 crans 29 en moyenne Les 3 recherches par mot sont les plus longues 52 83 et 84 crans l utilisateur multipliant les entr es de termes Le nombre moyen d tapes et donc de termes de recherche entr s est de 3 7 les recherches par mot atteignent cependant une moyenne de 10 tapes Chacune des tapes r unit un nombre moyen de 8 crans chiffre nettement inf rieur au nombre moyen d crans des recherches en une tape 19 Plus les tapes se multiplient plus elles sont courtes ce qui peut dans certains cas avoir une influence sur leur performance l utilisateur revient au sommaire et modifie sa recherche sans avoir puis les possibilit s offertes par le syst me Le chiffre suivant en apporte un d but de preuve l utilisateur choisit en moyenne 4 propositions du syst me mais seulement 3 5 vedettes diff rentes Il revient donc en cours de recherche des propositions trop vite abandonn es sans qu il ne s agisse le plus souvent d une strat gie de sa part 62 3 2 Mod les de recherche D finir des mod les communs des recherches complexes s av re difficile voire impossible chaque session pr sente une configuration qui lui est propre comme l indique le tableau de sy
96. es novices le dernier se pr sentant comme un utilisateur moyen Plus rarement on observe au contraire une sp cification d un sujet trop g n ral 3 cas TTA26 3 PR24 documentation sur Les Logiciels SUJ reflex Ces requ tes portent sur des sujets techniques ou informatiques 54 A 4 reprises la reformulation du sujet s accompagne d un d placement que les donn es en notre possession ne permettent pas toujours d expliquer Ainsi la session UG05 8 PR24 ingoumation sur Les mit chez Les adofe cents SUJ soins infirmiers decret de comp ten Les 2 formulations du sujet sont vraisemblablement li es dans l esprit de l utilisateur comme le montre la r ponse apport e par l un d eux la question 11 du postquestionnaire quelle est Le rofe de L ingirmiere dans a pr vention des mix L utilisateur peu ou pas habitu cet OPAC ne parvient pas fixer la formulation de son sujet 6 3 4 Un terme ou un syntagme commun 14 On rel ve dans ce groupe quelques tendances d j voqu es pr c demment le passage d un syntagme nominal complexe un syntagme simple du type N ou N A L utilisateur condense sa formulation mais cherche la rendre aussi quivalente que possible sur le plan s mantique PR24 d o la reprise de certains termes AC24 7 PR24 techniques lectromagn tiques en g ophysique ou recherche p troli re SUJ lectromagn tisme g ophysique largissement de 2 sujet
97. es propositions de redressement 1 1 Types de r ponses Le tableau suivant offre une r partition des 3598 r ponses ou non r ponses en 5 grands types qu il convient de pr senter Le terme recherches sp cifiques d signe toute r ponse contenant une ou plusieurs recherches quel qu en soit le mode auteur titre sujet etc AC11 6 ou puis je trouver des Livres dans La collection d couvertes gallimard notamment sur Les d couvertes polaires Les recherches g n rales r unissent des formulations telles que AC11 11 comment puis je trouver ce livre et dans quel rayon TTAO9 3 avez vous telle revue Les justifications de d marches ne comportent pas de mention d un th me de recherche mais la mani re dont on pourrait conduire ou am liorer le processus de recherche Nous avons inclus dans ce type les suggestions tr s fantaisistes de certains utilisateurs qui ont respect la consigne et imagin un syst me vraiment id al UG13 4 DU GENERAL AU PLUS DETAILLE CITER LE DOMAINE DE RECHERCHE LE SUJET AVEC DES MOTS CLES ME09 13 systeme vocal Les remarques personnelles regroupent la fois les appr ciations et critiques des usagers ME27 8 IL N Y A PAS DE SYSTEME IDEAL et les r ponses du type idem ou de la m me fa on Le cinqui me groupe se composent des vides et des r ponses du type pas de r ponse ou je ne sais pas Quelques sessions ambigu s 13
98. et dans une certaine mesure d valuer qui de l utilisateur ou du syst me dirige la formulation du sujet E Kolmayer distingue 2 cas de figure L usager a une d marche dirig e par les concepts lorsqu il propose des termes d interrogation l OPAC sa d marche est dirig e par les donn es lorsque l OPAC lui propose des listes de termes parmi lesquels il choisits3 Dans les sessions domin es par des mod les de type 1 les concepts entr s par l utilisateur sont repris par le syst me c est le cas par exemple de la session UG19 2 o les termes auane satellite et navette spatiale figurent dans l index sujet Au contraire dans les sessions domin es par les mod les de type 2 on observe un cart entre le langage utilis par l utilisateur et celui du syst me 8 sessions sont partiellement ou totalement compos es de mod les de ce type L OPAC dirige alors en grande partie la formulation et l volution de la question Exemple la session ME20 2 dans laquelle les termes m thode SD interk ace utilisateur et sd ne sont pas reconnus par le syst me qui propose m thode SADT et interface programmation Cet cart linguistique n est observ ici que dans des sessions d utilisateurs moyens 2 ou novices 6 3 3 Evolution s mantique On peut distinguer 4 types fondamentaux d volution s mantique des formulations la restriction du domaine s mantique du sujet autrement dit le passage d un niveau g n rique
99. f rents ACC recherche mot acc l r e l utilisateur labore sa cl de recherche partir d un simple mode d emploi et de quelques exemples CPX pour un mode d emploi CPX offre une assistance la recherche L enqu te r alis e sur l OPAC de la M diath que a mis en vidence la faible utilisation de l acc s par mot s 7 10 des recherches seulement Notre tude des sessions conduites par les utilisateurs permet galement de constater que la plupart d entre eux choisissent le mode ACG et conduisent donc leur recherche sans assistance Il s ensuit des erreurs de syntaxe et des refus du syst me qui d couragent fr quemment les utilisateurs L attitude la plus fr quente est alors de ne pas combiner les termes et de proposer au syst me un seul mot du titre de l auteur ou du sujet autrement dit l utilisateur renonce souvent mener une recherche bool enne ce qui confirme les difficult s voqu es pr c demment S appuyant sur ces constatations les recherches en cours et les premi res r alisations ont tent de prendre en charge les probl mes linguistiques de l utilisateur en lui offrant notamment de formuler sa requ te en langue naturelle 9 3 Les syst mes s attachant au traitement de la question On peut construire une typologie des syst mes qui traitent le probl me de la question avec G P Zarri les interfaces volu es ce sont les outils qui ont pour objectif de servir d interm di
100. he D autre part ce sont ces questions l qui rec lent le plus d ambigu t Les questions portent en effet sur la satisfaction que l usager a retir e de sa recherche les informations qu il a retenues son appr ciation de la difficult et des causes de cette difficult La confrontation des sessions suivantes permet de mieux appr cier la subjectivit de certaines r ponses Session UG13 2 PR24 information sur a technologie des disques optiq Recherche en 1 tape et 1 mode de recherche TIT n orumtions sur a technofogie et Le R ponse 0 Affichage d une r f rence alphab tiquement proche 9 L infrarouge 2 fois Retour la liste de r f rences proches Affichage d une r f rence 2 L infrarouge lointain L utilisatrice une lyc enne interroge juste pour voir comment fonctionne le catalogue Alors que les titres balay s ou affich s ne pr sentent aucun rapport avec la formulation entr e en PR24 ou en premi re requ te elle se d clare satisfaite de sa recherche qu elle juge facile elle n a cependant retenu aucun titre 46 BELET F L usage du catalogue informatis l exemple de la M diath que de La Villette p 36 37 47 ECOLE 93 p 64 86 Session UG11 6 PR24 DOCUMENTS SUR LA CONCEPTION ASSISTEE PAR ORDINATEUR L utilisateur conduit une recherche en plusieurs tapes et 3 modes de recherche recherche sujet partir de CAO Il s lectionne plusieurs sujets et affi
101. he d information Assist e par Ordinateur Conference Proceedings Intelligent text and image handling Universitat Autonoma de Barcelona Barcelona Spain April 2 5 1991 Centre de Hautes Etudes Internationales d Informatique Documentaire 1991 Vol 2 p 790 808 MANIEZ J Les langages documentaires et classificatoires conception construction et utilisation dans les syst mes documentaires Paris Les Editions d Organisation 1987 291 p MARKEY DRABENSTOTT K M VIZINE GOETZ D Search trees for subject searching in online catalogs Library Hi Tech 1990 Vol 8 n 3 p 7 20 102 MEKAOUCHE W BASSANO J C Analyseur linguistique multi experts pour la recherche d informations Bulletin du Centre de Hautes Etudes Internationales d Informatique Documentaire 1989 n 36 p 5 18 MENON B Indexation automatique et intelligence artificielle quelques questions de strat gie In Cours INRIA Image et intelligence artificielle dans l information scientifique et technique INRIA 1988 p 143 175 Autre source GSI ERLI 91 p 105 139 METZGER J P Syntagmes nominaux et information textuelle reconnaissance automatique et repr sentation Th se Lyon Universit Claude Bernard Lyon 1 1988 324 p MINISTERE DE LA RECHERCHE ET DE LA TECHNOLOGIE MINISTERE DE L EDUCATION NATIONALE DE LA JEUNESSE ET DES SPORTS Programme d aide la recherche en information PARINFO Brises 1991 n 16 p 81 82 MITEV N HILDRETH C
102. herches correctement conduites mais d cevantes Certains utilisateurs con oivent difficilement qu un auteur particuli rement connu ou qu un th me d actualit soit absent du fonds Cette remarque en t moigne r ponse P011 session TTA17 12 LA MEDIATHEQUE N ETANT PAS SPECIALISEE EN SCIEN sociales et humaines je comprends bien que des ouvrages 5pecialisees ne s y rouvent pas Mais 2 ducation familiale doit etre promue Notre classement comprend la totalit des 148 recherches dites sp cifiques pas uniquement les 115 r ponses proposant un sujet 37 des recherches ne paraissent pas adapt es au fonds En r alit ce chiffre est sans doute trop lev certains sujets class s en sciences conomiques et sociales portent par exemple sur l entreprise domaine dans lequel la M diath que a constitu un fonds de base Le travail actuellement r alis par M Encrenaz sur l ad quation entre les termes entr s par l utilisateur et le r f rentiel de la M diath que et sur les causes d chec de certaines recherches devrait permettre d valuer l importance r elle des recherches inadapt es 28 29 Tableau r capitulatif litt rature et philosophie arts sports histoire g ographie sciences conomiques et sociales sciences m decine techniques non informatiques informatique NC non class e PAAA RE ONU T S 1 3 l 4 Analyse morpho lexicale Nous reprendrons les cat gories d gag es par
103. i me g n ration peuvent tre consid r s comme des syst mes de recherche d information part enti re mais d une nature particuli re Les catalogues de troisi me g n ration prennent en compte certaines innovations concernant notamment le langage et le comportement des utilisateurs Nous reviendrons ult rieurement sur les aspects linguistiques de ces am liorations 2 MITEV N HILDRETH C Les catalogues interactifs en Grande Bretagne et aux Etats Unis Syst mes et interfaces Bulletin des Biblioth ques de France 1989 Vol 34 n 1 p 25 2 Mod les de recherche documentaire 2 1 Diff rents mod les de recherche documentaire Tout syst me de recherche d information s appuie sur une structure qui d finit le mod le de documents ainsi que la m thodologie d valuation de la correspondance entre requ te et documents J Nie distingue diff rents mod les plus ou moins r pandus et volu s bool en vectoriel probabiliste logique s mantico linguistique tous d velopp s durant les ann es 70 Il note cependant que l on s oriente actuellement vers la d finition de mod les plus g n raux Les OPACS et bases de donn es s appuient principalement sur le mod le bool en 2 2 Le mod le bool en et ses limites 2 2 1 Le mod ie booi en standard Dans ce mod le un document est repr sent par un ou plusieurs mots ci s Une requ te est une expression elle aussi compos e de mots cl s ou de descripteu
104. ice suivante notice pr c dente Mais existe t il pour des utilisateurs qui se rep rent mal dans le syst me une notice suivante ou pr c dente par rapport celle qu ils sont en train de visualiser Elles existent bien dans la liste de r f rences puisqu elles leur sont propos es sur un m me cran Mais on peut penser que certains utilisateurs perdent tous leurs rep res lors du passage la consultation des notices notice suivante et notice pr c dente d signent alors pour eux suite ou d but de notice Sur le plan linguistique ces deux types de probl mes perturbent la formulation de la requ te d une part ils allongent inutilement la recherche ce qui pousse souvent l utilisateur interrompre la session sans avoir exploit toutes les possibilit s offertes par le syst me D autre part ils obligent l utilisateur multiplier les interactions avec l OPAC s lectionner plusieurs fois la m me vedette ou entrer les m mes termes ce qui constitue une source d erreurs importante 58 2 Recherches en une tape et un mode de recherche 46 sessions se composent d une unique recherche en une tape et selon un mode l utilisateur a entr au d part un terme ou une expression et s en est tenu cette formulation C est le type m me de recherche que l on pourrait qualifier de pauvre puisqu elle ne comporte aucune reformulation du sujet ni extension ni restriction s mantique 21 personnes se sont po
105. imites du postquestionnaire s sssss 86 II Quelques r orientations 88 l Pour un postquestionnaire oral 88 2 Quelle population sseseeeeesesese 88 2 1 Le public de la M diath que de La Villette 88 2 2 Typologie des usagers s s 89 2 3 Panel d utilisateurs e ssssssssssesssesesesesss 90 III L valuation par r solution de probl mes 92 l Analyse de quelques dispositifs 92 1 1 Repr sentation mentale d un syst me de recherche d information 92 1 2 Recherche par reformulation 93 1 3 Enqu te exp rimentale sur deux types d instruction pour les usagers de catalogues informatis s 93 2 Vers un nouveau dispositif e 94 ConcLUSLON nine dode mette de ent el ole sie ere lee D 8 een ee 0 pete vi 96 Bibliographie 2 diese ane MSN Ernie PR PAG Se ee te eee 98 J adresse tous mes remerciements Mmes Sylvie Lain Cruzel Ma tre de Conf rences ENSSIB Danielle Roger Conservateur de biblioth que ENSSIB Maria Witt Conservateur M diath que de la Cit des Sciences et de l Industrie et MM Mohamed Hassoun Ma tre de Co
106. interpr ter sans faire appel l utilisateur Seul l auteur d une recherche pourrait expliquer l origine de tel ou tel choix linguistique qui peut nous sembler inattendu Ces donn es n ont malheureusement pas t r colt es durant l enqu te de Juin 92 Sans m me disposer de ces informations nous pouvons malgr tout nous interroger sur la pauvret des strat gies linguistiques mises jour Nous avons vu que l on pouvait rarement parler de reformulation l utilisateur se trouvant le plus souvent devant l alternative suivante le syst me a accept sa requ te l a ventuellement traduite dans son langage sous la forme d une vedette compos e par exemple ou bien il l a refus e Dans ce cas l usager recourt soit au feuilletage de listes de vedettes soit au changement de mode de recherche notamment sujet titre sujet mot ou titre mot soit un d placement s mantique du sujet qui le laissera terme insatisfait L utilisateur se trouve seul face un th me qu il conna t souvent mal puisqu il recherche des informations son sujet Il serait cependant int ressant de savoir si l utilisateur qui consulte un catalogue papier met en oeuvre des strat gies linguistiques plus labor es telles que l utilisation syst matique des synonymes ou des renvois notre connaissance aucune enqu te n a encore t conduite pour comparer les strat gies mises en oeuvre du moins en France Nous n avons relev que 3 occurrence
107. ion Christine Borgman de la Graduate School of Library and Information Science de l UCLA University of California Los Angeles a conduit une exp rience empirique selon cette d marche l Universit de Stanford avec pour objectif de tester sa th orie des mod les mentaux the mental model theory 52 Son quipe a form des tudiants non sp cialistes l utilisation d un prototype de syst me de recherche d informations bas sur la logique bool enne qui permet d interroger une base de donn es bibliographiques La formation a eu lieu selon deux m thodes un mod le conceptuel des instructions proc durales Puis on a compar les repr sentations mentales que les utilisateurs avaient d velopp es partir de leur formation au syst me au moyen d une session de recherche sur le catalogue en ligne compl t e par des interviewes L enqu te consiste en 15 recherches 5 simples et 10 complexes On appelle recherche simple une recherche qui n cessite l usage d un seul index et d un op rateur bool en au plus une recherche complexe r clame l usage de deux index ou plus et d un op rateur bool en au moins Il s agit de recherches bibliographiques comportant toutes les explications et le vocabulaire n cessaires pour localiser les documents dans une base exp rimentale de 6 000 r f rences 52 BORGMAN C L The user s mental model of an information retrieval system an experiment on a prototype online catalog
108. ion d un certain nombre de termes et d expressions que nous utiliserons couramment dans la suite de cette tude 3 1 Quelques d finitions Nous appellerons recherche l ensemble des op rations conduites par l usager autour d un th me donn Une session peut donc se composer d une ou plusieurs recherches La plupart en comportent une ou deux voire trois une seule session UG07 18 encha ne un dizaine de recherches ind pendantes La notion de th me ou sujet de recherche reste cependant vague et subjective d o une ambigu t persistante dans certains cas Pour fonder une typologie des recherches nous avons retenu pour crit re la plus ou moins grande correspondance s mantique entre les termes entr s par l utilisateur et les formulations de sa question dans le pr et le postquestionnaire Une tape de recherche se compose de l ensemble des d marches accomplies entre deux retours au sommaire Rappelons qu il existe 6 modes de recherche possibles que l utilisateur s lectionne au niveau du sommaire TIT Recherche par titre AUT Recherche par auteur A T Recherche auteur titre SUJ Recherche par sujet NUM Recherche par cote indice diteur ISBN ISSN MOT Recherche par mot s du titre de l auteur ou du sujet a Uri EE ND HA L Nous ne retiendrons pas le septi me choix du sommaire LIM comme mode de recherche puisqu il ne sert qu d limiter la partie du catalogue de la
109. ive infructueuse au moyen de l expression communication parall le il a largi sa formulation t l communication cran n 6 Il a choisi une des 10 vedettes sujets propos es par le syst me l cran n 7 microordinateur t l communication pour laquelle le syst me a propos une liste de r f rences auteur titre comprenant 3 r ponses cran n 8 Les 8 crans qui suivent montrent que l objectif de l utilisateur fut alors de visualiser les 3 notices correspondantes Pour y parvenir il a mis en place une strat gie Ecran 8 s lection de la r f rence n 1 E 9 notice 1 sous forme abr g e s lection de la commande LIS retour la liste E 10 cette commande renvoie la liste des vedettes sujets donc l cran n 7 L utilisateur s lectionne de nouveau la vedette sujet microordinateur t l communication E ll il est ramen l cran des 3 r f rences correspondantes cran n 8 Il s lectionne la seconde r f rence E 12 notice 2 abr g e s lection de la commande LIS E 13 E 10 E 7 liste des vedettes sujets L utilisateur s lectionne pour la troisi me fois la vedette microordinateur t l communication E 14 E 1l E 8 il s lectionne la r f rence n 3 E 15 notice 3 abr g e s lection de la commande SOM retour au sommaire E 16 sommaire et fin de la session Cette strat gie r v le 2 types de lacunes tout d abord une m connaissance de la comm
110. lation qui prend en compte le d roulement de la session pr c dente qu il s agisse de termes entr s ou de r ponses du syst me 3 2 Reprise de termes Ce groupe se compose de 22 sessions 7 empruntent des termes la session qui pr c de Cette derni re peut donc avoir induit un d placement du sujet une sp cification une d marche que l utilisateur retient comme formulation id ale AC27 9 MEIl 7 ME13 1 ME24 2 UG16 10 TTA13 2 TTA20 10 TTA20 10 PR24 in ormation jur l unification europ enne Recherche en plusieurs tapes et plusieurs modes TIT tout maastricht SUJ europe SUJ europeeurcpe SUJ europe SUJ concuwvience POLL in oumation sur La concurrence industrielle et sur a heGlementation de a concurrence en europe L influence d une session d cevante peut se manifester par un passage du sp cifique au g n rique entre PR24 et POIL on ne peut cependant pas parler d une v ritable reformulation du sujet Ainsi dans la session UG12 8 on passe des musees d etat de a ville de HUE au VIETNAM aux musees 78 etrange l utilisateur ayant compris lors de sa recherche que Les propositions doivent etre plus vastes c est ce qu il d clare dans la r ponse 8 du postquestionnaire 14 r ponses font des emprunts la r ponse PR24 et la session AC16 6 AC16 12 ME04 4 UGO04 12 UG05 8 UG09 2 UG16 8 UG21 8 UG26 5 UG28 8 TTAO4 5 TTA11 5 TTA24 4 TTA26 3 Ces reprise
111. le mettre en oeuvre en milieu universitaire aupr s d utilisateurs tudiant une discipline donn e il deviendrait possible de distinguer les novices tudiants en premi re ann e de DEUG51 et les experts tudiants de second et troisi me cycles ou professeurs La notion d expertise serait ici li e la formation scolaire et universitaire des utilisateurs Ce dispositif pourrait permettre d examiner la validit des crit res expertise du syst me et expertise du domaine et de d terminer si ces deux crit res ont un r el impact sur l interactivit qui s tablit entre l utilisateur et 1 OPAC L enqu te r alis e La M diath que de La Villette dans le cadre du projet PARINFO OPACS laisse l utilisateur libre du sujet sur lequel il interroge Nos propositions ont jusqu alors vis prolonger cette premi re exploration qui s int resse essentiellement la formulation en langage naturel de l utilisateur Bien que mise en oeuvre sur un catalogue en ligne de seconde g n ration elle annonce les catalogues de troisi me g n ration et certains syst mes experts de recherche documentaire qui s efforcent de traiter des requ tes en langue naturelle et d apporter 51 Dipl me d Etudes Universitaires G n rales 90 syst me OKAPI d velopp par le Centre de Recherche sur les syst mes interactifs de la City University de Londres En attendant l exploitation de tels syst mes dans les biblioth ques une
112. le 10 utilisateurs ont effectivement repris tout ou partie d une formulation ant rieure 6 ont tent une nouvelle formulation 2 ont exploit un autre terme de la question 24 du pr questionnaire Le ph nom ne est moins apparent dans les recherches multiples qui proc dent davantage par t tonnements et reprise d un terme dans le m me mode parfois avec le mode LIM La session UG21 10 offre un parfait exemple de conservation de la formulation d un mode l autre dans le cadre d une recherche en 2 modes PR24 Len puzzles l re tape SUJ puzzle R ponse 0 pas de s lection de sujet proche 2 me tape TIT puzz e Plus g n ralement on d nombre 7 cas de conservation de la formulation d un mode un autre sur les 18 sessions de type AUT SUJ TIT SUJ A T SUJ Le ph nom ne est plus syst matique dans le cas des sessions faisant intervenir le mode MOT il y a reprise de termes dans 10 cas sur 11 soit un total de 17 cas ME17 15 PR24 Ainforumation sur Les bases de donn es objet ainsi que swr Les methodes de developpement a sociees l re tape TIT hood R ponse 0 2 me tape MOT T hood R ponse 2 3 me tape MOT T versan R ponse 0 4 me tape MOT T paraltt te R ponse 5 5 sessions en 3 ou 4 modes contiennent aussi des reprises mais jamais sur 3 modes d AUT AUT TIT de SUJ TIT de SUJ ou TIT MOT 70 La principale utilisation de la recherche par mot con
113. le plan de la reformulation parce que l utilisateur propose un sujet concis dont le syst me accepte les termes dans 63 des cas Ces sessions se r partissent en 6 mod les l mentaires 1 A 1 B 1 C 2 A 2 B 2 C Les 39 sessions en plusieurs tapes et un mode de recherche combinent 8 mod les de base nous avons d ajouter les mod les 1 D et 2 D destin s aux tapes sans affichage de vedette ou de r f rence Nous avons montr que dans 22 cas l utilisateur dirigeait la formulation mais avec des t tonnements les sessions restantes r v lent un cart linguistique trop important entre le langage de l utilisateur et celui du syst me qui conduit recommencer la recherche On observe alors diverses volutions s mantiques notamment l extension et le d placement du sujet L utilisateur reformule rarement sa question de d part et il utilise 76 essentiellement les propositions du syst me mais en lecture seulement sans jamais les int grer sa requ te Les 37 recherches en plusieurs tapes et plusieurs modes sont essentiellement des associations de 2 modes 31 sur 37 Nous avons remarqu que le changement de mode intervenait souvent apr s l chec d une requ te et qu il pouvait alors consister en une entr e de la m me requ te dans un autre mode que celui dans lequel elle venait d chouer Le couplage de la recherche par mot s du titre ou du sujet un autre mode de recherche et cette conservation des termes
114. lisateurs vis vis des m thodes de recherche bool enne a conduit les concepteurs quiper les OPACs et bases de donn es de proc dures de butinage de navigation ou browsing Elles permettent l utilisateur de feuilleter des listes alphab tiques lorsqu il ne sait pas formuler sa question ou souhaite explorer des domaines peu familiers Il s agit souvent cependant d une exploration lin aire insuffisante Seuls quelques prototypes proposent des explorations non lin aires d un concept un autre de la base notamment le syst me COREL Le syst me le plus volu est dans ce domaine I3R l un de ses syst mes experts le browsing expert permet l utilisateur de naviguer dans la base de connaissances en partant d un document d un auteur d un descripteur puis en passant d autres objets de la base 15 Les syst mes classiques laissent encore le soin l utilisateur de formuler lui m me sa requ te et de l enrichir Certains prototypes d passent cependant ce stade et r alisent cette op ration ils utilisent des techniques de reformulation 1 3 La reformulation La th se de P Radasoa est consacr e aux diverses techniques de reformulation envisageables en l occurrence dans le syst me SPIRIT Elles s appuient en grande partie sur un traitement linguistique L importance du traitement linguistique et du traitement statistique dans un syst me de recherche documentaire est mise en vidence surtout lorsqu
115. llection de documents In Tools of knowledge organization and the human interface Congr s organis par l ISKO International Society for Knowledge Organization Darmstadt D 14 17 Ao t 1990 CANTER D POWELL J WISHART J RODERICK C User navigation in complex database systems Behaviour and information technology 1986 Vol 5 n 3 p 249 257 CARLYLE A Matching LCSH and user vocabulary in the library catalog Cataloging amp Classification Quarterly 1989 Vol 10 n 1 2 p 37 63 CHAUMIER J L acc s automatis l information Paris Entreprise Moderne d Edition 1982 147 p CHAUMIER J Analyse et langages documentaires le traitement linguistique de l information documentaire Paris Entreprise Moderne d Edition 1988 186 p CHERRY J M CLINTON M An experimental investigation of two types of instruction for OPAC users The Canadian Journal of Information Science 1991 Vol 16 n 4 p 2 22 CHIARAMELLA Y Un tat de l art en Informatique Documentaire Bulletin du Centre de Hautes Etudes Internationales d Informatique Documentaire 1983 n 12 p 7 12 CHIARAMELLA Y DEFUDE B KERKOUBA D BRUANDET M F IOTA a prototype of an information retrieval system In ACM SIGIR Conference Pisa Italy 1986 CLEMENCIN G Querying the French Yellow Pages natural access to the directory Information processing amp management 1988 Vol 24 n 6 p 633 649 Autre source GSI ERLI 91 p
116. n tandis que les OPACS de la troisi me g n ration restent l tat de prototypes exp rimentaux Ces trois g n rations correspondent des stades diff rents d volution des techniques de recherche assist es par ordinateur et des interfaces homme machine On y remarque en particulier une compiexification du traitement linguistique sur le mod le des bases de donn es documentaires Les OPACS sont n s dans les ann es 60 dans les biblioth ques anglaises et am ricaines de l automatisation de deux grandes fonctions la gestion du pr t et le catalogage partag en ligne Les premiers catalogues qui suivaient les principes de la pr coordination n taient que des versions simplifi es des catalogues traditionnels sur papier ou microfiches Les catalogues de seconde g n ration sont issus d un rapprochement pas toujours homog ne avec les syst mes commerciaux d interrogation de bases de donn es Ces derniers d s les ann es 60 ont utilis la m thode de recherche d information par mot libre ou postcoordination et la m thode bool enne cf infra 2 2 Il faut cependant distinguer catalogues en ligne et bases de donn es bibliographiques Les enregistrements d un catalogue en ligne sont relativement d pourvus de texte leur contenu est souvent moins sp cialis que celui d une base de donn es et leur indexation par sujet moins tendue N Mitev et C Hildreth concluent que les catalogues interactifs de deux
117. n a plus rechercher lui m me les rubriques susceptibles de l int ressert2 3 1 2 Critique de ces syst mes Une branche de la recherche sur les syst mes d information documentaire repr sent e notamment par J C Bassano critique cependant le principe des interfacesi3 Il ne peut s agir d sormais d une interface intelligente et relativement m canique install e devant un syst me classique pour la recherche de l information documentaire Ces syst mes con us dans les ann es 1980 assistent et aident les utilisateurs lors de leur formulation initiale respect des r gles syntaxiques et ou transcodification vers des langages d interrogation sp cifiques J C Bassano leur reproche de ne pas prendre en charge l ensemble de la strat gie de recherche mais de se contenter d effectuer quelques op rations m caniques simples 11 CLEMENCIN G Querying the French Yellow Pages natural access to the directory Information processing amp management 1988 Vol 24 6 p 633 649 12 Id p 634 13 BASSANO J C Syst mes experts et strat gies de recherche de l information Bulletin du Centre de Hautes Etudes Internationales d Informatique Documentaire 1988 N 32 p 50 10 Il leur oppose des syst mes documentaires prototypes capables de reproduire les outils et les techniques des documentalistes experts les syst mes experts pour la recherche documentaire 3 2 Les syst mes traitant de la m me mani re d
118. naire afin de d terminer les volutions ou les conservations de l nonciation 1 Typologie linguistique de la question PO11 De nombreux utilisateurs et nous reviendrons sur cette lacune de l enqu te lectronique ont omis de r pondre la question certains ont profit de sa formulation ouverte pour mettre des commentaires personnels sur le syst me et la M diath que parfois fort int ressants mais peu utiles sur un plan purement linguistique Fran oise Belet notait d j propos de l enqu te pr c demment conduite la M diath que cette tendance marqu e des utilisateurs sortir du cadre des questions et mettre ce qu elle appelle des commentaires sauvages 5 La pr sence de questions ouvertes dans cette enqu te ne pouvait manquer d engendrer les m mes comportements dans des proportions importantes puisque 148 r ponses seulement sur 598 se r v lent exploitables Dans la suite de ce travail chaque enregistrement sera d sign par un nom ainsi compos 2 ou 3 lettres d signant le poste sur lequel a t enregistr le questionnaire ou la session un nombre 2 chiffres correspondant au jour de l enregistrement toutes les sessions ont t enregistr es en Juin 92 un signe de ponctuation un chiffre ou un nombre 2 chiffres repr sentant le num ro d ordre de la session sur ce poste et pour cette journ e Ainsi la session TTA04 5 est la cinqui me session enregistr e le 4 Juin
119. ne ME23 2 un systeme id al est un syst me personnalis UG16 6 EST CE QUE LE SYSTEME IDEAL EXISTE UG04 11 par La pensee ME20 12 faites moi mon devoir pour lundi sup Il nous semble donc que cette question telle qu elle est r dig e et situ e dans l enqu te ne permet pas de tester une formulation libre de l utilisateur Inscrite au d but de l enqu te la place de PR24 elle aurait recueilli davantage de r ponses exploitables int gr e un postquestionnaire oral dans lequel l enqu teur aurait r orient la question sur la formulation et non sur le syst me id al elle aurait t encore plus performante A l origine le dispositif pr voyait un questionnaire oral rempli au terme de la session Les participants ont effectivement t soumis ce questionnaire mais les donn es enregistr es de fa on manuscrite par diff rents enqu teurs et non retranscrites se r v lent de l avis m me d un responsable difficilement exploitables 2 3 Interpr tation des sessions Dans le m moire qu elle consacre au catalogue automatis de la M diath que de La Villette et l enqu te PARINFO OPACS Fran oise Belet mentionne que le logiciel Olive permet de rejouer la recherche devant l utilisateur de s entretenir avec lui et de recueillir ses commentaires pendant cette op ration Elle signale aussi que cette possibilit a t abandonn e car elle aurait entra n une mobilisation excessive des utilisateurs46
120. nf rences ENSSIB Pierre Le Loarer Directeur de projet GSI ERLI qui m ont communiqu les donn es de l enqu te et fait partager leur exp rience du projet PARINFO OPACSs Ce D E A fait suite un Dipl me de Conservateur de Biblioth que pr par l ENSSIB Je souhaiterais donc remercier toutes les personnes et instances qui ont soutenu mon projet de poursuivre ma formation dans cet tablissement et plus particuli rement Mme Marie Jeanne Tinland Directrice du Service Commun de la Documentation de l Universit Lumi re Lyon 2 dans lequel je prendrai mes fonctions de Conservateur en Octobre 93 M Richard Bouch Professeur l ENSSIB et M Jacques K riguy Directeur de l ENSSIB INTRODUCTION Toutes les tudes s accordent sur ce point les catalogues en ligne les OPACS ne satisfont pas leurs usagers et ne remplissent pas les missions pour lesquelles ils ont t con us savoir permettre l acc s de tous l information bibliographique et gr ce cette information au fonds documentaire d un tablissement donn Alors que la plupart des biblioth ques pr parent leur informatisation et que l on parle de mise en r seau des collections travers des projets tels que le Catalogue Collectif de France ce constat n est plus acceptable Depuis une dizaine d ann es une nouvelle perspective se dessine qui consiste ne plus se contenter de progr s techniques mais int grer une nouvelle dimension c
121. ns PR24 ouvrages r cents sur Les politiques nerg tiques de pays du tiers monde Terme de recherche entr par l utilisateur E 4 pays en voie de developpement energ R ponse du syst me E 5 0 Feuilletages de la liste de sujets proches 5 ARR Choix d un sujet propos par le syst me E 10 nergie conomie pays en voie de d veloppement Liste de 6 r f rences E 11 Affichage des 6 r f rences crans 12 18 Le nombre moyen de vedettes s lectionn es sur proposition du syst me est de 2 9 par session chiffre plut t faible et de 2 3 si on ne rel ve que les vedettes diff rentes une fois sur deux l utilisateur s lectionne plusieurs reprises la m me vedette Cela s explique soit par les probl mes de ma trise des commandes que nous avons d j voqu s soit par une absence de m thode dans la s lection des vedettes l utilisateur peut avoir oubli qu il a d j choisi un sujet Les 3 recherches par mot ME07 4 UG13 6 et TTA18 8 sont distinguer car elles donnent toutes lieu de nombreux affichages de notices partir d un unique sujet de recherche 13 15 et 30 l utilisateur examine la totalit des r f rences propos es par le syst me Dans 63 des cas l utilisateur a propos un titre un nom d auteur ou un sujet figurant dans l index de l OPAC dans 7 des cas le syst me a fourni un titre un nom ou un sujet proche sur le plan syntaxique par exemple TTA16 3 term
122. nth se suivant Il est cependant possible de montrer comment s articulent les mod les que nous avons d finis pr c demment cf paragraphe III 2 3 Chaque session encha ne en effet plusieurs mod les de base Prenons l exemple de la session ME03 11 PR24 information wr Les syst me informatiques tape 1 SUJ Terme entr syst me informatique R ponse 9 sujets Choix E 4 syst me informatique E 6 affichage d une notice tape 2 SUJ Terme entr unix R ponse 3 sujets Choix E 10 unix voir syst me d exploitation unix E 12 affichage d une notice Choix E 13 unix voir syst me d exploitation unix E 15 affichage d une notice La premi re tape de cette session correspond au mod le 1 C terme de recherche inclus dans la vedette choisie affichage de r f rences sans retour la liste la seconde au mod le 1 B terme de recherche inclus dans la vedette choisie retour la liste et s lection de la m me vedette On peut donc mod liser l interaction linguistique de l utilisateur avec le syst me sous la forme 1 C 1 B Il nous faut cependant ajouter 2 mod les de base que la nature m me du corpus minimum de 3 notices affich es rendait inexistants dans le cas de recherches en une tape Il s agit des tapes dans lesquelles l utilisateur entre un terme de recherche et retourne au sommaire sans avoir s lectionn de vedette ou apr s avoir s lectionn une vedette mais aucune noti
123. ntre eux AC27 5 PR24 in oumations sur Le march mondial du bois et des leurs exotiques SUJ bois Le passage la premi re recherche s op re alors par fractionnement du sujet global de recherche simplification exig e par un syst me qui ne prend pas en compte les th mes multiples Il est cependant int ressant de constater qu 5 reprises les th mes cart s de la premi re requ te seront en d finitive abandonn s par l utilisateur s agit il d un oubli ou d une lassitude d e une session trop longue son gr 35 occurrences de PR24 comportent une indication de support au sens large du terme qui sera videmment supprim e lors du passage la premi re requ te Nous avons d j mentionn qu il pouvait s agir d une reprise des formulations cit es en exemple Les termes introducteurs se r partissent comme suit information s infos 18 ouvrage s livre s documents documentation 14 formulations d finitions A ST diapositives ss texte de loi AL Certains de ces termes ne sont pas vides sur le plan s mantique diapositives texte de loi Leur limination lors du passage la session repr sente donc une perte d information La formulation propos e en PR24 a parfois subi des transformations syntaxiques il s agit d occurrences dans lesquelles des syntagmes nominaux complexes ont d tre adapt s au syst me et donc transform s en syntagmes nominaux simples On rel ve 15 cas et plusieur
124. ocuments et questions Un certain nombre de travaux reposent sur l id e que les documents textuels d une base documentaire donn e et les questions des utilisateurs formul es en langage naturel fournissent un m me type de repr sentation A ce titre il convient de leur appliquer le m me traitement afin d en extraire et d en comparer les l ments porteurs d informations Le processus de recherche repose alors sur une double analyse linguistique parall le des documents et des questions puis sur un appariement des l ments informationneis extraits On retrouve ce type d approche dans les travaux du CRISS de Grenoble qui appliquent le mod le linguistique d extraction des syntagmes nominaux d fini par A Berrendonner et M Le Guerni Apr s extraction des syntagmes nominaux de la requ te on proc de une comparaison avec les syntagmes nominaux d un dictionnaire cr lors de l indexation des documents On part du syntagme nominal de base pour remonter ensuite dans les noeuds du graphe d indexation gr ce aux autres syntagmes de la requ te Le syst me fournit l utilisateur la liste des documents associ s aux noeuds pertinents SPIRIT offre quant lui plusieurs formules d interrogation par une question bool enne par une question en langage naturel par une question sous forme d un document de la base Rappelons que les travaux sur le syst me SPIRIT Syst me Syntaxique et Probabiliste d indexation et de Recherche
125. on effectue une reformulation 1 3 1 D finition et m thodes L objectif premier de la reformulation consiste trouver un chemin pour apparier les notions contenues dans les documents et les questions Il existe trois types de reformulation celle des documents de la base co teuse celle de la question qui entra ne un gonflement excessif des termes de cette question et la reformulation conjointe des documents et de la question Diff rentes m thodes de reformulation assist e peuvent tre distingu es P Radasoa en dresse une liste non exhaustive la normalisation Elle consiste choisir un seul repr sentant pour des mots ou groupes de mots ayant le m me sens ou pour des mots appartenant une m me famille ou encore pour d signer une notion on utilise alors un th saurus Le syst me d interrogation des pages jaunes de l annuaire repose sur une normalisation s mantique l utilisation des mots de la m me famille On regroupe en famille des mots ayant le m me radical en conservant l information portant sur leurs diff rences morphologiques Le syst me peut ensuite lorsque les relations s mantiques le permettent substituer un mot un autre pour enrichir la question ou la normaliser le th saurus 11 met les mots en relation s mantique et non plus morphologique La base de donn es Dianeguide propose notamment l utilisateur un largissement automatique de sa recherche par sujet qui repose sur l ex
126. on s accompagne d une sp cification d une extension voire d un d placement s mantique du sujet la fronti re entre reformulation et nouveau sujet devient alors difficile tablir Notre classification des enregistrements peut parfois sembler subjective L tude pr c dente comporte une autre limite elle ne permet pas de comprendre les motivations de l utilisateur Pourquoi a t il prouv le besoin d tendre ou de r duire son domaine de recherche La conservation totale ou partielle d une formulation de d part 94 enregistrements sur 148 63 5 des cas signale t elle que l utilisateur est satisfait de son nonc et de la session conduite partir de cet nonc ou traduit elle au contraire son incapacit reformuler le sujet de d part Pour tenter de r pondre ces interrogations il est n cessaire de s int resser au d roulement m me de la session cha non manquant entre les deux questionnaires lectroniques 38 CHAPITRE 2 Formulation de la requ te du pr questionnaire au postquestionnaire Notre objectif consiste ici tudier l ensemble des formes linguistiques que peut rev tir une question au cours d une session donn e proposition initiale de l usager telle qu elle est fournie dans la question 24 du pr questionnaire et dans la premi re tape de la session mais aussi volution de cette formulation au cours de la session et formulation dans un syst me id al lorsqu elle existe
127. onse au moins 9 sujets Choix 9 syst me nerveux central R ponse 5 r f rences Affichage de r f rence 1 Braillon Georges 2 me recherche TIT wordperfect TIT Words TIT word 5 l re recherche SUJ syst me nerveux R ponse au moins 9 sujets Choix 9 syst me nerveux central R ponse 5 r f rences Affichage de r f rence 5 Morin Georges 3 me recherche SUJ musique Une tude s mantique montre que les recherches que nous avons qualifi es de stables sont plus nombreuses 6 sur 14 recherches par sujet ou par mot Cette r partition montre que l utilisateur n a pas pour priorit de faire voluer son sujet mais de conduire une recherche rapide par essais et erreurs La pr sence de nombreux mod les de type D 24 sur 55 mod les recens s le confirme 5 3 Recherches en plusieurs tapes et plusieurs modes de recherche 11 Il s agit de recherches en 2 modes 8 cas ou en 3 modes 3 cas AUT SUJ 2 AUT TIT 3 MOT SUJ 2 AUT A T 1 AUT TIT SUJ 1 AUT TIT A T 1 MOT TIT SUJ 1 7 de ces recherches pr sentent une conservation de termes d un mode l autre totale UG07 18 ou partielle AC23 4 2 cas AC27 8 MEO5 11 TTA24 5 MHS20 1 L objectif est comme pr c demment d tendre la recherche sans reformuler le sujet Cette strat gie comporte parfois l encore un risque d erreurs ainsi on note 2 conservations de termes du mode AUT
128. ositions de termes elliptiques des articles des pr positions et des coordinations ME19 5 THOM CATASTROPHES UG10 6 LIVRE anglais photographie computerise 1 5 2 Quelques ph nom nes syntaxiques La formulation de la question en langue naturelle oblige traiter un certain nombre de ph nom nes et d irr gularit s linguistiques que les langages d interrogation contr l s visent pr cis ment liminer Nous ne reviendrons pas sur les nombreuses fautes de frappe et d orthographe pour lesquelles GSI ERLI a propos une typologie et des possibilit s de redressement38 Les deux principales difficult s que nous avons pu rep rer dans le corpus des r ponses proviennent d une part des tournures elliptiques d autre part des structures de coordination Les ellipses sont particuli rement nombreuses dans les structures num ratives mais on en rep re galement dans certaines phrases simples 25 cas ellipse des pr positions et ou des articles AC17 19 r pertoire associations protection nature ME13 1 recherche sun systeme OCCAM TTA10 3 organigramme nc formulation de la requ te sur le mod le d une petite annonce en lidant sujet pr positions et articles AC16 5 recherche tout document sur Lutherie UG18 13 recherche in orumation sur Le turbo pascal UG26 4 cherche documents gastronomie ellipse de la tournure interrogative 1 cas ME21 5 Livres de L auteur goldstein disponibles 38 GSI ERLI
129. oward a cognitive model of searching behavior Journal of the American Society for Information Science 1990 Vol 41 n 4 p 272 281 54 CHERRY J M CLINTON M An experimental investigation of two types of instruction for OPAC users The Canadian Journal of Information Science 1991 Vol 16 n 4 p 2 22 93 94 Les utilisateurs se sont ensuite vus proposer un questionnaire comprenant 9 probl mes li s leur domaine d tude la litt rature anglaise Exempliesss Question 6 Vous recherchez des critiques de trag die Sous quelle vedette figurent elles dans le catalogue Trag die Critique Trag die Critiques Trag die Histoire et critique Critiques de trag die Question 9 Combien existe t il dans le catalogue de bibliographies sur l oeuvre de Robert Frost Cette enqu te a effectivement permis de montrer l efficacit du didacticiel et de perfectionner ce type de formation des usagers 2 Vers un nouveau dispositif Un dispositif comparable pourrait s av rer tr s utile pour analyser l volution de la formulation durant une recherche et plus particuli rement pour centrer l tude sur certaines tapes capitales par exemple la premi re requ te Dans le second chapitre de ce travail nous nous sommes int ress e ce passage de la formulation libre du pr questionnaire PR24 au premier terme de recherche entr par l utilisateur Il nous semble en effet que cette tape d termine en grande
130. paraison des sujets formul s en PR24 et en PO11 peut donc se r sumer comme suit 2 enregistrements sans r ponse PR24 7 r ponses POLL sans rapport avec PR24 12 cas d identit entre les 2 formulations 4l cas d inclusion parmi lesquels 7 sp cifications ou extensions du suiet 24 reprises de termes avec stabilit de l nonciation 10 reprises avec r duction du nombre de th mes de PR24 POII 7 reprises avec pr cision du domaine ou du type de document 29 reprises avec restrictions extensions ou d placements du sujet 9 enregistrements sans termes communs mais pr sentant une stabilit une r duction ou une extension du domaine s mantique de d part 7 enregistrements sans termes communs pr sentant un d placement s mantique du sujet Au terme de cette premi re tude nous serions tent e de conclure que 45 enregistrements sur 148 soit 30 contiennent une tentative de reformulation du sujet Ce nombre ne repr sente que 7 5 des 598 sessions enregistr es pourcentage tr s faible mais r v lateur la fois des limites de l enqu te lectronique et des difficult s de l utilisateur 2 r ponses constituent de v ritables reformulations au sens que nous donnons ce terme ACI1 15 et TTA24 6 Dans ces cas de figure l utilisateur a conserv l extension s mantique de son sujet de d part mais en a propos une nouvelle expression linguistique Dans la plupart des autres cas la reformulati
131. partie le d roulement ult rieur d une session On pourrait en s inspirant des exemples pr c dents envisager une enqu te en trois temps r ponse un pr questionnaire lectronique demandant l utilisateur de choisir parmi plusieurs vedettes ou de d crire les informations dont il a besoin pour ex cuter une recherche donn e On pourrait proposer plusieurs niveaux d interrogation possibles plus ou moins sp cifiques par rapport au sujet consultation du catalogue en ligne pour ex cuter une recherche portant sur des sujets connexes r ponse un postquestionnaire oral permettant l utilisateur d expliquer sa d marche Il est probable qu un tel dispositif permettrait de comparer les choix spontan s de l utilisateur et les termes effectivement entr s au cours de la recherche Il serait int ressant d tudier les reprises de termes fournis par le pr questionnaire ou au contraire leur abandon au moment de passer l interrogation proprement dite D apr s Jo lle Le 55 Id Annexe B p 19 Marec l utilisateur d OPAC tablit une telle relation de confiance avec le syst me qu il ne cherche pas optimiser sa recherche en ligne alors qu il le fait spontan ment quand on l interroge6 Les r sultats devraient confirmer ou infirmer l existence de ce d calage L enqu te fournirait une valuation de la correspondance ou de l cart linguistique existant entre le langage de l utilisateur et celui du syst m
132. pe de recherche a suivi une d marche pr conis e par la City University de Londres qui poss de une exp rience solide dans ce domaine Micheline Hancock Beaulieu a montr tout l int r t que pouvait pr senter une telle d marche pour l observation de l utilisateur 5 C est avec cet objectif d observation continue que la City University a mis au point le logiciel OLIVE avec lequel a t r alis e l enqu te de La Villette ce logiciel poss de plusieurs fonctions permettant d enregistrer la totalit d une session et d introduire des questionnaires tout au long de la recherche Il r alise donc ce que Mme Hancock Beaulieu appelle une analyse d taill e du comportement de l utilisateur dans le processus complet de la recherche d informations et pas seulement pendant sa consultation du catalogue La plupart des enqu tes r alis es aux Etats Unis ou en Grande Bretagne sur les catalogues en ligne utilisent les possibilit s de l informatique comme le rappelait Jean Dickson la suite d une tude conduite en 83 84 One of the advantages of studying the online catalog is the possibility of collecting data unobtrusively Another advantage of studying the online system is the possibility of using the computer to narrow down or select data 44 On trouvera une copie de ces deux questionnaires en annexe 3 volume 2 de ce m moire 45 HANCOCK BEAULIEU M Les catalogues en ligne jug s par les utilisateurs Bulletin des Biblioth
133. ploitation d un th saurus partir des descripteurs isol s dans la question originale le syst me produit une liste de descripteurs voisins dans ce th saurus et effectue une nouvelle recherche en classant les r ponses obtenues en fonction de la distance s mantique qui s pare ces nouveaux descripteurs des descripteurs de d part le correcteur orthographique Il n cessite une analyse morphologique puis une analyse syntaxique Il doit aussi traiter le probl me particulier des noms propres oo 21 RADASOA P Id 16 l explicitation Elle consiste reconna tre les structures phras ologiques et traduire au niveau interne certaines notions implicites en termes explicites interpr ter par exemple que la structure on appelle Nom Commun introduit vraisemblablement une d finition l apprentissage de r gles de reformulation Certains syst mes sont capables d apprendre les reformulations jug es pertinentes par un utilisateur et de les ranger dans un th saurus particulier qui constitue alors un moyen de corriger les erreurs d une classe d utilisateurs donn e l interrogation par partie du document qui rappelons le permet d utiliser tout ou partie d un document pertinent pour interroger la base Les prototypes de recherche documentaire combinent parfois plusieurs de ces outils linguistiques 1 3 2 Quelques syst mes proposant une reformulation La plupart des prototypes ont recours la techniqu
134. pond rance du domaine scientifique et informatique qui va de pair avec la nature du fonds de la M diath que et avec la sp cialit le domaine d tude indiqu s par les utilisateurs les informaticiens et techniciens sont nombreux Mais un grand nombre de requ tes porte galement sur des sujets de soci t ou des th mes conomiques pour lesquels le fonds de la M diath que est moins riche voire inadapt 6 3 De PR24 la premi re requ te par sujet Nous carterons de cette tude 4 requ tes sans rapport ni linguistique ni s mantique avec PR24 ainsi que 2 sessions qui ne disposent pas de r ponse cette question AC13 1 UG28 9 ME27 7 ME12 3 AC27 10 TTAO4 4 Il tait permis de penser que l utilisateur influenc par sa r ponse la question PR24 reprendrait tout ou partie de sa formulation dans sa premi re recherche par sujet 15 premi res requ tes conservent en effet l int gralit de la r ponse et la moiti des recherches 52 sur 104 en sont extraites En revanche 17 recherches s mantiquement li es la question PR24 diff rent radicalement sur le plan lexical et syntaxique et 14 requ tes ne reprennent qu un terme ou une expression La comparaison entre la question PR24 et la premi re requ te par sujet rend alors possible une tude des modifications linguistiques apport es par l utilisateur dans le but d adapter son sujet de recherche ce qu il conna t ou croit avoir compris du syst me
135. postquestionnaire lorsqu elle existe serait tr s proche de celle du pr questionnaire voire identique nous nous proposons dans un premier temps de compl ter l tude de la question P011 afin de confirmer ou d infirmer cette hypoth se Nous constaterons cependant que l tude de cette question ouverte ne suffit pas rendre compte du dialogue utilisateur syst me C est pourquoi nous confronterons dans un deuxi me temps les diverses formulations du sujet que l utilisateur a pu proposer au cours de l enqu te formulation libre du pr questionnaire PR24 formulation en situation c est dire termes entr s pendant la recherche formulation id ale du postquestionnaire 24 IV Mod lisation d une question en langage naturel Deux types d tudes compl mentaires nous paraissent devoir tre men es sur une question ouverte telle que la question 11 du postquestionnaire une analyse syntaxique et s mantique des r ponses P011 prolongeant celle conduite par la soci t GSI ERLI et destin e faire appara tre des types linguistiques propres une formulation exprim e en langue naturelle ou quasi naturelle Nous retiendrons pour cette analyse les axes suivants Types de r ponses Types de recherches Domaines s mantiques Etude morpho lexicale Analyse syntaxique X une comparaison entre la question POIL et la formulation galement libre exprim e dans la question 24 du pr question
136. quences du projet Les chercheurs fran ais sont encore peu pr sents dans ce champ de recherche fondamentale et appliqu e que constituent les OPACS il fallait donc ouvrir des perspectives de recherche en France et d finir des th mes de recherche pour l avenir 26 MINISTERE DE LA RECHERCHE ET DE LA TECHNOLOGIE MINISTERE DE L EDUCATION NATIONALE DE LA JEUNESSE ET DES SPORTS Programme d aide la recherche en information PARINFO Brises 1991 n 16 p 81 82 19 La d marche adopt e par le groupe de projet se d finit clairement dans cette phrase extraite du rapport publi en 1993 sur le projet PARINFO OPACSs27 L id e est de structurer l approche sur les OPACS et d aboutir en sortie d tude une s rie de recommandations et de propositions utiles pour les biblioth ques et leurs utilisateurs le monde de la recherche en sciences de l information en indiquant des pistes de d veloppements et r alisations sur ce th me ou des th mes tr s apparent s 2 2 Les participants au projet Conform ment aux exigences du programme PARINFO et aux objectifs multidisciplinaires retenus pour cette recherche exploratoire le projet a r uni plusieurs quipes venues d horizons diff rents une quipe compos e de chercheurs de Ll ENSSIB 28 sous la direction de Danielle Roger Conservateur de biblioth que Cette quipe de recherche en Sciences de l information a pris en charge le pilotage du projet le traitement inform
137. r par exemple que les usagers de bases de donn es ne savent pas d terminer quel niveau hi rarchique g n rique sp cifique ils doivent interroger Un consensus r unit les chercheurs et concepteurs de syst mes autour de l importance accorder au traitement linguistique Cette phrase de B Menon nous para t bien r sumer la tendance actuelle Les textes en tant qu objets langagiers posent avant tout et qui s en tonnera des probl mes linguistiques Il nous semble donc que le commun d nominateur des syst mes d indexation automatique doive tre une place centrale accord e la r solution de ces probl mes Le traitement linguistique dans les OPACs et les bases de donn es a cependant connu deux volutions majeures durant les dix derni res ann es Les tudes consacr es l indexation automatique et l interpr tation des requ tes en langue naturelle ont montr que les traitements morpho syntaxiques de mieux en mieux ma tris s ne pouvaient suffire r soudre tous les probl mes puisqu ils ne permettaient pas de prendre en compte la signification des nonc s De ce constat sont n es ce qu Yves Chiaramella appelle des strat gies de cohabitation entre des outils purement linguistiques tels que des analyseurs syntaxiques et des outils de manipulation de la connaissance qui font appel aux techniques de l Intelligence Artificielle D autre part les syst mes l tude se doivent d sormais de prendre en
138. r le m me sujet ou le m me auteur donc tre des novices dans le domaine de recherche 47 48 3 Comparaison PR24 premi re requ te par auteur 11 cas Parmi ces 11 sessions on rel ve 4 cas dans lesquels le nom de l auteur figure aussi dans la question PR24 UG07 18 PR24 AUT Tolkien AC11 7 PR24 science fiction stephen king AUT king stephen AC13 11 PR24 ivres de ren dumont AUT e dumon TTA18 3 PR24 comptabilite analytique de C RAULT AUT rault 3 de ces recherches n ont pas abouti 2 checs au moins s expliquent par une inad quation entre la demande et le fonds de la M diath que de La Villette L auteur Ren Dumont a t s lectionn dans une liste d auteurs lors d une seconde tentative respectant la r gle d criture propos e par le syst me qui pr voit de commencer par le nom de l auteur et non par son pr nom Dans les 7 autres cas l utilisateur a propos titre de premi re requ te un nom d auteur jamais de pr nom en rapport direct avec le suiet propos en PR24 5 requ tes ont permis d afficher une liste de noms dans laquelle l usager a s lectionn l auteur souhait Cette technique a chou du moins dans un premier temps en ce qui concerne la requ te AUT Jackobiak l orthographe v ritable du nom d auteur tant Jakobiak Une requ te ME06 8 a d bouch sur un affichage de deux noms d auteurs que l utilisateur n a pas retenus tort semble
139. rches dans ce domaine CHAPITRE 3 Linguistique et protocoles exp rimentaux 83 L enqu te r alis e la M diath que de La Villette a permis de collecter pour la premi re fois en France un corpus de donn es analysables sur le plan linguistique Elle constitue en cela une tape n cessaire dans la recherche sur les OPACs Il s agit cependant de l avis m me de ses concepteurs d une recherche exploratoire la mise en vidence de ses r sultats mais aussi de ses faiblesses ou incompl tudes devrait donc permettre de d finir des orientations utiles pour une exp rimentation future Des tudes similaires ou proches par leurs objectifs sont depuis longtemps conduites aux Etats Unis et au Canada notamment la Northwestern University Library l Universit de Wisconsin Madison l Universit de Californie Los Angeles et l Universit de Toronto Ces enqu tes qui lient techniques documentaires linguistique et sciences cognitives mettent en oeuvre d autres protocoles exp rimentaux tr s labor s auxquels nous nous r f rerons pour mettre quelques propositions en vue d un nouveau protocole d enqu te centr sur l interaction homme machine et l tude des strat gies linguistiques mises en place par les utilisateurs d OPACS I Apports et limites du questionnaire lectronique 1 Int r t des questionnaires lectroniques En laborant deux questionnaires lectroniques 4 un pr et un postquestionnaire le grou
140. recherche bool enne est rigide l utilisateur doit retrouver le ou les termes associ s au document recherch mais aussi la mani re exacte de les apparier Or il ma trise souvent mal les diff rentes techniques de recherche et de reformulation disponibles 5 VAN SLYPE Id p 87 6 MITEV N HILDRETH C Id p 25 Les op rateurs bool ens op rent une simple mise en relation de descripteurs sans prendre en compte la nature du lien qui les unit Ils ne permettent aucune structuration des donn es de la base Cette lacune fondamentale a orient un certain nombre de travaux linguistiques qui visent rapprocher les descripteurs en se fondant sur des crit res formels 2 3 Un OPAC de la seconde g n ration l OPAC de la M diath que de La Villette La M diath que de la Cit des Sciences et de l Industrie de La Villette dispose d un catalogue informatis depuis 1985 En 1990 la premi re version GEAC 8000 a t remplac e par la version GLIS 9000 Il s agit d un OPAC de la seconde g n ration Les acc s au catalogue sont au nombre de six TIT recherche par titre AUT recherche par auteur A T recherche par auteur titre SUJ recherche par sujet NUM recherche par num ro cote indice diteur ISBN ISSN etc MOT recherche par mot s du titre de l auteur et ou du sujet L acc s MOT est le seul qui permet de conduire une recherche bool enne propos e au lecteur selon deux modes dif
141. rmatics 8 London ASLIB 1985 SARACEVIC T KANTOR P A study of information seeking and retrieving II Users questions and effectiveness Journal of the American Society for Information Science 1988 Vol 39 n 3 p 177 196 SINNO RONY S Les hypercatalogues nouvelles perspectives pour les OPACs Bulletin des Biblioth ques de France 1991 Vol 36 n 4 p 303 311 VAN SLYPE G Les langages d indexation conception construction et utilisation dans les syst mes documentaires Paris Les Editions d Organisation 1987 277 p VICKERY B C Knowledge representation a brief review Journal of Documentation 1986 Vol 42 n 3 p 145 159 VICKERY A BROOKS H ROBINSON B VICKERY B A reference and referral system using expert system techniques Journal of Documentation 1987 Vol 43 n 1 p 1 23 VIZINE GOETZ D MARKEY DRABENSTOTT K M Computer and manual analysis of subject terms entered by online catalog users In ASIS Annual meeting 54 Washington DC USA 1991 10 27 Systems understanding people Washington 1991 p 156 161 WITT M Lisibilit de 1 OPAC International Cataloguing amp Bibliographic Control 1989 Vol 18 n 4 p 51 56 WITT M Simplification ou complication Quelques r flexionssur la constitution d un catalogue en ligne la M diath que de La Villette Bulletin des Biblioth ques de France 1989 Vol 34 n 1 p 48 59 ZARRI G P Etat de l art les nouvelles tendances
142. ronter ces nonc s avec les r ponses issues du pr questionnaire 2 Comparaison PR24 POI11l Cette tude confronte les 148 recherches sp cifiques identifi es parmi les r ponses P011 aux r ponses PR24 correspondantes Elle n cessite d liminer d embl e 9 sessions 2 ne poss dent pas de r ponse la question PR24 UG17 32 et TTAU4 4 7 ne pr sentent aucun lien ni syntaxique ni s mantique l utilisateur a modifi son sujet de recherche d un questionnaire l autre AC13 8 AC23 4 ME24 2 UG07 7 UG09 15 UG21 1 TTAO7 7 Exemple TTAO7 7 PR24 ELECTRONIC PRATIQUE POLI QU AVAIS VOUS SUR LE SPORT CL 53 enregistrements font tat d un lien syntaxique fort identit ou inclusion entre les r ponses formul es aux deux questionnaires lectroniques 70 d un lien syntaxique marqu par la reprise d un ou plusieurs termes et 16 d un lien s mantique mais non syntaxique Notre objectif est de tenter d identifier les cas de reformulation au sens que P W Dalrymple donne ce mot Reformulation is conceptually defined as an interactive refinement of the term or terms used to locate bibliographic items in a catalog La reformulation se d finit conceptuellement comme un processus interactif d affinage du ou des termes utilis s pour retrouver des r f rences bibliographiques dans un catalogue 2 1 Identit ou inclusion 12 r ponses la question P011 s av rent strictement ou pratiquemen
143. rs libres ou contr l s selon le syst me documentaire connect s par des op rateurs logiques ET OU SAUF G Van Slype a formalis les tapes d une recherche dans un tel syst me Certaines les suivantes impliquent un traitement linguistique formulation mentale de la requ te en langage naturel traduction des concepts de la question dans le vocabulaire du syst me documentaire interrog par l utilisateur lui m me ou par un interm diaire sp cialiste mise en quation de la question par utilisation des relations syntaxiques autoris es par le syst me pour lier les mots cl s ou les descripteurs ce sont ici les op rateurs bool ens ventuellement extension de l quation de recherche jugement de pertinence sur les documents extraits Certaines techniques ont t d velopp es afin de pr ciser ou d tendre les questions Les troncatures permettent d largir une question en ne tenant pas compte des suffixes des pr fixes ou de groupes de caract res l int rieur des mots cl s Cette m thode bien que non linguistique permet d viter de mentionner les variations flexionnelles d un mot ce qui s av re utile dans un syst me fond sur une indexation libre Gr ce aux op rateurs de proximit on peut exercer une contrainte sur la situation respective des descripteurs exiger que deux descripteurs soient adjacents ou situ s n mot s au plus l un de l autre Cette m thode tout en pr sentant
144. rtnet EN ia 71 5 Sessions compos es de recherches ind pendantes 72 5 1 Recherches en une tape et un mode de recherche ss 73 5 2 Recherches en plusieurs tapes et un mode de recherche 4 73 5 3 Recherches en plusieurs tapes et plusieurs modes de recherche 74 IV SyNEReSe use de nd ee it ARNO ENS Je NM SN dou en Re 76 l Tableau capi EU latLE ni ose dis males sde en RUE HER iT ere 76 2 Quelques strat gies de recherche 4 76 3 Question POIL et reformulation 77 3 1 Identit ou inclusion sssssseesesesse 78 3 2 Reprise de termes essesssesssses 78 3 3 Absence de lie nussusrs tani Eeti NERES ARAA eat it aie ne oies 79 Concltis Lonsdale nie amant da dns ete n e lee den ete eat 80 Chapitre 3 Linguistique et protocoles exp rimentaux 82 I Apports et limites du questionnaire lectronique 83 l Int r t des questionnaires lectroniques 83 2 Linguistique et questionnaires 84 2 1 Aspects linguistiques dans les deux questionnaires d enqu te 84 2 2 Exploitation de la question POIL 84 2 3 Interpr tation des sessions 85 3 L
145. s deux Le feuilletage des termes propos s par le syst me n intervient donc que dans la moiti des cas L utilisateur se contente dans l autre moiti des propositions de d part du syst me Les strat gies de recherche nous semblent en d finitive pouvoir tre class es en 6 mod les de base dont 3 principaux 2 2 Mod les de recherche Mod les 1 l utilisateur s lectionne une vedette de type uniterme ou vedette compos e qui inclut son terme de requ te ou lui correspond strictement sur le plan syntaxique le terme entr peut figurer en t te de vedette ou en subdivision Il peut tre traduit dans la syntaxe du syst me 59 60 On observe alors 3 cas de figure 1 A il retourne la liste de vedettes en cours de session pour s lectionner d autres propositions du syst me de 1 8 17 cas Il s agit cependant toujours de vedettes inciuant son terme de recherche 1 B il retourne la liste mais s lectionne exclusivement la m me vedette 9 cas 1 C il affiche des r f rences sans revenir la liste 4 Exemple type d un mod le 1 A ME28 5 PR24 information sur Les techniques de maintenance des ondinateurs distance Terme entr maintenance R ponse au moins 10 sujets Choix E 4 maintenance assist e par ordinateur Choix E 6 maintenance assist e par ordinateur tude de march Choix E 8 maintenance gestion voir gestion de la maintenance Choix E ll maintenanc
146. s jug s trop sp cifiques UG11 12 PR24 croissance d mographique en asie du sud est SUJ poputation en asie du sud est 2 cas inverses de sp cification du sujet TTA16 5 PR24 Livres sur Les dessins d enfants dessin d enfants handicap s 3 sessions font tat cependant d un effort de l utilisateur pour combiner 2 termes de recherche soit en les juxtaposant AC14 7 PR24 ngormation sur Le m tier de patissien de restau SUJ prohession patissier soit en les coordonnant par et ME16 8 PR24 cons quences du traitement automatique du Langage naturel sun a Langue et a culture SUJ informatique et culture Synth se La majorit des premi res requ tes s effectue donc en mode sujet Ces requ tes peuvent tre analys es sous plusieurs angles l angle syntaxique on note une pr pond rance des syntagmes nominaux simples 74 sur 104 et complexes 20 Les quelques tentatives de coordination et de juxtaposition de syntagmes constituent des essais de recherche bool ennes alors que le mode SUJ ne s y pr te pas l angle s mantique il r v le une pr pond rance attendue du domaine scientifique et technique mais galement la part importante des sujets relatifs aux sciences sociales pour lesquels la recherche s av rera n cessairement moins riche Les premi res requ tes par sujet pr sentent une forte ressemblance linguistique avec la question 24 du pr questionnaire 15 sont tot
147. s notamment l accent sur les perspectives actuelles qui associent l tude et le traitement linguistiques d autres techniques et disciplines pour am liorer la convivialit des syst mes et prendre en compte le langage et le comportement de l utilisateur Nous nous int resserons alors l un des projets r cemment lanc s dans ce domaine le projet PARINFO OPACS recherche exploratoire sur les OPACs men e dans le cadre du programme PARINFO et qui comporte un important volet linguistique l Le traitement linguistique de la requ te Le traitement linguistique rev t une importance capitale pour la recherche des documents et des informations Les syst mes documentaires ont pour objectif de r pondre des besoins de natures diverses H Le Crosnier en a dress la typologie suivante besoins de v rification qui donnent lieu une recherche cibl e besoins conscients concernant un sujet qui se traduiront par un passage en revue des documents relatifs un sujet pr cis et connu besoins flous concernant un sujet les plus difficiles cerner et formaliser pour l utilisateur qui souhaite explorer de nouveaux concepts sur des sujets non connus On appelle alors requ te la question telle que l utilisateur la fournit au syst me et telle que celui ci doit la traiter Le r le du syst me consiste tablir une correspondance entre le ou les th mes contenus dans la requ te et le contenu informationnel des documents d
148. s peuvent tre interpr t es de diverses mani res Certaines ne pr sentent pas de reformulation du sujet il y a stabilit s mantique entre PR24 les termes entr s dans la session et P011 C est le cas par exemple dans la session UG16 8 et 4 autres occurrences PR24 diapositives couleurs pour illustrer un article awr L observatoire des t fl communication dans a ville Recherche en une tape et un mode SUJ t comunication dans a ville PO11 je cherche des diapositives illustrant Le sujet TELECOMUNICATION DANS LA VILLE Les reprises de propositions du syst me adjonctions de domaine ou d aspect d veloppements du sujet en fonction de la session pourraient t moigner quant eux d une amorce de reformulation assist e par le syst me Ainsi TTA26 3 PR24 documentation sur Les Logiciels Recherche en une tape et un mode SUJ reflex Le syst me propose reflex voir logiciel reflex PO11 Logiciel reflex ou AC16 6 PR24 AUTOMATES PROGRAMMABLE Recherche en plusieurs tapes et un mode SUJ automates programmables SUJ Lelemecanique SUJ automate SUJ automates telemecanique PO11 AUTOMATE PROGRAMMABLE TELEMECANIQUE 3 3 Absence de lien 2 r ponses la question POIL doivent tre limin es car elles ne pr sentent aucun rapport avec PR24 il s agit des sessions AC23 4 et UG21 1 La session TTA04 4 ne dispose pas de r ponse cette question Une seule session pr sente une r pon
149. s potentielles d une strat gie d instanciation l utilisateur associe rarement ses connaissances et les notices compl tes pour enrichir sa formulation de d part Seules quelques r ponses PO11 t moignent d une reprise de termes fournis par le syst me Cette absence n est pas tout fait surprenante la plupart de nos tudes de sessions mettent en vidence un rapport d immn diatet qui s instaure entre l utilisateur et la machine L utilisateur zappe d une proposition du syst me l autre sans prendre toujours la peine d exploiter une r ponse sans m moriser le r sultat de sa recherche pour le r investir quelques rares exceptions Son type de recherche pr f r est la recherche en une tape et un mode Or toute strat gie d instanciation se d roule en deux temps une recherche d informations puis la recherche proprement dite Il est probable qu elle exige trop d anticipation pour des utilisateurs occasionnels et peu form s aux techniques documentaires Le fait qu elle n apparaisse pas davantage chez les utilisateurs experts du 80 81 corpus peut surprendre davantage ce r sultat demanderait une confirmation sur un chantillon plus large d utilisateurs form s aux OPACSs Ces conclusions priori d cevantes confirment donc l inad quation qui existe entre le langage de l utilisateur et celui du syst me Mais elles fournissent aussi quelques pistes pour une poursuite indispensable voire urgente des reche
150. s que les autres sont plus structur es et logiques dans leur volution Leurs auteurs font preuve d une autonomie de langage sup rieure par rapport au syst me Cette hypoth se reste v rifier Une telle v rification demanderait elle aussi la mise en oeuvre d un second protocole exp rimental d passant et prolongeant la recherche exploratoire 2 3 Panel d utilisateurs Une nouvelle enqu te pourrait tre conduite partir d un panel d utilisateurs panel qui distinguerait au moins les 4 cat gories suivantes utilisateurs experts de l OPAC choisi pour l enqu te et du domaine d interrogation utilisateurs experts de l OPAC mais pas du domaine d interrogation utilisateurs peu exp riment s ou novices du syst me mais experts du domaine utilisateurs peu exp riment s du syst me et novices du domaine Il ne nous semble pas n cessaire de prendre en compte l expertise que les utilisateurs pourraient avoir d autres catalogues en ligne du minitel ou de syst mes informatiques moins qu il ne s agisse d une exp rience acquise lors de la consultation d un OPAC semblable celui du test L objectif de l enqu te serait en effet d analyser comment l utilisateur adapte sa formulation un syst me particulier et l apprentissage qu il peut faire du langage de ce syst me Elle n cessiterait de fixer nous l avons vu ce que l on entend par expert du domaine Nous pensons qu une telle enqu te serait plus faci
151. s types de transformations souvent combin s la perte d un syntagme pr positionnel qui sp cifiait le sujet ME14 3 PR24 a qualit dans a gestion de projet informatique SUJ quatit inversement un syntagme pr positionnel de niveau 1 ou 2 devient centre de syntagme UG19 4 PR24 a gestion de a culture SUJ culture la perte d une expansion d une apposition ou d un syntagme coordonn ME21 14 PR24 informations aur certains circuits logiques comme Les bascules JK et D SUJ Circuits logiques 53 dans certains cas la structure N A est ramen e N ou A ME25 8 PR24 documentation swr Lei m moires dynamiques et leur probi me de rafra chissement SUJ m moire Dans chacun de ces cas la simplification syntaxique induit un largissement du sujet Un tel largissement est d ailleurs rarement obtenu par troncature la session TTA25 5 en pr sente bien un exemple mais elle semble li e la longueur du sujet plus qu la volont de l utilisateur On ne rel ve aucune tentative de construction syntaxique de vedette sujet compos e partir des termes de la question PR24 Au contraire la seule formulation proche d une vedette compos e base de donn es m thodofogie perd son extension Nous avons mentionn en II 6 1 la pr pond rance des syntagmes nominaux simples l utilisateur est suffisamment averti des contraintes du syst me pour simplifier son sujet de recherch
152. sager et le syst me nous semble cependant suffisante pour confirmer ou infirmer certaines hypoth ses mises en ce qui concerne l interactivit Pour finir nous tudierons le passage de la question PR24 et de la session la question 11 du postquestionnaire Cette confrontation ne sera cependant pas toujours possible le nombre de sessions dot es d une r ponse cette question P011 s av rant particuli rement r duit 39 sur 154 soit 25 Il semble que les utilisateurs l issue de sessions particuli rement denses et apr s deux formulations libres du sujet aient jug superflu de le reformuler Mais l absence de r ponse ou les remarques personnelles peuvent galement constituer des retours int ressants sur la session 42 Kolmayer E Id p 75 85 45 II Evolution de la formulation du pr questionnaire la premi re requ te 3 usagers n ont pas r pondu la question 24 du pr questionnaire un quatri me s est content d une r ponse vague ouvrages de cours Les sessions AC27 10 ME09 8 TTAU4 4 et UG10 10 ne se pr tent donc aucune comparaison Un autre ensemble de 6 sessions rend impossible toute confrontation entre la question PR24 et le premier terme de recherche entr par l utilisateur sinon pour constater qu elles ne pr sentent aucun rapport Divers facteurs permettent d expliquer ce ph nom ne L utilisateur n a pas compris la question Il a indiqu son objectif et non son sujet de r
153. se P011 sans lien syntaxique avec PR24 mais portant sur le m me domaine UG20 10 PR24 information sur La bacerxiologie medicale POLL di erents ouvrages sur Les pathologies Il s agit d ailleurs d une session qui comprend plusieurs recherches ind pendantes dont la premi re seulement porte sur le sujet nonc dans PR24 On ne peut parler de reformulation ni de passage du sp cifique au g n rique tant donn e la fragilit du lien s mantique qui unit les deux r ponses 79 Conclusion Au terme de cette comparaison nous observons que les quelques volutions de formulation 17 sont essentiellement d es la session pr c dente alors que l objectif de la question POIL tait d obtenir une formulation en langue naturelle d gag e des contraintes du syst me cette question POll ainsi plac e et formul e n atteint pas son objectif de d part Mais elle permet de mettre en vidence que l utilisateur reste dans la plupart des cas fortement d pendant du syst me pour la formulation et l volution linguistique de sa requ te Cette volution ne peut tre que frein e par la m connaissance de l OPAC et de son langage m connaissance qui est pourtant le lot de l utilisateur moyen Cette tude des sessions d utilisateurs d OPAC nous a permis de d finir des strat gies d interrogation recherches en une plusieurs tapes en un plusieurs modes et des comportements linguistiques mais il semble difficile de les
154. sessions poss dant une r ponse la question PO11 Elles restent tr s proches de PR24 et de la session montrant que l utilisateur parvient difficilement se d tacher de la formulation premi re de sa question 77 3 1 Identit ou inclusion 3 r ponses la question P011 sont strictement quivalentes sur le plan linguistique la question PR24 ME03 4 ME07 6 TTAO9 6 Exemple ME03 4 PR24 protocole centronics Liaison parallele POLI iaison parallele protocole centronics 3 r ponses sont incluses dans la r ponse PR24 AC12 6 AC17 19 ME28 5 Exemple ME28 5 PR24 information sur Les techniques de maintenance des ordinateurs distance POIL maintenance des ordinateurs distance Inversement 5 r ponses PR24 ont t reprises et int gr es la r ponse POLL AC11 7 AC13 1 UG13 3 UG14 3 TTA18 3 Les ajouts sont en majorit des termes d signant la nature du support souhait oman AivVres cuvrages La session UGl14 3 associe au sujet de d part une restriction int ressante PR24 guide geographique POLL recherche d un guide geographique region paris 1 r ponse reprend une expression centrale de PR24 ME21 14 PR24 ingormation bur certains circuits logiques comme Les bascutes JK et D POIL fonctionnement et table logique des bascutes JK et D Ces 12 occurrences ne pr sentent pas de reformulation du sujet de d part Un autre groupe de sessions comporte un essai de reformu
155. sion de recherche qui occupe une position centrale dans ce travail nous esp rons apporter des l ments de r ponse aux questions suivantes Que peut apporter la linguistique l tude des syst mes d information Nous tenterons de situer et de mesurer la place des tudes linguistiques dans la recherche sur les catalogues en ligne en nous r f rant la litt rature consacr e au traitement linguistique dans les OPACS et les bases de donn es Comment peut on envisager de poursuivre l enqu te PARINFO OPACS et que peuvent attendre biblioth ques et usagers de ces prolongements La troisi me partie de ce travail formulera quelques propositions pour l laboration d un nouveau protocole exp rimental Notre tude s appuie sur une partie des sessions enregistr es en Juin 92 la M diath que de La Villette dans le cadre du projet PARINFO OPACSs Ce contexte particulier appelle quelques remarques pr alables M Mohamed Hassoun Ma tre de Conf rences Ll ENSSIB a assur le traitement informatique des donn es recueillies durant l enqu te il a notamment labor des fichiers de synth se un pour chaque session qui organisent l essentiel de ces donn es questions en langue naturelle du pr questionnaire et du postquestionnaire lectroniques tableau des termes et des commandes entr s par l utilisateur Nous avons d ailleurs constitu notre corpus en nous appuyant sur le d nombrement des r f rences affich es t
156. siste donc reprendre ou tester des termes qui ont d j t propos s avec peu ou pas de succ s dans une tape pr c dente ou le seront dans la suivante Cette strat gie semble viter une reformulation l utilisateur suffisamment exp riment pour la mettre en oeuvre Il en utilise rarement les possibilit s en particulier la combinaison de termes Au lieu de reformuler d largir ou de pr ciser le sujet il reprend certains termes parfois non significatifs ainsi dans la session AC13 4 l utilisateur conduit une recherche par mot sur les termes avantages et comparaison et interroge sur ce dernier terme dans le mode sujet sans succ s Or la recherche par mot a pour but d largir la recherche mais ne dispense pas d une reformulation du sujet Mise en oeuvre sur des termes qui ne sont pas adapt s au langage du syst me elle am ne davantage de bruit que de r f rences pertinentes d apr s les mod les de base que nous avons propos s en particulier un rep rage des mod les de type 1 seules 5 recherches sur 11 semblent avoir fourni des r sultats satisfaisants ou non pour l utilisateur 4 3 Instanciation Nous avons pr t une attention particuli re aux sessions dans lesquelles l utilisateur a visualis une ou plusieurs notices compl tes donc avec indexation dans un mode AUT TIT ou A T Seules 2 sessions pouvaient avoir donn lieu une reformulation au moyen de termes fournis par le syst me
157. ssibilit de rechercher des documents dans une seule des deux sections ou encore dans le fonds pour enfants exclusivement gr ce aux commandes LIM puis LOC et la s lection de MEDPUB MEDENF ou MEDSPE Il s agit donc d un milieu d tude bien d fini d un public particulier et d un fonds sp cifique la fois grand public et sp cialis dans le domaine des sciences 2 4 M thodologie 2 4 1 Trois phases Le travail r alis comporte trois phrases distinctes mais compl mentaires tout d abord une revue syst matique et critique de la litt rature consacr e aux catalogues en ligne visant surtout mettre en perspective des techniques labor es dans d autres disciplines mais qui pourraient se voir transpos es aux OPACS la constitution et l analyse d un corpus de questions pos es par les utilisateurs de l OPAC de la M diath que de La Villette L enqu te proprement dite a t pr c d e de 7 r unions du comit de pilotage consacr es la mise au point d une m thodologie d enqu te et notamment des questionnaires puis l exploitation des r sultats une synth se des diff rents travaux qui a donn lieu l laboration de th mes de recherche R sultats et th mes sont consign s dans le rapport d tude d j cit 30 Nous ne reviendrons pas sur la premi re phase du projet dont on pourra trouver lecture dans ce m me rapport Il nous semble en revanche n cessaire d voquer les phases 2 e
158. t La notice compl te ne fournit pas la localisation mais ajoute aux donn es bibliographiques de base une description physique du document L ISBN ou ISSN un r sum le sujet Il peut cependant arriver qu une r f rence soit directement affich e sous forme compl te lorsque l utilisateur feuillette des notices avec les commandes AVA ou ARR apr s avoir actionn la commande COM Un exemple la session UG28 9 dont la synth se mentionne 3 affichages alors que 18 r f rences ont effectivement t visualis es dont 15 sous forme compl te A la suite d une recherche sur le sujet CD ROM l utilisateur a obtenu une liste de 14 r f rences dont il a voulu afficher A2 toutes les notices Il a consult la premi re sous forme abr g e a actionn la commande COM puis la commande AVA qui lui a permis de faire d filer les notices 2 14 directement sous forme compl te ces affichages n ont pas t comptabilis s Il s ensuit que certaines recherches dont la synth se mentionnait un affichage inf rieur ou gal deux devraient peut tre figurer dans notre corpus mais seul un examen d taill des sessions permettrait de le d terminer Cette remarque permet peut tre d expliquer pourquoi certains usagers experts en mati re d OPACS semblent se servir aussi rarement de la commande COM 3 Corpus et m thode d tude Avant de caract riser le corpus de sessions retenues il n est pas inutile de fixer la d finit
159. t identiques celles de la question PR24 un article une faute de frappe ou des guillemets pr s TTA16 2 PR24 PO11 COMPOSANTS DIVERS DU SANG UGO5 4 PR24 semiologie chirurgicale POIL semiologie chiruigucale 18 formulations sont extraites des r ponses la question PR24 Dans la plupart des cas 13 l nonc reste stable sur le plan s mantique l utilisateur a abandonn des mots vides UG23 4 PR24 LIVRE CONCERNANT LA PHYSIOLOGIE DES OISEAUX PO11 physiologie des oiseaux Mais elle peut aussi s accompagner d une extension ou d une r duction du sujet On peut supposer qu elle prend alors en compte les difficult s rencontr es au cours de la session TTA11 8 PR24 P011 DOSSIER COMPLET SUR LA FRANCHISE EN EUROPE FRANCHISE Dans la session UG13 14 la perte du mot societes rend le sujet incompr hensible PR24 comptabilite des Aocietes fusion PO11 comptavilite fusion On rel ve 23 occurrences dans lesquelles c est la r ponse PR24 qui est incluse dans POll Comme pr c demment la r gle est la stabilit s mantique 16 cas AC11 17 PR24 programmation windows 3 1 PO11 des Livres de programmation sue windows 3 1 39 DALRYMPLE P W Retrieval by reformulation in two library catalogs toward a cognitive model of searching behavior Journal of the American Society for Information Science 1990 Vol 41 n 4 p 274 2 r ponses induisent cependant une sp cification du sujet A
160. t 3 du projet afin de situer notre travail par rapport l enqu te r alis e et aux directions d finies 2 4 2 Mise en oeuvre de l enqu te Apr s une p riode de test et une pr enqu te en Mai 92 qui ont permis d ajuster les questionnaires la collecte des donn es s est d roul e du 3 au 28 Juin 1992 sur 5 postes de consultation de l OPAC Ces postes 30 ECOLE 93 21 sp cialement mis en place pour la dur e de l enqu te se situaient en divers points de la M diath que postes ACC Accueil ME MEIJ MHS TTA UG UGO Le corpus de donn es consiste en un enregistrement de la session de l utilisateur mais comprend galement un pr questionnaire et un postquestionnaire lectroniques dont on trouvera un exemplaire en annexe 3 de ce m moire L enqu te lectronique a t r alis e avec le logiciel OLIVE Online Interactive Validation and Evaluation que l on a adapt au logiciel GEAC Le tout a parfois t suivi d un questionnaire oral dirig par un enqu teur Le corpus final r unit 650 sessions parmi lesquelles 598 s av rent finalement exploitables Divers traitements automatiques ont t appliqu s ces donn es de base en particulier des traitements informatiques et statistiques gr ce aux logiciels Modalisa et Excel 2 4 3 Perspectives L enqu te r alis e en Juin 92 a d ores et d j t exploit e dans trois directions majeures une tude de type statistique qui a permis de
161. t hi rarchise les documents fournis l utilisateur sur une chelle de pertinence L interrogation en langage naturel permet d utiliser plusieurs fonctionsi une fonction qui engage une recherche sur les titres et les r sum s des documents QUES une fonction qui recherche sur toutes les zones du document y compris les champs structur s SPQUES une fonction qui compl te la question en l analysant plus finement SUITEQ la fonction QUEDOC permet enfin de remplacer une question en langage naturel par un document entier jug pertinent par l utilisateur Ce texte sera alors trait comme une question textuelle Le syst me recherche dans la base les documents qui ont le plus de mots en commun avec le document question 3 3 Les syst mes experts de recherche documentaire D apr s Chris Paice cit par J C Bassano ces syst mes experts pr sentent sur le plan linguistique deux caract ristiques essentielles Ils acceptent comme questions des fragments de textes en langue naturelle Ils enrichissent automatiquement ces requ tes et les transforment en une formulation plus efficace pour interroger la base Le prototype m me de syst me expert correspondant cette d finition est le syst me DIALECT labor par J C Bassano dans le cadre du CNRS et de l Universit de Diijoni7 Ce syst me adopte pour point de d part la question telle que l utilisateur est capable de la formuler en langage naturel sa requ te na
162. t il si l on en croit la suite de la session Comme dans le cas des premi res requ tes par titre 3 utilisateurs ont estim dans le pr questionnaire d enqu te qu ils ne connaissaient aucun document sur leur sujet ou auteur r ponse qui peut paraitre surprenante Il semblerait donc que cette question ait t source d ambiguit pour certains utilisateurs 4 Comparaison PR24 premi re requ te par auteur titre 3 cas 3 sessions affichent comme premi re requ te une recherche par auteur titre AC23 4 UG10 9 et UG11 3 Nous avons d j signal que la premi re requ te de UG10 9 ne pr sentait aucun rapport s mantique ou linguistique avec la question PR24 L utilisateur qui s entra ne visiblement utiliser l OPAC reprend d ailleurs en titre une formulation propos e en exemple par le syst me Les 2 requ tes restantes reprennent soit une partie du titre soit les l ments auteur titre d j mentionn s dans la question PR24 UG11 3 PR24 ouvrages sur a programmation en turbo pascal par ex A T 4 madoufe turbo pascal AC23 4 PR24 conception et gestion des syst mes documenntaire de van s ype A T van s ype conception et gestion des syst Ce faible chantillon ne permet pas une v ritable tude de la recherche A T d ailleurs rarement utilis e au cours des sessions enregistr es Elle t moigne davantage que la recherche par titre d une r elle connaissance d un ouvrage concernant le domaine de
163. t linguistique le projet visait deux objectifs majeurs tudier les caract ristiques linguistiques du dialogue qui s tablit entre l utilisateur et le syst me caract riser les types de probl mes qui peuvent venir perturber ce dialogue homme machine Il fallait pour cela disposer de donn es exploitables ce qui n tait pas le cas jusqu alors Les seules donn es recueillies taient les listes de mots mati res dont la recherche n avait pas abouti Ces listes provenant de l OPAC de la Biblioth que Municipale de Valence et datant de 1988 ont t tudi es par P Le Loarer34 3 2 Premi re analyse des donn es L analyse linguistique conduite par GSI ERLI a port sur deux questions du pr et du postquestionnaire d enqu te qui pr sentent toutes deux la caract ristique d tre des questions ouvertes la question 24 du pr questionnaire que nous appellerons PR24 dans la suite de ce travail D crivez assez pr cis ment ce que vous voulez rechercher Par exemple Information sur la technologie des disques optiques Dernier ouvrage d ASIMOV traduit en fran ais la question 11 du postquestionnaire que nous nommerons par la suite POLL Comment auriez vous souhait formuler votre question dans un syst me id al L utilisateur a pu r pondre ces questions en langage naturel L tude n a pas port sur l ensemble du corpus mais seulement sur les requ tes sujet ou sur l aspect sujet de certaines requ tes pouvant
164. t sont les suivantes les vedettes sont elles trop sp cialis es elles privil gieraient le niveau sp cifique aux d pens du g n rique ou pas assez Sont elles jour Quel niveau de hi rarchisation le public utilise t il spontan ment Elle s efforce aussi d analyser le langage de l utilisateur pour ne plus lui plaquer un langage d interrogation trop loign du sien On tente de mesurer ici une distance linguistique entre syst me et utilisateur A Carlyle conclut la n cessit de d velopper certains th mes de recherche qui lient tude linguistique comportement de l utilisateur et design des catalogues en ligne En quoi la structure et le contenu de l interface d un catalogue affectent ils la structure et le contenu des expressions utilis es par l utilisateur Quelle connexion s mantique existe t il entre ce que dit et ce que pense l utilisateur d un catalogue en ligne Comment am liorer la construction des vedettes LCSH comment d velopper le langage d un catalogue pour accro tre la satisfaction de l utilisateur Un langage d indexation convient il mieux un syst me en ligne qu un autre Des exp riences proches ont t conduites sur la Classification D cimale Dewey mettant en vidence les possibilit s d enrichissement du vocabulaire d une base et par suite des recherches effectu es 1 2 Techniques de navigation dans les OPACS Une premi re prise en compte des blocages des uti
165. tape est donc respectivement de 9 et de 6 Le niveau d expertise par rapport au syst me varie cependant les experts et utilisateurs moyens dominent dans les sessions en 2 modes 7 experts 10 utilisateurs moyens soit 55 alors que les sessions en 3 modes sont men es par des utilisateurs moyens 5 et par un novice La multiplication des modes de recherche ne serait donc pas le signe d une plus grande ma trise du syst me mais au contraire d une certaine dispersion dans la strat gie de recherche alors que la combinaison judicieuse de 2 modes peut appara tre comme une strat gie Les modes de recherche associ s dans les sessions en mode double se r partissent comme suit TIT SUJ 1 AUT SUJ MOT SUJ MOT TIT A T SUJ NUM TIT NUM SUJ hH e pe ND OO EE A AUT TIT 68 Le mode sujet peut tre associ tous les autres comme le confirme la r partition des sessions en 3 ou 4 modes AUT TIT SUJ 2 TIT MOT SUJ 2 AUT TIT MOT du sujet 1 AUT TIT A T SUJ 1 Les experts conduisent en priorit une recherche selon les modes AUT ou tit et SUJ 4 mais aussi MOT SUJ MOT TIT et NUM TIT Ils utilisent donc davantage les connaissances qu ils peuvent avoir sur le domaine pour enrichir leur recherche et ne s appuient pas uniquement sur les propositions du syst me Nous verrons cependant qu ils ne vont pas jusqu mettre en place de v ritables str
166. tes parfois d es un emploi erronn de certaines pr positions AC11 7 pourriez vous me renseigner swr un roman de science fiction AC12 4 quelles sont Les documents qui peuvent taater sur a gestion des ressources humaines dans Les PME AC11 15 savoir comment ca be passe une intervention chirugicate de otite chronique Ce corpus de formulations en langage naturel offre en d finitive deux tendances oppos es l une consiste num rer des termes sans pr ciser le lien qui les unit un syst me id al devant se charger de les apparier d autre part la reformulation est l occasion de lier ces termes dans des structures de pr f rence simples qui n apportent rien sur le plan s mantique on utilise cet effet des verbes introducteurs voire des formules de politesse dont certaines peuvent cependant s interpr ter comme s adressant l enqu teur qui par del le syst me relira ou traitera le questionnaire lectronique Entre ces deux tendances 56 5 des utilisateurs s en tiennent des syntagmes soit conformes ceux qu ils sont susceptibles d entrer durant une session soit largis mais le plus souvent au moyen de termes indiquant la nature du support recherch Cette tude des structures syntaxiques semble donc bien confirmer que la majorit des utilisateurs n a pas reformul son sujet l issue de sa session mais s est laiss e influencer par ses formulations pr c dentes D o la n cessit de conf
167. tes sur le traitement des requ tes en langue naturelle et les syst mes experts de recherche documentaire En attendant la mise au point de ces syst mes il nous para t cependant indispensable de r fl chir des dispositifs de formation des utilisateurs Les exp riences initi es sur le dialogue homme machine et le comportement de l utilisateur devraient d sormais alimenter cette r flexion 60 LE MAREC J Les OPACs sont ils opaques La consultation des catalogues informatis s la BPI du centre Pompidou Bulletin des Biblioth ques de France 1989 Vol 34 n 1 p 80 6l DICKSON J An analysis of user errors in searching an online catalog Cataloging amp classification quarterly 1984 Vol 4 n 3 p 35 97 BIBLIOGRAPHIE Acc s naturel la base de donn es DIANEGUIDE ECHO M thodes d acc s avanc es aux services d information Commission of the European Communities DGXIII ECHO European Commission Host Organisation p 5 19 Autre source GSI ERLI 91 p 81 92 BARTHES C GLIZE P Planning in an expert system for automated information retrieval systems In ACM SIGIR lite International Conference on Research and Developpement in Information Retrieval Grenoble 13 15 Juin 88 Grenoble PUG Presses Universitaires de Grenoble 1988 BASSANO J C Un syst me multi expert pour la recherche documentaire Bulletin du Centre de Hautes Etudes Internationales d Informatique Documentaire 1983 N
168. traire nos objectifs d tude La d marche de l utilisateur ne d pend pas n cessairement du nombre d affichages Nombreuses sont les sessions parmi les 154 retenues o une m me notice a t appel e plusieurs fois sans interaction linguistique suppl mentaire avec le syst me Une d marche identique aurait pu tre mise en oeuvre et ne donner lieu qu un affichage L absence d affichage ne permet pas de savoir priori si la session contient ou non une interaction et si les r sultats ventuellement affich s sous forme abr g e auteur titre ont satisfait l utilisateur Celui ci pouvait en effet consulter le catalogue pour v rifier qu un ouvrage donn figurait bien dans le fonds de la M diath que A l exception d ailleurs de quelques checs flagrants seul l auteur d une recherche pourrait exposer les motifs qui l ont pouss poursuivre ou interrompre son interrogation La pr sence d un ou plusieurs affichages constitue en revanche une preuve qu il y a eu au moins une interaction avec 1l OPAC c est dire une entr e de terme trait e par le syst me Le crit re des 3 affichages est ensuite arbitraire mais il avait le m rite de fournir un corpus de taille raisonnable Nous n avons pas cherch s lectionner des recherches faciles ou difficiles priori bien que cette distinction pr sente un int r t dans un autre contexte d tude mais des recherches que nous supposions capables de conduire l usag
169. tude linguistique doit aussi fournir une analyse plus fine de l existant et permettre d am liorer la convivialit des OPACS en place C est pourquoi nous souhaiterions nous int resser des dispositifs qui proposent une autre m thodologie pour aborder le dialogue utilisateur catalogue en ligne 91 IIL L valuation par r solution de probl mes 1 Analyse de quelques dispositifs De nombreux chercheurs qui font autant appel aux sciences cognitives qu la linguistique se sont pench s sur les processus de recherche d information d velopp s par les usagers de catalogues en ligne Leurs enqu tes se caract risent par des protocoles de recherche et une m thodologie diff rents de ceux qui ont t retenus dans le cadre du projet PARINFO OPACS elles ne tentent pas d analyser une recherche spontan e de l utilisateur mais lui proposent au contraire d utiliser le catalogue pour r soudre des probl mes de recherche d information impos s Cette d marche nous para t int ressante et compl mentaire de par ses objectifs et ses r sultats de celle du projet Elle a t adopt e dans de grandes biblioth ques universitaires nord am ricaines notamment par Christine Borgman l Universit de Californie Los Angeles et de Stanford par Prudence Dalrymple l Universit de Wisconsin Madison et par Joan Cherry et Marshall Clinton de l Universit de Toronto 1 1 Repr sentation mentale d un syst me de recherche d informat
170. u plusieurs bases Un module utilise la repr sentation de la question pour piloter les commandes du syst me documentaire auquel l interface est coupl e D autres interfaces sont mises au point dans le domaine industriel On citera notamment le Natural Language System NLS interface en langage naturel destin e l interrogation des pages jaunes et du guide des services Minitelii Le syst me propos constitue une alternative la technique de recherche traditionnelle par des mots cl s pointant sur les rubriques de la nomenclature Le NLS facilite l acc s aux rubriques par l association d une base de connaissances sp cifique la liste des rubriques et par la construction d une grammaire assurant l interpr tation des requ tes Le traitement de la requ te s effectue en plusieurs tapes l automate d analyse syntaxique utilise d abord un syst me d analyse lexicale et morphologique pour la reconnaissance des mots entr s par l utilisateur ce stade sont trait s les probl mes d accentuation les probl mes d orthographe les mots compos s L automate dispose d un dictionnaire du fran ais courant un syst me d analyse syntaxique de la phrase reconna t la t te de phrase et assigne des fonctions de base chacun des composants un syst me d analyse s mantique recherche le ou les index capable s de r pondre la question L interface ne modifie pas l architecture g n rale du syst me mais l utilisateur
171. ue Documentaire 1986 N 23 et 24 12 pilot es par le noyau syst me expert de DIALECT Il applique de nouveau la phase d analyse linguistique pour d gager d autres nonc s des phrases retenues et les int grer dans des structures l mentaires Des r gles comparent les nonc s de d part aux structures l mentaires et ajoutent la question les nouveaux nonc s pertinents Le processus est r it r jusqu une condition d arr t Dans le syst me IOTA18 le traitement initial de la requ te suit les m mes tapes que dans les syst mes classiques pr sent s au paragraphe 3 2 traitement automatique de la question qui consiste localiser les syntagmes nominaux pour laborer une expression bool enne Ce traitement est identique celui des documents de la base appariement entre syntagmes nominaux de la requ te et termes retenus pour l indexation Cependant l interpr tation de la requ te est confi e un syst me expert qui simule l activit d un documentaliste Ce syst me utilise un th saurus dans lequel les relations sont pond r es il value la proximit entre chaque couple de mots en relation Ce syst me value le niveau de l utilisateur par comparaison entre les termes de la requ te initiale et ceux du th saurus Il calcule le degr de d gradation de la requ te Il interpr te la requ te finale labor e ce qui permet de fournir des r f rences pond r es
172. upport recherch marqu s sur le plan s mantique ils devraient tre pris en compte si la r ponse tait trait e par un analyseur Mais ces termes que nous avons signal s en italiques ne sont pas les plus nombreux Faut il d autre part distinguer entre les demandes d information s et les demandes de livres ou de documents L utilisateur sait qu il ne se trouve pas devant un syst me capable de lui fournir de l information primaire mais seulement une information secondaire livre livres 18 document documents 15 ouvrage ouvrages 9 r f rences 2 information informations 5 autres documentations 1 bouquins 1 revue revues 5 roman 1 manuel d utilisation 1 r pertoire 1 dictionnaire guide guides 2 atlas 1 texte de loi 1 tableau 1 photographies 1 diapositives 1 Ces notations de support constituent une tentative d explicitation du sujet de recherche en langage naturel mais une tentative pas n cessairement spontan e la formulation m me de la question PR24 a tr s probablement influenc l utilisateur D crivez assez pr cis ment ce que vous voulez rechercher Par exemple Information sur la technologie des disques optiques Dernier ouvrage d ASIMOV traduit en fran ais 1 5 Analyse syntaxique 1 5 1 Cat gories syntaxiques La cat gorie majoritairement repr sent e et nous rejoignons en cela l analyse de GSI ERLI est celle des syntagmes nomin
173. urtant d clar es satisfaites de leur recherche 7 la consid rant comme un chec total ils ont r pondu rien du tout ou peu de chose la question 1 du postquestionnaire Ce mod le de recherche n est pourtant pas le fait d utilisateurs inexp riment s puisque 5 experts et 18 utilisateurs moyens l ont adopt 2 1 Caract risation des recherches La plupart d entre elles s effectuent selon ie mode sujet sujet 3 titre 6 5 auteur 2 mot 3 l Nous avons comptabilis et tudi dans ce groupe 5 sessions qui comportent en fait plusieurs tapes mais des tapes identiques l utilisateur a recommenc sa recherche de base plusieurs reprises par suite d un probl me technique ou d une erreur d utilisation des commandes Sa d marche reste cependant celle d une recherche en une tape Il s agit de sessions relativement courtes comprenant de 10 43 crans en moyenne 19 Apr s l entr e par l utilisateur de son terme de recherche elles voluent soit par s lections multiples dans une liste de titres de noms d auteur ou de sujets propos e par le syst me soit par s lection unique et affichage de r f rences On constate que dans 16 sessions l utilisateur n a pas fait usage des commandes de feuilletage AVA ARR ou les a utilis es sans succ s par suite de probl mes techniques 11 sessions comportent exclusivement des feuilletages de listes 4 exclusivement des feuilletages de notices et 12 combinent le
174. utilis s les sessions comprenant une recherche en plusieurs tapes et 2 modes de recherche 31 cas les sessions comprenant une recherche en plusieurs tapes et un nombre de modes sup rieur ou gal 3 6 cas dans lesquels l utilisateur a utilis 3 ou 4 modes jamais davantage La session ME25 6 pr sente 3 modes de recherche TIT SUJ MOT mais elle a t class e dans les sessions en 2 modes l utilisateur n tant pas parvenu faire fonctionner la recherche par mot Apr s avoir caract ris ces occurrences nous tenterons de d crire l influence que peut avoir le changement de mode sur la formulation linguistique de la requ te pourquoi l utilisateur abandonne t il un mode pour un autre Comment choisit il ce nouveau mode de recherche Reformule t il alors sa question ou conserve t il sa formulation initiale On peut difficilement tenter d tudier l volution s mantique de la formulation dans le cas des recherches en modes multiples tant donn que le mode sujet n est pas n cessairement choisi ou conserv Mais comme pr c demment nous tudierons les rares cas d instanciation qui pourraient tre d gag s dans ces sessions 4 1 Caract risation des recherches Les sessions en plusieurs modes sont de loin les plus longues les sessions en 2 modes affichent une moyenne de 41 crans et de 4 5 tapes les sessions en 3 ou 4 modes une moyenne de 64 crans et de 10 5 tapes Le nombre moyen d crans par
175. x grandes bases documentaires de litt rature m dicale MEDLINE et CATLINE Pourtant les interfaces en langage naturel avec les bases de donn es commencent se d velopperi Le syst me IRUS Intelligent Retrieval Using the RUS Parsing System a t d velopp par BBN Bolt Beranek and Newman Cambridge USA Ce syst me utilise l analyseur syntaxique du langage naturel RUS Associ un interpr teur s mantique cet analyseur permet de produire une 7 ZARRI G P Etat de l art les nouvelles tendances de l informatique documentaire o Bulletin du Centre de Hautes Etudes Internationales d Informatique Documentaire 1988 n 32 p 11 40 8 GSI ERLI Ingenierie linguistique et documentaire Recueil d articles Charenton le Pont GSI ERLI Mai 1991 166 p 9 DACHELET R Etat de l art de la recherche en informatique documentaire la repr sentation des documents et l acc s l information In INRIA Le document lectronique Cours INRIA 11 15 Juin 1990 Rocquencourt INRIA 1990 p 118 10 NORMIER B Interfaces en langage naturel avec des bases de donn es T l com n 87 1991 p 36 39 repr sentation de la question dans un langage de repr sentation des connaissances MRL Meaning Representation Language L interpr teur utilise un dictionnaire et des r gles d interpr tation s mantique propres un domaine d application particulier Le syst me peut donc tre transport un autre domaine o
Download Pdf Manuals
Related Search
Related Contents
QUICK GUIDE Poetic Guitar 2 User Manual Adcom`s GFP-565 Preamplifier, Part 1 Data Sheet - Test Equipment Depot HDA-iEシリーズ 取扱説明書 Mode d`emploi hébergeur - Commune de Plougonvelin MT MINI - Gastrouniversum Evermount EM-AMB flat panel wall mount Commune d`Evere Lenmar Enterprises BCGS320K/W User's Manual Copyright © All rights reserved.
Failed to retrieve file