Home
Etat de l`art des idées implémentées dans les moteurs de
Contents
1. The detailed format for viewing results provides titles plus summaries URLs numerical relevancy scores and the option of viewing similar pages for each result returned WEBCRAWLER WEBCRAWLER option Search the Web for more like When you re browsing through the WesCraw er Select reviews and find a subject or review that piques your interest you can click on the Spidey Search icon to search the Web for related pages Spidey search is brought to you by WEBCRAWLER editors who create special similarity queries for each Select subject and review carefully choosing keywords that will produce optimal results Ce dernier extrait expose un proc d fondamentalement diff rent des pr c dents a savoir que la caract risation du texte n y est plus automatique Ceci sort de notre champ 26 35 HN 46 96 037 d investigation nous ne nous occuperons pas de cette option l de WebCrawler ni d autres du m me type QBE est une notation pour Query By Example la requ te n est alors pas la donn e de quelques mots cl s mais un texte repr sentatif des documents que l on souhaite trouver Le traitement associ est une comparaison de texte texte pour identifier les textes analogues au texte requ te Ce qui est mis en valeur dans la pr sentation faite de cette fonctionnalit par les services de recherche c est la simplicit d utilisation Un simple clic sur un document pertinent permet de r
2. The spider s apprentice How to use Web search engines http www monash com spidap Comme son titre l indique il s agit d une introduction aux moteurs de recherche un guide pour leur choix et leur utilisation Astucieux et bien fait ce document ne sera pas utile qu aux d butants Il est apparemment bien mis jour bon suivi de l actualit une rubrique r sume les principales nouveaut s et les tendances actuelles Tout ceci sur un ton informel facile et agr able lire Conte Ron 1996 Guiding Lights Internet World May 1996 pp 40 44 Pour un rapide mais efficace panorama des principaux outils de recherche sur WWW moteurs de recherche catalogues th matiques signalement des nouveaut s r pertoires d adresses e mail archives Gopher logiciels en libre disposition sur le r seau News Groups interfaces regroupant et unifiant les recherches de diff rents moteurs PLourDE Jean No l 1996 Crit re et valuation d outils de recherche des ressources dans Internet Cursus p riodique lectronique tudiant de l EBSI de l Universit de Montr al Vol 1 n 2 http mistral ere umontreal ca beaudryg cursus vollno2 plourde html Un article s rieux d une excellente revue L organisation g n rale de l tude est int ressante le plan offre notre avis un parcours rationnel de la probl matique Au niveau des d tails beaucoup d informations sont rassembl es mais elle
3. ANALYSE ET CRIT RES G N RAUX D EVALUATION 5 3 SUR LES TECHNIQUES DE CALCUL IMPL MENT ES 4 35 ADM un 26 26 29 32 33 33 34 HN 46 96 037 1 Motivation et orientation de l enqu te 1 1 Contexte Les moteurs de recherche sur WWW des outils appr ci s Le foisonnement de documents accessibles sur WWW 8 suscit la conception et la mise disposition d outils de recherche Pour ne citer que quelques uns parmi les plus connus aujourd hui ALIWEB ALTAVISTA EXCITE GALAxy Harvest HOMEPAGE BROKER HotBot ex INKTOMI INFOSEEK Gume Lycos MAGELLAN OPEN TEXT INDEX WEBCRAWLER WWW Worm YAHOO Nous nous int ressons ici a ces outils de recherche pour plusieurs raisons ce sont des outils effectifs utilis s reconnus donc pour nous la fois des exemples d applications r elles non des prototypes ni des sp culations th oriques et des points de rep re par rapport auxquels situer notre syst me DECID ils sont con us pour traiter de grands gigantesques corpus textuels sur les sujets les plus vari s avec sans cesse l arriv e de nouveaux documents et l imp ratif d avoir une information aussi jour que possible ceci correspond des approches robustes et fortement automatis es telles celle que nous avons mettre en place Pour tre pr cis deux grandes classes d outils de recherche doivent tre distingu es les outils type index bas s sur une i
4. Surlignage par surbrillance clignotement Excire propose ainsi un r sum automatique Automatic abstracting contextuel Another capability enabled by ICE searching is the ability to examine selected documents and then abstract those sentences which are judged relevant to the concept Thus the user can create automatic abstracts of the documents on their matching list to speed the process of evaluation Par exemple si la pertinence semble faible m me pour le meilleur document alors la valeur maximale n est pas 100 mais 99 C est ce que fait HotBot Once the set of matching documents has been identified the scores are normalized so that no document scores over 100 If all the documents are poor matches the best of the poor matches is given a score of 99 HotBot C est clairement une convention qui doit tre explicit e pour une interpr tation juste des r sultats 4 Num roter les r sultats n a peut tre l air de rien Et pourtant c est tr s appr ciable pour se rep rer quand on parcourt la liste des r sultats Excire propose un Automatic subject grouping L id e de faire appara tre dans la pr sentation des r sultats les liens entre les documents pr sent s tait expos e dans un article prospectif nous n avons vu nul part cette fonctionnalit impl ment e Il est vrai qu elle soul ve un certain nombre de difficult s une simple organisation hi rarch
5. celui d une suite de descripteurs libres IL B 2 b Traitement sp cifique propri t s textuelles II Traitement d une recherche Calcul valuation de la pertinence II A Mode de prise en compte des op rateurs 1 1 Bool en solutions exactes exact match 1 2 Bool en flou solutions les meilleures best match IIL A 2 a Une conjonction dont les termes ne sont pas tous pr sents est p nalis e mais pas nulle II A 2 b Une disjonction non exclusive dont plusieurs termes sont retrouv s est avantag e II B Prise en compte de la distribution des occurrences des termes de recherche II B 1 Un document est d autant plus pertinent pour un terme si ce terme 1 8 1 8 pr sence appara t dans peu de documents de la base il est discriminant 3 NEAR est toujours implicitement propos comme un op rateur binaire On pourrait concevoir un op rateur n aire tel que par exemple tous les termes arguments auxquels il s applique soient dans un voisinage d extension d termin e un m me paragraphe une fen tre de 50 mots Remarquons enfin que pour le cas de l adjacence ordonn e on a classiquement un op rateur n aire savoir les guillemets qui encadrent une expression cha ne de mots chercher Autrement dit diffusion automatique cibl e notation par guillemets quivaut diffusion FOLLOWED BY automatique FOLLOWED BY cibl e notation par op rateur bina
6. MAGELLAN Open Text INDEX WEBCRAWLER WWW Worm 1 3 M thodologie employ e une enqu te minutieuse partir des documentations disponibles sur WWW Nous avons recherch sur WWW tous les renseignements possibles sur les caract ristiques des moteurs de recherche et les techniques employ es Notre premi re source d information sont les documentation utilisateur aides en ligne sous les rubriques Help pour chaque outil Bien s r pour garder avantage sur ses voisins nul ne veut compl tement d voiler ses algorithmes L information technique est donc g n ralement incompl te morcel e formul e de fa on vasive et qualitative En nous appuyant sur notre connaissance des techniques classiques de recherche documentaire par des moyens de statistique et de linguistique computationnelle nous avons en partie d cod cette information lacunaire pour en tirer les principes et les param tres sur la base desquels sont faits les calculs Quelques documents compl mentaires notamment des comparatifs de moteurs de recherche nous ont aid dans cette t che de description et d interpr tation pour la description gr ce l inventaire syst matique des caract ristiques qu ils proposent leur grille d analyse des moteurs pour l interpr tation via les observations qu ils ont not es et les renseignements qu ils ont recueillis dans des articles inform s ou aupr s de concepteurs Tout r
7. info webcrawler com bp WWW94 html C est un article d une dizaine de pages agr able lire suffisamment pr cis et clair dans ses explications chose rare donc d autant plus appr ciable et pr sentant plusieurs id es int ressantes Ces qualit s justifient qu il soit signal ici m me si l outil associ WEBCRAWLER n est pas dans les tout premiers en termes de popularit Dans la premi re moiti de son article l auteur expose le mode de fonctionnement de WEBCRAWLER les principes utilis s la base des algorithmes sont explicit s La deuxi me moiti rassemble les observations et enseignements tir s de 6 mois d exploitation du service et notamment d changes avec les utilisateurs courrier spontan enqu te avec questionnaire Manser Udi Wu Sun 1993 GLIMPSE a tool to search through entire file systems Le fichier postscript est accessible depuis http harvest transarc com afs transarc com public trg Harvest papers html GLIMPSE est le moteur de recherche de Harvest Broker et fonctionne typiquement sur la base d expressions r guli res L article s int resse ici au stockage et l acc s des donn es Les fichiers inverses permettent des 34 35 HN 46 96 037 recherches rapides mais sont volumineux et ne sont pas adapt s 8 des expressions r guli res La proposition des auteurs est d encha ner d abord une recherche par un petit index qui ne fait que localiser les zones l
8. tude se fonde sur des observations r alis es entre ao t et octobre 1996 dans le cadre du projet DECID Diffusion Electronique Cibl e d Informations et de Documents Executive summary Ten search engines indexing the World Wide Web with keywords or concepts were studied not in order to make any comparison between them but to obtain an idea of the state of the art of the models being used The way in which documents and requests are represented the calculation of the relevance and the results visualisation were all dissected in order to list all the parameters under consideration and all the features of the texts that were examined This structured inventory may therefore be used as a basis for designing a new full text retrieval system using all the good ideas that were found in the above mentioned tools all of which are operational and popular The inventory also provides a sophisticated frame for analysing all current information retrieval tools and can be used as a reference for comparison This technical report is therefore intended for information retrieval system designers and users who wish to improve their knowledge about how such tools work in order to get more out of them A selection of the references available on the WWW is also supplied This study is based on observations made between August and October 1996 as part of the DECID project Diffusion Electronique Cibl e d Informations et de Documents target
9. des documents cit s LB 1 e Langue de r daction 1 8 2 Donn es textuelles recueillies 1 8 2 8 Titre Nom g n ral du document Titre du document titre s de premier niveau Tous les niveaux de titre 1 8 2 0 M ta informations fournies par l auteur Descriptif champ sp cifique renseign librement et manuellement par l auteur Mots cl s d clar s comme tels par l auteur dans une zone sp cifique 1 8 2 Texte int gral vu comme une suite de cha nes de caract res constitution d un fichier inverse index 2 Les op rations d limination des liens inactifs et des doublons sont souvent plut t propos es en tant que post traitement avant de pr senter les r sultats d une requ te certains moteurs nettoient ainsi la liste des documents afficher Avec cette logique la v rification est alors enti rement r effectu e pour les s lections de chaque requ te 10 Les champs en lesquels se d compose l adresse peuvent ensuite tre mani s comme des donn es textuelles notamment recherche sur des sous cha nes de caract res comme edu to constrain your search to educational institutions comme le propose HotBot en exemple Utilis comme indice de popularit de qualit d int r t Ce serait m me un des indices les plus fiables permettant de contrecarrer les man uvres de certains documents pour appara tre abusivement comme pertinents cf V A 4 a one of t
10. explications Les indices de saillance les plus connus sont d finis partir de la fr quence et ou du caract re discriminant en tudiant la distribution du vocabulaire sur le corpus 16 T faut bien peser l impact de cette d cision l viction des chiffres nuit la reconnaissance des dates celle des symboles comme celle de sigles comme C 17 La distinction minuscule vs majuscule est utile pour beaucoup de noms commerciaux entreprises produits volontiers m taphoriques Les exemples donn s ce propos dans Barlow sont parlants many words in English are used both as proper and common nouns Bill bill Gates gates Oracle oracle Lotus lotus Digital digital the list is endless 18 La r duction flexionnelle rapporte le nom pluriel sa forme au singulier l adjectif sa forme masculin singulier le verbe conjugu son infinitif Le stade suivant est la r duction d rivationnelle qui regroupe les mots de la m me racine mots de la m me famille La r duction d rivationnelle est bien s r encore plus difficilement automatisable et nous ne l avons pas trouv e impl ment e cependant certains proc d s de troncature cf IL A 1 a permettent de jouer sur les variations autour d une racine lexicale 11 35 HN 46 96 037 3 Conceptuel Construction automatique de classes d quivalence de termes association des termes qui apparaissent dans les m mes
11. le des disparit s d un outil l autre De fait chaque tape du traitement depuis la couverture de la base de r f rences jusqu la mod lisation de la pertinence est un passage d terminant pour le contenu et l interpr tabilit de la r ponse Et l analyse d taill e que nous avons men e sur les diff rents param tres de mod lisation montre que si la plupart de ces param tres sont connus depuis longtemps il n y a pas pas encore de proposition consensuelle et optimale pour leur mise en uvre conjointe Une d marche m thodique consisterait maintenant d finir la s mantique de tous les param tres recens s rep rer leurs interrelations afin d en proposer une combinaison moins empirique et plus ma tris e Cela s inscrirait dans un cadre g n ral ouvert et peut tre sugg rant l introduction d autres param tres Autant les syst mes de recherche par plan de classement sont fig s autant dans un syst me automatique base d index des am liorations sont toujours envisageables La pr sente tude va ainsi tre mise profit la DER pour le d veloppement de la nouvelle version de l outil DECID en effet sa fonction d aide la Diffusion Cibl e fait appel une comparaison automatique de textes caract ris s par une indexation 32 35 HN 46 96 037 5 Bibliographie Webliographie th matique comment e 5 1 Comparatifs valuation des syst mes Bartow Linda 1996
12. ou de fa on plus r aliste car il n y a pas d outil id al et universel d gager des caract ristiques suffisantes pour guider le lecteur vers tel ou tel outil selon le type de recherche effectuer et le type de r sultats attendus Les outils tant compl mentaires la solution la plus satisfaisante consistera d ailleurs parfois combiner les r sultats de plusieurs d entre eux Celui qui a besoin de ce genre de comparatifs a tout int r t consulter les documents WWW sur le sujet il en existe d j de nombreux avec toutes les variantes de points de vue et de niveau de d tail Nous recommandons en bibliographie ceux que nous avons le plus appr ci s pour leur s rieux leur caract re syst matique et parfois leur originalit sur le plan des renseignements apport s et des remarques Consulter WWW convient tout a fait pour trouver les comparatifs les plus 8 jour on en trouve aussi dans les revues sp cialis es PC Expert Internet World mais certains de ces articles sont galement disponibles sur WWW II faut tre conscient que de telles tudes sont extr mement vite caduques car les moteurs ne cessent d voluer En effet une bonne id e qui serait sp cifique l un des moteurs par exemple pour le calcul des documents pertinents ou pour l interface a toutes les chances d tre reprise et adopt e par les autres mettant ainsi en d faut le comparatif qui se voulait discriminant Dit de fa
13. autres liens utiles avec un volume consid rable de r f rences difficile tenir jour Kocx Traugott 1996 Search services analytical form http www ub2 lu se desire radar search services analyt form html Une des grilles d analyse les plus compl tes et les plus quilibr es A partir d elle a t r alis e toute une s rie de fiches d crivant une vingtaine de moteurs de recherche que l on trouve partir de l adresse suivante http www ub2 lu se tk websearch_systemat html Paymans Hans 1992 An inventory of models in information retrieval http pi0959 kub n1 2080 Paai Onderw Paai Ai_ir ai_ir html Un point de vue int ressant critique et constructif pour un lecteur d ja familiaris avec le domaine Affine et nuance les concepts les plus utilis s le document et sa repr sentation le r le de la r duction dans la description les besoins parfois impr cis de l utilisateur typologie des requ tes exigence ou non d exhaustivit tactiques contr le de l interpr tation faite par le syst me de sa requ te la prise en compte de l auteur l cart entre document et information 5 3 Sur les techniques de calcul impl ment es Excite Inc 1996 Information Retrieval technology and Intelligent Concept Extraction TM searching http www excite com ice tech html Morceau de bravoure en tant qu expos d velopp brillant et soigneusement r di
14. contextes corr lation des termes par rapport leur distribution sur l ensemble de documents 1 C 4 Informations quantitatives pour chaque mot I C 4 a Nombre d occurrences dans le document I C 4 b Position s dans le document II Lancement d une recherche Forme de la requ te interface d interrogation II A Langage d interrogation IL A 1 Lexique 1 8 Vocabulaire non contr l pas de dictionnaire des termes autoris s Cha nes de caract res vision informatique fronti res sous cha nes born es on recherche sur les mots limit s par les blancs caract re joker masque ventuellement d usage restreint puissance remplace un caract re remplace une sous cha ne limit e position en derni re position troncature droite en premi re position troncature gauche apr s au moins n caract res par exemple n 3 expressions r guli res recherche modulo une tol rance orthographique limitation du nombre d erreurs seuil calcul d une distance entre cha nes de caract res La langue naturelle est ici consid r e comme un langage d interrogation au m me titre que d autres langages d di s la formulation de requ tes point de vue fonctionnel 2 L effet des fronti res est sensible soit dans les recherches les plus simples la requ te prend la forme d une suite de termes non s par s par des op rateurs soit dans les recherches labor es o l on p
15. impossible ou pour un usage ult rieur Par exemple 165 toiles de une quatre de MAGELLAN cherchent caract riser la qualit du document pour lui m me Il ne faut pas confondre cet indicateur avec une valuation de la pertinence elle relative une requ te donn e Les crit res que se fixe MAGELLAN sont int ressants depth is it comprehensive and up to date 6886 of exploration is it well organized and easy to navigate net appeal is it innovative Does it appeal to the eye or the ear Is it funny Is it hot hip or cool Is it thought provoking Does it offer new technology or a new way of using technology 16 35 HN 46 96 037 IV A 3 Informations sur le rapprochement IV A 3 a Donn es associ es chaque terme commun la requ te et au document Variantes trouv es dans le document variantes avant lemmatisation par exemple Nombre d occurrences dans le document Pond ration utilis e Contexte s d occurrence de chaque mot dans le document KWIC key word in context surlignage des occurrences dans le texte int gral extraction des phrases ou des passages les plus significatifs ayant le plus contribu la s lection du document par cette requ te IV A 3 b Mesure de pertinence Valeur num rique norm e par exemple comprise entre 0 et 100 absolue 18 valeur maximale correspond au crit re le plus fort de proximit quand les documents apparai
16. interpr tation des r sultats correspondants est faite avec finesse vitant des conclusions h tives pourtant tentantes 33 35 HN 46 96 037 5 2 Cadre d analyse et crit res g n raux d valuation Kocx Traugott 1996 Internet search services http www ub2 lu se tk demos D09603 meng html Un document de r f rence Fait remarquablement le point des forces et des faiblesses des types de services de recherche offerts sur WWW en prenant bien en compte les sp cificit s de ce r seau mondial On en tire des enseignements sur les orientations prendre ou viter et sur les volutions qui se dessinent Ainsi les catalogues du fait de leur construction manuelle ont la fois une forte valeur ajout e s lection structuration et une couverture limit e volume mise jour S ils sont utiles pour donner des points de d part de navigation ils gagneraient tre plus troitement combin s aux outils de recherche par index Cette analyse est r alis e dans le cadre du projet europ en DESIRE dont la pr sentation fait l objet d un chapitre R dig initialement en langue allemande le texte transpos en anglais comporte quelques expressions ponctuations et tournures maladroites ne facilitant pas la lecture Mais souhaitons qu elles ne d couragent pas le lecteur En revanche il comporte toute une collection d exemples illustratifs tr s parlants sous forme de copies d cran et abondance d
17. on imag e ces bancs d essais s int ressent l intersection les fonctionalit s communes et surtout la diff rence sym trique les fonctionalit s originales entre les ensembles de caract ristiques associ es chaque outil Notre approche elle serait de cerner l union de toutes ces caract ristiques QO O intersection A diff rence sym trique A union VU Point de vue des comparatifs Notre point de vue 6 35 HN 46 96 037 Notre but est d abord de recenser aussi exhaustivement que possible toutes les m thodes et les fonctionalit s impl ment es et propos es par les moteurs de recherche actuels Puis nous voulons les organiser pour en pr senter une synth se qui les regroupe logiquement et les r sume C est en quelque sorte un triple tat de l art 1 des techniques de caract risation des documents 2 des param tres combin s dans le calcul de leur pertinence par rapport a une requ te 3 de la mani re de r pondre aux attentes et aux besoins de l utilisateur par une ergonomie appropri e L enjeu n est pas d analyser tous les outils de recherche existants il y en aurait des dizaines et des dizaines ceux qui sont int ressants pour nous ici sont ceux qui sont effectivement utilis s et donc aussi les plus connus Nous avons donc tout particuli rement examin ALTAVISTA EXCITE Harvest HOMEPAGE BROKER HorBor ex INKToMI INFOSEEK Gume Lycos
18. pas existant ind pendamment les uns des autres 5 35 HN 46 96 037 documents atypiques qui soit sont exclus soit sont mis part dans une classe divers difficilement exploitable Vobjectivisme qu il y a analyser a priori et une fois pour toutes les documents on ne tient pas compte du point de vue port travers une recherche qui mod le r organise r value l ensemble des documents le caract re fig du plan de classement hi rarchique qui laisse pr voir sa caducit le partitionnement des documents en une hi rarchie de classes d quivalences avec la difficult et l arbitraire qu il y a pour d terminer le d coupage en niveaux et conjointement le rapport 1 quivalence qui lie les documents l inad quation une trop grande masse d information qui conduit d ailleurs la plupart des syst mes existants s lectionner les documents qu ils int grent En effet des limitations dordre cognitif font qu on ne peut raisonnablement d multiplier ni les niveaux de classement 1 les options chaque niveau 1 le nombre de documents dans chaque classe tout parcours a ses limites 1 2 But Un tat de l art des id es sous jacentes aux outils plut t que des outils eux m mes Soyons donc bien clairs sur les objectifs de cette tude Il ne s agit pas pour nous de faire un banc d essais des outils existants de fa on discerner le meilleur d entre eux
19. people to create pages that maliciously spoof search engines into returning pages that are irrelevant to the search at hand or which rank higher that their relevance or content warrant Common examples of spoofing are duplicating words thousands of times in comments or keywords or icluding large number of invisible words in a tiny font or in the same color as the background color of the page S tant aper u de la chose certains moteurs de recherche ont alors tent d liminer ces documents peu scrupuleux en rajoutant un seuil avec une r gle du genre si un mot cl appara t plus de sept fois dans un document alors celui ci est pr sum coupable de man uvres Mais ceci n est videmment pas infaillible Ces r gles peuvent intervenir plus ou moins t t pour l admission du document dans la base au niveau de l valuation de la pertinence lors du calcul de proximit avec la requ te ou encore tout fait en aval pour l ordre de pr sentation des r sultats 85 Moyennant finance le service assure telle page de sortir dans les toutes premi res pour des sujets la concernant 86 Tout ce paragraphe est largement inspir par Koch 3 Le contexte n est pas toujours bien rep r il arrive de manquer de liens rattachant le document son contexte structurel quand on arrive par un lien externe ou le r sultat d une recherche par index The author often forgets that his her publication when read and
20. puisse ais ment se faire une id e du contenu de chaque document propos qu il comprenne ce qui a motiv la s lection d un document par le syst me notamment pour mieux ajuster sa requ te qu il ait des l ments pour estimer la fiabilit et la repr sentativit des r ponses obtenues qu il puisse garder trace de ses recherches ant rieures La qualit de la documentation en ligne du syst me compte aussi beaucoup pour la bonne interpr tation des r sultats et la re formulation de la recherche Elle est malheureusement tr s in gale la dissimulation plus ou moins ouverte des algorithmes de traitement tant monnaie courante Trois fonctionalit s avanc es retiennent particuli rement notre attention l utilisation d un document comme requ te Excite INFOSEEK GUIDE WEBCRAWLER la recherche par concept Excite et l utilisation de pond rations Excite HotBot Dans tous les cas les principes sont int ressants mais les impl mentations actuelles ne donnent pas pleinement satisfaction D abord il y aurait gagner bien distinguer dans le traitement les requ tes sous forme de mots cl s de celles sous forme de textes Ensuite nous d non ons l amalgame que nous observons entre le QBE Query By Example et le relevance feedback retours utilisateurs De plus la recherche par concepts doit tre d mystifi e pour engager une r flexion sur la d finition et la construction des classes th matiques
21. saisi toute la subtilit entre ces param tres Plourde 2 Plut t que des niveaux de d tail pr d finis on pourrait concevoir que l utilisateur puisse cocher dans un ensemble d informations descriptives disponibles propos celles qui l int ressent pour qualifier les r sultats de sa requ te 18 35 HN 46 96 037 IV B 2 b Documentation technique claire et compl te cf fichiers Help Contextualisation de I 8106 Manuel d utilisation description de la syntaxe description des param tres et options de recherche partir d un sch ma fl ch de I interface cran exemples montrant la forme des requ tes montrant la forme des r sultats expliquant l interpr tation d un r sultat justifiant l utilit des fonctionnalit s cas d application utile m mento r capitulatif des fonctionalit s de recherche Conseils notamment pour la re formulation des requ tes pour gagner en pr cision utiliser avec propos les contraintes sur les accents la casse utiliser des expressions plut t que de mots isol s bien pr ciser sa pens e en explicitant tous les termes viter les termes trop g n raux utiliser les options de recherche notamment les op rateurs d exclusion cf II A 2 e la recherche par syntagme termes compos s cf IL A 2 a trouver des id es de termes appropri s et compl mentaires dans les documents pertinents d j trouv s La qualit de la docume
22. soumission des requ tes labor es et n est qu indirectement acessible depuis la page de soumission des requ tes simples INFosEEK GUIDE fournit ainsi une page qui r sume la syntaxe d interrogation Quick r f rence to syntax sous la forme claire d un petit tableau 5 Conseil r p t s il en est car les habitudes sont de ne lancer qu un ou deux mots cl s Pinkerton a le m rite de faire constater explicitement ce ph nom ne et de vouloir activement le prendre en compte Another factor limiting the precision of queries is that users do not submit well focused queries In general queries get more precise as more words are added to them Unfortunately the average number of words in a query submitted to WEBCRAWLER is 1 5 barely enough to narrow in on a precise set of documents I am currently investigating new ways to refine general searches and to give users the ability to issue more precise queries Pinkerton 77 A notre avis ce conseil doit tre re u avec beaucoup de r serves les exclusions sont dangereuses car souvent trop puissantes et de port e insoup onn e 19 35 HN 46 96 037 pour r duire le silence s assurer qu il n y a pas de faute de frappe v rifier l orthographe des termes notamment les variantes entre anglais britannique et am ricain v rifier la syntaxe de la requ te ajouter des variantes flexionnelles pluriel conjugaison ajouter des va
23. sous jacentes et sur leur mode d utilisation Enfin quand 2 35 HN 46 96 037 l utilisateur peut indiquer lui m me l influence des termes par l interm diaire de pond rations les syst mes de pond ration num rique chiffr e sont peu puissants et portent confusion et les syst mes plus qualitatifs restent d velopper En d finitive les services de recherche par index sur WWW ne mettent pas en uvre de techniques originales ou innovatrices par rapport ce qui tait connu en mati re de recherche documentaire informatis e Cet tat de l art permet n anmoins de faire un point complet des id es efficaces impl mentables grande chelle et op rationnelles 3 35 HN 46 96 037 Sommaire 1 MOTIVATION ET ORIENTATION DE L ENQUETE 1 1 CoNTEXTE LES MOTEURS DE RECHERCHE SUR WWW DES OUTILS APPR CI S 1 2 BuT UN TAT DE L ART DES ID ES SOUS JACENTES AUX OUTILS PLUT T QUE DES OUTILS EUX M MES 1 3 M THODOLOGIE EMPLOY E UNE ENQU TE MINUTIEUSE PARTIR DES DOCUMENTATIONS DISPONIBLES SUR WWW 2 RESULTAT DE L ENQUETE R CAPITULATIF SYST MATIQUE DES PARAMETRES 3 POINTS D APPROFONDISSEMENT 3 1 L UTILISATION DU DOCUMENT COMME REQU TE QBE RELEVANCE FEEDBACK 3 2 LA RECHERCHE PAR CONCEPTS 3 3 LES MODES DE POND RATION POND RATIONS QUANTITATIVE ET QUALITATIVE 4 CONCLUSION 5 BIBLIOGRAPHIE WEBLIOGRAPHIE TH MATIQUE COMMENT E 5 1 COMPARATIFS VALUATION DES SYST MES 5 2 CADRE D
24. Clamart EDF Collection de notes internes de la Direction des Etudes et Recherches Rapport n 97NO00011 EDF 1997 ISSN 1161 0603 Etat de l art des id es impl ment es dans les moteurs de recherche par index sur WWW State of the art of the ideas implemented in search engines on the WWW B n dicte Pincemin Xavier LEMESLE R sum Une dizaine d outils de recherche par index sur le World Wide Web sont tudi s non pour en faire un comparatif mais pour tirer un tat de l art des mod lisations utilis es Les modes de repr sentation des documents et des requ tes de calcul de la pertinence et de visualisation des r sultats sont diss qu s pour r pertorier tous les param tres consid r s et toutes les propri t s des textes exploit es Cet inventaire structur peut alors servir de base a la conception d un nouvel outil de recherche en texte int gral tirant parti de toutes les bonnes id es de syst mes op rationnels et reconnus Il fournit galement une grille d analyse approfondie de tout moteur de recherche documentaire actuel voire un r f rentiel pour un comparatif La Note s adresse donc aux concepteurs de syst mes de recherche documentaire ainsi qu aux utilisateurs qui veulent approfondir leurs connaissances du fonctionnement des outils pour mieux les ma triser et en tirer le meilleur parti En compl ment une s lection de r f rences disponibles sur WWW sont pr sent es Cette
25. II B 1 d normalisation est trouv tel quel plut t qu une de ses variantes 11 8 2 Un document est d autant plus pertinent vis vis d un ensemble de termes que III B 2 a co pr sence il comporte un plus grand nombre de ces termes III B 2 b positions relatives les termes ont des occurrences proches les uns des autres ces termes sont retrouv s dans l ordre de la requ te IV Des r sultats la r ponse IV A Affichage des r sultats et aide l interpr tation IV A 1 Donn es caract risant la requ te appr ciation du volume et de la r partition des documents concern s IV A 1 a Nombre de documents trouv s en r ponse Absolu Relatif rapport au volume total de la base Nombre de documents o apparaissent n termes n 1 2 jusqu au nombre total de termes soumis IV A 1 b Nombre de serveurs comprenant des documents r ponse Absolu Relatif rapport au nombre total de serveurs r pertori s dans la base IV A 1 c Donn es associ es chaque terme de la requ te Nombre d occurrences dans l ensemble de la base Nombre de documents ot apparait le terme Donn es d taill es sur les termes indiqu s comme tant 1 55881 IV A 2 Donn es intrins ques au document pour chaque document s lectionn IV A 2 a Lien actif IV A 2 b Donn es factuelles cf I B 1 IV A 2 c Donn es textuelles br ves cf I B 2 a I B 2 b I C 1 IV A 2 d Donn es et inde
26. ain suffisant en qualit V A 3 b Organisation Centralis e Distribu e r partie 7 Ce peut tre une forme de mise en commun de d couvertes suite une recherche par un autre moteur une navigation etc 0 La strat gie de parcours des liens n est pas neutre un parcours en profondeur d abord sera efficace pour rep rer des documents d taill s et sp cialis s un parcours en largeur d abord favorise une bonne couverture g n rale en recensant plus sp cialement les pages d accueil et en diversifiant les serveurs Il reste que c est dans les deux cas un pari sur la connexit du r seau WWW 8 Un parcours des liens en largeur d abord et qui privil gie la diversification des serveurs peut faire des consultations moins longues aupr s de chacun des serveurs 5 Le moteur de recherche utilis par Harvest Broker GLIMPSE fait le choix de privil gier un petit encombrement m moire au prix d un traitement l g rement plus long Il carte ainsi la solution de l index encombrant et rigide vis vis des fautes de frappe In some sense GLIMPSE takes the opposite extreme to inverted files in the time vs space tradeoff For some applications such as management of personal information speed is a secondary issue Most users would rather wait for 10 15 seconds or even longer for a query than double their disk space We call our method two level searching The idea is a hybrid between full in
27. arges d occurrence des termes puis dans ces zones c est une recherche s quentielle qui est faite telle celle d une commande Unix grep Ce qui est int ressant dans le cadre de notre tude c est l analyse des proc d s de recherche en deux classes s quentiel vs index et la question des recherches sur des cha nes avec variantes fautes d orthographes expressions r guli res 35 35
28. as aux documents qui ne contiennent qu une fraction ou qu un fractionnement de 1 atome Attention au faux ami le mot anglais phrase d signe une expression un mot compos un syntagme groupe nominal bref un petit groupe de mots syntaxiquement troitement li s dans une phrase Souvenez vous que la phrase se traduit elle par sentence 77 Cela est dans certains cas p nalisant En effet une suite de mots tr s communs peut tre elle tr s sp cifique et pr cise et constituer une requ te valable par exemple une recherche de To be or not to be serait refus e par un moteur liminant d embl e les mots vides 13 35 HN 46 96 037 IL A 2 b Qualification des termes de la requ te par l utilisateur Pond ration num rique libre Modes de valorisation importance accord e un terme indicateur de pr sence obligatoire souvent not indicateur d importance de r le pr pond rant Modes de limitation d influence indicateur de caract re secondaire rare not quand ce symbole ne traduit pas l op rateur d exclusion r le simplement dans la s lection r le simplement dans le classement pour la lecture des r sultats II A 2 c Qualification des termes du document par les balises Pr sence dans une zone textuelle nom du document titre descriptif texte ancrage textuel d un lien d une applet Java Pr sence dans une zone descriptive adresse URL d
29. ation sauvage de son aide en ligne amp Les browsers Internet Netscape Mosaic fournissent des messages d erreurs lorsque qu une URL ne peut tre atteinte c est le cas d une indisponibilit momentan e surcharge ou d finitive disparition du lien Le marquage des liens d j activ s par un utilisateur donn est r alis office par les browsers Internet La m me requ te lanc e sur la m me base dont le contenu est inchang redonne les m mes r sultats Dans la pratique il faut savoir cependant que le contenu des bases se renouvelle et grandit sans cesse Play WebRoulette If you re looking for adventure play WebRoulette and Spidey will pull 10 URLs at random from our extensive index You 1l never know what you ll discover WEBCRAWLER 7 Les moteurs de recherche associ s des catalogues classant les documents disposent d une division de leur corpus en domaines th matiques qu ils peuvent utiliser ici 20 35 HN 46 96 037 IV B 3 c Personnalisation sauvegarde d une combinaison des param tres de recherche pour une session au fil des diverses requ tes pour une recherche ult rieure sauvegarde d une configuration en fonction du browser de la puissance de la machine etc IV B 3 d Conservation d une requ te Retour la derni re requ te pour modification affinement Mise en commun des requ tes les plus populaires IV B 3 e R cup ration du
30. ber that these sites and newsgroups simply reflect what is currently available on the Internet These documents are not created or maintained by us at INFosEEK INFOSEEK GUIDE D autres ont cr un indicateur correspondant mais qui suppose un comit de lecture donc une analyse des documents non enti rement automatis e MAGELLAN s Green Light appears next to reviewed sites that at the time of review contained no content intended for mature audiences Sites without the Light are not necessarily objectionable they may simply contain adult topics or unregulated content 25135 HN 46 96 037 3 Points d approfondissement 3 1 L utilisation du document comme requ te QBE relevance feedback Commen ons par citer les passages relatifs ce sujet dans les aides en ligne de chaque outil successivement Excite option More like this The Find similar feature ICE Intelligent Concept Extraction is especially good at finding documents similar to a given document So if you think one of the documents in your result list is close to what you are looking for click the Find similar link next to the title For example if you searched for jordan you would find documents about Air Jordan as well as the country Jordan If you where actually interested in the country click on Find similar next to one of the documents about Jordan country and ICE will find more documents about the cou
31. corpus r sultat Sauvegarde par un marque page ou bookmark pour un d pouillement diff r par exemple Reprise comme nouvel espace de recherche IV C Crit res d valuation sur le plan documentaire IV C 1 Rappel IV C 1 a Influence des caract ristiques du service On observe que pour une requ te quivalente les r sultats des diff rents moteurs se chevauchent sans se recouvrir Contenu et couverture de la base d finit l espace de recherche Codage des donn es et mode de traitement 8 Les moteurs de recherche pour tre accessibles au plus grand nombre de personnes sont conduits prendre en compte la diversit des browsers utilis s comme interface WWW Leur tactique est alors celle qu explique ici HotBot When you connect to the HotBot search engine HotBor will identify your browser software and assess your browser s capabilities HorBor dynamically adapts its output to the capabilities and idiosyncracies of your browser software permitting the use of powerful features while remaining inclusive HotBot Nous n avons pas trouv de possibilit de m morisation de strat gie Cette fonctionalit est la base d un service de Diffusion S lective de l Information une requ te sauvegard e fait office de profil et peut tre relanc e p riodiquement sur la base Le service de DSI proprement parler se relance de lui m me p riodiquement et ne propose que les documents nouv
32. de 4 plut t que de 5 par exemple et de toutes fa ons elles ne sont qu un moyen de calcul tranger la nature linguistique et textuelle des donn es Ces critiques nous invitent rechercher des formes de pond ration plus qualitatives Une fonctionnalit maintenant assez courante des syst mes de recherche est la mise en valeur d un terme en indiquant que sa pr sence est exig e dans les documents r sultats C est souvent le signe accol aux termes requis obligatoirement qui repr sente cette option Mais c est h las peu pr s tout On aurait pu imaginer d autres formes de mise en valeur moins brutales Par exemple cela aurait pu tre le cas de l attribut should dans HotBot Choosing should tells the search engine to place more emphasis on documents which contain the specified word than those which do not The engine will still return documents which don t contain the word or phrase but will rank them lower on the list than those that do HotBot Mais ici should est la seule option possible entre les deux extr mes must et must not il ne s agit donc pas vraiment d une pr f rence marqu e par rapport un autre terme de la requ te qui lui serait neutre On ne fait que retrouver l heuristique selon laquelle plus un document comporte de termes de la requ te plus il est pertinent Une autre mani re de conf rer une certaine importa
33. documents s lectionn s est souvent longue il est utile de pr voir le cas o l utilisateur doit interrompre son travail de d pouillement des r sultats 7 Les bases documentaires classiques style INSPEC par exemple permettent tout fait la reprise de r sultats de recherches ant rieures comme sous parties d une nouvelle requ te Nous n avons pas trouv de telle fonctionnalit sur les outils de recherche sur WWW ALrTAVisTA dans ses requ tes permet cependant qu une premi re quation bool enne d finisse un espace de recherche search field avant de s lectionner prioritairement les documents contenant certains mots donn s les m mes ou d autres ranking field 7 L valuation est d autant plus d licate que l utilisateur ne sait pas toujours tr s bien ce qu il recherche cf Paijmans Les crit res formels sont alors inexploitables La diversit des r sultats d un outil l autre am ne souvent dans la pratique syst matiquement consulter plusieurs services pour disposer de r sultats plus complets Cette strat gie s est traduite par l apparition de m ta services de recherche l utilisateur soumet une requ te celle ci est traduite et transmise diff rents moteurs les r sultats recueillis sont r organis s en une seule liste pour l utilisateur L inconv nient notre avis de ce syst me tel qu il est mis en uvre actuellement c est qu il interdit tout
34. e Ainsi sont r capitul s de fa on syst matique et organis e l ensemble des caract ristiques et fonctionalit s des services actuels de recherche automatis e sur WWW base d index Base de donn es I A Constitution de la base L A 1 Nature des donn es accessibles 1 8 Sources HTML FTP Usenet News Gopher etc L A 1 b M dia technologie de lecture sp cifique images GIF Java VRML Acrobat etc 1 A 2 Vis e exhaustive vs s lective 2 8 Volume capacit L A 2 b Couverture Domaine g n ral g ographique th matique chronologique nouveaut s Strat gie de parcours et de recueil de l information cf V A 2 a visite des liens en largeur d abord diversit des serveurs visite des liens en profondeur d abord documents plus sp cialis s L A 2 c Possibilit de filtrage s lectif param trable L A 3 Mise jour L A 3 a Fr quence Entr e de nouveaut s Corrections modifications Le r seau est tellement immense qu il faut bien se donner une politique de parcours Par exemple celle ci To compile its database WEBCRAWLER surveys the entire Web evaluating the popularity of each site and storing only the contents of pages that seem well traveled or that fill in gaps in the existing database Venditto 9 35 HN 46 96 037 LA 3 b Mode port e sur l organisation de la base Cumulative incr mentale pr
35. e formulation un peu volu e car ne peuvent tre utilis es que les options communes tous les outils on en reste une requ te standard et peu puissante On pourrait concevoir un traitement plus nuanc sans ce nivellement par le bas 21 35 HN 46 96 037 IV C 1 b Type de besoin de l utilisateur Une partie des documents pertinents suffit pour avoir une id e de la tendance g n rale par un apercu repr sentatif obtenir un renseignement donn il suffit de trouver un document fiable le fournissant obtenir des points d entr e sur WWW pour ensuite l explorer gr ce aux liens Avoir tous les documents vision exhaustive recherche syst matique et exhaustive il importe de conna tre chacun des documents IV C 1 c Capacit s cognitives Volume de r sultats norme qui am ne pr f rer une vision s lective plut t qu exhaustive IV C 2 Pr cision IV C 2 a Vision d ensemble synth tique P les documents centraux par exemple si on soumet le nom d une personne sa page personnelle ou le nom d une entit sa page d accueil homepage IV C 2 b Vision pointue analytique Documents les plus sp cifiques un sujet IV C 3 Rapidit de convergence IV C 3 a Changements significatifs sensibilit de l indexation IV C 3 b Changements dans le bon sens interpr tabilit et pr dictibilit des r sultats V Annexe ce qui est li au contexte applicatif V A Politique de gest
36. e calcul qu il faut mobiliser pour ce genre de requ te combinatoire lev e des possibilit s tester 14 35 HN 46 96 037 Op rateurs conjonction disjonction AND OR exclusion n gation NOT parfois not proximit NEAR param trable distance en caract res par exemple n 80 distance en mots par exemple n 10 ou 100 appartenance un m me champ titre descriptif etc appartenance un m me paragraphe appartenance une m me phrase ponctuation ordre FOLLOWED BY ici adjacence II B QBE query by example 11 8 1 A partir de documents de la base ILB 1 a Feed back partir de la liste des r sultats conservation du point de vue de la requ te initiale Utilisation d indications th matiques pr alablement associ es au document Utilisation des liens en fonction de leur ancrage textuel pour ajouter certains documents cit s l espace de recherche Utilisation du texte contexte des mots ayant contribu la s lection du document IL B 1 b Rebondissement partir de la liste des r sultats lancement d une nouvelle requ te partir d un document trouv Utilisation du texte cf II B 2 donn es textuelles br ves cf I B 2 a I B 2 b I C 1 IL B 2 A partir d un texte tap ou coll comme requ te ce texte n est pas n cessairement r f renc dans la base on dispose donc a priori de moins de donn es IL B 2 a Traitement identique
37. e de la pertinence m me si je ne l explicite pas 28 35 HN 46 96 037 seule finesse peut tre pr vue c est la possibilit pour un mot d appartenir a plusieurs classes traduisant ainsi des ph nom nes de polys mie ou d homonymie On peut imaginer que une fois ces classes construites le traitement d une requ te est assez sommaire chaque terme renvoie la ou les th matique s associ e s ce qui permet de passer d une requ te par mots une requ te par th mes ou concepts On n glige ou vince les alternatives th matiques qui s cartent de la th matique dominante op rant de la sorte une certaine d sambigu sation Les mots de cette th matique dominante ceux qui apparaissent dans le texte mais aussi les mots voisins appartenant la m me classe lue prennent alors un r le pr pond rant dans le calcul de la pertinence Le passage par les classes th matiques explique donc la possibilit de retrouver des documents dans lesquels aucun terme de la requ te initiale n appara t de m me que la d sambigu sation contextuelle op r e Computationnellement parlant le proc d est aussi avantageux puisqu il permet de passer d un espace des termes 8 n dimensions n nombre de termes d index un espace des concepts m dimensions m nombre de classes avec m lt lt n L id e si elle n est pas nouvelle est astucieuse Il est dommage d en masquer la simpl
38. e the same sort of analysis as acomplished by Latent Semantic Indexing but much more efficiently There are various methods of building concept based indices some of which are highly complex relying on sophisticated linguistic and artificial intelligence theory that we won t even attempt to go into here Excire sticks to a numerical approach Excite s software determines meaning by calculating the frequency with which certain important words appear When several words or phrases that are tagged to signal a particular concept appear close to each other in a text the search engine concludes by a statistical analysis that the piece is about a certain subject Barlow La recherche conceptuelle est s duisante de prime abord Elle correspond 4 cette id e que l analyse linguistique doit jouer sur deux plans pour retrouver partir de la forme de surface la repr sentation profonde de ce qui est exprim Les concepts exprimeraient le contenu m me de l information communiqu e alors que la recherche sur quelques mots susceptibles d apparaitre dans le texte touche tr s vite a ses limites avec les ph nom nes de synonymie de polys mie d implicite Qu en est il concr tement de ces concepts si prometteurs A savoir comment sont ils mis en uvre et travers cette mod lisation que repr sentent ils que signifient ils par construction Les concepts d Excire semblent tre tou
39. eaux depuis la derni re interrogation INFOSEEK Gume dans sa rubrique Your News personalize propose un service approchant non pas pour une requ te par mots cl s mais pour le choix individuel d un petit nombre de rubriques dans une liste recherche de type catalogue et non index tout moment l utilisateur acc de ainsi directement la derni re mise jour sur les sujets qu il a pr s lectionn s par exemple le cours de la Bourse pour telle et telle entreprise 70 Open Text INDEx entretient une sorte de palmar s des requ tes et des documents r sultats correspondants Do you keep track of what people search for We keep track of which words are searched for most often and which pages show up as results most often We thought this information was so cool that we decided to publish it on the Web so you can read it too You can read our WebPulse page which is updated every business day OPEN TEXT INDEX Derri re l interrogation de l utilisateur on pourrait aussi lire une inqui tude quant au caract re priv et la discr tion souhait e pour ses requ tes personnelles Ce genre de souci sera temp r du fait de l automatisation des syst mes de recherche et du volume de donn es manipul es l information personnelle est tout simplement noy e dans la masse 1 peut davantage tre pr sent dans le cas de petites bases d acc s limit 7 Une recherche peut demander du temps et la liste des
40. ed electronic distribution of informations and documents The DECID team is building a document routing system for selective dissemination of information throughout EDF Research Centre HN 46 96 037 Synth se Les principaux services de recherche sur WWW ALTAVISTA EXCITE Harvest HOMEPAGE BROKER HotBot ex INKTOMI INFOSEEK GUIDE Lycos MAGELLAN OPEN Text INDEX WEBCRAWLER WWW Worm sont analys s partir de la fa on dont ils se pr sentent l cran de leur description notamment dans l aide en ligne et de leur comportement Ceci a permis de faire une typologie des param tres jug s utiles par les concepteurs et les utilisateurs avec la mani re de les utiliser efficacement Quatre phases sont prendre en compte chacune tant d terminante pour la qualit des r sultats la constitution de la base avec la description interne des documents et notamment de leurs parties textuelles 1 faut souligner que l appr ciation d un service d pend consid rablement de la qualit de ses donn es et de sa couverture le mode de soumission et la mise en forme d une requ te Il y a deux choix de conception quelles formes peuvent prendre les termes l mentaires de la requ te et comment ils sont articul s En ce qui concerne la forme des termes 1 faut consid rer d une part la gestion des variations linguistiques lemmatisation et r duction d rivationnelle en morphologie et syntaxe r duction conc
41. elancer la recherche Cependant tout n est pas aussi simple qu il n y para t pour la suite des op rations du moins Une requ te texte n est pas de m me nature qu une requ te par quelques mots cl s Elle fournit a priori plus de termes de recherche d o souvent l impact de la longueur du document De plus ces termes se comportent diff remment de mots cl s choisis la plupart pris individuellement sont moins pr cis moins centr s sur le sujet moins directement informatifs mais lorsque les termes sont consid r s ensemble ils se d sambigu sent r ciproquement et d crivent plus compl tement le sujet et son contexte On comprend donc que l utilisation de QBE est d licate pour tre int ressante 1l convient de pr voir un m canisme adapt sp cifique pour la construction de la requ te partir du texte Peu d tudes ont t men es sur les requ tes texte aussi les syst mes existants sont ils tent s d appliquer au texte les m mes proc dures qu aux mots cl s Dans de tels cas les r sultats obtenus ont t si peu satisfaisants que la fonctionnalit QBE a t purement et simplement supprim e c est sans doute ce qui est arriv pour Open Text De m me la qualit des r sultats de QBE pour Excite et INFOSEEK Gume reste controvers e ces services veulent ils tout prix garder cette fonctionnalit rare et distinctive au risque de d cevoir les utilisateurs ou se m
42. epose donc sur une collection d indices et une bonne connaissance du domaine applicatif Ceci serait il une extrapolation ambitieuse ou audacieuse Peut tre pas tant que cela il nous importe moins de retrouver les formules de calcul exactes qui de toutes fa ons restent un gt La pr sentation de Lycos s est consid rablement d grad e au cours de la r daction de cette tude Au d but nous avons pu trouver quelques pr cieux renseignements cf IV B 1 b et note propos du seuillage en particulier dans les FAQ cf IV B 2 b Maintenant toute la documentation s est r duite une peau de chagrin concr tement deux pages fanfaronnes sans r elle valeur informative Car o est donc la pr tendue aide contextuelle Do not be alarmed on the Lycos site you will not find a FAQ What you will find in place of the highly impersonal dissatisfying frequently asked questions list is a feature we understately call Help At any time click on the Help button on the left menu of any Lycos screen and you ll find tips on getting what you want immediatly based on where you are in the site We like to think of it as less FAQ more YAQ your answered questions Tl est vrai que WWW Worm fait figure d anc tre des moteurs de recherche sur WWW et ne comporte pas sp cialement de fonctionalit s labor es gt WesCraw er fait remarquablement exception Cf Pinkerton et notre commen
43. eptuelle en s mantique et d autre part l apport de pouvoir faire des recherches sur des syntagmes mots compos s expressions Quant l articulation ensuite des termes composant la requ te l utilisation d une syntaxe formelle par exemple bool enne peut tre vue comme contraignante par les tenants des interfaces en langue naturelle ou au contraire comme permettant une interrogation plus pr cise et plus puissante combinaison d op rateurs pond rations Un juste quilibre est trouver pour respecter les habitudes d interrogation sans pour autant niveler par le bas en s interdisant des options plus complexes mais efficaces l valuation de la pertinence La pertinence est de moins en moins comprise comme une grandeur binaire c est tout fait pertinent ou a ne l est pas du tout on lui associe plut t une valeur sur une chelle continue traduisant un jugement gradu c est plus ou moins pertinent Le calcul de la pertinence combine en g n ral des donn es sur la fr quence la position et le caract re discriminant des termes de la requ te et sur la proximit des occurrences des uns et des autres la pr sentation des r sultats et l ergonomie du syst me Le volume de documents potentiellement pertinents est souvent norme Pour que le r sultat soit exploitable il faut que l utilisateur puisse ajuster le volume de r f rences d pouiller seuillage tri qu il
44. essairement issu d une requ te ant rieure le relevance feedback se con oit comme inscrit dans une strat gie de recherche strat gie se d ployant a partir de la requ te initiale et non pas amn sique 27 35 HN 46 96 037 3 2 La recherche par concepts Excite est actuellement et il s en flatte le seul moteur 8 proposer une recherche par concepts Voici ce qu il en est dit Excire s search technology Central to the technology used by Excite is the method of Intelligent Concept Extraction TM or ICE searching This technological breakthrough 15 the result of significant revisions to Excrre s highly successful proprietary concept based technology Using our own advanced statistical algorithms we are able to find and score documents based on a correlation of their concepts as well as actual keywords In effect this method equals the dramatic improvements in both Recall and Precision achieved by Latent Semantic Indexing but uses an entirely different technology which is far less demanding in computational power and therefore both rapid and scalable Most users who have compared a variety of services agree that Excite is the clear leader in correctly discovering and ranking relevant documents even if they fail to contain original keywords While the detailed operation of our patent pending technology is confidential Excite uses proprietary techniques that allow us to achiev
45. ettent ils d velopper des modes de caract risation des textes pour am liorer leur offre actuelle Reste enfin pr ciser la distinction entre QBE et relevance feedback le QBE permet de prendre un texte en guise de requ te Mais pourquoi en rester aux textes des documents fournis comme r sultats d une requ te ant rieure Il peut tre int ressant de soumettre le texte que l on veut en faisant un copier coller dans une fen tre de requ te pr vue cet effet en donnant une adresse http etc le relevance feedback d signe les proc d s permettant de prendre en compte l valuation des r sultats par l utilisateur Suite une proposition de documents en r ponse a une requ te il s agit d affiner la recherche en retrouvant d autres documents du m me style que ceux jug s effectivement pertinents et ou en cartant des propositions analogues celles des documents rejet s Mais garde t on bien comme base de la nouvelle requ te la requ te initiale qui indique le theme central de la recherche Il semble au contraire que dans les syst mes tudi s la relance de la recherche par l interm diaire de documents se comporte comme une recherche ind pendante ne s inscrivant pas part enti re dans l laboration d une strat gie de recherche L amalgame entre QBE et relevance feedback a on le voit appauvri ces deux fonctionnalit s le QBE doit pouvoir consid rer un document non n c
46. eturning your results Normally Excire assumes all the words are equally important The downside None really except that using weights on a lot of words can get cumbersome and you may supress good results if you are not careful La premi re chose a remarquer c est que sauf explications d taill es utilisation de pond rations num riques est ambigu car il y a plusieurs mani res de l interpr ter Donnons diff rentes propositions toutes vraisemblables Le passage des mots occurrences aux concepts est un double mouvement de r duction et d expansion La r duction est celle qui fait que n mots diff rents se retrouvent tiquet s par un m me concept la donn e du concept ne permet pas de savoir quels taient ses repr sentants effectivement pr sents dans le texte 18 r duction op re une perte d informations elle rend donc la proc dure irr versible Mais le passage aux concepts effectue en m me temps une expansion le concept permet de prendre en compte non seulement les termes utilis s par l auteur dans le texte mais aussi tous les mots voisins reformulations vari es pour la m me th matique 29 35 HN 46 96 037 premi re proposition les poids ont valeur de cardinaux relatifs Ainsi en adoptant les notations de Excite a42 b 4 c410 est quivalent a b 2 c 5 seul importent les rapports des poids deux a deux deuxi me proposition les poids ont valeur de cardinaux absolus En rep
47. eut utiliser des caract res jokers il est alors d usage que ceux ci ne recouvrent pas de blanc espacement Ainsi Regular expressions will generally not cross word boundaries because only words are stored in the index So for example lin ing will find linking or flinching but not linear programming HARVEST BROKER 7 Par exemple ALtaVista propose la notation avec la port e suivante The notation cannot be used witout restriction To make such queries computationally feasible ALTAVISTA requires that the be used only after at least three letters The notation will match from zero up to five additional letters in lower case only Capital letters and digits will not therefore be matched 2 Selon les contextes applicatifs on peut pr voir diff rents types d erreurs qui seront corrig es par des strat gies diff rentes par exemple faute d orthographe proprement parler mauvaise retranscription d une information phon tique faute de frappe inversion omission redoublement ou ajout de caract re influence du voisinage des touches sur le clavier mauvaise reconnaissance optique du caract re dans le cas d une acquisition par OCR Voir notamment Manber 3 Option originale propos e par Harvest BROKER Number of errors allowed Glimpse Harvest Broxer s search engine allows the search to contain a number of errors An error is either a deletion insert
48. g tout en tant dans le cadre d une aide en ligne il ne s agit pas d un article scientifique mais d un document dont le ton g n ral est beaucoup moins sympathique que celui de Pinkerton L Intelligent Concept Extraction ICE utilis dans Excrre seul service 8 revendiquer une telle indexation conceptuelle est lourdement vant qui plus est avec des formulations creuses impr cises ou nimb es de myst re C est d cevant Les principes sous jacents sont tout juste d codables par les lecteurs experts dans le domaine Cette volont manifeste de ne pas communiquer d information sur la strat gie appliqu e appara t encore dans l acc s cette page tr s indirect et difficile trouver depuis la page de lancement des requ tes Excrre Reste une pr sentation synth tique des mod les de r f rence employ s pour la recherche documentaire automatis e l expos a alors des qualit s p dagogique videntes m me s il reste un peu grossi rement orient D o finalement trois raisons de le retenir dans notre Webliographie nonobstant nos reproches 1 son tat de l art l gant 11 son positionnement strat gique comme document 16 plus informatif sur l indexation conceptuelle pratiqu e par Excite pour l instant unique en son genre sur WWW iii son exemplaire dissimulation d information PINKERTON Brian 1994 Finding what people want Experiences with the WEBCRAWLER http
49. h tique d une s rie de variantes ce n est donc pas la d gradation progressive de la pr cision C est pourtant la vision que voudrait donner Oren Text INDEX cf IV C 1 c If your search is in English search for both British and American spellings For example you could search for labour OR labor OPEN Text INDEX En g n ral il s agit de ne pas confondre les guillemets simples et doubles et et de ne pas dissocier les ventuels op rateurs unaires et des termes sur lesquels ils portent pas de blanc Le ton y est informel On y trouve m me quelques pointes d humour par exemple chez HorBor My browser crashed what did HorBor do HorBor s generally a good fellow It s unlikely he caused you any harm HorBor follows several rules such as the Standard for Robot Exclusion cf V A 2 b Rumors of HotBot eating children are greatly exagerated HorBor didn t return queries in the order I wanted why Although we have tried to create a ranking formula that will display our results in a meaningful order we can t always know what you are thinking Mind reading will be included in Version 3 0 Par exemple In the spirit of exploring and charting new worlds MAGELLAN takes its name from Ferdinand Magellan a Portuguese explorer who navigated the Strait of Magellan in 1520 Lycos avait aussi une jolie explication mais qui est devenue introuvable depuis la mutil
50. he best ways to avoid the spamming problem without overt penalties might be to give more weight to a page s popularity A page with lots of links to it is in effect ranked by those across the web Good pages get lots of links bad pages don t Sullivan Les balises SGML qui les rep rent sont des m ta tags Le texte donn entre ces balises d crit le document pour qu il puisse tre catalogu correctement il n est pas affich quand on visualise le document lui m me 10 35 HN 46 96 037 I C Traitement et codage des donn es textuelles r duction I C 1 S lection d extraits repr sentatifs rep r s automatiquement I C 1 a Vocabulaire concepts Les n mots les plus fr quents avec leur fr quence par exemple n 100 Zone d ancrage textuel des liens hypertextes I C 1 b R sum automatique par extraction D but du texte les n premi res lignes n 20 ou n min 20 20 par exemple les n premi res phrases rep r es par la ponctuation D but et fin de paragraphes cl S lection de phrases comprenant la plus forte densit de termes saillants L C 2 Elimination de mots vides I C 2 a Crit res formels sur la cha ne de caract res Mots de 1 ou 2 lettres Cha nes de caract res comprenant autre chose que des lettres 1 C 2 b Crit res linguistiques Syncat gor matiques mots grammaticaux donn s dans une liste 1 C 2 c Crit res documentaires Mots l
51. herche par groupe de mots ou syntagme phrase en anglais Elimination des mots vides impossible l utilisateur doit pr voir par exemple des variantes de pr positions possible partielle la position et le nombre des mots vides sont conserv s 1 mot vide 1 joker totale impos e partielle la position et le nombre des mots vides sont conserv s 1 mot vide 1 joker totale If you capitalize adjacent names without using commas to separate them INFOSEEK Guine treats the words as a single name INFOsEEK GUIDE HorBor utilise une grammaire un peu plus labor e nous avons juste chang le nom pris en exemple pour que l explication soit plus claire The Search the Web for a person search option uses a limited proximity search to find the most possible matches For example a three word name like JOHN A SMITH will match the following phrases JOHN A SMITH JOHN SMITH SMITH JOHN A two word name like JOHN SMITH will match the following phrases JOHN SMITH SMITH JOHN Nous utiliserons par la suite le mot terme dans ce sens savoir pour d signer les mots ou les groupes de mots pris comme une seule expression sur lesquels s effectuent les recherches l mentaires et qui sont ensuite ventuellement combin s dans une quation bool enne ou pseudo bool enne Ce sont bien des atomes de recherche au sens tymologique puisqu on ne les d compose pas on ne s int resse p
52. i s au type de document par exemple ici WWW Mots li s au domaine de la base 1 C 3 Regroupement 1 C 3 a Typographique Distinction de casse minuscules et majuscules sont confondues minuscules et majuscules sont distingu es pour toute cha ne de caract res possible option explicite pour l ensemble de la requ te pour chaque terme de la requ te impos pour les cha nes m lant les deux casses pour les cha nes tout en majuscules pour les cha nes o il y a au moins une majuscule pas en premi re position Accentuation et autres diacritiques les accents sont neutralis s les accents mis un terme de requ te sont pris en compte Ponctuation tous les signes sont confondus et quivalents au blanc notamment le tiret les points dans les sigles en majuscules sont retir s et les lettres recoll es 1 C 3 b Flexionnel lemmatisation en g n ral sommaire au moyen d une liste de terminaisons standard pluriel conjugaison Identit on n glige les variantes en ramenant tout au type reconnu Equivalence on garde en m moire la forme fl chie 13 Ce sont les mots sur lesquels on peut cliquer La pr sentation HTML standard les affiche en bleu soulign 14 Quoique la documentation des applications utilisant cette tactique ne fournisse aucune explication concernant la d finition d une ligne car il n y a pas de notion de ligne en HTML note Plourde S L encore videmment peu d
53. icit derri re l appellation pompeuse de recherche conceptuelle D autant que les problemes les plus int ressants r sident dans la mani re de construire et d utiliser les classes th matiques et que cela n est peut tre pas si au point que cela dans les syst mes actuels 3 3 Les modes de pond ration pond rations quantitative et qualitative Excite se d marque encore des autres moteurs de recherche en proposant depuis peu l introduction de pond rations quantitatives EXCITE Avanced Excite search features Increasing a word s weight with By adding a symbol and a value to the end of a word you can increase it s weight relative to the other words in the search and move documents containing it higher in the results list Example search dog care grooming 3 Using the symbol to increase a word s relative weight What it does Excite will view the word as more important to you in deciding what results to return to you How to do it Just follow the given words with 8 symbol and the relative weight value This can be any number as the values will be relative to each other No value of course assumes a value of 1 For example college 3 footbal scores 6 will look for pages that contain those words with an emphasis on college and an even heavier emphasis on scores What s different about it Excite uses the weights to determine what info is most important to you in r
54. indexed is mostly torn out of its context and that title and other metadata and sometimes even large parts of the text ought to consider this fact The original context will not always be possible to reconstruct from the fragments shown in the search service Koch 88 Tl n y a videmment pas de multilinguisme au sens o l on utiliserait un module de traduction automatique Ce dont il s agit c est de pouvoir calculer les documents proches d une requ te formul e en n importe quelle langue les documents retrouv s du fait de l utilisation de l analogie entre les mots de la requ te et ceux des documents seront le plus souvent de la m me langue Ce multilinguisme n est peut tre pas aussi crucial qu il n y para t car la grande majorit des documents sur WWW est en anglais langue de l international 24 35 HN 46 96 037 V B 3 Int r t du contenu V B 3 a Port e Int r t personnel Int r t local par exemple document de travail interne 4 une quipe Int r t de courte dur e V B 3 b Lectorat public vis Indicateurs pour les documents r serv s un public adulte Comme dans la presse il y a sur WWW un nombre significatif de documents de moralit ou de d cence discutable Certains s empressent de d cliner toute responsabilit Note that some search results might contain adult oriented material or material that you may find objectionable in nature Please remem
55. ion or substitution of a single character The Best Match option will find the match es with the least number of errors The default is 0 zero errors 12 35 HN 46 96 037 Descripteurs libres vision linguistique recherche modulo les variantes de r duction lemmatisation mots vides impossible l utilisateur doit d crire toutes les variantes s il les veut possible terme a terme globalement pour l ensemble des termes impos l information des formes originales des occurrences n a pas t gard e pour le traitement recherche modulo d autres r gularit s morphologiques particuli res nom propres de personnes ellipse du nom ou du pr nom utilisation d initiales ventuellement celle d un second pr nom inversion de l ordre dans une bibliographie par exemple recherche modulo des associations conceptuelles impossible l utilisateur doit penser aux divers synonymes possible pour chaque terme ind pendamment globalement pour l ensemble des termes impos les termes originaux ont t remplac s par les concepts II A 1 b Terminologie ferm e correspond plut t l approche compl mentaire par catalogue classement o les documents sont rep r s par rapport un ensemble de rubriques d termin es IL A 2 Syntaxe IL A 2 a S parateurs d finissant les termes atomes de recherche Le caract re blanc d espacement d finit les unit s recherche par mot Possibilit de rec
56. ion de la base V A 1 Accessibilit V A 1 a Large V A 1 b Libre ou contr l e 7 C est exploiter le fait que l on pointe sur une structure maill e sous jacente l espace de recherche et m me le d bordant 7 D o l argumentaire de Open Text INDEX Can I do fuzzy searching with the Oren Text INDEX Fuzzy searching is a way of expanding the results of a search This isn t usually necessary if you use the Open Text Inpex You re more likely to find too much information than not enough We focus instead on helping you refine your search OPEN TExT INDEX cf aussi IV B 2 b les conseils pour r duire le silence et note 7 Vu la masse consid rable de donn es d une part et l habituelle pauvret des requ tes d autre part elles se r duisent quelques mots pas toujours tr s bien choisis la pr cision reste difficile assurer elle pourra tre tr s in gale notamment en fonction de la couverture de la base dans le domaine du th me recherch Koch va jusqu d noncer le peu de cas fait la recherche d une bonne pr cision The services are in general set up for high recall Instruments raising precision like for instance relevance feedback by Excite or not functioning correctly as by Open Text Inpex find similar or vocabulary control are seldom used One service Excite offers query expansion as default in this case called concept search This option is howeve
57. ique p re document citant fils document cit comme envisag e par l article ne serait videmment pas suffisante des documents peuvent se citer r ciproquement un document peut tre cit par plusieurs autres etc et la repr sentation de tous les liens risque de mener une visualisation peu lisible en raison de la surcharge et de l intrication des liens Une solution l gante exp riment e dans le cadre de la Biblioth que Electronique projet EDF DER IPN SID est de ne rendre visible les liens que sur demande pour un document point par l utilisateur 17 35 HN 46 96 037 IV B Maniabilit notamment dans la perspective affinement de la recherche par it rations IV B 1 Volume transmis IV B 1 a Rapidit du calcul et de la transmission des r sultats Pas de d gradation des performances avec la mont e en volume scalability Indicateur de la charge du serveur IV B 1 b Gestion de la surcharge Surcharge pour le traitement ou le transfert des fichiers pr sentation des r sultats par tranches transmission de fichiers de taille raisonnable possibilit d interruption de la recherche option avec sans images Surcharge cognitive pr sentation ordonn e avec en premier les documents a priori les plus utiles seuillage nombre de documents propos s valeur suffisante de l indicateur de pertinence filtre chronologique absolu rep re ponctuel avant apr s telle date rela
58. ire On voit clairement que la seconde forme est moins l gante ce qui pourrait expliquer qu un op rateur de type FOLLOWED BY pour signifier l adjacence soit effectivement rarement propos La distance en mots sert souvent g rer l adjacence distance nulle et l appartenance un m me syntagme distance de l ordre de 0 1 2 mots L appartenance un m me syntagme requerrait de tr s grosses ressources en termes d outils linguistiques pour tre trait e proprement avec un point de vue syntaxique 3 Nous n avons trouv nulle part la possibilit d indiquer simultan ment plusieurs documents la requ te est relanc e partir d un seul document La richesse lexicale des textes aide pallier l absence de vocabulaire contr l en effet consulter un certain nombre de documents sur le sujet recherch inspire pour enrichir et pr ciser la requ te initiale avec d autres termes voisins auxquels on n avait d abord pas pens L enjeu est de retrouver cette strat gie dans un traitement automatis 15 35 HN 46 96 037 HI B 1 b fr quence aun grand nombre d occurrences dans le document aun grand nombre d occurrences par rapport a la longueur totale du document n est pas un hapax dans ce document une seule occurrence 1 8 1 position est proche du d but du texte est dans une zone significative par exemple titre gt mots cl s gt texte int gral I
59. ise moyennant finances pour g rer des fonds documentaires priv s En revanche des services professionnels plus sp cialis s commerce finances technique monayent l acc s leur donn es INFOSEEK GUIDE par exemple d cline ces deux types d offre Dans l ensemble les services de recherche tendent en fait perdre leur caract re d sint ress les outils initialement propos s par des quipes de recherche universitaires ont t rachet s ou sont c d s via des licences Pour que les int r ts commerciaux ne gouvernent pas l ensemble des services du WWW des initiatives publiques se font jour cf par exemple le projet europ en DESIRE Koch DECID est un acronyme pour Diffusion Electronique Cibl e d Informations et de Documents Tout agent responsable d ARD AID la DER est caract ris par un profil d fini automatiquement partir de textes descriptifs de son activit textes d ordonnancement Un calcul de similarit entre textes permet alors de retrouver les agents a priori les plus concern s par un document donn La m me technique est appliqu e pour constituer le Qui Fait Quoi annuel Les trois piliers fondamentaux qui caract risent l approche DECID sont 1 automatisation de la construction des profils et des calculs de proximit ii la caract risation des profils aussi bien que des documents partir de texte int gral iii la vision des profils formant une base et non
60. ise en compte seulement de ce qui change impact local G n rale r organisation de toute la base impact global des changements 1 A 4 Entretien 4 8 Elimination des liens p rim s inactifs dead links LA 4 b D doublonnage groupement des r f rences multiples pour un m me document Versions successives Copies sur diff rents serveurs Variantes d adresse du serveur aliases LB Descriptif intrins que du document Nous ne d crivons pas le cas de donn es standardis es o chaque auteur de document remplit sp cialement pour la base un formulaire descriptif fourni cf par exemple ALIWEB L B 1 Donn es factuelles recueillies 1 8 1 8 Adresse Site localisation du serveur telle universit tel centre de recherche Zone g ographique pays Adresse s alternative s autres versions du m me document doublons LB 1 b Date donn es temporelles Auteur date d dition ou de derni re modification fr quence habituelle de r vision Base du moteur de recherche date de rep rage enregistrement par le moteur pour indexation date d int gration la base dans l espace de recherche fr quence habituelle de visite pour mise jour Lecteurs nombre de visites fr quence d acc s la page LB 1 c Taille du fichier LB 1 d Liens hypertexte Documents citant nombre de liens pointant sur le site r f rence adresse de documents citant Documents cit s r f rence adresse
61. let et plein de bon sens souvent donn en r f rence Dans un style r dig et construit il souligne les caract ristiques les plus saillantes de chaque moteur du point de vue de l utilisateur c est agr able a lire et instructif sans avoir une approche tr s syst matique L argumentaire est bas sur l analyse des r sultats de trois requ tes NBC tr s grande entreprise donc appara t dans beaucoup de documents mais pas toujours avec la m me pertinence Steve Forbes homme politique am ricain actuel donc requ te sensible aux mises jour par exemple pour trouver son dernier emploi du temps Internet access via satellite requ te o plusieurs concepts sont en relation Winsuip Ian R 1995 World Wide Web searching tools an evaluation http www bubl bath ac uk BUBL IWinship html Les moteurs de recherche sur WWW sont ici tudi s au regard des fonctionnalit s offertes par les grandes bases documentaires sur CD ROM Bien que ce document commence 8 dater juin 95 une bonne part des remarques restent tout a fait pertinentes Ainsi il pointe avec justesse les principales d faillances des interfaces propos es D autre part les tableaux comparatifs fournissent une bonne base de crit res quilibr e et organis e Enfin le choix des requ tes d valuation est astucieux une requ te tr s pointue une autre dans un domaine non acad mique une troisi me pour un sujet non am ricain L
62. nce un terme est de lui donner un r le renforc dans le classement des r sultats retourn s cf IV A 4 c De m me si on a affaire un texte et que les termes sont pond r s par leur nombre d occurrences les termes d occurrence 1 dits hapax peuvent tre consid r s comme accidentels par rapport au sujet du texte D ailleurs le fait d avoir un terme hapax pour les d signer sp cialement montre bien qu on leur accorde un statut bien particulier Tl n y a pas de mani re unique et vidente de d finir un ordre sur les classes de r sultats car on a en fait deux ordres totaux concilier et quilibrer celui du nombre de termes pr sents et celui de la valeur des poids Par exemple quand on aurait une requ te de la forme a e43 donnera t on d abord un document qui contient a b et c ou un document qui ne contient que e 30 35 HN 46 96 037 Ces questions de modulation de l importance accord e un terme autrement que par le biais de pond ration chiffr e arbitraire relative mais aveugle monodimensionnelle serait une piste creuser davantage cela d velopperait la notion de pond ration qualitative par opposition un syst me purement quantitatif On voit cependant que cette piste n est qu peine explor e par les outils actuels 31 35 HN 46 96 037 4 Conclusion L utilisation courante de moteurs de recherche sur WWW r v
63. ndexation des documents l utilisateur soumet au syst me l objet de sa recherche sous forme d une requ te Le syst me propose alors des documents susceptibles d y r pondre sur la base de mots cl s les caract risant 165 outils type r pertoire donnant acc s aux documents par l interm diaire d un catalogue th matique chaque document est pr alablement class dans une ou plusieurs rubrique s la recherche d une information se fait en parcourant l arborescence du plan de classement en partant des rubriques g n rales et en cernant peu a peu le sujet concern Nous faisons le choix de nous int resser uniquement aux outils bas s sur l indexation En effet pour diverses raisons que nous ne d velopperons pas ici l autre formule celle d un catalogue th matique ne convient pas dans l optique du syst me DECID Pour mention voici n anmoins un aper u des arguments qui peuvent opposer index et r pertoire dans certaines applications avec les points en d faveur de la forme r pertoire la conception normative de l espace de recherche la structure est fix e et impose un d coupage particulier de la r alit d crire Elle est t t ou tard confront e a des Les outils g n ralistes sont d utilisation gratuite ils vivent des publicit s ins r es dans leurs pages Ils font aussi parfois office de d monstration d une technologie par ailleurs pouvant tre acqu
64. ntation du syst me est essentielle elle conditionne sa bonne utilisation Elle a bien des r les indiquer la mise en forme d une requ te guider dans l utilisation des options expliquer comment interpr ter les r sultats retourn s donner des orientations pour am liorer ou affiner les r sultats c est dire qu elle est importante tous les stades de la recherche La documentation pour les services de rep rage aide les utilisateurs atteindre deux objectifs Le premier est d valuer la pertinence de la base c est dire sa nature objets r pertori s ses objectifs son autorit etc Le second est la ma trise et l utilisation efficace des services de rep rage et la v rification du comportement de ces services obtient on les r sultats escompt s Plourde La documentation pour les services de pr sentation des r sultats assiste l utilisateur interpr ter correctement les r sultats Par exemple plusieurs outils de recherche offrent un classement des r sultats obtenus selon leur pond ration par rapport la requ te de recherche Malheureusement peu d entre eux expliquent le calcul de cette pond ration Plourde If you understand how search engines organize information and run queries you can maximize your chances of getting hits on URLs that matter Barlow Par exemple l information sur la mise en forme des requ tes labor es est la premi re accessible depuis la page de
65. ntry and none about the basketball star Find similar documents So you ve found the perfect page and now you want more Most other search engine would make you re type your query manually picking out terms to describe your document With Excire s Query by Example you can avoid the extra steps and look for similar pages with a single click Query By Example When a user finds a document that contains relevant information he or she may logically wish to use this information for additional searches To automate this process excite provides a means to click on the document itself and use its entire contents as search parameters to locate similar documents INFOSEEK GUIDE Find pages similar to a listed page If you see a page that you re interested in you can search for similar pages by clicking Similar pages INFosEEK Gume uses information about the selected page to search for other pages with similar content Clicking on Similar pages will search all web pages categorized and uncategorized This takes you outside of the collection of INFosEEK Select pages OPEN TEXT INDEX option Find similar pages What types of searches can I do with the Oren Text Inpex You can search for pages similar to the first L algorithme est simple et repose sur le nombre d occurrences de mots pr sents dans le document Plourde WEBCRAWLER option Find similar pages
66. o be of greater significance Winship 8 35 HN 46 96 037 2 R sultat de l enqu te r capitulatif syst matique des param tres Ce chapitre constitue le c ur de la note il fait la synth se de l ensemble des id es recens es Nous avons organis ces id es selon un plan lui m me porteur de sens puisqu il met en vidence et structure les unit s de d cision ou de traitement des moteurs de recherche Les parties I IL IL IV s encha nent de fa on chronologique chacune suppose r alis es les op rations d crites par les pr c dentes La premi re partie s int resse la constitution de la base fonds documentaire sur lequel s effectue les recherches elle peut ne concerner que des traitements en mode batch elle s oppose en cela aux parties suivantes IL III IV qui s articulent autour du traitement d une requ te sur un mode interactif temps r el Les parties se divisent ensuite en chapitres A B C etc qui se focalisent sur une tape du traitement sans n cessairement d organisation chronologique cette fois ci La description se poursuit en subdivisions successives chaque n ud les diff rentes possibilit s ne sont pas exclusives L arbre obtenu une fois d ploy fonctionne un peu comme un questionnaire une grille de comparaison sur laquelle chaque ligne repr sente une fonctionnalit pouvant tre r alis e ou non pr sente ou non dans un outil de recherch
67. r la forme des termes Mais en fouillant bien la documentation associ e l outil la fin des FAQ apr s tout un passage plus sp cifique et technique qui aurait arr t plus d un lecteur nous avions fini par trouver que chacune de ces expressions correspondait un seuillage sur la valeur de pertinence calcul e Loose match prend tous les documents dont le coefficient de pertinence est au moins gal 0 1 Fair match seuille 0 3 Good 0 5 Close 0 7 et Strong 0 9 Mais peut tre que cette pr cision dans l aide en ligne ne fut que r cente et passag re elle a disparu avec les FAQ car m me nos sp cialistes avouent honn tement leur perplexit ou leur d sarroi You re able to set controls for the degree of relevancy desired in search results Although Lycos gives you the choice of how strictly the search terms should be enforced it does not provide much documentation on how you can use the controls to improve the quality of your search Venditto et pour cause Cela ne modifie en rien les l ments de la liste cela ne fait que couper celle ci un peu plus haut ou un peu plus bas Search refining the rather unclear loose match fair match good match strong match or close match Huh Barlow Il est possible aussi de sp cifier le degr de pr cision des termes recherch s loose fair good close strong match Nous devons admettre cependant que nous n avons pas
68. r not affectable by the user and thereby set up for high recall An equivalent by MAGELLAN with PLS has been removed MAGELLAN Oren Text and Excire are offering also directly to focus the result with help of further search arguments although without sufficient support Koch 78 Le choix de l infrastructure de WWW standard et utilis e universellement ne n cessitant pas d installation sur le poste client facilite et g n ralise 1 acc s ces services 22 35 HN 46 96 037 V A 2 Protocoles de visite V A 2 a Rep rage des nouveaux Les nouveaux se d clarent eux m mes par inscription sites visit s sur demande fourniture d une description selon une norme prescrite Sites recommand s Suivi des liens des sites d j connus et enregistr s en profondeur d abord exploration r cursive du premier lien hypertextuel rencontr en largeur d abord exploration de tous les liens d une page avant de descendre dans un des liens hypertextuels en profondeur p et en largeur limit es par exemple p 3 et 10 Consultation des listes des nouveaut s V A 2 b Savoir vivre vs intrusivit Respect d interdictions d acc s Possibilit de se d sinscrire Discr tion pas de surcharge de la machine Indication qu une visite a t faite V A 3 Mont e en volume V A 3 a Performance Rep rage de nouveaux documents Traitement Stockage un codage volumineux doit se justifier par un g
69. renant l exemple pr c dent on n a plus l quivalence entre a 2 b 4 10 et a b 2 c 5 parce qu on aura associ certaines valeurs de pond ration un traitement particulier Par exemple la pond ration 1 correspond un r le limit ce terme l n est pas mis en valeur aux pond rations 2 4 5 un r le quivalent et moyen la pond ration 10 une influence d cisive par exemple la pr sence obligatoire du terme troisi me proposition les poids ont valeur d ordinaux Pour la s lection de documents potentiellement pertinents tout se passe comme s il n y avait pas de pond rations Celles ci n interviennent qu au moment de la pr sentation des r sultats pour les ordonner en faisant passer en premier les documents qui comportent les termes les plus fortement pond r s Ainsi 82 b4 cA10 et a b 2 c 5 seraient quivalents on s lectionne les documents ou apparaissent a b ou c on pr sente d abord ceux qui pr sentent a b et c puis b et c puis a et puis a et b puis puis b puis a On peut imaginer bien d autres propositions par combinaison des pr c dentes ou encore diff rentes Les pond rations quantitatives ont l avantage d tre d utilisation illusoirement simple mais leur s mantique effective est souvent laiss e dans le vague cf les propositions ci dessus leur affectation est arbitraire pourquoi choisir une pond ration
70. riantes d rivationnelles mots de la m me famille mettre l abr viation et sa forme d velopp e pour les sigles acronymes etc ajouter des synonymes ventuellement en s inspirant de documents d j retrouv s lancer la requ te sur une base moins s lective R ponse aux principales questions pos es sur le syst me FAQ frequently asked questions Pr sentation du service entreprise support technologie utilis e tymologie du nom du service Lien vers un des article s scientifique s publi s sur le syst me article descriptif par les concepteurs de I outil article comparatif ou critique par un auteur ext rieur Message d erreur si le traitement de la requ te choue Adresse de courrier lectronique pour contacter 1 administrateur IV B 3 Historisation IV B 3 a Marquage des documents d ja vus IV B 3 b R p tabilit et renouvellement D terminisme Exploration de la base c t ludique et attractif en faisant jouer le hasard roulette tirage al atoire de documents dans un domaine large donn La plupart des conseils dans ce domaine vont dans le sens d une recherche moins restrictive Mais par exemple utiliser astucieusement une notation avec un joker ou utiliser des op rateurs moins contraignants que d autres sert d abord factoriser toute une combinatoire de termes ou de requ tes La vocation premi re de ces fonctionalit s est la notation synt
71. s ne sont pas toujours aussi claires et pr cises que nous l aurions souhait cela reste quelquefois de simples indications difficiles traduire de fa on exacte et rigoureuse pour notre grille syst matique SULLIVAN Danny 1996 The Webmaster s guide to search engines and directories Voir en particulier les liens Features chart How search engines work http calafia com webmasters Faire recenser et indexer son site ou sa page WWW donne des r sultats d autant plus satisfaisants que l on comprend le fonctionnement des diff rents moteurs de recherche et en particulier le traitement appliqu aux documents C est la perspective prise ici par l auteur celle des webmasters who care about how search engines catalog their sites How search engines work In fact usually search engines produce so many relevant results that it is difficult to understand why a page ranked first did better than another page ranked 20 This is the key question for the webmaster why are some pages making it to the top of the list while others aren t Ce document a plusieurs points forts clart bon sens beaucoup d l ments d information de sources vari es bonne mise jour L approche adopt e est plus empirique et moins syst matique que la n tre VenpiTTo Gus 1996 Search Engine Showdown IW Labs tests seven Internet search tools Internet World May 1996 pp 78 86 Un article assez comp
72. ssent identiques relative l ensemble des r sultats la valeur maximale est celle du meilleur rapprochement obtenu la valeur maximale est fonction de la force fiabilit du meilleur rapprochement obtenu Ic ne traduisant de fa on synth tique et visuelle le degr de pertinence calcul IV A 4 Organisation de l ensemble des rapprochements IV A 4 a Liste avec num rotation explicite IV A 4 b Ordre Valeur de pertinence d croissante Nombre de liens d croissant nombre de documents pointant sur le document avec un lien hypertextuel interpr t comme un indice de popularit de qualit d int r t Chronologie mise en valeur des nouveaut s Taille du document Adresse URL par nombre de documents s lectionn s d croissants mise en vidence de p les de comp tences IV A 4 c Classement par rubrique Nature du document cf I A 1 a Adresse URL par ordre alphab tique Domaine du document combinaison du moteur de recherche avec un catalogue th matique utilisation d une vision par concept pour avoir une vision synth tique Pr sence de mots indiqu s par l utilisateur IV A 4 d Organisation selon les liens ventuels entre les documents trouv s Si cela peut apporter des l ments pour interpr ter et utiliser les r sultats de la recherche cela reste un point de vue particulier par ailleurs difficilement automatisable Mais la grille de notation m ritait d tre cit e
73. t simplement des classes de mots apparent s un m me th me Ces classes sont constitu es automatiquement en fonction de la distribution des mots sur un corpus de documents des crit res statistiques permettent d associer les mots entre eux La Cf aussi la th orie g n ralement admise qui articule et oppose le mot la chose et le concept Elle est contestable dans la mesure o elle prive la langue de sa dimension s mantique en pla ant la compr hension et l interpr tation dans un jeu autonome sur les concepts La langue est rel gu e au rang d outil simple v hicule pour transporter les id es d cod es puis trait es au niveau conceptuel Des linguistes comme Fran ois Rastier nous mettent en garde contre ce r ductionisme l Synonymie je fais par exemple une recherche sur le sujet de la diffusion cibl e d informations et l auteur d un document qui m aurait int ress aura choisi d employer un autre terme pour parler du sujet comme diffusion s lective Polys mie ma requ te porte sur la diffusion d informations et le syst me me retrouve des documents parlant des ph nom nes physiques de diffusion de la chaleur des gaz ou du rayonnement par exemple Implicite dans le cadre d une recherche sur la diffusion cibl e d informations je recherche les destinataires les plus concern s par un document il est donc vident que cela recouvre une tud
74. taire en Webliographie 7135 HN 46 96 037 moyen grossier de capter des ph nom nes linguistiques et textuels que d identifier les propri t s que ces formules veulent retranscrire De m me il n est pas dans le champ de notre tude de rep rer les astuces d impl mentation qui sont pour beaucoup dans l efficacit du traitement en termes de rapidit et ventuellement de stockage Ce n est d ailleurs plus l un goulet d tranglement les performances des mat riels d j impressionnantes continuent s accro tre rapidement et ce n est plus sur ce plan que pourraient se distinguer les recherches les plus efficaces Nous citons cependant en Bibliographie Webliographie Manber qui s int resse ces questions 7 On the surface it would seem that each search engine should be able to find the same sites based on a given query so you might think that the main difference would be speed However our tests found the opposite to be true We found the differences in performance to be negligible Venditto It is impossible to make a meaningful assessment of the speed of searching All the search tools give a rapid response under optimum conditions but network congestion can make the latter seem infrequent When I started this brief investigation about World Wide Web searching tools I imagined that retrieval performance would be most important but record structure and search techniques look t
75. ter cette propri t vente de mots cl s V B Donn es disponibles h t rog n it des documents V B 1 Qualit de la forme V B 1 a Structuration Mauvaise utilisation du codage HTML document non conforme sous utilisation de balises importantes pour la description du contenu confusion entre la structure fonctionnelle et la mise en page V B 1 b R daction Titre repr sentatif vs creux Vocabulaire pauvre impr cis V B 1 c Contextualisation Rattachement possibilit de rapporter la page l ensemble auquel elle est initialement rattach e caract re auto portant la page telle quelle isol ment est compr hensible Fronti res possibilit ou difficult de d signer un ensemble de pages comme d finissant un document complet et coh rent diff renciation des niveaux l indexation d un serveur n est pas du m me ordre que celle d un paragraphe V B 2 Internationalisation V B 2 a Langues V B 2 b Jeux de caract res Caract res diacritiques Alphabets diff rents japonais arabe etc Les moteurs tant g n ralement sensibles aux fr quences des mots certains ont voulu abuser de cette propri t en commen ant leur document par des dizaine de fois le m me mot cl r p t Des illustrations spectaculaires de ce proc d peuvent tre trouv es dans Koch illustration 26 et suivantes le manuel de HotBot rapporte encore des ruses insoup onn es It has become popular for
76. tif dur e depuis n semaines mois ann es param trage du niveau de d tail des sorties informations d velopp es informations standard par d faut informations abr g es simple mention des documents IV B 2 Clart simplicit d emploi IV B 2 a Convivialit ergonomie Abord simple pour les novices intuitif Simplicit d utilisation menus qui d taillent l ventail des possibles et soulagent la m moire pas d encha nement de commandes Possibilit de formulations expertes plus puissantes pas de nivellement par le bas Efficacit rapide efficacit de la recherche standard par d faut efficacit de la recherche en un coup quand on dispose de peu de temps pour retravailler sa requ te 48 La rapidit de traitement ne serait plus un facteur discriminant les moteurs de recherche connus ont tous de bonnes performances sur ce point La possibilit d interruption est en faite offerte par le browser Netscape Mosaic etc 5 Certains r cepteurs pr f rent une version sans images pour des questions de lenteur et ou de co t Les images sont en effet des donn es beaucoup plus volumineuses que le texte gt C est ce quoi correspondent de fa on fort peu claire et l les comparatifs sont unanimes les rubriques de Lycos Loose match Fair match Good match Close match Strong match Tel que cela est pr sent on croit qu il s agit d un ajustement plus ou moins l che su
77. u document d un document cit lien externe autre serveur lien interne vers une image par exemple rubriques des Usenet News IL A 2 d Longueur de la requ te Limitation du nombre maximum de termes dans la requ te Limitation sur le nombre de termes consid rer simultan ment cas de requ tes non parenth s es et d composables avec une combinatoire de sous parties Limitation du nombre de documents concern s par un terme II A 2 e Logique bool enne Articulation application d un seul op rateur l ensemble des termes de la requ te ANY ALL combinaison complexe d op rateurs parenth sage 8 La seule proposition que nous avons relev e dans ce sens c est celle d un syst me qui conseille pour mettre en valeur un terme de la requ te de le r p ter Voir aussi la discussion sur pond ration quantitative et pond ration qualitative un peu plus loin dans ce document Par exemple un texte qui d file ou qui clignote L utilisation de l information sur les liens vers des documents ext rieurs serait rapprocher de l analyse des co citations traditionnelle en bibliom trie 3 Exemples de rubriques des Usenet News pouvant tre sigificatives ici auteur exp diteur newsgroup destinataire sujet r sum mots cl s 2 C est dire qu une combinaison de termes g n raux m me tr s pr cise sera rejet e Ces limitations viennent en fait des trop grandes ressources de m moire et d
78. verted indexes and sequential search with no indexing It is based on the observation that with current computing performance sequential search is fast enough for text of size up to several megabytes the index does not provide exact locations but only pointers to an area where the answer may be found Then a flexible sequential search is used to find the exact answer and present it to the user Manber Notons cependant que cette strat gie a d abord t pens e dans le cadre de bases locales personnelles qui ne sont pas du m me ordre de grandeur que WWW auquel elle s attaque maintenant via Harvest BROKER 5 Les services de recherche ont une base de donn es centralis e qui leur permet de situer chaque document dans le contexte d ensemble mais certains pr voient terme une architecture r partie en raison de la difficult de canaliser et traiter toute l information en un seul point Des avanc es restent faire pour trouver le moyen de coordonner diff rentes bases de la mani re la plus satisfaisante possible 23 35 HN 46 96 037 V A 4 Int r ts commerciaux V A 4 a Emergence les documents qui apparaissent les premiers dans la liste des r sultats ont une position privil gi e l attention du lecteur est plus vive et d autre part le lecteur ne persiste pas toujours 4 d pouiller plusieurs pages Contrecarrer les d tournements p nalit pour r p tition spamming Contr ler et exploi
79. x utilis s pour caract riser le document lors du calcul de la pertinence IV A 2 e Appr ciation cela d borde le cadre d une approche tout automatique 77 Voici comment nous pourrions interpr ter le caract re significatif accord au d but du texte cette position peut traduire l appartenance un niveau lev dans la structure hi rarchique du texte titre intertitre niveau o l on trouve des expressions synth tiques et r sumantes de l ensemble du texte le fait qu il ne s agisse pas d un sous th me abord dans un d veloppement la mise en valeur par le r dacteur notamment pour des formes de type journalistique pour lesquelles le d but du texte doit concentrer l essentiel de l information 38 Dans un syst me couvrant une base moins volumineuse on pourrait imaginer que des indications sur l impact de la requ te soient donn es au fur et mesure de l laboration de la requ te On verrait par exemple au moment de l ajout d un terme s il contraint trop ou largit trop l ensemble des r sultats Certains services fourniront des informations de classement une analyse critique C est une valeur ajout e offerte mais que nous ne consid rons pas ici car nous voulons rester dans le cadre de syst mes o le traitement des documents est automatis Notamment la donn e explicite de l adresse URL pouvant ainsi tre not e au cas o la connexion est momentan ment
Download Pdf Manuals
Related Search
Related Contents
Ihr Gerät - V-Zug USER`S MANUAL (Digital Dash Rev 2) 青ボー ド用固定金具 壁美人 (P PH MOINS LIQUIDE BAISSE LE pH First Mobile FM-C-UNIV2 Description A036 - Enquete mi-is On Point Audio, Inc. OPA 15 ACTIVE USER MANUAL SPT SP-4201 Use and Care Manual Recherche d`Information Power-SOL UPSモニタ for Linux 取扱説明書 Copyright © All rights reserved.
Failed to retrieve file