Home
Manuel d`utilisation de KB Crawl
Contents
1. Figure 41 Dur e des crawls programm s en fonction des heures de la journ e exprim e en secondes Dans ce cas pr cis seule une source tait s lectionn e et son planning affich Le graphique repr sente la r partition des crawls qui ont t programm s pour une seule source pour se d clencher une fois 8h00 puis toutes les heures jusqu 23h59 La dur e des crawls est exprim e en secondes Le dernier l ment droite du bouton statistiques est le temps total pr vu La valeur affich e est le temps total pr visionnel des crawls affich s dans la grille du planning Le calcul se base sur les derni res dur es de crawl constat es pour chaque source Si cette dur e d passe 24h la valeur s affiche en rouge titre d avertissement Dans ce cas en effet les crawls a venir risquent de s empiler dans la file d attente et de ne pas tre trait s temps Tous droits r serv s 2008 Page 91 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 e Cadre du bas Le cadre du bas sert a ajouter modifier ou supprimer des heures de d clenchement Une fois le mode surveillance automatique enclench la liste des sources et de leurs heures de d clenchement programm es pour le jour en cours s empilent selon l ordre chronologique croissant puis alphab tique dans l espace Crawl s venir CE AB Cra
2. Filre avec un param tre variable introduit par un Fikre avec un motif commun type Pattern Filtre actualtes Figure 23 Filtre de type Pattern Dans l exemple ci dessus un filtre de type Pattern est d fini pour que seules les URL qui contiennent la cha ne de caract re actualit s soient r cup r es lors du crawl Si on coche black liste la place d Exclusif toutes les URL contenant la cha ne de caract re actualit s seront black list es 3 7 4 Archives Tous droits r serv s 2008 Page 59 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 FE Options d archivage Archiver toutes les versions Archiver la page mene st le changement n est pas visible META instructions w Les adresses des l ments graphiques sont compl t es pour un affichage complet mais plus lent Archiver sans les scripts w Les anciennes archives des pages gui ne sont plus t l charg es sont supprim es automatiquement xK e La derni re version t l charg e devient la version de r f rence pour la prochaine comparaison Cette option permet de d finir si la version de r f rence de chaque page demeure celle stock e lors du tout premier crawl ou si celle ci est mise jour avec la version 2 c est dire l avant derni re version observ e de cette page Exemple A une date t KB Crawl analyse et stocke une page P1 A une date t2 KB Crawl ana
3. Ouvrir dans une nouvelle fen tre permet d explorer une page indiqu e par le lien dans le navigateur par d faut de Windows Enregistrer la cible sous Imprimer la cible Etc Tous droits r serv s 2008 Page 84 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 6 Surveillance automatique 6 1 Le mode automatique Pour effectuer le crawl de comparaison et d tecter d ventuels changements au sein d une source KB Crawl propose deux techniques diff rentes e Il est possible de lancer manuellement le crawl de comparaison Cette m thode requiert l intervention de l utilisateur pour lancer le traitement ce qui convient pour une comparaison imm diate et ponctuelle Gr ce au mode surveillance automatique KB Crawl peut galement surveiller p riodiquement les sources qui ont t programm es cet effet Pour passer en mode surveillance automatique il suffit de cliquer sur le bouton Automatique de la barre d outils g n rale 6 2 Param trage Le param trage des heures de d clenchement automatique des crawls peut se faire deux niveaux celui des sources et celui des dossiers Ainsi toutes les sources appartenant un dossier h ritent des heures de d clenchement de ce dossier et des ventuels dossiers parents s il y a plusieurs niveaux de dossiers Afin de planifier les surveillances automatiques KB Crawl propose un module de gestion du planning de la
4. Fire avec un param tre variable introduit par um 7 Fire avec un mol commun ype Patten Filtre hihip mm google ir search q vellethlstristait ksa N Ensuite cocher la case Filtre avec un parametre variable puis cliquer sur le bouton G n rer devenu accessible Tous droits r serv s 2008 Page 58 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 L assistant parcourt l ensemble des URL de la source et les compare l URL s lectionn e pour d tecter le param tre variable et proposer un filtre Il convient ici comme pour les filtres standards de d finir son niveau d application et son type C est la m thode la plus conviviale pour d finir un filtre param tre variable mais elle exige que l on ait effectu un crawl avec un niveau de profondeur suffisant pour atteindre les URL dites analogues Il est aussi possible de d terminer le filtre param tre variable soi m me et l ins rer directement dans les filtres de la source onglet filtre 3 7 3 6 Filtre de type Pattern Un filtre de type pattern s applique aux URL qui contiennent une cha ne de caract re sp cifique Pattern Ainsi on peut black lister ou rendre exclusives des URL qui contiennent ce pattern Le pattern n a pas besoin d tre plac entre crochets ee Filtres avanc s Adesse http www k berawl net fr kb crawl sas actualites html i Niveau d application 0 Tous niveaux
5. a Source al Dossier Groupe de recherche Tous droits r serv s 2008 Page 27 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 FE Cr ation d un dossier Saisir le nom du nouveau dossier puis valider la fiche avec la coche verte 3 2 Modification d un dossier Modifier S lectionner un dossier et cliquer sur le bouton Modifier FE Cr ation d un dossier Cer veille brevet x Une fois le libell modifi cliquer sur la coche verte pour fermer la fen tre et enregistrer les modifications ou sur la coche rouge pour fermer la fen tre et annuler les modifications 3 3 Suppression d un dossier S lectionner un dossier et cliquer sur le bouton Supprimer PPrimer Attention Si le dossier contient des sources ou des sous dossiers le message suivant appara t Confirmation Supprimer d finitivement les sources et dossiers s lectionn s II faut ensuite confirmer la suppression des X sources contenues dans le dossier supprimer Tous droits r serv s 2008 Page 28 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 3 4 Gestion des sous dossiers Un dossier peut contenir autant de sous dossiers voulus al Presse 3 45 ASS A News La Tribune ji Etudes de march Figure 5 Dossiers et sous dossiers Et un dossier ou un sous dossier peut contenir autant de sources voulues fl Sources ji Veille Brevet Plutarque E Se
6. 2000 00 http uen adobe com aboutadobe pressroom executryebios main html 03708 2007 21 00 00 http sm adobe com aboutadobe pressroom executryebios main html 03 08 2007 2200 00 http iw adobe com aboutadobe pressroom executyebios main Atm 03 08 2007 23 00 00 hitg un adobe com aboutadobe pressroom executryebios main html Planification termin e Figure 45 L onglet automatique avec surveillance automatique enclench e Lorsque le mode surveillance automatique est enclench aucune fonctionnalit de KB Crawl n est accessible il faut d senclencher ce mode pour y avoir de nouveau acces Pour d senclencher le mode automatique il suffit de cliquer sur le bouton d arr t A Attention Cette action entra ne l annulation du crawl ventuellement en cours Tous droits r serv s 2008 Page 96 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 6 3 Le d marrage en mode automatique KB Crawl peut tre d marr en mode automatique Pour ce faire il faut ex cuter le fichier crawler exe avec le parametre AUTO Le fichier crawler exe se trouve dans le r pertoire d installation de l application Il suffit pour cela de cr er un raccourci qui pointe vers crawler exe avec le param tre AUTO Propri t s de Crawler auto E ajx G n ral Raccourci Compatibilit S curit W Crawler auto Type de cible Application Emplacement KBCrawl 3 0 Cible
7. L algorithme interne de KB Crawl rend n gligeable la dur e de la phase d analyse d une page par rapport au temps de t l chargement Le stockage dans la base de donn es est quant lui quasi imm diat Exemples de temps de traitement pour un m me serveur ci dessous en abscisse la taille de la page en octets en ordonn e le nombre de secondes pour effectuer le traitement Processeur Pentium 800Mhz Connexion ADSL vitesse de t l chargement de 1024 Kbits s maximum Tous droits r serv s 2008 Page 9 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 G T l chargement m Parsing O Stockage 33753 D Figure 1 Dur e du crawl en fonction de la taille de la page KB Crawl passe plus de temps en moyenne t l charger les pages qu les analyser Le rapport entre les deux est fonction des fluctuations du r seau Le temps de stockage est toujours n gligeable Si on ne peut pas annoncer une dur e fixe de traitement pour une page puisque cette dur e d pend de plusieurs facteurs taille du fichier r seau r activit du serveur Web etc on peut avec l exp rience retenir une moyenne de 1minute pour le crawl d une centaine de pages 1 3 Pr requis mat riel Environnement Microsoft Windows 2000 XP 2003 Server VISTA Processeur Pentium 1 5 Ghz ou processeur quivalent M moire vive 512 Mo minimum 1 Go recommand Connexio
8. Tous droits r serv s 2008 Page 112 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 0 x Zt titre du document x nom de domaine de l URL 2d date courte dd mim pyyy de t l chargement ay chemin de l URL 2h heure de t l chargement hh mm ss zz nom de document dans l URL 2s millisecondes pour cr er un nom unique p param tres de l URL Exemple de masque _ d_ h pourra donner le nom de fichier suivant www kbcrawl com presentation pdf 15 01 2006 15 05 55 Notons que les caract res et ont t remplac s automatiquement par des parce qu ils sont interdits dans les noms de fichiers Windows Plusieurs formats pr tablis sont propos s dans la liste d roulante Celui propos par d faut est le suivant x d h Ce qui donne par exemple www kbcrawl com 28 12 200419 11 26 2 html Les caract res suivants sont interdits dans les noms de fichiers Windows et seront automatiquement remplac s par des _ i lt gt D autre part les noms de fichiers d passant 255 caract res seront automatiquement tronqu s e Version des documents exporter A chaque export KB Crawl exporte les documents qui sont archiv s dans la base de donn es et li s la source En r gle g n rale on ne souhaite exporter que la derni re version pour chaque document mais il est possible d exporter la version de r f rence de chaque document des fins de compar
9. i Gioume ds techs Exalead RAC E Google REC a i Preise T Ls ure EE Lemorde z Ci Frochets E Documenti F fe Fersstase FI Pub calions Mme inter NE CHERCHEZ PLUS KB CRAWL VEILLE POUR VOUS SOLUTIONS PRODUITS SERVICES T L CHARGEMENT PARTENAIRES EXPO Cont once BEA Conseil et KB Crawl La solution de veille automatiq de La comp litivit des territoires Salon Expo Paris Porte de Versailles 13 juin 2007 Da 10h00 12h70 Vous ates velleur documentaliste organisme public PME gra 13 3 2 Bo te outils URL Permet de montrer ou de cacher la bo te outils URL Celle ci pr sente les fonctionnalit s suivantes que l on retrouve dans le menu contextuel de l arbre e Page surveill e S lectionner une URL dans l arbre des URL puis cliquer sur le bouton page surveill e pour marquer l URL comme tant surveiller e Page non surveill e C est la fonctionnalit inverse de la precedente si une URL est marqu e comme n tant pas surveiller KB Crawl ne cherchera pas d tecter quelque changement que ce soit Tous droits r serv s 2008 Page 158 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 dans le document mais il effectuera le parsing pour extraire les liens et ventuellement les suivre ensuite si le niveau de profondeur l indique Cette fonctionnalit est tr s utile pour surveiller des pages en profondeur dans un site sans pour autant r
10. Le document vers lequel m ne l URL n est pas disponible supprim e d plac e etc Conna tre la page m re d un lien mort peut tre pr cieux pour le gestionnaire d un site Web par exemple qui d tecte dans ce cas une anomalie l int rieur du site qu il maintient Tous droits r serv s 2008 Page 143 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 http Ast linda 71 0 204271 Ogi ignore Hp fs th teria 1471 14204271 1 of ignor hitp z s fr mmdis 771 2 204271 2 9 ignore Hp 4s EA iinet 32204271 3 0 ignor hip Ast i mmda i 72 4 2047 724 get ignor http As tH india 80 479 75804 SF pa ignore http 425 11 mimi 87 7 201907 7 oi ignor Hip 4s tA india 92 0 2017 8820 37 jpg ignore Hip s th fr mmdis 1492 6 2047926 gif ignor http As tH india 1 96 6421 66966 37 jog ignore hip 448 181 frmmdis 1 96 0721 66960 37 ipg ignor http s tH india 1 96 2221 60967 37 po ignore Hp 28 tA mmdis 1 98 77201198 7 of ignor http s 4H frrandis 983 201 S986 oF ignore hip 78 f rmmdia i 98 S 21 86989 off ignor http 44s thi india 1 99 0221 66990 35 jpg ignore Get services trk 1he 10 Host services Hf Referer https um tl fr Accent text htnd wegen Moailla 40 compatible MSIE 6 0 Windows NT 5 1 FurnwebProducts SVT NET CLR 1 1 4322 Cookie envoy MODE_AFF_LIST 1 R ponse HTTPA1 1 200 OF Dat
11. gauche de la fen tre principale se trouve la liste Cliquez ici pour trier des sources pr sent es sous forme d une arborescence fl _ Les sources sont contenues dans des dossiers ou des sous cae O ue Plutarque 1 Chaque source est repr sent e par une ic ne a Espacenet 11 Si une source fait l objet d une alerte c est dire qu au El Veille Normative moins l une des pages de cette source fait l objet d une fl Veille concurrentielle alerte l ic ne qui la repr sente est la suivante Qi Flash La valeur dans la colonne Nb qui suit le libell de la La FTP source indique le nombre de pages que celle ci contient Un Presse clic droit sur une source donne acc s aux fonctionnalit s sh RSS suivantes a La Tribune l Nouvelle source Ctrl M fi Etudes de march Modifier Prapri t s Ctrl M Minef Internet 10 Supprimer la source SUppr A Veille juridique Cupliquer la source Ctr o A Appels d offres Exporter Ctrl E J J0 D verrouiller toutes les sources Ctrl U ne ee Mots cles d alertes Ctri k Google KE Crawl 1 Yahoo KB Crawl 1 Surveillance automatique Ctrl P Exalead KE Crawl Supprimer les archives de la source Ctrl Suppr Cr er un Fichier HTML d index des Fichiers t l charg s Rafraichir F5 D rouler enti rement Ctr E Replier enti rement Ctr Alt E Un clic droit sur un dossier donne acc s aux fonctionnalit s suivantes Nouveau sous dossier Ctrl D placer c
12. the bghtes background colour behind the publication data frrrentor etc en the famdy list eg FONCTIONMALITES 7 ffr vSespacenet comitesulssteatCYseptlGhiDBEP 20 03 2007 12 46 FONCTIONNALITE acvisited color 6600007 trrowscold smalibokHfontweaght bodd font size 1 00 FONCTIONNE font famiheVerdans Geneva Anal Helvetica sans senf Fame result list colour scheme this is FONCTIONNELLE Ih lhe back pou low behind the publication data vel ete Jinthe fm 9 5 Hess ae a iJ Figure 69 Troncature exemple 2 fo Tous droits r serv s 2008 Page 133 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 ik Module de recherche ia w Cliquez ici pour trier Se Rechercher Sg VEILLE Ei Brevet Recherche grangie 8 Espacenet yis FE sats par page os EPG Groupe de recherche KE Exalead KBC lun a finesse sero nets Seats Foma depotna M Google KB Cand e RTE T Blip van inei goin IVDGOCAR O4 doisers corommall 19 06 2007 15 SL Presse FE i Ti Introduction Obigaton dindomeaion cahons lech crquer dod comporter au mous les E La Titune INFLATION ee hisser de He Sar ans 2T rene meea ts akici i on suas 2 hiap minati gouv ft demateiakeation sopu demblerahisat 19 02 2007 15 lt Agence atort D l gation aux syst mes dinfomation information tous publies rite sager de fa on ceitaine et ainsi d viter QUE 585 i
13. un formulaire il en extrait l adresse de destination et ajoute la liste des URL trouv es pour cette page Ensuite si la profondeur de page le permet cf 8 1 6 il va comparer cette adresse de destination celles qui sont enregistr es dans la liste des formulaires Si l une des adresses de ces formulaires correspond cette adresse de destination KB Crawl envoie cette adresse les donn es enregistr es pour ce formulaire avec la m thode ad quate GET ou POST Tous droits r serv s 2008 Page 47 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 La page renvoy e ensuite par le serveur apres qu il ait recu ces donn es est marqu e dans la base de donn es de KB Crawl comme une page de type formulaire Ainsi on peut retrouver facilement cette page dans l explorateur de sources car cette derni re est repr sent e par une ic ne particuli re se D tp fa google try seanchhl frig KB CR AM L btiG Recherche h ooglet meta 69 Figure 14 Rep rage d un formulaire dans l explorateur de sources Sur cet exemple on voit le r sultat du crawl du formulaire d identification La premi re URL http www google fr contient le formulaire La seconde URL http www google fr search hl r amp g KB CRAWL amp meta est l adresse de destination du formulaire contenu dans la premi re page qui est la page mere Pour obtenir ce r sultat il est donc n cessaire de param trer pour cette source une
14. volution de l information l int rieur de ces pages eLe moteur de KB Crawl permet d acc der des pages du Web invisible et de les surveiller en enregistrant au pr alable les donn es envoyer aux diff rents formulaires rencontr s Tous droits r serv s 2008 Page 8 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 1 2 Performances quelques ordres de grandeur Internet supporte aujourd hui plusieurs milliards de pages Web 86 de ces pages ne sont pas mises jour r guli rement Un charg de veille documentaire concurrentielle ou technologique est par cons quent amen visiter des sites d information 6 fois sur 7 pour rien Surveiller 30 40 ou 100 sites quotidiennement conduit donc consacrer une partie importante de son temps surfer sans r sultat exploitable Pourtant l information volue et 14 des sites connaissent des modifications plus d une fois par semaine KB Crawl t l charge analyse parsing puis stocke le contenu des pages Web dans sa base de donn es a un rythme impossible a atteindre manuellement Les performances de ce traitement varient en fonction de plusieurs facteurs la qualit de la connexion Internet du poste qui utilise KB Crawl la r activit du serveur h bergeant le site la r activit du provider fournisseur d acc s Internet la rapidit du processeur de l ordinateur fr quence de l horloge la taille des pages qui sont t l charg es
15. 0 Hombre de bens ignor s 56 Hombre de pages non trouv es 11 statistiques de pertomances Temps total de t chagement 00h 00m 23s 135m2 Poids total des t changements 3625846 octets Vitesse moyenne de t l chargement 157 Kos Temps total d extraction 00h Ulm 58s Sms Temps total pour indexation 00h 00m 11 m R partition du temps pass pour le crawl T l chargement 12 Extraction 63 indexation 6 Autres traitements 18 4 Figure 76 Visualisation du journal d un crawl En synth se on voit qu il y a des pages non trouv es et beaucoup de liens ignor s Tous droits r serv s 2008 Page 142 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Analyse du journal R Journal E LORIE envoy MOULE AFF Ligi l R ponse HTTPA1 1 404 Mot Found Date lundi 13 f vrier 2006 4 12 28 PM Last Modihed samedi 30 d cembre 1899 1200 AM Server BusiawS 1 0 Content length 211 Content upe text html charset 150 6859 1 hip Awm i fr scrollbarseno chec au t l chargement RTTP T 1 404 Not Found Lien trouve l URL http Aamua tf fr Redirect hip Aaa tf fr sport bonne conduite 0 00 htmittrk 1be Get sport bonne_conduite 0 00 html trk 1k amp kex 7 Host wal fr Referer Plig van IT ft Accept text html userhoent Mosills 4 0 fcompatible MSIE 6 0 Windows MT 5 1 FurnwebProducts SVT NET CLA 1 1 4322 Cookie envoy MODE_
16. Format des noms des pages archiv es Date Heure Norm de fichier exemple 2006 01 25 1 0k34m22s Mon rchise htm Nom de fichier exemple Mon amp rchive htm Date Heure Adresse compl te exemple 2006 01 25 10h32me22s http wave monaite com Mondrchive htm Adresse compl te exemple http wa monsite com Mondrchive Atm PSs tions dh 22 Options d export Version des archives exporter Version de reference Dernier version Versions Interm diaires sa cette option d archivage est coch e pour la source M exporter que dans les cas suivants Autres options MW Le nombre de mots a chang Sp ciher les motifs d alerte dans le fichier d indes MW Une nouvelle occurence d un mot cl t d tect e D finir comme format d export par d faut Wel La page est nouvelle M esporter que les zones scrap es Wl La page a disparu Dans l ordre les informations suivantes sont saisir e Nom C est le titre du format d export qui permet de le d signer lorsque l on veut l utiliser pour un export s R pertoire de destination Tous droits r serv s 2008 Page 111 P08 00112 A4fr A2 KB Crawl E u Manuel utilisateur v 3 1 Tous les fichiers HTML export s seront plac s dans un sous r pertoire du r pertoire de destination Ce sous r pertoire portera le nom du catalogue ou bien un nom compos ainsi RechercheDate Heure si l export est fait partir d une recherche Par d
17. Program Files KE Crawl 3 0 Craviler exe AUTO D marrer dans C Program Files EE Crawl 3 0 Touche de AUCUN ACCOLTE Ex cuter Fen tre normale bd Commentaire Rechercher la cible Changer d ic ne AM APICE Annuler Appliquer Figure 46 Creation d un raccourci pour lancer KB Crawl en mode automatique Lorsque KB Crawl est lanc en mode automatique il attend 15 secondes environ avant de s instancier Il est donc normal de ne pas voir l application d marrer instantan ment 7 La liste de diffusion Tous droits r serv s 2008 Page 97 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Lorsque KB Crawl d clenche une alerte sur une source il peut envoyer un message par e mail un ou plusieurs contacts dont on conna t l adresse lectronique Ces contacts peuvent tre ajout s une liste carnet d adresses et tre regroup s dans des groupes de contacts 7 1 Liste des contacts Pour acc der la liste des contacts cliquer sur le bouton Diffusion de la barre d outils g n rale puis dans le menu d roulant choisir Contacts a E Gestion des abonnements Gestion des mails en attente Bw E Ee Param tres d envoi La liste des contacts appara t in Gestion des contacts DAR S ai 5 upport support kberavl net infok berawl net L demo kberawl net GP Ajouter Modifier es Supprimer bel Importer Figure 47 Liste des cont
18. alerte e Format des E Mails Il est galement possible de choisir le format d envoi des e mails g n r s par KB Crawl Deux formats sont propos s HTML et Texte Brut Dans le cas d un envoi au format HTML KB Crawl s appuiera sur un fichier HTML comme mod le pour le corps du mail ce fichier est stock dans le dossier d installation par d faut de KB Crawl et se nomme alerte htm Dans le cas d un envoi au format texte brut un ent te et un pied de page sont proposes par KB Crawl ils apparaitront respectivement en haut et en bas de chaque e mail d alerte envoy par KB Crawl Ces informations sont modifiables directement dans cette fen tre e Mode d envoi Par d faut les e mails d alerte sont envoy s par KB Crawl directement apr s chaque crawl OU comparaison cependant il est possible de choisir de ne pas les envoyer automatiquement En d cochant la case les E Mails sont envoy s apr s chaque Tous droits r serv s 2008 Page 105 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 crawl ou comparaison les e mails d alerte seront stock s dans la bo te d envoi de KB Crawl Cf 8 4 De plus si cette case est d coch e il est possible de s lectionner le type de regroupement que l on souhaite appliquer aux e mails d alerte qui seront envoy s par KB Crawl Mode d envoi Sinon is sont stock s dans la bo te d envoi de KB Crawl accessible depuis le bouton diffusion de l
19. cette dur e est exprim e en minutes ou en secondes Tous droits r serv s 2008 Page 89 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 it lemps de crawl en secondes par heure de la journ e Selle re b F ses ass de sas ss T EFESE E LE a Res LEL Fe mm en de me SL oe el pE 4 FPE J a E i F i i ees a a ne dd E E i i i i Lae eee mag Ee a Reto nar cmt E i 1 i i ay a 42 ie ete EE ME fs 2 EN f 2 5 i CIT RE i b i i i i i i a 0 i AP hia eek eee deere deel a ae a ee i ee ee Pn on A oe a I ann mo ER a a f F i SS b at oi a a a a he A ps ie ay ae a E E i Bie HTN O SP ee eee FODEN p i i r eae Te RO inini RS ee Se a oF rer 2 m ro CRE AN a Re RC ER RL RO CE LD pre que 2 C ai CEILELLCELLELE j Ece w mi mbm o ecm cn ne o od u on one me e o one one o one ons cs ous Du mue mme mu e mue Ole pans i us ous one one o om com one ons eu um j e eme cons once mn om ms mom Os en onu mom com ne one mn me nue mn com Re onu Om OS EN mu ee ee on om mn me m emin Ee MY UNS Rue SR CONS CONS CN ENS OMS CN cm mn ce CE eS as es ee es eee es 4 M i j i i i 2 MiLo Lo Lol Lol Lo Lol Lol Lo Lo ol Gh jh 2h 3h 4h Sh 6h 7h Sh Sh 10h 11h 12h 13A 14h 15h 16h 17h 18h 19h 20h Hh 2h 23 w xK Figure 40 Dur e des crawls programm s en fonction des heures de la journ e exprim e en
20. cial e Guide HTTP Permet de g rer la liste des guides HTTP Guide HTTP e Crawl Lance un crawl d initialisation pour les sources s lectionn es Tous droits r serv s 2008 Page 22 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Crawl e Comparaison Lance un crawl de comparaison pour les sources s lectionn es gt Comparaison e Stop Stoppe le crawl en cours Stop e Automatique Sous menu qui permet d enclencher la surveillance automatique et d acc der au param trage de celle ci 5 Automatique e Diffusion Sous menu qui permet de g rer la liste des contacts la liste des abonnements les e mails en attente et les param tres d envoi des e mails d alerte E Difusion e Export Sous menu qui permet de g rer les exports et les formats d export OR Export e Mots cl s Permet d acc der au module de gestion des mots cl s Mots cl s e Recherche Permet d acc der au module de recherche Tous droits r serv s 2008 Page 23 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Recherche e Options Permet d acc der au menu d options g n rales M Options 2 2 La barre de menu textuel Elle est plac e juste au dessus de la barre d outils g n rale Fichier Edition Affichage Actions Outils Param tres Maintenance 7 Le menu textuel permet un acc s suppl mentaire aux fonctions principales de KB Crawl ainsi qu un ac
21. font gt lt or gt lt br gt lt p gt lt td gt Les mots du texte qui seront visibles dans la page apparaissant ici en rouge Ces mots seront r cup r s lors du parsing puis stock s dans la base de donn es de KB Crawl Remarque Ce texte appara tra sous forme d un lien qui renverra sur la page http www kbcrawl com products index htm Ce lien sera galement r cup r 1 5 2 Grammaire HTML Quand KB Crawl effectue un parsing il parcourt entierement le code HTML de la page qu il vient de t l charger et scrute chaque balise Certaines sont ignor es car sans int r t particulier et d autres sont analys es en d tail pour extraire les informations qu elles contiennent Pour faire cette distinction KB Crawl poss de sa propre grammaire HTML c est dire une liste de balises dont il sait qu elles contiennent des donn es qu il doit analyser pour en extraire les informations puis les stocker dans sa base de donn es KB Crawl est livr avec une grammaire par d faut Balise ouvrante i Balise fermante ou de fonction a E TARGET ee lt AREA S WREE rc gt y y lt BASE HREF o gt O y y lt BODY BACKGROUND gt SRC e lt FORM ACTION ew gt O y y lt FRAME SRC gt y y O lt MG SRG gt y y O O lt UNK WREE o gt y yO lt META URL gt y y O lt META DESCRIPTION gt lt META KEYWORDS gt CS lt OPTION RECUPALL is FO lt OPTION ss VALUE gt y
22. lien 4 3 5 D tails des changements Tous droits r serv s 2008 Page 75 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Lorsque l on est positionn sur une page de l arbre on peut prendre connaissance des d tails des ventuels changements survenus sur cette page en faisant appara tre une fen tre qui montre un comparatif entre la premi re version de la source espace n 1 et celle issue d un crawl de comparaison espace n 2 Ce tableau comparatif met en vidence les l ments qui font l objet d un changement nombre de mots dans la page nombre de liens et liste des mots cl s qui font l objet d une surveillance stearate 10 02 2006 09 48 55 10 02 2006 09 49 10 Nombre de liens visiter 4 GAZ 88 pe 38 400 SR Detail Le ds Enregistrer sous Lal Figure 30 D tail des changements pour une URL Le tableau contenu dans cette fen tre montre un comparatif entre la page la date et l heure o elle a t int gr e dans l espace de stockage n 1 et cette m me page au moment de son int gration dans l espace de stockage n 2 lors du dernier crawl de comparaison Dans le cas observ on voit que le nombre total de mots a augment et que les mots cl s PETROLE et GAZ sont apparus dans la page alors qu ils n y figuraient pas auparavant Nombre de mots total EL E Nombre de liens visiter GAZ CE PE PETROLE SE CE a Detail Enregistrer sous ig KB Crawl pe
23. restoring index RDB FOREIGN15 restoring index ROB FOREIGN16 restoring index RDB SFOREIGN14 restoring index RDB SFOREIGN restoring index RDB FOREIGNS restoring index ROB FOREIGN1 restoring index RDB SFOREIGN 24 restoring index ROBSFOREIGN 3S restoring index RDB FOREIGN 48 restoring index RDB SFOREIGNS restoring index RDB SFOREIGNE restoring index RDBSFOREIGNE restoring index RDB FOREIGN10 restoring indes ADB SFOREIGH gbak finishing closing and going home Fichier de sauvegarde compress GBF C Program Files KB Crawl3 data KBCR4 wL BASEEXE MPLE gbk Eor k Restaurer La Figure 87 J ournal de la restauration d une sauvegarde Tous droits r serv s 2008 Page 180 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 13 7 2 3 Compacter la base r duire la taille de la base La base de donn es Firebird grossit en taille r guli rement a chaque fois qu un crawl est lanc une ou plusieurs pages peuvent tre archiv es soit parce qu il s agit d un crawl d initialisation ou bien parce qu une alerte sur un document t l charg justifie son stockage dans la table d archives A chaque fois qu un document est stock dans la base de donn es celle ci s alloue un espace n cessaire ce nouveau stockage sur le disque dur Autrement dit chaque fois qu un document est stock dans la base de donn es la taille de cette derni re s accro t d un nombre d octets sup rieur ou gal la
24. rieur dihtp V3 espacenel comresuts7sfealFIRST 14CYzep4L Gr 20 feephLGel 2008 2007 12 12 4 Informations relatives la publication Informations relatives la pubbeation n c Indcamationss r latrres 4 ls publcahorr Becpele kame rang for converg vual infcemation and content has f EF Cony PS CONE AE RRS OG g BOE RENE EE Fr Ea 3 iJ Figure 70 Troncature exemple 4 in tion Tous droits r serv s 2008 Page 134 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 10 3 4 Gestion des masques Le masque est un symbole utilis dans les requ tes de recherche pour remplacer une ou plusieurs lettres l int rieur d un mot Il s agit d un point d interrogation Il est utile lorsque l orthographe de certains mots ne varie que tres l g rement Nota Chaque point d interrogation ne remplacera qu un seul et unique caract re il ne remplacera donc pas un espace il est cependant possible d en utiliser plusieurs dans le m me mot Quelques exemples d utilisation de masques FE Module de recherche Cliquez act pour ine I VEILLE 0 Brevets G Espacenel Groupe de rechenche KB Exalead KBCravd Google KB Crawl Li Presse GERS EICHER H La Tibure 2 hipi A monet gouv t OGCCRF 0d_dostiers consommation 19 03 2007 15 3 E enoni Infos plaques Prochat 3 Mig lame ex slesd isearch Ciki GAM s a C CG 20 03 2007 15 5 1 Fitdnios Ale
25. s Temps total de t l chargement 00h m 00s 639rns Poids total des t l chargements 21233 octets Vitesse moyenne de t l chargement 33 Eos Temps total d estraction 00h Or 00s 375m Temps total pour lindesation 00h 00m 0s 718m R partition du temps pass pour le crawl T l chargement 23 Extraction 13 Indexation 26 Autres traitements 38 2 laida Outi LI Enregistrer sous Gi Copier he Wider Figure 80 J ournal compte rendu Voici un compte rendu de crawl sur le site Google Les derni res lignes inscrites au journal lors d un crawl pr sentent un rapide compte rendu du crawl Les premi res lignes de ce compte rendu indiquent les proportions de documents t l charg s ou non Ensuite un compte rendu informe des performances du crawl notamment de la vitesse de t l chargement Il est important de remarquer que malgr une vitesse de t l chargement th orique de 150Ko s la vitesse moyenne du crawl n est que de 33Ko s Diff rents facteurs expliquent cet cart entre vitesse th orique de la ligne d livr e par le fournisseur d acc s Internet et la vitesse r elle pendant le crawl dont les deux principaux sont Le serveur requ t a une r activit limit e et une bande passante sortante partag e par d autres utilisateurs Pour une m me vitesse th orique on observe des vitesses moyennes de t l chargement tout fait diff rentes selon les serveurs La b
26. s Pour se faire il est n cessaire que KB Crawl sache quelles donn es envoyer un formulaire lorsqu il le rencontre au cours d un crawl d o la n cessit d enregistrer au pr alable ces donn es rattach es un formulaire Pour une m me source on peut enregistrer autant de formulaires que l on souhaite gr ce l analyseur de formulaires Le menu Formulaires propose deux fonctionnalit s Tous droits r serv s 2008 Page 40 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 3 7 1 2 Ajouter un ou plusieurs formulaires GE Formulaires ec felix ax Voir les formulaes enregistr s J f g f fi Le 6 itp ra kbc neh espace chents hin OK LL Va Espace Client ES NE CHERCHEZ PLUS KB CRAWL VEILLE POUR VOUS SOLUTIONS PRODUITS SERVICES T L CHARGEMENT PARTENAIRES BEA CONS Espace Clients ut TESTER KG CRAWL HR RE LD Mit Pour acc der l espace client et aux mises jour de KB Crawl et de ses pes tes identifier en indiquant votre adresse e mail et votre mot de passe Si vous n avez pas souscrit ou renouvel votre maintenance annuelle r LA CONTACTEZ NOUS Conseil Er Horn d utilisateur T L CHARGE MENT se i Mot de passe Document POF 7 Mo Figure 10 L analyseur de formulaires L analyseur de formulaires est un navigateur Web int gr l interface de KB Crawl Il pr sente une zone de saisie libre da
27. secondes Dans ce cas de figure on voit tr s clairement que la r partition des crawls est concentr e sur la seconde partie de journ e Ici ce n est pas g nant car la dur e totale des crawls pour une heure donn e n est pas importante KB Crawl a la capacit de crawler un tr s grand nombre de pages et dans le cadre d un usage industriel il est important de r partir correctement les crawls pour ne pas cr er de retard dans l ex cution des t ches Tous droits r serv s 2008 Page 90 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 isk Temps de crawl en secondes par heure de la journ e us Le Si rs I gt i AUS 5 ee CT es NE rt i 26 VO mw 4 25 i Sel bot H b A E i lee i i a i a EEE P a a a A 7 L ees meer tae 3 ae M TEL a el cae rr ters i i 5 i iy i a i i i i mme 1 I i ia i i 1 i i i i i i mou mn mm nmn E E a E a le rit a m Se me nn ee ee a ek E a I a ana a eaa aeia gt C ns en ont i eji m ee qu ne cs on pee r i a a I i r i E i Li ii 4 4 i m mo eee ai e co ou ay e 1m I J E ae be ie m m o e e pe l Oe a i a o o oa a i o e i i i i i i i mm Le e oe ee ee ee me E a e e ee ne ee ve ee me lon ee on mme Me f i F i i i I i a es name F Oh dh M Sh 4h Sh 6h 7h 6h Sh 10h 11h 12h 13h 14h 15h 16h 17h 16h 18h 20h 21h 22h
28. 08 2007 1311 2 kb cand Recherche Google Hip unes google r seanch tilslrigekbecravdimetan 13 08 2007 1311 Google Pip way google fr 13 09 2007 131241 vale srat gque Recherche Google Pilg ven google f search Theirig veleia AC A gueme 14 08 2007 13124 veile automatique Recherche Google hihip wae google Ir search Phletrig vedle automatiquedmeatae 10842007 1312 inteligence conomique Recherche Google Ripe vaa google fr search Phletiigqemtiehgence CS24Sconomquek 13 08 2007 131E BE Inteligenca conoreque Wik ipa Fahm Ak peda ofvkiintelgence 200 EEEE mn T 1370620071313 i or Toutcocher Aflicherles HT demi ies pages vist es qe Rafraichir OS Importer dans KB Crawl Elle pr sente principalement une grille relatant les 50 derni res pages Web visit es avec Internet Explorer le titre de la page l URL correspondante et la date de visite Pour s lectionner une URL il est possible de cocher la case situ e sa gauche ou d appuyer sur la barre espace On peut galement toutes les s lectionner d un coup en cliquant sur le bouton Tout cocher Le bouton Rafra chir sert r cup rer les URL visit es apr s que ce module d import ait t ouvert depuis Internet Explorer Lorsque les URL sont s lectionn es cliquer sur le bouton Importer dans KB Crawl Une fen tre surgit alors afin de sp cifier le dossier de destination des sources cr er BE Choix du dossier dans KB Crawl DEAR Impor
29. 5 OFFRIA CAPGEMINI ANCAISE SOUTENUE PAR LA M Gocumerts POF OUNSOHMATION ET L EMPLOI INFOSYS 5 INT RESSE CAPGEMINI FORTE HAUSSE DU Kerastase Flash AE MER LR ee ees SE el Publications Minefiintemet CH Qi Vele Sectorielle Figure 72 Masque exemple 2 Tous droits r serv s 2008 Page 136 PO08 00112 A4fr A2 KB Crawl Frs EE Module de recherche Chaz poar tiar Egi VEILLE g pennies Exalead RBC Google KB Crawl Eig Presee E Ls Tire fi Lemande El Produits BD Gocuments POF i eadase Flach El Qi Publications iE Minefi Internet Figure 73 Masque exemple 3 Manuel utilisateur v 3 1 ms 1 TTL in TETN mE E 7 D Exporter 1 hip ua ob com abouladobe presiioon suscuivenon TODS 200 17 5 1 m field maketi Qo to matket partners cusicener care ancl pride tool 2 hpv espacenal comresuits Psf alFIRST 16Cysepil Gah 20 0 20 03 2007 12 3 _ Pourquen cocher ls case metre dars La hste de brevets 7 hip Gespacenet com tecuke sf stFIRST 1hCysepiLG ik 20 03 2007 123 ME __ Pourquoi cocher is case mettre dans la liste de brevets 7 AWG AA espacenet comtesutt7stastCY ptt G fbOB E POD 20 02 2007 12 3 wt Pourquoi cocher La case mettre dans la liste de brevets 7 Slip 3 espacenet com tesuks st a8Cy ep6LG ftDB EPOD 20 03 2007 12 3 Pourquoi cocher La case metre dane ta liste de brevets 2 B bite 3 espacenet com results fa abCyseptl GalbOB EPOD 20 0
30. Attention cette op ration peut tre longue plusieurs dizaines de minutes si la taille de la base de donn es est importante Continuer A la fin de l op ration un message appara t et informe de la nouvelle taille de la base de donn es Tous droits r serv s 2008 Page 181 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Information e gt Op ration termin e 1 Taille de la base de donn es avant 9548 8 Ko Taille de la base de donn es apr s 9543 7 Ko Remarque Le compactage revient faire une sauvegarde de la base de donn es puis une restauration de la sauvegarde de la base de donn es en crasant la base de d part 13 7 2 4 V rifier la base de donn es Lors de d faillances m caniques du disque dur ou parce qu une utilisation inadapt e est faite de la base de donn es exemple ordinateur teint en cours de traitement la base de donn es peut subir des dommages plus ou moins importants et ainsi se d grader partiellement On dit alors que la base de donn es est corrompue La plupart des corruptions de la base de donn es passent inapercues parce qu elles sont tol r es par le serveur de base de donn es Firebird Lorsqu un blocage li a une corruption de la base de donn es survient celle ci est pass e par des stades interm diaires Pour viter cela un syst me de v rification automatique de la base est mis en place chaque ouverture de KB Crawl Il est n c
31. G Valle Segtuie DITES GP Ajouter F Modifier Lt Enregistrer sous Figure 54 Mots cl s d une source e Cadre de droite Tous droits r serv s 2008 Page 118 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Le cadre de droite sert principalement a ajouter modifier ou supprimer des mots cl s ou expressions d alertes une fois que l on a s lectionn l entit qui en sera propri taire dans le cadre de gauche Pour cela utiliser les boutons portant les libell s correspondants On peut galement importer une liste de mots cl s depuis un fichier texte dans lequel chaque mot ou expression d alerte est s par par un retour chariot Pour cela utiliser le bouton importer De plus le bouton enregistrer sous k permet d exporter la liste des mots cl s ou expressions d alerte au format texte Le cadre de droite permet galement de sp cifier le type d l ment d alerte s lectionn dans le cadre central Pour activer le mode alerte avanc e pour une expression donn e cocher la case activ es On peut activer le mode alerte avanc e pour l ensemble des expressions list es dans le cadre central en cliquant sur le bouton cocher pour tous et inversement en cliquant sur le bouton d cocher pour tous Lorsque le mode alerte avanc e est s lectionn lors du crawl c est le moteur de recherche de KB Crawl qui sera interrog avec une expression r s
32. INT R T _S FRANCE FRENCH DOSSIERS ECONOMIE ECONOMY CULTURE INTERNATIONAL INT E TS BOURSE CINEMA MOVIES LIVRES BOOKS MULTIMEDIA EDUCATION FORUMS FORUM SERVICES ABONNEMENTS BOUTIQUE EMPL INTERMATIONAL LONDRES COMPTE INTERFACE eee eae ee LINTERFACES on g Figure 60 cadre de gauche Le cadre de gauche affiche la liste des mots correspondant aux r sultats de la recherche Ici par exemple on a utilis la troncature int pour effectuer une recherche Le moteur de recherche KB Crawl renvoie alors la liste des mots correspondant cette recherche En cliquant sur un des mots de la liste on restreint le p rim tre des r sultats de recherche au mot s lectionn 10 2 4 Cadre de droite Le cadre de droite contient une grille qui affiche la liste des enregistrements r sultats de la recherche Chaque enregistrement contient plusieurs colonnes d informations l URL correspondant la page la date du crawl le classement de la page au sein des pages de r sultats Une pr visualisation des extraits du contenu qui contient les mots cl s de la recherche Tous droits r serv s 2008 Page 124 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Lorsque l on double clique sur l un des enregistrements de la grille le navigateur par d faut s ouvre pour monter le document correspondant contenant les mots cl s de recherche surlign s E G eam Cs Figure 61 Visualisat
33. Men Pee Code Tiger per eri Mb NE CHERCHEZ PLUS KB CRAWL VEILLE FOUR VOUS SOLUTIONS PRODUITS SERVICES T L CHAMGEMENT PARTENAIR Figure 2 Fen tre g n rale de KB Crawl 2 1 La barre d outils g n rale ALT 4 gt e 0 a oe Creer Modifier Supprimer Sp cial Guide HTTP Crawl Comparaison Stop Automatique Diffusion Expor Mots cl s Recherche Options Figure 3 Barre d outils g n rale La barre d outils g n rale permet d acc der directement aux fonctionnalit s principales en cliquant sur ses boutons Ces boutons lorsqu ils pr sentent une petite fl che qui pointe vers le bas leur droite affichent un sous menu lorsque l on clique dessus chaque sous menu pr sentant des boutons cliquables On peut galement cliquer directement sur ces boutons pour acc der la fonctionnalit correspondante Tous droits r serv s 2008 Page 21 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 De gauche droite e Cr er Sous menu proposant de cr er une source un dossier ou un groupe de recherche Cr er e Modifier Sous menu proposant de modifier une source ou le nom d un dossier K Modifier e Supprimer Permet de supprimer une source ou un dossier ou un ensemble d l ments s lectionn s 1 e Sp cial Sous menu qui donne acc s des fonctionnalit s sp cifiques D verrouiller toutes les sources ou exporter les l ments s lectionn s ak Sp
34. Note Dans le cas du fichier Excel l import sait g rer les fichiers XLS export s partir de Microsoft Outlook 7 2 Groupes de contacts Ajouter un groupe Dans la liste des contacts cliquer sur le bouton Ajouter puis choisir Groupe dans la bo te de dialogue suivante Tous droits r serv s 2008 Page 100 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 FE D tail d un groupe Nom du groupe Contests Email Hal Nue 2 _FIRSTNAWE MAL al Support suppodt fk beret nel Li D i 1 E Ina Info bora net de re nd FT Be enn LI a bi AOA T cA Ajouter LA Modifier AE Supprimer Le Importer Figure 49 D tail d un groupe de contacts L cran de gestion d un groupe comporte deux fen tres s par es par une colonne pr sentant deux boutons La fen tre de gauche contient la liste des contacts disponibles La fen tre de droite contient la liste des membres du groupe Le premier bouton de la colonne centrale permet d ajouter le contact s lectionn dans la fen tre de gauche aux membres du groupe Le second bouton permet d dter le membre s lectionn dans la fen tre de droite du groupe 7 3 Gestion des abonnements Apr s avoir cr les contacts et les groupes de contacts il suffit pour que ceux ci re oivent des alertes par e mail de les abonner des dossiers Ainsi lorsqu un contact est abonn un dossier et qu une source appartenant ce doss
35. Power Point li Document Message d groupe d news Document Document Image ia Alerte Aucune alerte sur le document E Alerte Le contenu du document a change E Alerte 88 Mot s cl s trouv s dans le document Alerte Le document est nouveau Alerte Le document a t supprim go Filtre Fitre exclusi faa n nan naen nan seen sen rene sees senssneeenen seen sens ma poe ebe sees DL LL LEE CE CET T z oon be nn nn ne mn men ninn nian nban nban nban ninn n e nan nn sens n den Tous droits r serv s 2008 Page 80 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Voici quelques exemples de combinaisons possibles Un document PDF nouveau qui comporte un ou des mots cl s d alerte AA e Un document HTML ou texte supprim Un document de type fil RSS dont le contenu a chang et qui comporte un ou des mots cl s d alerte WHET 5 Le gestionnaire d archives Comme vu dans le chapitre Fonctions d archivage cf 1 7 2 KB Crawl est capable d archiver toutes les versions diff rentes d une m me page contenues dans une source Un module sp cialement d di l archivage permet de consulter et g rer ces archives EE Papes archiv es pour http www lairibune riCobrandsArtictes nsffArticles rss OpenView tChannel Accuetl ni Vernon de rennes a Deni r version Ga Vegon pr c dente a Version suvarte Supprene let archives La Tribune fr 7 1401 08 quotidien economique m Lies
36. a 58864 baa 541 itp wv openlaszio france com phpBB2 viewfonm php r sid 2d30 dH59906a 58964855 29333 891 http www openlaszio hrance com phpBB 2 viewtorum php t Sicid ad 303 ddd 59906 a5SSb4S35H 2oatbas 601 Rito rem op ras fiance com phpBB viewtorum php tf S cid ads0sdd4 S990 564855 29obas 52 Hh Wh Hp Wp Hh Hp Mh HH EEE E HOG HH OP HG HO 2 DE Es Es 6 sd Es 6 A OD BO Bi E KE E E L exemple ci dessous montre ce qui se passe lorsque l on effectue un crawl de comparaison apr s avoir saisi sid comme param tre ignorer FUI http 4 oe om phpBB 2 viewforum php f 18 45 T i k C F pe RARE RER http wi openlaszlo france com phpbb 2 viewtorum php t 1 Oe 54 Fj http anna openlaselo trance com phpbb 2 wewtorum php TT 48 Fj http e openlaselo france com phpBB 2 viewtorum php test 75 Fj http anna openlaszlo trance com phpBB 2 viewtorum php est Bs http mm openlaszlo France comi phpBB rviewonum phprf 48 61 Fj http fn openlaszlo france com php BE 2 viewtorim php fe 54 firs http anna openlaszlo france com phpbb 2 yiewtorum php sf 661 F http anna openlaszio france com phpBB 2 viewhorum php ts r 89 Fi http ann openlaszio france com phpbb 2 viewtorum php fs BO we Hp Hp Wp HHS HHS HS HF http ann openlaselo france com phpbb 2 viewtorum php fs 52 e Authentification acc s a un espace s curis Certaines URL sont prot g es pa
37. adresse de d part Ctrl N La source ainsi cr e se trouvera dans le m me dossier que la source dont elle est issue avec une profondeur de site et de page gale 0 et une configuration d options par d faut ll suffit ensuite de d finir pr cis ment son param trage Cette fonctionnalit est tr s utile lorsque l on veut explorer plus en profondeur une partie d un site apr s l avoir localis e pr cis ment 4 4 Les diff rentes ic nes de l arbre Chaque n ud de l arbre porte un triptyque d ic nes qui permet de voir d un coup d il le type de document dont il s agit si le document est en alerte et de quel type d alerte il s agit Tous droits r serv s 2008 Page 79 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 En utilisant le menu Affichage on peut voir une l gende compl te de chaque ic ne qui participe la combinaison de trois ic nes significatives Fe L ge nde kg Icone Cat gorie Commentaire Source Source qui ne comporte aucun changements T Source Source qui comporte des changements re SOUICE Dossier ou sous dossier fe Source Groupe de recherche a Source source yerrouillee i Document Dossier ou sous dossi r FIP I Document Document HTML ou texte FE Document Formulare Web Document Document Flash FA Document Document ASS A Tana DocumentActobatPDF Document Document fond Document Document Excel Document Document
38. b cois disent volontiers fureteur ou butineur SOURCE Une source est un ensemble de pages Web dont le contenu textuel a t rassembl puis stock dans la base de donn es de KB Crawl Il se d finit principalement par son point d entr e ou adresse de d part et une profondeur de page et de site CRAWLER Fran ais Araign e C est la partie d un moteur de recherche qui surfe sur la toile enregistre les URL classe les mots cl s et le texte de chaque page qu il trouve En fran ais un terme souvent employ est robot Les synonymes employ s en anglais sont aussi bots et spiders HTML Anglais HyperText Mark up Language Langage de description des pages Web d riv du SGML Il est compos d une suite de signes ASCII dans laquelle sont inclues les commandes sp ciales concernant le formatage des pages la police de caract res et les multim dia HTTP Anglais HyperText Transfer Protocol M thode utilis e pour transporter des pages HTML du WWW sur le r seau L acc s aux services Web se fait en donnant une adresse de type http nom de domaine r pertoire INTERNAUTE Utilisateur de l internet Note On rencontre aussi le terme cybernaute J ournal officiel du 16 mars 1999 Vocabulaire de l informatique et de l internet INTERNET Ensemble de r seaux de toutes tailles interconnect s par le protocole IP Le point de d part d internet fut ARPANet c est dire un r seau de quatre
39. ce chargement dans la base de ee hata teat made irom oe Plastic Ra cel rs facial ene Traral ioe Pr sentation de tB Chand Pr sentation de l interface Translate this page Translate the page 256 une soluhon pois la vee __Sollaborative Date de Translate the page Translate this page Translate this page re http 3 espace com results imal y sephl G ltD BEP gt 2008 2007 1 i 9 Pourquoi cocher la case mettre dans la Este de brevets 7 07 r sultats ont t trouv dans La bane de donn s Woldaade pour pal chargement dans la base de ___ donn es EE FRONT FORK FOR BICYCLE MADE OF CARBON FIBER REINFORCED PLAST is gl Hales JA espacenat comvtesuhts feat T Cr eepel Gat 20 00 2007 12 Pourque cocha la case mattie dans La kite de brevets 7 Rules nn denale base de donn es wieeldvade poui sukas sont In s par date ce chargement dans ls base de _ donn es ng visual mlomalion and content has carier surface consisting of diferent 7 hip FNG espocenet Comitesults tsiak CV zepi Gat B EP 20 08 2007 1 12 Pourques cocher Le cave mettre dane Le krbe de brevets 7 Soin psn de nee A PE x rer art pe ce base de OF PLASTIC FOR BICYCLE Figure 74 Masque exemple 4 Tous droits r serv s 2008 Page 138 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 10 4 L assistant de recherches avanc es Dans le cadre du haut du moteur de recherche le bouton Recher
40. cis Les op rateurs bool ens permettent de le faire Les op rateurs bool ens utilisables sont les suivants and utiliser lorsque l on souhaite tre alert si tous les mots de la requ te figurent sur les pages surveill es utiliser lorsque l on souhaite tre alert sur l apparition d une expression exacte celle ci devra tre crite entre guillemets or utiliser lorsque l on souhaite tre alert si un ou plusieurs mots de la requ te figurent sur les pages surveill es not utiliser lorsque l on ne souhaite pas tre alert si le mot figure sur l une des pages surveill es limination du bruit Near utiliser lorsque l on souhaite tre alert si les deux mots sp cifi s soient loign s de huit mots au maximum Ces op rateurs peuvent tre utilis s manuellement mais aussi gr ce l assistant qui permet de renseigner les champs sans avoir taper les op rateurs chaque champ correspond un op rateur Le champ Tous les mots suivants correspond l op rateur and Le champ L expression exacte correspond aux guillemets Le champ Au moins l un des mots suivants correspond l op rateur or Le champ Aucun des mots suivants correspond l op rateur not Tous droits r serv s 2008 Page 120 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Les champs les deux mots suivants loign s de 8 mots au maximum corres
41. compatible MSIE 6 0 Windows NT 5 1 Furn WebProducts SV1 NET CLR 1 1 4322 Cookie envoy MODE_AFF_LIST 1 R ponse HTTPA1 1 301 Moved Permanent Date lundi 13 f vrier 2006 14 26 PM Last Modified samedi 30 d cembre 1993 4 1200 AM Server BustayS 1 0 Content length 255 ContentType text html charset is0 8859 1 Get shopping tk 1he 2 Host shopping tfi fr Referer Hbtpc Meath fr Aocepl test 7 sergent Moalla 4 0 compatible MSIE 6 0 Windows NT 5 1 FunwebProducts SVT NET CLR 1 1 4322 Cookie envoy MODE APF LIST sl al Duwi b Enregistrer sous Copies E Wider 3 Figure 79 J ournal t l chargement avec succ s Quelques exemples d URL crawl es avec des redirections Tous droits r serv s 2008 Page 145 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 x heterer http s google tr Accept testhtml 7 useragent Mozila 4 0 compatible MSIE 6 0 Windows NT 5 7 FurnebProducts SVT NET CLA 1 1 4322 Cookie envoy PREF ID 6b6363b06F1 65008 T M 1139827 554 LM 11 3982 7552 5 r we Pivalld lB zh CARPE EEE RER SAS SME Sa SoS Se SAS SMS GM com cea wha ata ate ots ohm ohm ha at ate ats ohm wha atm ats ote ata wha chm atm at ot ota wha hm a at at wea wha am at atm atm wea hm atm at atm oem wha hm at Rapport pour Google Bea Conseil Nombre de pages crawlees avec succes Z Nombre de fichiers non teste t l charg
42. cran principal L envoi des E Mails est regroup Par destinataire Par destinataire et par dossier Par destinataire et par source Il existe trois types de regroupement possibles Par destinataire chaque destinataire recevra un seul et unique e mail d alerte par session de crawl ind pendamment du nombre de sources en alerte Par destinataire et par dossier chaque destinataire recevra un e mail par dossier contenant au moins une source en alerte pour laquelle il est abonn Cela signifie qu une personne abonn e 4 sources appartenant 3 dossiers diff rents ne recevra que 3 e mails d alerte Par destinataire et par source chaque destinataire recevra autant d e mails qu il existe de sources en alerte pour lesquelles il est abonn Cela signifie que si l on reprend l exemple pr c dent le destinataire recevra 4 e mails d alerte e Documents attach s KB Crawl offre la possibilit d envoyer en pi ce jointe des e mails d alerte une copie des pages en alerte ainsi que les inclure dans le corps du mail Documents attaches alerte s Pages d alertes incluses dans l e mail jusqu a 4 alerte s Poids total maximum des documents attach s 1 000 Ko Libell des fichiers joints FJ Esemple Fd il hin FJ i2 htm Wl Libell automatique Pour joindre les pages d alerte aux e mails il suffit de cocher la case Pages d alerte jointes chaque e mail partir de et de pr ciser un
43. de i hs Li PRES ER AP kn aa ada Cate sod ALT ia i Le Monde mure arte SF OU dE y SS i ST alka pan 2 hip ee googie hisemchThit g bcrem bin ee scie 10 01 2008 11 Produits KB Crawl Logiciel de velle concurrentielle cuvellance de L volre sp cialiste de la ER Cocurments PDF suv lance des sites Intemel out de veille en version 20 Abeer dare fa Kerastase Flash actu ouis veie mist fe Pubbe Abiche phoidouti 286 13k r compens au palon expo a g Publishers 2 ip lune manele gouwe fiy presse dossiers de pres DOS 22 4 008 Ve 18 fan Mireli Interne de seniper l l phoniques el irternet et les consommateurs de serices t l phoniques ei H Vede corcuentele Intemet _ oft leg contonmasieurs de senaces t l phoniques et Intemel oe d roudes le Lorine avec les op cateurs ef les consom m shes nemel de sername l phoreque t t 4 hep diva enelead m oeach CaM Gwe et Ca 2000 2007 15 17 ele m a wodduade Web seschengne helps internet users to seach and frd miomghon on the ciel d vale concumenbelle survedance ste niema vous hes la recherche Furi logiciel de veille concurrentes venez decon is ste KE Crawl voire sp culbete de LE 5 http uns mneh gom Athenes technologes indo irdenet 22 04 2008 10 14 cmne gouh Th me remet Technologies de lirdcemation Internet Internet L uhksaton de Mnbermel passe par un cadre rglemenane ad quat respe
44. donc tre enrichie ou modifi e volont pour ajuster les performances de parsing KB Crawl fournit une grammaire par d faut la plus compl te possible mais celle ci ne peut couvrir tous les cas de codes HTML et J AVASCRIPT rencontr s dans l ensemble des pages du Web Il est donc parfois n cessaire d enrichir cette grammaire afin de pouvoir r cup rer certains liens et naviguer en profondeur de page en page dans un site Web A cet effet la fonctionnalit d export et d import de la grammaire du parser permet de travailler partir d un fichier ASCII qui repr sente cette grammaire Chaque ligne du fichier correspond a une balise HTML et une variable ou une fonction que le parser attend l int rieur de celle ci Une variable est suivie d un signe qui lui m me est suivi de guillemets ou de cotes qui entourent une valeur cha ne alors qu une fonction est directement suivie ou non d une Tous droits r serv s 2008 Page 171 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 parenth se ouvrante elle m me suivie de valeurs chaines s par es par des virgules et d limit es par des guillemets ou cotes Chaque ligne est compos e de 6 champs s par s par un Champ 1 libell de la balise HTML ouvrante Champ 2 libell de la balise HTML fermante Champ 3 libell de la variable ou du nom de fonction trouver entre les deux balises Champ 4 la valeur de la variable ou les arguments de
45. dossier s lectionn e Le second bouton permet de supprimer l abonnement d un contact ou d un groupe de contacts Tous droits r serv s 2008 Page 102 P08 00112 A4fr A2 KB Crawl 7 3 1 Ajout d un abonn Cliquer sur le premier bouton de la colonne centrale gt Une fen tre appara t FE Choix des alertes L abonn re oit un mail lorsque ww Le nombre de mots a chang oo Une nouvelle occurence d un mot cl a t d tect e J W La page est nouvelle ie y zy nace disparu x Figure 51 D tail d un abonnement Manuel utilisateur v 3 1 L alerte pour une source donn e peut se produire pour diff rentes raisons changements dans le contenu apparition de mots cl s page disparue etc mais chaque abonn ne souhaite pas forc ment tre alert pour n importe laquelle de ces raisons Un contact peut souhaiter n tre alert que pour un motif bien pr cis Pour cela KB Crawl permet pour un m me contact ou groupe de contacts de personnaliser ou filtrer l alerte qu il re oit BE Choix des alertes L abonn re oit un mail lorsque C Tout cocher tout d cocher El Le nombre de mots a chang E La page est nouvelle La page a disparu x Dans cet exemple le nouvel abonn ne recevra un message par e mail que si des mots cl s apparaissent sur une des pages de la source Tous droits r serv s 2008 P08 00112 A4fr A2 Page 10
46. e Explorer ces liens jusqu au niveau D finit la profondeur de page pour les sites externes visit s On peut aussi d finir une profondeur de page infinie pour ces pages Tous droits r serv s 2008 Page 34 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 e Sens d exploration S lectionner Bidirectionnel pour que KB Crawl explore les pages de niveaux sup rieurs et inf rieurs celui de la page de d part pour l exploration et Unidirectionnel pour que seules les pages de niveaux inf rieurs et du m me niveau que celui de la page de d part soient explor es Exemple Soit la page de d part http www kbcrawl com products KBCRAWL htm La page http www kbcrawl com actualite html est une page de niveau sup rieur la page de d part En mode bidirectionnel elle sera explor e alors qu elle ne le sera pas en mode unidirectionnel Les pages http www kbcrawl com products Niveaulnferieur pagel htm et http www kbcrawl com products KBCrawl 2 htm seront toutes deux explor es dans les deux cas e Alertes Cocher ici les criteres qui doivent d clencher une alerte une fois qu un crawl de comparaison a t r alis Alertes Cette source est en alerte lorsque sur une page surveill e M Le nombre de mots a chang partir de 1 mot s Uniquement lors de Oe ajo w La page est nouvelle ww La page disparu e Abonnement aux alertes par E Mail Abonnement aux alertes par E Mai
47. es par KB crawl sont 0 pour ces trois param tres A chaque fois que KB Crawl explore une page fille il incr mente s il y a lieu les compteurs de niveaux parcourus qui valent 0 sur la page de d part ce qui lui permet de s arr ter quand ces compteurs atteignent la limite d finie par l utilisateur Il est possible galement de fixer une limite au nombre total de pages explor es Exemples Soient deux sites distincts dont l arborescence des pages se pr sente comme ceci Dans les cas suivants on colorie en noir les pages qui seront explor es Remarque Le lien en pointill s m ne du premier site vers la page d accueil du second Cas 1 Profondeur de page 0 Profondeur de site 0 Profondeur de page depuis les liens externes 0 Point d entr e PCR Tous droits r serv s 2008 Page 16 PO8 001 12 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Cas 2 Profondeur de page Infinie Profondeur de site 0 Profondeur de page depuis les liens externes 0 Point d entr e p Cas 3 Profondeur de page 3 Profondeur de site 0 Profondeur de page depuis les liens externes 0 Point d entr e Cas 4 Profondeur de page 2 Tous droits r serv s 2008 Page 17 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Profondeur de site 1 Profondeur de page depuis les liens externes 0 Second point d entr e Point d entr e pe Cas 4 bis Profondeur de
48. fonction de la taille de la page 10 Fen tre g n rale de KB d rae 21 Barre d outils CIC AR ea se a Esseen e seneese resan 21 L explorateur de SOLS a a a ie Ce eer rere 27 Dossiers et sous GOSSIONS sis wacacsessccsssesaincsnnsncasssnnviedailvnSounnasscnisousendenhtadessGonshasueredadenansadeshtusgandaenses aoubens 29 Liste de sources pr param tr esS nee oder aecewen 30 Page principale d une SOUFCe 000 0 eeeeccecccccccsssssscscceeccccessssssesccccesssssseeeeeecececssssueeeecesesssnseeesesceeeeseeaaes 32 Exemple de formulaire Web d authentification ec cccccsssscceeececeeesssseeececesssseeeeeeeeeeeesssaaes 39 Exemple de formulaire Web de moteur de recherche 40 L analyseur de ODA NE Se a D no a 41 L analyseur de formulaire d tecte l envoi de donn es ou cece ceeccccesceceeseccesseesesssecesssesesseeess 42 L analyseur de formulaires avec un moteur de recherche ceceeeccccccccceessssseeeecceeseessssseeeeeeeeens 43 Rep rage d un formulaire dans l explorateur de Sources 48 Formulaires multiples dans l explorateur de sources eee cecccccceesssceccccceeessssseeeeeceeeeesssseeeeeeeeeens 48 Onglet Fichiers enregistrer du d tail d une source 49 Filtre de type black liste visible depuis l explorateur de sources 55 Filtre de type Exclusif visible depuis l explorateur de sources escesssseserrrrsseerrrrrrrssssn 55 Application d un filtre a plusieurs URL simultan ment eesssrssrresriesrriserieser
49. fonction des heures de la journ e exprim e en secondes 91 H ritage des heures de d clenchement iii 93 Non h ritage des heures de d clenchement issue 94 H ritage de surveillance automatique autre exemple 0 0 eee cece cceesseeeesseesesseessssseseeseeens 95 L onglet automatique avec surveillance automatique enclench e cess eeeeeeees 96 Cr ation d un raccourci pour lancer KB Crawl en mode automatique 97 PSS SS COIN CS a 98 D a ee ee 99 ea CESHIONY GES ADOO M NES a 102 Ber aC CORRE spre scontee tc ESE E E ne ee E E eee 103 Liste des messages CIO CN assesses ee cece cets case occas sae 104 Erreur lors d envoi d MESSAGES sssisacniersscncsavecniniasscnaesuiacedasesuataananchietasadetadasadsiedsswaeasansecideianeentaaune 108 Tous droits r serv s 2008 Page 6 P08 001 12 A4fr A2 KB Crawl Figure 54 Figure 55 Figure 56 Figure 57 Figure 58 Figure 59 Figure 60 Figure 61 Figure 62 Figure 63 Figure 64 Figure 65 Figure 66 Figure 67 Figure 68 Figure 69 Figure 70 Figure 71 Figure 72 Figure 73 Figure 74 Figure 75 Figure 76 Figure 77 Figure 78 Figure 79 Figure 80 Figure 81 Figure 82 Figure 83 Figure 84 Figure 85 Figure 86 Figure 87 Manuel utilisateur v 3 1 Motseles d une SO eaten te nn ne nee nce ee eee re nee ere ene ne ee rere 118 Pe SM Cats a une recherche ienien ceacatsseutct ecto nc teen stat secu E
50. h rite des mots cl s des dossiers et sous dossiers auxquels elles appartiennent Lorsque l on modifie les param tres d une source ou bien ceux d un dossier dans le menu d options globales on ne voit que les mots cl s du niveau concern ce qui ne permet pas au final de voir pour une source donn e tous les mots cl s susceptibles de d clencher une alerte Le module de gestion des mots cl s d alerte apporte une solution ce probl me On y acc de de plusieurs fa ons en cliquant sur le bouton Mots cl s dans la barre de menu principale directement depuis la source ou le dossier concern en faisant un clic droit mots cl s d alerte CTRL K FE Param trage des mots cl s H nage du doris Al La m Vade Sache Cliquez i i pour iner Expressions ou mots cl s Cie ici pour Wiar Shy VEILLE ree Qui Brevet a Espacerret Ws Groupe de reached fi Exslead KBC Google KA Di Presse MX La Tribune E Lemonde a Produits Documents PI E Kerastase Fla i Publish 3 Mrl niema H Voie Sectoriele EJ RE le Heit r Es L i 7 Modifier 6 Suppeimer T Importer A Enegia sout Une fen tre s ouvre et montre des informations contextuelles la source ou au dossier sur lequel on tait positionn dans la fen tre principale Cette fen tre poss de trois cadres Tous droits r serv s 2008 Page 117 P08 00112 A4f
51. la v rification de la nouvelle base de donn es x La base de donn es peut tre soit locale soit distante visible via le r seau LAN Cocher l option correspondante Locale ou Serveur Dans le cas o la base de donn es est locale l ordinateur sur lequel est install KB Crawl saisir le chemin entier du fichier GDB Dans le cas o la base de donn es est h berg e sur un autre ordinateur saisir l adresse IP ou le nom de cet ordinateur puis le chemin complet de la base de donn es sur cet ordinateur Tous droits r serv s 2008 Page 170 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 FE Connexion une base de donn es KE Crawl est actuellement connect la base de donn e suivante localhost C Program Files KE Crawla data KBCRAWL BASEEXEMPLE GDB Connexion a une autre base de donn es Type de connexion Locale Serveur Hom du serveur ou adresse IP 1 FAERIT Chemin complet de la base de donn es sur le serveur C nterdatacrawler GDB Tester Option Lancer la v rification de la nouvelle base de donn es x Valider avec la coche verte pour effectuer la connexion En connexion de type serveur un test de connexion pr alable peut tre effectu en cliquant sur le bouton Tester En option la base de donn es laquelle KB Crawl va se connecter peut tre v rifi e 13 6 2 Grammaire du parser La grammaire du parser est enti rement param trable Elle peut
52. n a pas compter les mots dans ce cas La derni re option d affichage concerne le nombre de r sultats affich s par page Tous droits r serv s 2008 Page 141 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 11 Le journal Depuis le menu affichage il est possible de consulter le journal dans lequel s inscrivent principalement des informations relatives aux crawls r alis s e un rapport pour chaque page crawl e e une notification des liens ignor s e un r capitulatif en bas de page qui rapporte le total de pages crawl es avec succes le total de liens ignor s le total de pages non trouvees le total pour d ventuelles autres anomalies chec de parsing chec au moment du stockage dans la base O O O 0 e un rapport d ventuelles anomalies voqu es plus haut Exemple classique de journal apr s le crawl du site de TF1 Hererei NWD MeO ET Accept text html 7 usenagent Mozilla 4 0 compatible MSIE 6 0 Windows NT 5 1 FuniwebProducts SY1 NET CLA 1 1 4322 Cookie envoy MODE AFF_LIST 1 R ponse HTTPA1 1 200 OF Date lundi 13 f vrier 2006 14 26 PM Last Modified samedi 30 d cembre 1899 4 1200 AM Server BustayS 1 0 Content ype text htmi Waa 2 Se SHS BBC ce Se De aD RO ce ASD SS De SS SA Se Se Ded a Se Se SAD AS Se MRENA RRRA ae Se eS Ad we ae es DS Dea Sod eS Sa Se Se Nombre de pages crawl es avec succ s 143 Morb de hehies non teste t l charg s
53. or esp ce and not treuil Interpr t e cette requ te signifie On veut voir les pages avec CHASSE et PERFORMANTE et LOI ou CRAWL ou ESPECE mais pas TREUIL Tous droits r serv s 2008 Page 131 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 10 3 3 Gestion des troncatures Pour viter d avoir saisir une requ te contenant diff rents termes ayant la m me racine on peut utiliser la troncature Ici un exemple avec une troncature illimit e avec la racine info FE Module de recherche Cliques ici pour ter VEILLE qi Brevets Espacenet Fide Groupe de recherche KB mn E Exalesd KBCram R 8 Exporter Formita depot n Google KB Crd INFORMATION Eq Presse INFORMATIONS E La Titure INFORMATIQUE doi 97302 arf ix Pen On NRC MERE KT D OO E leror INFORME 2 lhtee Dieii com tesults sh nal CY epil Grirt DEEP 20703 2007 12 at See 2 INFORMENT _lyVerdana Geneva Anal Helvetica sans senl pubio small font size 100 E Documents POF INFOS foniamd Verdana Geneva Arial Helvetica sant cenif assist color 9739802 avieted asid Ketaclane Flash INFOSYS color 979662 Ir cemations relatives la pubication Infcemations relatives la beam 8 _ al rap HGLespacanet com tesulls isaky epbLG fSDB EP 2070372007 12 30 veh Int trist Jy Verdana Geneva Arial H ebetica sans satil pubuinfo emal ifori H2 100 pr Vele Seclorielle font iamiy Verdana Geneve Anal Hetv
54. ordinateurs que relierent des scientifiques du ministere de la d fense am ricaine en 1969 Dans les ann es qui suivirent de plus en plus d universit s et d instituts de recherche se sont joints eux Tous droits r serv s 2008 Page 184 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 LAN acr angl Anglais Local Area Network R seau local R seau situ dans une zone r duite ou dans un environnement commun tels qu un immeuble ou un bloc d immeubles Un r seau local devient une partie d un r seau tendu lorsqu une liaison est tablie via des modems routeurs distants lignes t l phoniques satellites ou une connexion hertzienne avec un gros syst me un r seau de donn es public Internet par exemple ou un autre r seau local PARSING Analyse syntaxique ou analyse grammaticale d un document informatique ex HTML XML etc PROVIDER ou Access Provider Fournisseur d acc s l internet SOCKET Deux processus ind pendants sur deux machines distinctes communiquent entre eux via les sockets URL Anglais Uniform Resource Locator Adresse Internet exploit e par les navigateurs Internet Explorer ou Firefox par exemple C est l adressage standard de n importe quel document sur n importe quel ordinateur en local ou sur Internet Structure de base d une URL protocole serveur r pertoire document extension http www yahoo fr WEB Le Web ou toile pour les Canadiens est l
55. page 2 Profondeur de site 1 Profondeur de page depuis les liens externes 1 Cas 5 Profondeur de page 1 Profondeur de site 1 Profondeur de page depuis les liens externes 2 Point d entr e __ Tous droits r serv s 2008 Page 18 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 1 7 Stockage et acquisition de l information 1 7 1 Stockage du contenu textuel La troisi me phase du processus de crawl consiste stocker les informations acquises lors des deux phases pr c dentes Comme on l a vu le premier int r t du parsing est d extraire les mots porteurs de sens du texte de la page Par ailleurs le code HTML d une page est en g n ral 95 d di la pr sentation et au fonctionnement de la page A chaque crawl d une page Web KB Crawl stocke syst matiquement l URL et son contenu textuel dans la base de donn es Ainsi le moteur de recherche cf 10 peut par la suite acc der directement a l information pertinente ce qui rend le syst me tr s performant NB Tous les mots d une m me page sont stock s ensemble et dans l ordre dans lequel ils ont t trouv s durant le parsing avec la ponctuation qui les accompagne Ce bloc de texte est visible pour chaque page dans l explorateur de sources cf 4 1 7 2 Fonctions d archivage En plus de l URL et de son contenu textuel KB Crawl dispose d un espace de stockage r serv l archivage au sein de sa base de donn
56. partie haute qui affiche le nombre de r sultats obtenus par la recherche avec le temps mis par le moteur de recherche pour trouver les r sultats A ce temps Tous droits r serv s 2008 Page 125 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 doit tre ajout le temps pris pour renseigner la grille de ces enregistrements et cr er les parties de texte de pr visualisation Cette partie propose galement un bouton exporter qui permet de placer toutes les pages r sultat affich es dans la grille dans un r pertoire choisi avec une page d index se reporter au chapitre export L export se fait alors au format d export choisi dans la liste d roulante juste c t du bouton export KB Crawl cr e alors un r pertoire partir du r pertoire d fini dans le format d export nomm ainsi recherche jjimmaaaa hh mm ss 10 3 Effectuer une recherche Pour effectuer une recherche il faut se placer dans l onglet Recherche Celle ci peut s effectuer sur la source s lectionn e ou le dossier s lectionn selon que l on coche ou non l une des cases Source s lectionn e uniquement ou Dossier de la source s lectionn e Si l on ne choisit aucune de ces deux options la recherche s effectue sur la totalit des sources contenues dans la base de donn es La recherche d informations se fait par des requ tes au m me titre que n importe quel moteur de recherche sur Internet Ces requ te
57. positionner sur une source ou un dossier dans le cadre de gauche sur un mod le d export dans le cadre du milieu puis cliquer sur la fl che verte gt Effectuer un glisser d placer depuis la liste des mod les d export vers une source ou un dossier 8 4 H ritage des mod les d export Sa aramenage des ex pos lol x Platiaches les mod s pe eu no E irai acer cu ule las il ches Halttachements pei FRET ed rt Beets Format sci ne Litem au modere ST our Foma d eport n 1 C Program Fles KBC FiesKBC Format deputi C Progiam Files FBC Pq Exemples avec document El POF a FOF KB Creed we EXCEL Exemple Excel Eg ED Exemple Word EH Exemples avec formulaire M Teoma Bea Conseil a Googe Bea Conceal EX shoo Groupe KB Cre ai aut a vendre a 6 eng sans lomulare Ell BEA Conseil KBCrawinet Esempi iire variable E KB Crawl met 1 i Patenaras Bea Cons EH Exemple ASS E La tibune EH Exemple Groupes de new Free Interbace s TP Ajouter LA Modifier Bb Supprimer Si une source est rattach e un mod le d export et que cette source est contenue dans un dossier lui m me rattach un mod le d export ou encore que plusieurs sous dossiers formant une cha ne de filiation sont rattach s a des mod les d export diff rents la r gle qui s applique est la
58. processus de veille depuis l exploration des sites contenant des informations pertinentes jusqu la d tection de tout changement l int rieur des documents qu il contient afin d en alerter le veilleur e Ces alertes sont mises en vidence au niveau de l interface de KB Crawl afin d avertir imm diatement l utilisateur Elles peuvent galement tre diffus es par courriel une liste de contacts ou des groupes de contacts e KB Crawl propose une palette d outils d di s l analyse des informations acquises durant la phase d exploration appel e crawl A chaque fois que KB Crawl inspecte un site Internet il stocke le contenu textuel des pages qu il explore dans une base de donn es Ceci permet d effectuer des recherches par mots cl s requ tes afin de localiser pr cis ment l information recherch e quelles pages contiennent cette information et o se trouve cette information l int rieur de ces pages e Outre la fonctionnalit de moteur de recherche le stockage de ces contenus dans une base de donn es relationnelle permet de visualiser des sites sous forme arborescente mettre en vidence des mots cl s recherch s et de nouveaux mots cl s apparus dans un browser int gr l interface classer les sites observ s par dossiers etc eLe module d archivage de KB Crawl permet de stocker les diff rentes versions d une page Web analys e puis de les consulter pour les comparer entre elles et suivre l
59. r serv s 2008 Page 104 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 EE Param tres d envoi des E Mails i ane r Mode d envoi w Les E Mails sont ervoyes apr s chaque crawl ou Comparaiton sron ts sort Hock s dans la boite dermei de FE Liaw i Pr i a La ln if rs alt ft 3 z acters depus e boon dHupon de l cran onal TESTE BRUT Documents attach s Ent te v Pages d alerte jambes chaque email patir de 1 ateis Bonjour lt HFIRSTNAME gt lt HHAME Pages d aledies mcluses danel e mailjuqu s aleiteis Poids total maximum des documents attach s 1000 Ko Lhel des fichiers purs FJ Exernp e Ful PL nm FJ EE Fim wi Libell sulomabque Pour toutes questions au sujet de KB rawd oe S cunt vous pouvez jointe KE ineligencel par email supporttstk brad rat ou par t l phone au 23 001 41 29 05 02 Nom de l exp diteur demro kbes sl net L exn chteur det tre une adresse E Mail valde E b E f ane reponse eal late aux CM que EB Cred ere Cette pons 2268 Cue Cale ACTES Il est possible d agir sur tous les param tres suivants e La liste de diffusion est active Cette option permet de choisir ou non de prendre en compte les abonnements cr s dans le menu Gestion des abonnements Si la case Non est coch e cela signifie que KB Crawl ne prendra en compte aucun des abonnements cr s et ne diffusera aucun e mail d
60. rendu complet d un crawl et voir si des difficult s particuli res ont t rencontr es Socket Error 0 No Error Socket Error 10004 Interrupted system call Socket Error 10009 Bad file number Socket Error 10013 Permission denied Socket Error 10014 Bad address Socket Error 10022 Invalid argument Socket Error 10024 Too many open files Socket Error 10035 Operation would block Socket Error 10036 Operation now in progress Socket Error 10037 Operation already in progress Socket Error 10038 Socket operation on non socket Socket Error 10039 Destination address required Socket Error 10040 Message too long Socket Error 10041 Protocol wrong type for socket Socket Error 10042 Bad protocol option Socket Error 10043 Protocol not supported Socket Error 10044 Socket type not supported Socket Error 10045 Operation not supported on socket Socket Error 10046 Protocol family not supported Socket Error 10047 Address family not supported by protocol family Tous droits r serv s 2008 Page 11 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Socket Error 10048 Address already in use Socket Error 10049 Can t assign requested address Socket Error 10050 Network is down Socket Error 10051 Network is unreachable Socket Error 10052 Net dropped connection or reset Socket Error 10053 Software caused connection abort Socket Error 10054 Connection reset by peer Socket Error 10055 No buffer space available So
61. suivante c est le mod le rattach l entit source ou dossier du plus bas niveau qui s applique Tous droits r serv s 2008 Page 115 P08 00112 A4fr A2 KB Crawl Exemple F i f Param trage des exports as Pe i 1 a m y p LE a vd oo Va ee eee en lee Due fee PURE 7 oe Le CEA LEONE CH Source I a Energies avec document E POF S POF KB Cran E fi EXCEL 8 Exempie Excel Eg WORD Exemple Word SH Exemples avec forrulaine FA Teoma Bea Conse S Google Bea Conseil E Tahoo Groups KB Cre Ei PAP vende Fama TS a G ES RSG Foma depotni C Program Fies KBC Erg Exemples sans formulare Elia BEA Conseil S HECrant net 2 EH Exemple flire variable E KE Crawl met 1 Eu Patenaves Bea Cons E i Exemple RSS EH La tnibure EH Exemple Groupes de new IL Fies Interbase GP Ajouter GA Modifier AE Supprimer Manuel utilisateur v 3 1 a Besoin ni a Ici la source Teoma est rattach e au format d export N 2 alors que le dossier qui la contient est rattach au format d export N 1 C est dont le mod le d export rattach la source Teoma qui s applique comme l indique la grille dans le cadre de droite 9 Gestion des mots cl s d alerte P08 001 12 A4fr A2 Tous droits r serv s 2008 Page 116 KB Crawl Manuel utilisateur v 3 1 Les mots cl s d alerte sont affect s des sources ou des dossiers Chaque source
62. une page elle est explor e de fa on exclusive en vitant toutes celles qui sont son niveau 3 7 3 2 Black List Pour viter de crawler une URL il suffit de la black lister ainsi lorsque KB Crawl la rencontre il la reconnait en tant que telle et ne la crawle pas 3 7 3 3 Liens forc s Tous droits r serv s 2008 Page 53 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Lorsque le Parser de KB Crawl ne peut trouver un lien qui doit le mener d une page 1 vers une page 2 et que l on souhaite n cessairement visiter la page 2 parce qu elle contient des informations int ressantes il suffit de cr er un lien forc partir du niveau d arborescence de la page 1 La page 2 ne sera pas forc ment rattach e a la page 1 si cette page n est pas unique a son niveau d arborescence car le lien vers la page 2 n a pas t trouv dans la page 1 mais forc depuis le niveau d arborescence de la page 1 3 7 3 4 Ajouter un filtre Pour rendre une URL exclusive ou la black lister le moyen le plus direct et le plus simple est l explorateur de sources Il faut d abord s lectionner dans l explorateur la ou les URL sur lesquelles on souhaite appliquer un filtre Ensuite il est possible de faire un clic droit sur la ou les URL s lectionn es et de cliquer sur le bouton du menu contextuel correspondant au filtre souhait Ly Rendre exclusif Ctrl E i Black lister Ctrl E 7 Filtre avanc Ctrl F ur
63. utilise KB Crawl passe par un serveur proxy il est n cessaire de cocher la case La connexion Internet utilise un serveur Proxy KB Crawl d tecte automatiquement les param tres du serveur Proxy utilis si ceux ci sont sp cifi s dans les options de connexion d Internet Explorer Si ce n est pas le cas il faut alors renseigner les informations concernant le serveur Proxy FE Uptions pen rales urit pour la connexion web Prop Param tres de s curit pour ie ee mu e Adresse Proxy HTTP Adresse Proxy HTTPS 1 Adresse Proxy NNTP Adresse Pey FTP Lisseur Mot de passe Ut izer la configuration de s curt dinternet Explorer Tester la connexion Web Ades Teste Figure 82 Onglet serveur proxy du menu Options Deux options sont possibles 12 2 1 Utiliser un script de configuration automatique Saisir dans le champ Adresse l adresse du script de configuration automatique Le bouton D tecter automatiquement permet de rechercher cette information dans la base de registre si elle y est enregistr e via Internet Explorer A chaque ouverture de session KB Crawl ou apres validation des options le script de configuration automatique est t l charg et les param tres du serveur proxy extraits de ce script et enregistr s Tous droits r serv s 2008 Page 151 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 12 2 2 Param trage manuel Dans
64. 000 Dh Olen 133 265me EN Documents PE Google KB C hitp nwe google tr searchhisika Groupe de rec Wf VEILLE 16 00 00 00h 00m 16s Sms 8 Kerastase Fla Exalead EBC hip ww exalead tr tearch C OM Gioupe de reel Ww VEILLE 16 0000 00h 00m 26 875m a Pubboatenrss Documents t biip C adote comi aboutadobe Produits Edi VEILLE 6 00 00 _ oh 0 0 EZ 354s gl Vede concunentie KE InteBigenc i C irakische Er Sere derier de cued ence des Gosse Heure de d clenchement 16 00 00 eh dh Lune Puis d clenchement p siodique toutesles I owes dns Erin Mardi w Mercredi T e E lewd ACTA TE v Vendred Seemed _ Dimanche Figure 36 Affichage du planning complet de surveillance automatique Depuis une source s lectionn e dans le cadre de gauche de la fen tre principale clic droit Surveillance Automatique CTRL P Dans ce cas le module de param trage de la surveillance automatique s ouvre en affichant le planning de surveillance de la source Tous droits r serv s 2008 Page 86 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 EE Param trage de la surveillance automatique jan BER eue Fanning du 0370872007 07 e au 03 08 2007 9 Planning complet SQ Statistiques Temps total pr vu 00h Om 17s 31ms tls CEO OOM ER HR slots sii bar S er RE ER RE EE CO TEE RL Exalead KECK CPR fay Googie KB Crp Espacenet hip t a espacenet conne
65. 0112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 FE Statistiques Choix de la source Mots ignor s Langue Fran ais il GA Voir la liste cf Ajouter la liste ag Supprimer de la liste Il faut d abord s lectionner dans la liste d roulante la langue voulue Pour ajouter des mots ignor s saisir ces mots les uns la suite des autres dans la zone de saisie situ e droite de l cran cliquer sur le bouton Ajouter la liste Pour supprimer des mots ignor s saisir ces mots les uns la suite des autres dans la zone de saisie situ e droite de l cran Cliquer sur le bouton Supprimer de la liste On peut galement afficher la liste des mots ignor s pour une langue donn e en cliquant sur le bouton Voir la liste La liste des mots ignor s s affiche alors dans la zone situ e gauche de l cran Tous droits r serv s 2008 Page 169 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 13 6 Parametres 13 6 1Se connecter une autre base de donn es Il est possible de cr er plusieurs bases de donn es et de passer de l une l autre via KB Crawl RE Connexion une base de donn es Sele KB Crawl est actuellement connect la base de donn e suivante C Program Files KB Crawl3dataSKBCAAWL BASEEXEMPLE GDB Connexion une autre base de donn es Type de connexion Locale 0 Serveur Chemin de la base de donn es Option Lancer
66. 08 001 12 A4fr A2 KB Crawl Manuel utilisateur v 3 1 13 7 Maintenance 13 7 1 Archives 13 7 1 1 Supprimer des l ments historiques Cette op ration de maintenance est utile voire n cessaire lorsqu on g re une base d archives de taille importante elle permet de supprimer d anciennes archives r duisant ainsi la taille de la base de donn es F Pages archiv es jusqu au ME v x Tous les documents archiv s ant rieurement la date choisie seront d finitivement supprim s 13 7 1 2 Optimiser la base d archives Lorsqu un document est marqu comme supprim le comportement par d faut du module de gestion des archives est de le supprimer automatiquement de la base de donn es 3 7 4 Il arrive que certains documents qui ne sont plus t l charg s figurent encore dans la base de donn es Ces documents peuvent tre supprim s afin d optimiser la taille de la base de donn es 13 7 2 Base de donn es KB Crawl stocke toutes les informations acquises au cours des diff rents crawls ainsi que toutes les donn es li es aux param trages dans une base de donn es relationnelle Firebird Utiliser cette base de donn es pr sente un avantage majeur bien que tr s performante et n imposant pas de limite de volum trie elle ne requiert pas de maintenance contraignante qui n cessiterait l intervention r guli re d un administrateur de base de donn es KB Crawl est quip d un nouveau syst me de maintenance
67. 1 Importer des sources venant d une autre base 164 13 5 2 Importer des favoris 165 13 5 3 Import Export des sources avec KB Exchange _ 166 13 5 4 Importer des sources venant d un fichier 166 13 5 5 Statistiques _ 166 13 6 Param tres 170 13 6 1 Se connecter une autre base de donn es _ 170 13 6 2 Grammaire du parser 171 13 6 3 Modifier la cl d enregistrement KB Crawl ____ 174 13 6 4 Modifier la cl d enregistrement de KB Scraper ___ _ 175 13 7 Maintenance 176 13 7 1 Archives ____ 176 13 7 2 Base de donn es 176 13 7 3 Service d indexation 182 14 Glossaire 183 Les termes marqu s d un ast risque sont d finis dans le glossaire en fin de manuel Tous droits r serv s 2008 Page 5 PO08 00112 A4fr A2 KB Crawl Figure 1 Figure 2 Figure 3 Figure 4 Figure 5 Figure 6 Figure 7 Figure 8 Figure 9 Figure 10 Figure 11 Figure 12 Figure 14 Figure 15 Figure 16 Figure 17 Figure 18 Figure 19 Figure 20 Figure 21 Figure 22 Figure 23 Figure 24 Figure 25 Figure 26 Figure 27 Figure 28 Figure 29 Figure 30 Figure 31 Figure 32 Figure 33 Figure 34 Figure 35 Figure 36 Figure 37 Figure 38 Figure 39 Figure 40 Figure 41 Figure 42 Figure 43 Figure 44 Figure 45 Figure 46 Figure 47 Figure 48 Figure 50 Figure 51 Figure 52 Figure 53 Manuel utilisateur v 3 1 Table des illustrations Dur e du crawl en
68. 3 KB Crawl Manuel utilisateur v 3 1 7 4 Gestion des e mails en attente Les messages d alerte peuvent tre envoy s automatiquement apr s chaque crawl ou comparaison Si cette option n est pas retenue les messages sont stock s dans une bo te d envoi et peuvent tre envoy s manuellement tout moment Pour visualiser le contenu de cette bo te d envoi cliquer sur Gestion des mails en attente dans le menu d roulant de diffusion EE Liste des messages envoyer A Supprimer 22 Envoyer tout EMAIL info kberawl net PA Weile concurrentiele Recherche goo egooge a E EMAIL Supporttele bars net _ Presse LA TRIBUNE Figure 52 Liste des messages a envoyer La liste des messages a envoyer montre pour chaque contact la liste des messages qui lui sont destin s On peut aussi regrouper ces messages par dossier source nom et pr nom Ce module permet galement de vider la bo te d envoi de tous les messages ou simplement de tous les messages du contact s lectionn Pour cela faire un clic droit depuis le contact s lectionn ou cliquer sur le bouton supprimer de la barre d outils situ e en haut de l cran puis cliquer sur l l ment de menu ad quat 7 5 Param tres d envoi Il est possible de modifier les param tres d envoi des e mails d alerte envoy s par KB Crawl et par cons quent de personnaliser la diffusion des e mails en modifiant les param tres d envoi Tous droits
69. 3 2007 12 3 L _ Fourquoi cocher la case mettre dans la liste de brevets 7 7 Lure 3 espacenet comes eC sepiLG iiDB EPOD 20 03 2007 123 al Pongu coche fa cae mettre dans Lu kate de brevets 2 Tous droits r serv s 2008 Page 137 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Fa F EE Module de recherche Eby VEILLE Brevet ES a fel Exalead KEG R tukots 1510 sur 28 0 031 5 D Epome Fomat depot n bel 8 Googe KB Caw ee 1 Wip J espacenet comenta Tiat FIRS Talb C Yep Gel 2003200712 12 23 Er Presse ees Pourques cocher la care matte dans la file de brevets 7 r alit ont t touv danz la bate E La Titune FRERES de donn es Wcekmde pout hal sont Inde pa dato ce choigemanl dane la base de one FACE donn es ng viewal infomation and contani has caine nulace ens Ea abt L D Lemonde ere 2h fvBespacenet com esuks sfeatCr eeptLG hbOB EP 20 09 2007 12 12 El Produits capital La PR TITRE RE r sulists ont t touv dans la base M Documents POF GATE de donn es Workdwide pour sukats sont ins par date ce chargement dans la base de S Kerastase Flash 2 i Mg Visual infomahon and content has camer suface consisting of different E gl Publications l Shipa epaceanet comesas feablysephLGeitOB EP S Minefi Internet ER Pourqucs cochar la case mettra dans la Esbe de brevets 7 r sultats ont t bouve dans la bate i kpa eaae sukat sont In s par date
70. 400 dace 6de45 75 tps em openlaszio hance con phpBB2 viewlonm php it Si id e5chec 3640040897 datceld bdes5t 631 ito wees openlaszio france com phpBB2 wewtorum php ed cideeSchoc 1 SB4b000IS9 daiceld bded St 61 Rito openlaszho france com phpBB vietom php S cid e5chee 1 4007 datceld bodes Sf 541 hitp Aww openlaszio france com phpBB2 viewtonm php i besid e5choc 4bOg0rs9 7 datceld bded 5 53 ito fus openiaszio Hance comphpBB2 viewlonum php ite feeideeSchoc 1 d OMIS 7 datceldsbded Sf 891 Rito Awe openilaszio fiance com phpBB A viewtorum php sicid eSclec 1 SB4b0e0IS9 desceld bdes St 60 tp ve opentlaszho france comphpBB2 viewtorm php t S8sid eSchoc 3640040397 datceld ide 5t 52 itp vas openlaszico hance com phpBB 2 wewtorum php t amp sideadsO ddd 59906 3568864836 29 Stbas 45 Rito Awe op ras hance com phpBB 2 vewton php t Obsid ed30 ddd SSS06 589643855 2sibas 54 hip Ava opentaszio france comphpBB2 viewtonm php it 1 lksid ad30siddd 59S0baSS964355H 2 3ba5 43 Hit es opentlaszio hrance com phpbb viewtonum php t 2 cidead s0Sf ddd 59906 s5SSb4SS5H 293fba3 79 Rite es openlasde france com phpbb newton php T cid sds 0d S 990685886483 2osbas 63 hitp fem openlaszho france com phpBB 2 viewforum php 4 sid ad 03d S990 58964835 61 itp Ava openlaszio trance com phpbb viewlorum php f Steid adS0Grddd 599m 6889648536 29h35 54 Rite 7a opena fiance com phpBB 2s vewton php t bicid sds0Sfdd4 90e
71. AFF_LIST 1 R ponse HTTP 1 1 200 OF Date lundi 13 f vrier 2006 4 1228 PM Last Modihed samedi 30 d cembre 1899 4 1200 AM Server Bustaws 1 0 Content ype text html charset UTF 6 Redirect GED O Se EI Wa Get src transactions d1F Oh aezh J Host vet fr Referer Hp WF fr Accept tedhtmd sergent Mozilla 4 0 compatible MSIE 6 0 Windows NT 5 1 FurebProducts 5W1 NET CLA 1 1 4322 T Duwi b Enregistrer sous lei Copier 4 Vides le L Figure 77 J ournal page non trouv e Il y a des pages non trouv es http www TF1 fr scollbarw no chec au t l chargement HTTP 1 1 404 Not Found Lien trouv l URL http www TF1 fr L extracteur de liens de KB Crawl a interpr t scollbars no comme tant un lien C est une cha ne extraite d un script J avaScript Cette cha ne tait pass e en param tre d une fonction Javascript navigante et le parser n a aucun moyen de savoir lequel des param tres de cette fonction est l URL il prend donc tous les param tres et les collectionne en tant que liens Ce n est qu au t l chargement que l on s aper oit que ce lien n est pas valide la page n a pas t trouv e Cet chec est inscrit au journal mais ne constitue pas une anomalie Comme le dernier tri des liens valides et non valides se fait au moment du t l chargement 1 4 cette ligne du journal est tr s fr quente II peut aussi s agir d un lien mort
72. CTRL SUPPR Suite l application d un ou plusieurs filtres sur une URL ceux ci apparaissent d s que l on consulte le menu filtre depuis la source iE Filtres MIE nil mm LL 75 blocs aie ke Berl rtf khera ap 6 to nos eK DC areas html Piip ane kcal eet mk Dace a tac actualtes conmmunaques hind niim waa ere meet ty Ducs as actuates him GP Ajoute 2 Hodier 6 Supeeimer Figure 20 Onglet Filtre du detail d une source L entier qui appara t droite de l URL ici gal a z ro est le niveau d arborescence auquel ce filtre s applique Lorsque cet entier est 1 le filtre s applique tous les niveaux d arborescence de la source Tous droits r serv s 2008 Page 56 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Depuis l explorateur de sources un assistant permet de cr er des filtres plus complexes qui permettent au module de parsing 1 5 de r pondre a des besoins plus pointus pour le filtrage des URL Pour acc der cet assistant il suffit d un clic droit Filtres avanc s ou CTRL F EE Filtres avanc s a EA Niesu d anphcalon Blacklist 0 Tous niveaux r Fire avanc Pitre avec un param tre variable introdut par un 7 Fitre avec un motif commun type Patten L assistant de filtres avanc s permet de d finir le type de filtre Exclusif ou Blacklist Le niveau d application du filtre pour que le filtre s appl
73. Crawl Manuel utilisateur v 3 1 Lorsque le parser se trouve l int rieur d une balise de script s il trouve WINDOW OPEN il sait que les arguments entre parenth ses qui suivent sont interpr tables comme des liens Remarque On ne peut pas savoir quels arguments parmi ceux appel s par la fonction sont des liens donc par d faut KB Crawl essaie de t l charger partir de chaque lien potentiel Ceux qui n en sont pas donneront simplement lieu une requ te qui n aboutit pas e Exporter la grammaire du parser Exporte la grammaire du parser au format ASCII dans un r pertoire d sign Enregistrer la grammaire du parser Enregistrer dans Docs wE ni Ee m Mes documents r cents ns 7 Bureau Mes documents Poste de travail Fe Hom du fichier Grammaire tet ka J I es 17 EE ee Aaa Favoris r seau Type Text files txt Entrer le nom du fichier enregistrer puis cliquer sur Enregistrer e Importer la grammaire du parser Importe la grammaire du parser depuis un fichier d sign Tous droits r serv s 2008 Page 173 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Localiser le fichier grammaire du parser Regarder dans Docs P AE Mes documents r cents Mes documents r Poste de travail Hom du fichier Grammaire tet si Favoris r seau Fichiers de type Text
74. Crawl3 data K BCRAWL BASEEXEMPLE GDB ql Parcourir J Documents POF _ Espacenet _ Exalead KE Crawl L Google KE Crawl KE Inteligence _ Kerastase Flash 1 La Tribune Lemonde Lo Minefi Internet C1 Tout cocher tout d cocher Dans cet cran il suffit de choisir les sources importer en cochant la case correspondante puis de valider la fiche Tous droits r serv s 2008 Page 164 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Les sources s lectionn es sont alors import es dans le dossier en cours dans la fiche principale de KB Crawl 13 5 2 Importer des favoris KB Crawl permet d importer les favoris cr s dans le navigateur Internet Explorer Un favori sous Internet Explorer est un fichier portant l extension url plac dans un r pertoire donn le plus souvent un sous r pertoire de C Documents and Settings Ce r pertoire est enregistr dans Windows KB Crawl le reconna t et renvoie la liste de tous les fichiers favoris qui se trouvent dans ce r pertoire et tous ceux de niveau inf rieur Pour importer ces favoris aller dans le menu Utilitaires Importer de favoris La fen tre qui propose une liste de favoris a importer apparait alors FE Import des favoris Favoris Fui tiperende tava Lise le dirser d piacer ou ls laches Sources E il Intelligence Eco BLOGS Chquez ici pour tiet Others iq VEILLE 50 blogs d di s la vele et NE Brevets Act
75. E La Tribune EE Lemonde ERE Produits i Documents PEF Proprietes de la source s lectionn e Ee Mots les plus fr quents E tH Kerastase Flash Fry Publications fal Minefi Internet Fla Veille fi KB Intelligence Tous droits r serv s 2008 Page 167 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 S lectionner d abord la source puis la langue la plus utilis e dans les archives de cette source Ensuite cliquer sur le bouton Mots les plus fr quents patienter pendant le calcul puis un graphique de type camembert appara t dans le troisi me onglet FE Statistiques Chois de la source Mots ignor s Mots les plus fr quents Statistiques de KE Intelligence au 1304 2007 EM 15 KE EM 11 veille E 10 crawl 4 Internet 3 BE4Conseil EN 3 stratgique C 3site C E C 3 internet 2 IEXPO 2 Surveillance f EXPE Le camembert affiche des mots parasites comme site On peut faire en sorte qu il soit ignor dans le calcul des statistiques pour se concentrer sur les mots int ressants Pour chaque langue r pertori e dans la base de donn es de KB Crawl fran ais anglais allemand espagnol italien n erlandais su dois une liste de mots ignor s ou mots noirs est livr e avec le logiciel Ces listes de mots ignor s sont stock es dans la base de donn es et enti rement param trables Tous droits r serv s 2008 Page 168 PO08 0
76. JUS O Adresse B ttpi oroups googie con Eo h Tous droits r serv s 2008 Page 161 P08 001 12 A4fr A2 KB Crawl Manuel utilisateur v 3 1 En aucun cas ce bouton KB Crawl n est install automatiquement de mani re intrusive dans Internet Explorer Pour installer ce lien avec KB Crawl dans Internet Explorer il faut cliquer sur l l ment de menu Installer le lien KB Crawl Lorsque l on clique sur le bouton KB Crawl install dans la barre de t ches d Internet Explorer cette fen tre surgit FE Historique des 50 derni res URL visit es E fal sie KB Crawl p v kborawl nelli espace chents html 13 08 2007 12 06 1 KE Cravd Fat yaaa Ror nev ivespace chents hb cravd him 1408 2007 12082 SANS TITRE hbo kecrawLnelhleadmin exe k bored Scetupmay ere 10842007 12 080 FB Cred Logiciel de vele concunenbels survedlance site Inte Hil fume kbcrawl ne 13 09 2007 13 108 KE Crawl hips eee kere nett bes conelactusites communiquesthind 13 08 2007 121120 KE Crawl Logiciel velle menet business inleligence BEAC or hbo wae kbc neti produtskb crawi him 10042007 TATL EB Crawl Semice logiciel de veile technologique et dratheacul hit unes kboraw nei services seraces autourde kb crawd Html 13708 2007 14 11 C KB Crawl Hp rene korea neti helechangements piocedure de best html 13 08 2007 131151 EB Crave Enter wae kore neu contact html 13 08 2007 1311 14 SANS TITRE hilo Ww troover com imagesiche KB CRAWL pdi 13
77. KB Crawl Manuel utilisateur v 3 1 e La barre d tat en bas a gauche de la fen tre informe du nombre de pages crawl es avec succ s celles pour lesquelles le crawl a t jusqu au stockage du contenu dans la base de donn es e La barre d tat en bas droite indique quelle est l tape en cours durant le crawl d une page Les libell s que l on peut voir appara tre sont successivement T l chargement de la page adresse compl te de la page Extraction du contenu pour adresse compl te de la page Termin en temps total mis pour l ensemble de la source 3 8 Comparaison 3 8 1 Le processus de comparaison fonctionnement Pour contenir les donn es relatives a une source la base de donn es de KB Crawl poss de deux espaces de stockage distincts On les nommera espaces de stockage n 1 et n 2 L espace n 1 sert stocker tout le contenu d une source lors d un premier crawl Ce sont les URL contenues dans cet espace que l on voit dans l explorateur L espace n 2 sert stocker la derni re version des pages t l charg es si toutefois la derni re version pr sente des changements par rapport la pr c dente version Lors d un crawl de comparaison d s qu une page a t t l charg e et que le contenu textuel en a t extrait KB Crawl recherche la page correspondante On appellera page Plbis la page qui vient d tre t l charg e et page P1 la page contenue dans l espace n 1 qui lui cor
78. KBC 5 Exalead KB rawi za Google K KB Crawl a Presse T La Tribune i lemond 11 Produits 12 Documents POF 13 Kerastase Flash 14 Publications 15 Minefi Internet 13 3 Affichage AL L Ei EUR hitec v3 espacenet com resulte efaabFIRST 1iCy eph Gh DB EPODOCET p z a 4 mi 1 Htc fan exalead f seanch C 0MGwAMwAzsd 7l C OMG WAM wae oDReqat 1 Hip FANEN google fi search Phlatiiqek bcrawlibtnG Recherche Gaogleimetas mm ao Leki etait ee LN A uta 1 hitg Aineen latibure rss 1 hit Finen lernorridhe fr al http luves adobe com aboutadobe press room executivebios main html i hit Finen k rastase ch img _ ch _frConso Ritusls Fer mete TI 1 7 httoc Mamma mine gouv ifthemes technologes_info mtemet index htm Tous droits r serv s 2008 Page 157 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 13 3 1 Volet de pr visualisation Permet de montrer ou de cacher le volet de pr visualisation cadre du bas Lorsqu on clique sur une URL dans l arbre de droite le volet de pr visualisation se met jour afin de visualiser le document correspondant EE KB Crawi Version 3 1 Connect la base de donn es C Program Files K Crawl3datalKBCRAWL BASEEXEMPL E GDB Father Eden Adichege 8 Actions Cis FPsram ir s Maintenance 7 Danna CA oe Mokili Er Eepe kci pour tie No qc VE FILLE go Brevets fe Espaceret
79. Manuel Utilisateur KB Crawl Ne cherchez plus CTawt veille pour vous www kKbcrawl net Tous droits r serv s 2008 KB CRAWL SAS Rueil Malmaison France Le logiciel KB CRAWL incorpore le logiciel en open source Firebird r gi par l INTERBASE PUBLIC LICENCE Version 1 0 Cette licence est directement d riv e de la licence MOZILLA version 1 1 L utilisateur de KB CRAWL reconnait en accepter les termes La marque et le logo KB CRAWL sont d pos s en France KB CRAWL SAS 10 rue Lionel Terray 92508 Rueil Malmaison Cedex France Tel 01 41 29 05 02 Fax 01 57 670459 www kbcrawl net KB Crawl SOMMAIRE Introduction a KB Crawl 1 1 Principales fonctionnalit s 1 2 Performances quelques ordres de grandeur 1 3 Pr requis mat riel 1 4 T l chargement 1 5 Parsing 1 5 1 Quelques notions de HTML 1 5 2 Grammaire HTML 1 6 R cursivit et profondeur 1 7 Stockage et acquisition de l information 1 7 1 Stockage du contenu textuel 1 7 2 Fonctions d archivage 2 G n ralit s sur l interface 2 1 La barre d outils g n rale 2 2 La barre de menu textuel 2 3 La liste des sources 2 4 L explorateur de sources Installation et lancement 3 1 Cr ation d un dossier 3 2 Modification d un dossier _ 3 3 Suppression d un dossier 3 4 Gestion des sous dossiers 3 4 1 Cr ation d un sous dossier 3 4 2 Renommer un sous dossier 3 4 3 Suppression d un sous dossier _ 3 5 Ergonomie g n rale 3 6 Premier
80. Manuel utilisateur v 3 1 R Commentaires Mes commentaires w xX Le menu commentaire ouvre une bo te de dialogue qui permet d enregistrer des commentaires li s la source 3 7 8 Lancement du crawl Lorsqu une source a t cr e et qu elle figure dans la liste des sources elle est pr te tre explor e ou crawl e par KB Crawl Pour lancer un premier crawl il faut cliquer sur le bouton Crawl situ sur la barre d outils g n rale La barre de progression donne une indication sur les liens issus de la page de d part qui sont parcourus Exemple KB Crawl analyse la page d part sp cifi e dans la source et trouve 10 liens au 6 lien la barre de progression est 50 Cette progression ne peut pas donner d avantage d informations sur le temps restant pour achever l exploration tout d pend de la profondeur de chacun de ces liens rencontr s sur la page de d part Les premiers liens ont peut tre 3 ou 4 pages filles alors que le 6 en a 500 Dans ce cas la barre de progression va vite arriver 50 pour y rester le temps de crawler les 500 pages du lien n 6 La barre d tat juste en dessous de la barre de progression indique l action globale que KB Crawl est en train de r aliser du r sultat une fois que le traitement est termin ou d un message d erreur ventuel dans ce cas le message appara t en rouge Tous droits r serv s 2008 Page 69 PO8 00112 A4fr A2
81. O E E taba Geese oe ttee 121 MOT VOU SHINS os a a en teases arecun 123 Les 10 premi res pages de r sultats ut 123 Les 10 pages de r sultats suivantes esseesssseseesesiessrissriessreessressrieserissritserieseressrieserieseressrressre 123 Les dernieres pages de hoc 10 i 123 CS de GU E n E E E E A T E AE E E 124 Visualisation d une page r sultat d une recherche dans le browser scssccsccsecercerrrerres 125 FONCIONA Te AOC aa E E EEE EA EAEE E EA E 126 FONCTION de recherche exemple 1 eessssssssesserrsssssesrrrrrssssssrrrrrsssssrrrrrrsssssrrrreressssrerereessseerrreeessss 127 Fonction de recherche exemple 2 iii 128 Fonction de recherche exemple 3 ete each nl de eee 129 Fonction de recherche exemple 4 iii 130 Fonction de recherche exemple 5 eeessssssssssrrrrsssseerrrrrsssssrrrrrrrssssrrrrrrsssssrrrrrressssrrrreeessserrrreressss 131 PONC eNe exem sees nce ence E T E E O E E E ONE EA 132 DOC AE OT da a N E 133 Troncature exemple 4 SW ONO ao 134 Macae axem e L eoii o E E E E A ATE A E E E tie 135 OS VOX CIID Z roren ar E E AE esta menor 136 Macue CIS a 137 MES Re nE EEEN EEE E OEA 138 Assistant la cr ation de requ tes avanc es iii 139 Vis alisation du Journal EC ON a nonaat 142 Journal DAME NON CONS Rican en caine ere a ee A me rere eae eer ean eames a Career 143 POP VAT VOT ES i ssepecsauseccersanoiescoty am e E e E EEE ETO NE 144 journal t l chargement avec SUCC S oici disneresscdnsie ddonsn
82. PNG TFE TIFEMP S w MA A ASE MICCMP CCM PE CCM PRES MEY Ajout d une extension Saisissez l extension Ou encore en supprimer une de la m me mani re Suppression d une extension Eg Saisissez extension supprimer ia Tous droits r serv s 2008 Page 50 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 3 7 2 2 R pertoire d accueil des fichiers Les documents collect s sont plac s dans le r pertoire que l on a d sign comme r ceptacle dans le champ intitul r pertoire d accueil des fichiers FE Choix du r pertoire d accueil des fichiers et options d enregistrement Sel Parcoutir Format des noms de fichier Date Heure Nom de fichier exemple 2006 01 25 10hs m222 MonDocument pdf Nom de fichier exemple MonDocument pdf Date Heure Adresse compl t exemple 2006 01 25 10h32m22e http wwa monsite com_MoanDocument pdf Adresse compl te exemple http aa monsite com_MoanDocument pdf o o BET Options d enregistrement Placer les fichiers dans un sous r petoire portant le nom de la source Placer les documents Web archiv s dans un sous r pertoir HTML w Me pas craser les fichiers portant le m me nam Wider le r pertoire avant chaque comparaison Ce r pertoire est d sign dans le premier champ de la fiche il est possible de s lectionner un autre r pertoire que celui propos par d faut l aide du bouton parcourir Ens
83. Supprimer les fltrefs s lectionn s Ctrl ar Supprimer tous les filtres Maj Ctrl e Supprimer les titres Il est galement possible d utiliser la bo te outils en s lectionnant le filtre adapt Tous droits r serv s 2008 Page 54 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Aussit t appliqu le filtre est visible depuis l explorateur de sources Exemple 1 URL black list e j tte fan minel qouv fr themes technolog s into intemnetyindes htm 106 http ana finances gou fr cybercommerce 3 http iwy mineti qous fr dematenalsation icp d ematenalisation d clar htm 42 the ann minet gouw rvOGCCRF YO dossiersconsommation hconso tal htm tp ana minet qous fr OGCCRF O04 dossiers consommationshconsolitiges_il hal the fan telecom gouw fr internet int cyber htr 9 http ann telecom gouw frinternetint_ dom htm 4 http ann telecom gouw friintermetint_ pir htm 15 Ses sees http an telecon oqous fr secur indes htm 2 Figure 17 Filtre de type black liste visible depuis l explorateur de sources Exemple 2 URL exclusive ig http w mineti gouty themnes technologies_intodintemneteindex htm 106 http eyn finances gouw fricubercommence 3 http ie mineti gouw fr demateralisation icp dematernalisation declar htm 42 http ananas minei gouv M O0 GCCRF 04 dossiers consommation hconso tal htm OEM http w telecom gouv frintemet charte_afa h
84. Tae B eval 18 70 00 00h Dom 1 7E Hens Eh Piesse La Tribune E erod Egg Piochuts Document Fi S Kerastase Fla Publcatons fay Minek Inieene ci Vale corcurerts fa KE Ir eligercr Os PTE fot Hester des ager de survedionce des dossiers Heure de d clenchement 16 30 00 Lind Puis d clenchemeni p riodique toutes les 1 Heus ar h B Mand or EPC ov Vendredi Samed Dimanche Figure 37 Affichage du planning de surveillance automatique d une source e De m me un clic droit Surveillance automatique CTRL P depuis un dossier ou un sous dossier ouvre le module de param trage de la surveillance automatique en affichant le planning de l ensemble des sources contenues dans ce dossier ou dans un sous dossier de niveau inf rieur Tous droits r serv s 2008 Page 87 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 LL Param trage de la surveillant automatique Le led lt a _ Planning du 03 08 2007 eu 03 08 2007 C Planning complet 98 Statisiques Temps total pr vu 00h 02m 19e 26ms Ni P 7 P Brevets r g Gi Cal D de de acher Ei Esslesd EAC a Date vendredi 3 act a Google FE Cre bevel Intere ip eee eet ou irene he Pub tions a VEILLE 16 take oD ih Uke ls 34e i T Pers ge Lerordes Hitec ea lemance fp Preste aw VEILLE 18000 Ch Orn Gee tier E La Tribune La Tribune abo mms
85. Vous tes la recherche dun PRES gpl de voile concurtentielle venez d couvrir le site KE Crawl votre sp cialiste d la survedlan A hits www google fr sesrchihistihquintelgence SE Sconomiqu 16 06 2008 12 2 11 v ile Veille automatis s Systemes de velle autonomes Cellule de vedie lectronique e eea E cone 33k vele cecherche d weile et recherche d i _infcemations Actualites de la collecte du hatemert et de la difusion de information m Figure 64 Fonction de recherche exemple 2 Lorsque deux mots cl s de recherche sont s par s par un and cela signifie que les deux mots cl s doivent figurer dans le contenu des pages renvoy es Tous droits r serv s 2008 Page 128 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Exemple 3 veille and internet and not exalead PE Module de recherche Eg Groupe de recherche KE 8 Exalead KEC ls Si Googe KB Craw Ei Prez L a Le ee 2 SCO err agen 16 05 2008 122 Produits valle Vaile automatis e Syst mes de velle autoncmer Celle de vedle lec BB Documents PDF Pt en rer donee EEA fa Kerastase Flash _ infcemations Actuales de ls collecte du hesitemert et de la cfusion de information Egi Pubkcations E Minah internet 1 Vede concuentele Figure 65 Fonction de recherche exemple 3 Ici il ne reste que deux r sultats car on n a pas souha
86. a hi rarchie s appliquent a cette source 3 6 Premier crawl et parametrage de base Lors de la premi re utilisation la page principale de KB Crawl pr sente une s rie de sources d j param tr es qui sont pr sent es a titre d exemple Une source est un ensemble de pages Web dont le contenu textuel a t rassembl puis stock dans la base de donn es de KB Crawl FL KA Crawl Version 3 1 Connect la base de domn es C Prcgranm F es K rende SORA NL HAS E EXEMPLE EGR foes Eden che Actions Cuit Penser Marina 7 Pcie ES oeil Ce Mabe Superar Spel d HTT Cad Compare Gp die Casse Eip Mag der Reissites Opa i Hip fy pape coi retusa AS Te Cr eel G abt EPDE Tl spate 4 HOT eee ia A high encens corbeau He yeep 0 af RCIE sf PDC Tapis HU Cia ac pcs hip Pv espere er et coment al T a RE ok PT er tes md HR de ia ai Hier ipana ea a e AB SE POCDOCET h BOT hpihhepree com ends Foley EPOCE TEA mess PP f ENG ferrand Figure 6 Liste de sources pr param tr es LA Pour cr er une source cliquer sur le bouton Cr er _ __ de la barre d outils g n rale puis sur le bouton Source ou depuis la liste des sources faire un clic droit puis nouvelle source En cliquant sur le bouton directement vous cr ez une source HTTP Tous droits r serv s 2008 Page 30 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 GE Choix
87. a page Affiche la version de r f rence de la page s lectionn e dans l onglet Browser 1 7 2 4 3 3 Voir la derniere version de la page Affiche la derni re version de la page s lectionn e dans l onglet Browser 1 7 2 4 3 4 Voir le contenu textuel Le contenu textuel de chacune des pages correspondant aux n uds de l arbre est enregistr dans la base de donn es de KB Crawl et est consultable de la fa on suivante Se positionner sur n importe quel n ud puis faire un clic droit Voir le contenu textuel Ctrl T FE Contenu textuel pour URL http www kbcrawlnet 26 OX logiciel de veille veille sur internet surveillance site web crawl vall e concurrentielle veille strat gique EB CRAWL logiciel de velle sur Internet pour une surveillance automatique de sites Web solution de veille concurrentielle et vaile strat gique sur Internet EE Crawl EB Crawllogiciel de veille sur Internet solution de veille strat gique et concurrentielle Espace Clients Contact Support Fran ais English SOLUTIONS PRODUITS SERVICES TELECHARGEMENT PARTENAIRES KB CRAWL SAS H Actualit s KB Crawl l E spo les 26 et 29 Mai Faris Porte de Versailles Actualit s Ev nements D couvrez le livre blanc sur la mise en place d une cellule de veille dit par AB Crawl Livre Blanc Communiqu s EB Intelligence cr e KB Crawl S45 4 Cornmuniqu s TESTER EE CRAWL Version d valuation
88. aa andytimmons com bioframe htm 6 Fj http ananas andytimmons com bio htm 9 F tte fan andytimmons com letttranie htm 18 http ann andutinmons com contact htm 4 http ananas andutinmons comfanbasefranme htm 5 Fj http ie anditimnmons comtoptrame Hhtm 5 http iw andutinmons com gear htm 3 http ann andytinimons com merchtrame htm 5 http ananas andytinimons com news htm 4 id the fans andutininions com tours htm 8 http ann andutinmons com photos htm 18 Fj http andutininons comphoto O71 htm 5 Fj http ananas andytimmons com photo_0z htm 5 Fj http ann andutinimons com photo O s htm 5 Fj http anna andvtinimans com photo _ 04 htr Fj http ananas andutinimons com phat eee EE Fj http ann andytinmons com tunes htm 11 a http ananas atdutimmons comeartacy htm 4 Fj http anna andvtinimoans comearstacu Atm 5 Fj http ie andutinmons com orangesvarl htm 4 a http andutininons com pawnkings htm 4 Fj http ie andytimnmons com spokenunepoken htm 5 Fj http andytimmons com gearframe htm 6 Fj http ie andutinmons com newstrame htm 6 Er lni 11 RTE 1 1 a r li wm Figure 25 L explorateur de sources Ici la source indique une adresse de d part qui est http www andytimmons com avec une profondeur de page infinie et une profondeur de site qui vaut 0 Chaque n ud de l arbre repr sente donc une page du site Le libell contenu da
89. abr viation utilis e pour d signer le World Wide Web le www des URL C est un concept d velopp par les chercheurs du CERN dont Tim Berner Lee qui permet de rendre accessible via le r seau Internet des collections de pages h berg es sur des millions de serveurs r partis dans le monde Tous droits r serv s 2008 Page 185 PO08 00112 A4fr A2
90. acts Ajouter un contact Cliquer sur le bouton Ajouter puis choisir le type de contact Individu ou Groupe Tous droits r serv s 2008 Page 98 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 GE Choix du type de contact cr er Sel Individu Groupe K Renseigner les champs Noms Pr noms et E mail du contact puis valider en cliquant sur ce bouton v Modifier un contact Cliquer sur le bouton Modifier B D tail du contact Sele Mom Martin Fr nom Jean E Mail jean martingkbcrawl net xK Figure 48 D tail d un contact Modifier ensuite les champs Nom Pr nom et E mail du contact puis valider en cliquant sur ce bouton v Tous droits r serv s 2008 Page 99 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Supprimer un contact Cliquer sur le bouton supprimer Confirmation e ous alez supprimer leis contactis s lectionn s Puis valider en cliquant sur sa Continuer Oul Oui Mon Importer des contacts Il est possible d importer une liste de contacts e mails partir d un fichier Microsoft Excel ou CSV Chaque ligne doit contenir 3 colonnes la premi re doit contenir l adresse e mail la deuxi me le nom du contact et la troisi me le pr nom du contact Les noms et pr noms peuvent tre omis L import s arr te lorsqu une ligne ne contient pas d adresse e mail
91. ae Temps de pause al atoire entre 1 000 rllizecondes 2000 millisecondes 3 7 6 Autres options GE Autres options Aspiration des EMails Les E Mails figurant sur les documents surveill s sont aspir s Options du Parser Analyser les formulaires w Analyser les listes ou menu d roulants Explorer les lens comportant des param tres v Analyser les scripts ei simples avanc s N esplorer que les liens des zones scrapp es Utiliser le format RSS suivant Param tres du Proxy Le Prosy param tr dans les options g n rales est appliqu cette source Erreurs ignorer Socket emors ignor es Sily a plusieurs l ments s parez les hors par un 3 7 6 1 Aspiration des E Mails Tous droits r serv s 2008 Page 66 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Au cours de son exploration KB Crawl peut rencontrer l int rieur des pages qu il analyse des adresses e mail Par d faut il les ignore En cochant l option Les E mails figurant sur les documents surveill s sont aspir s toutes les adresses e mail figurant sur les pages crawl es seront collect es et plac es dans le menu Affichage gt E mail Liste des e mails aspir s 3 7 6 2 Options du Parser Analyser les formulaires Les formulaires que l on rencontre sur les pages Web contiennent des adresses qui sont visit es lorsque l o
92. ainbes Presse a VEILLE 16 00 00 Ch Oin 01s ons EX Lemonde Kelate fF http Foye keras ee Proc WF VEILLE 16 00 00 Ch Oin Ce FS Fine Produi KB inteligen hlig kbar ne Yelle concun M VEILLE 16 00 00 Ch Oln 13s 2650 EN Documents Ft Google K BCIh pi wees google trseanch hlstthq Groupe derece W VEILLE 16 00 00 CE Um The Soom 8 Kerastase Fla Exalead KBC hip Amen eealead i tearch C 0M i Gioupe desec W VEILLE 16 0000 00h Om 26s 875re x p E i E o A a Sh qi Publications Documents F hitpc www adobe com aboutadabe Produit W VEILLE 16 00 o 00h Olen 265 364m a de vedi ribee ES Sei pre os per dE simple aor ri ILE rT T soo Doh 00 EEE ive Tiens ve RE j gal Welle concurrente sn KE Intebgerc i a Cl Tout d lcoche Bod pe cf sure E fet oser Heure de d clenchement 1600 00 lt 2 op Lured Pui d chenchereert p rocique toutes ee Haue Mardi i i Metered AL ECM i ed w eded Samedi Figure 38 Affichage du planning de surveillance automatique par dossier 6 2 2 Ergonomie Le module de param trage pr sente trois cadres principaux e Cadre de gauche Le cadre de gauche pr sente la liste des sources et des dossiers sous forme arborescente similaire en tous points a celui pr sent dans la fen tre principale On peut ainsi s lectionner la source ou le dossier pour lesquels on souhaite param trer le planning de surveillance automat
93. aison par exemple ou m me toutes les versions de chaque document e N exporter que dans les cas suivants Afin de filtrer d avantage les documents qui sont export s la fin d un crawl de comparaison il est possible de jouer sur les crit res d alertes d clencheurs ou non de l export Le nombre de mots a chand Une nouvelle occurrence d un mot cl a t d tect e La page est nouvelle La page a disparu Tous droits r serv s 2008 Page 113 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 e Autres options Cocher les cases correspondantes aux options choisies Sp cifier les motifs d alerte dans le fichier d index O N D finir comme format d export par d faut lorsque l on exporte une source directement depuis la fiche principale depuis l arbre des sources ou suite a une recherche c est le format d export d fini par d faut qui est utilis N exporter que les zones scrap es Lorsque l on utilise le scraper sur une source il est possible de choisir de n exporter que la zone scrap e en cochant cette option 8 3 Le cadre de droite Rattachements H ritage du dossier Appliqu sMo data to display Le cadre de droite montre le format d export rattach une source ou un dossier donn Pour effectuer un rattachement deux m thodes sont possibles Tous droits r serv s 2008 Page 114 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Se
94. ande passante d livr e par le fournisseur d acc s est partag e par d autres utilisateurs en train de t l charger Tous droits r serv s 2008 Page 146 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 XN Le temps total d extraction quant lui est directement li aux performances de l ordinateur sur lequel est install KB Crawl et qui effectue les traitements Il n est pas n cessaire d analyser le journal syst matiquement mais cela peut tre utile lorsque l on n obtient pas imm diatement le r sultat escompt et que l on veut comprendre pourquoi afin d ajuster sa strat gie de crawl 12 Options EE Options g n rales r Lors d un Ciawl ou d une comparaison Lots de La lecture ou de la diffusion des informations Temps maimum en secondes pour un l l changement G He pas alficher les mages des archives Lis asd Ne pas afficher les senpts des archives Ne pas afficher les messages Windows v 1 we Surligqnement Actives le joumal des connexion Nor aissi chargement de contenu Moder la couleur Enregeter automatiquement et suponmer au bout de 60 HAUTE KB Caw prend en compte le fichier ROBOTS 14 ous Non Appliqu toutes les sources hcepensable pou Param tres indexation MI3 v1 Mots cl s d alerte Modes Le couleur Mots cl s de recherche Mockher la couleur Couleurs par d faut EMensions des fichiers t l charg s par d faut gt Mise en veille automa
95. ar 4 1 Vele corciusentele Till TRE To F i i milan SPAS LE Er S aizit CR RE PR RE PR a Ae eB SFR ET Ep a ee oe er ke OR PT a ea Pi E Tous droits r serv s 2008 Page 121 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 10 2 Ergonomie g n rale A gauche de la partie recherche de l cran on retrouve la liste des sources et des dossiers sous forme arborescente similaire en tous points celui pr sent dans la fen tre principale La partie recherche se d compose ensuite en quatre parties 10 2 1 Cadre du haut conseil Me Rechercher Source s lectionn e uniquement Recherche avancee H zal ca Ar Ta i ak Dossier de la source s lectionn e w Pr visualisation 10 lt r sultats par page Fr uaa Le panneau du haut contient diff rents l ments La zone de saisie C est dans cette zone qu il faut saisir la requ te de recherche L option Source s lectionn e uniquement Permet de restreindre la recherche a la source s lectionn e L option Dossier de la source s lectionn e Permet de restreindre la recherche aux dossiers de la source s lectionn e L option pr visualisation Permet d activer la pr visualisation des contenus des pages trouv es par le moteur de recherche afin ventuellement d optimiser le temps de pr sentation des r sultats et aussi l espace occup par chaque enregistrement r sultat Le n
96. asse saisir ici le mot de passe pour se connecter au serveur FTP Une fois ces param tres saisis il est possible de tester la connexion grace au bouton Tester la connexion e Fichiers surveill s Identique la source HTTP ou HTTPS Tous droits r serv s 2008 Page 37 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 e Point de d part et profondeur R pertoire de d part saisir ici le chemin de d part de l exploration sur le serveur FTP Profondeur saisir ici la profondeur d exploration dans les r pertoires du serveur FTP ou bien cocher la case Tous les dossiers pour explorer tous les r pertoires descendants de celui de d part Pour d finir la racine du serveur comme d part Saisir e Cette source est en alerte lorsque pour le fichier surveill Identique la source HTTP ou HTTPS e Abonnement aux alertes par E Mail Identique la source HTTP ou HTTPS Ces param trages de base suffisent a lancer un premier crawl sans qu il soit n cessaire d aller dans les param tres avanc s Il est m me recommand pour la cr ation d une source dans KB Crawl de fonctionner par tapes et de s en tenir a ces param trages de base pour un premier crawl Il suffit alors de valider la fiche de la source en cliquant sur l ic ne Valider KB Crawl propose alors de lancer un crawl d initialisation Confirmation gt Yous venez de cr er une nouvelle source voulez vo
97. ateur les messages sont ins r s dans la bo te d envoi du client de messagerie et l envoi de ces messages est d l gu celui ci Pour OUTLOOK par exemple il faut utiliser la librairie MAPI tendu Si n cessaire choisir le profil utilis et saisir le mot de passe de session Windows Tous droits r serv s 2008 Page 153 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 FE Options g n rales e l led Type de connexion MAPI MAPI tendu frecommand pour les cients de messagerie OUTLOOK Profil utlig Outlook Tester l envoi d E Mails v x Afin de v rifier que les param tres d envoi des e mails sont corrects saisir une adresse e mail valide dans la zone E Mail puis cliquer sur le bouton Tester En cas d chec le message suivant appara t Tous droits r serv s 2008 Page 154 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 FE Informations Seles JErvoi d un message pour suppodt kber awl Date d cr ation du message 16 05 2008 13 09 26 Date d envoi 16 06 2008 13 05 27 Echec Il Socket Error 11004 12 3 3 Utilisation du TLS Il est possible d tablir une connexion en utilisant du TLS Pour cela il est n cessaire de cocher la case Utilisation du TLS et de choisir le type que l on souhaite utiliser 13 Fonctions utilitaires Tous droits r serv s 2008 Page 155 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur
98. automatique afin de dispenser de toute intervention manuelle N anmoins afin que les performances soient optimales en termes de rapidit ou d espace occup et pour prot ger la base de donn es d ventuelles d faillances mat rielles qui pourraient endommager une s rie d outils tr s simples manipuler sont propos s dans le menu utilitaire Tous droits r serv s 2008 Page 176 P08 001 12 A4fr A2 KB Crawl Manuel utilisateur v 3 1 13 7 2 1 Cr er une sauvegarde compress e de la base de donn es Toutes les informations li es a KB Crawl qui constituent une v ritable base de connaissances sont stock es dans un seul et m me fichier qui porte l extension GDB Il est donc imp ratif de faire r guli rement une sauvegarde de ce fichier au cas ou des dommages subis par le disque dur en causeraient la perte ou la corruption irr m diable Celui ci contient principalement des documents extraits du Web et peut donc tre compress afin de g n rer un fichier de sauvegarde dont la taille est optimis e GE Sauvegarde de la base de donn es Fichier de sauvegarde compress GBF C Program Files K B Crawld data KBCRAWL BASEEXEMPLE ghk Riou Ll Lancer la sauvegarde Figure 84 Sauvegarde de la base de donn es Dans un premier temps d finir le nom et l emplacement du fichier de sauvegarde on a l habitude d utiliser l extension GBK pour le fichier de sauvegarde mais il n y a aucune obligation puis cliq
99. autres pages de r sultats ne seront pas prises en compte La solution est de cr er un filtre exclusif a parametre variable http www google fr search qg KB CRAWLGHhI Sr amp lr vie UTF 8 amp o0e UTF 8 amp startS amp sa N La valeur du param tre qui varie doit tre remplac e par Ainsi toutes les URL dont seules la valeur du param tre start est diff rente deviennent exclusives pour un niveau donn ou bien tous les niveaux Il n est pas toujours simple l il nu de rep rer le param tre variable d une URL c est pour cela que l assistant de filtres avanc s permet de le g n rer automatiquement http ana google fsearch g k 6 A AW L hlstr idststart 1 Oksa H 68 Http ananas google frsearch g KB lAR AW L hlstidetetat Ukea h 71 Http ann google f searchtg KEB CR AW L hlstedetetat s0ksa W 72 http fn google fry search q KkB lA AM L amp bl ted tstat o0hsa H 74 http ann google frsearch g K B lA AW L hl tid ietart b0ksa H 75 http ana google fsearch g K 6 R AW L hlstidstetat 0ksa W 75 http niw google fr search g KB A AW L hl fr r 4start 804sa M 75 http ann google frsearch g KB l AW L hl teidetetart S0ksa h 75 eseseeeeeee Figure 22 URL a parametre variable S lectionner dans l explorateur de sources une des URL parmi celles qui sont analogues puis faire un clic droit Filtre avanc LE Filtres avances Blacklist Tous niveaux Fibre Avance
100. avigation inter sites Poltique commerciale et n gociations INTELLECTUELLE internationales Europe et International R pression financi re internationale Interventions INTELLIGENCE economiques des collectivit s locales Taux d int r t Internet Technologies de informatio INTELLIGENT 4 http Avia google search hl fr g kbcrawl btnG Recherc 20 03 2007 15 15 INTELLIGENTS _ciel de veille concurrentielle surveillance site Internet L votre sp cialiste de la ire INTENTION des sites Interet Logiciel velle site Internet crawler KB Crawl Vous recherchez un logiciel INTER de veille de sites Internet ou vous souhaitez crawler les liens de votre ste KE Crawl vous guid INTERACTIF 5 http nm exalead fr search C 0M GwM w 23d 7U amp 4C 0 20 03 2007 15 11 INTERACTIVE _salead i Is worldwide Web search engine it helps interet users to search and find information IHN TERBANK on the ciel de veille concurrentielle surveillance site Internet agent Heu vellle INTERCOMMECTE intermet MEDIAVEILLE forme les professionnels intermet Pr sentation de KE Crawl INTERDICTION E http han lemonde fr 12 07 2007 11 10 INTERDIRE _S FRANCE FRENCH DOSSIERS ECONOMIE ECONOMY CULTURE INTERNATIONAL INTERDITE BOURSE CINEMA MOVIES LIVRES BOOKS MULTIMEDIA EDUCATION FORUMS FORUM INTERESSE SERVICES ABONNEMENTS BOUTIQUE EMPL INTERNATIONAL INTERNATIONAL INTERESTS 7 http www lemonde fr 29 06 2007 16 J
101. ces des fonctionnalit s suppl mentaires Les fonctionnalit s accessibles uniquement depuis cette barre sont d crites dans le chapitre Fonctions utilitaires 13 La liste des fonctionnalit s propos es par ce menu textuel est la suivante Fichier R duire KB crawl en mode automatique Quitter KB Crawl e Edition Liste des sources au format Excel e Affichage Volet de pr visualisation Bo te outils URL L gende Journal E mail KB Scraper e Actions Installer le lien KB Crawl dans Internet Explorer D verrouiller toutes les sources R initialiser les options des sources s lectionn es Supprimer les archives de la source s lectionn e Initialiser toutes les connexions la base de donn es e Outils Importer des favoris Importer des sources venant d une autre base Import Export des sources au format XML Tous droits r serv s 2008 Page 24 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Importer des sources venant d un fichier Statistiques e Param tres Se connecter a une autre base de donn es Grammaire du parser Modifier la cl d enregistrement KB Crawl Modifier la cl d enregistrement KB Scraper e Maintenance Archives Bases de donn es Service d indexation e Menu d aide A propos de KB Crawl 3 V rifier les mises jour A propos de l diteur Tous droits r serv s 2008 Page 25 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 2 3 La liste des sources Sur le c t
102. che avanc e permet d acc der une fiche qui permet de cr er facilement des requ tes avanc es sans avoir se soucier des parenth ses et de la syntaxe en g n ral HER FE Recherche avanc e E Crit res de recherche EE L expression exacte veille sur intemet AUTRE TON DES mots SI ears Aucun des mots suivants Les deux mots suivants loign s de 8 mots au maine Filtrage par dossier Tous les dossiers P rim tre de recherche L ensemble des archives 1 La demi re version t l charg e des pages Affichage des r sultats Classement Par nombre total de mots pr sents dans la page Par nombre de mots cl s de recherches pr sents dans la page orles 8000 plus pertinents Par pourcentage relatif Nombre de r sultats par pages 10 AUCUN Figure 75 Assistant la cr ation de requ tes avanc es 10 4 1 Le constructeur d expressions bool ennes Les quatre premieres zones de saisie rappellent l ergonomie des formulaires de saisie de recherche avanc e des moteurs de recherche de type Google Yahoo etc Tous droits r serv s 2008 Page 139 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Une fois les expressions et mots cl s saisis dans ces zones et apr s avoir cliqu sur le bouton valider l assistant construit automatiquement la requ te qui convient au moteur de recherche Un peu plus bas on trouve trois
103. cket Error 10056 Socket is already connected Socket Error 10057 Socket is not connected Socket Error 10058 Can t send after socket shutdown Socket Error 10059 Too many references can t splice Socket Error 10060 Connection timed out Socket Error 10061 Connection refused Socket Error 10062 Too many levels of symbolic links Socket Error 10063 File name too long Socket Error 10064 Host is down Socket Error 10065 No Route to Host Socket Error 10066 Directory not empty Socket Error 10067 Too many processes Socket Error 10068 Too many users Socket Error 10069 Disc Quota Exceeded Socket Error 10070 Stale NFS file handle Socket Error 10091 Network SubSystem is unavailable Socket Error 10092 WINSOCK DLL Version out of range Socket Error 10093 Successful WSASTARTUP not yet performed Socket Error 10071 Too many levels of remote in path Socket Error 11001 Host not found Socket Error 11002 Non Authoritative Host not found Socket Error 11003 Non Recoverable errors FORMERR REFUSED NOTIMP Socket Error 11004 Valid name no data record of requested type Socket Error 11004 No address look for MX record Tableau 1 Liste des socket errors que l on peut rencontrer lors d un t l chargement Tous droits r serv s 2008 Page 12 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 L erreur la plus fr quemment rencontr e est HTTP 1 1 404 Objet introuvable qui n est pas une socket error mais une erreur s
104. contenu du document a chang E REF Mot s cl s trouv s dans le document fe a Le document est nouveau Alerte Le document a t supprim iat Filtre Fitre exclusif Filtre Filtre blacklist Filtre Filtre lier forc F Filtre Fage non surveill e 13 3 4 ournal Affiche le journal des connexions voir 11 13 3 5 E mail Montre la liste des adresses e mail accumul es durant le dernier crawl Cette liste peut tre export e sous Excel Tous droits r serv s 2008 Page 160 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 ii 1 E 1 r re F Liste de e mails aspir s Le led a mn nn http mm senat fine sitn senat fr tte wie senal ine moweb eenal ft http lave senat fric commun caiont isenalitr RE aea a eee al Ertegister sous 13 3 6 KB Scraper Ouvre la barre d outils de KB Scraper Pour conna tre le fonctionnement de KB Scraper se reporter la documentation de ce module 13 4 Actions 13 4 1 Installer le lien KB Crawl dans Interner Explorer KB Crawl propose un module additionnel qui permet de r cup rer l historique des URL visit es avec Internet Explorer et de les importer sous forme de sources dans KB Crawl Ce module est accessible en cliquant sur un bouton dans la barre d outils d Internet Explorer PE IP IE ARS eee Bum Ee hero Gener 19 Gl yee Sue Ol es
105. crawl et param trage de base 3 6 1 Page principale de d tail d une source 3 6 2 Source HTTP ou HTTPS 3 6 3 Source NNTP 3 6 4 Source FTP 3 7 Param trage avanc d une source 3 7 1 Menu Formulaires 3 7 2 Fichiers t l charg s 3 7 3 Filtres 3 7 4 Archives 3 7 5 Param tres avanc s 3 7 6 Autres options 3 7 7 Commentaires Tous droits r serv s 2008 P08 00112 A4fr A2 Manuel utilisateur v 3 1 Page 2 KB Crawl Manuel utilisateur v 3 1 3 7 8 Lancement du crawl 3 8 Comparaison 3 8 1 Le processus de comparaison fonctionnement 3 8 2 Lancer la comparaison 4 L explorateur de sources 4 1 G n ralit s 4 2 Utilisation et ergonomie g n rale 4 3 Fonctionnalit s partir de l arbre 4 3 1 Voir les pages archiv es 4 3 2 Voir la version de r f rence de la page 4 3 3 Voir la derni re version de la page 4 3 4 Voir le contenu textuel 4 3 5 D tails des changements 4 3 6 Rendre Exclusif 4 3 7 Black lister 4 3 8 Supprimer le s filtre s s lectionn s 4 3 9 Supprimer tous les filtres 4 3 10 Filtre avanc 4 3 11 Activer D sactiver KB Scraper sur cette URL 4 3 12 Appliquer la description KB Scraper toutes les URL de m me niveau 4 3 13 Page export e 4 3 14 Page non export e 4 3 15 Visiter la page en ligne 4 3 16 Cr er une source avec l adresse s lectionn e comme adresse de d part 4 4 Les diff rentes ic nes de l arbre 5 Le gestionnaire d archives 5 1 Ergonomie g n rale 5 1 1 L explorate
106. ctueus des fbeb s mdviqueles miemet gour fr Inteme et entreprises Meages el B htc urnes google fr search hila sgsintetigences E Sconomi 16 06 2008 12 11 veille Vele automalis e Sst mmes de veille autonomes Cellule de vedia lectronique et strat gique a Internet sw velle com 33k vedle recherche d vedie et recherche d infoemations Actualhes de bs collecte du traitement al de la difusion de information 7 help ie telecom guy irionde_ documentaine rappots 07 2204 2008 TE owd tii omnipr sente darie te fonctionnent de memet i est devenu impossible une suchur voulant ester sur le Mat de ne ie nome de domane BEC gori rom 4 ses erteignet ou 4 tet marques document quis insent dans la phdcsophes d un irte Figure 67 Fonction de recherche exemple 5 Ici les mots cl s de la requ te ne sont pas s par s par des op rateurs ce qui signifie que l un ou l autre des deux mots cl s doit se trouver dans la page r sultat Attention ci dessus les mots sont s par s par un or dans le screenshot Exemple 6 crawl or chasse and performante On peut galement r aliser des combinaisons plus complexes ici on veut que CRAWL soit pr sent dans la page ou que CHASSE et PERFORMANTE soient pr sents dans la page Une fois la requ te envoy e KB Crawl l analyse pour l interpr ter il regroupe les op rateurs de m me signe Exemple 7 chasse and performante and loi or crawl
107. diqu e Tous droits r serv s 2008 Page 178 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 13 7 2 2 Restaurer partir d une sauvegarde compress e Toutes les informations ainsi que la structure de la base de donn es sont stock es dans le fichier de sauvegarde et peuvent tre remont es ou restaur es tout moment pour reconstituer une base de donn es utilisable par KB Crawl Il suffit pour cela de d signer un fichier de sauvegarde et de cliquer sur le bouton Restaurer RE Restaurer la base de donn es Fichier de sauvegarde compress GEK C Program Files KB CrawlsdatasKBCASWL BSsEESEMPLE gbk Ol Parcourir Restaurer a Figure 86 Restauration d une sauvegarde Un nouveau fichier de base de donn es Firebird l extension GDB est cr c t du fichier de sauvegarde portant le m me nom que le fichier de sauvegarde comme pr fixe et une s rie de chiffres issus de la date et l heure exacte de la cr ation de la nouvelle base de donn es Tous droits r serv s 2008 Page 179 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Un message de confirmation pr cisant ces informations apparait il est possible de modifier le nom de la base de donn es Restauration restoring index PROUGCARAML IDs restoring index RDB SPRIMAR YS restoring index BLACKLIST IDX restoring Index ROB PRIMARYTS restoring index RDB FOREIGN 36 restoring index ROBSFOREIGN 349
108. du type de la source ajouter ts Pages ou fichiers disponibles ur le web par protocole HTTP ou HTTPS Groupes de News par protocole NNTP _ Fichiers se trouvant sur un serveur FTP Dans KB Crawl 3 les sources se diff rencient selon trois types en fonction du protocole Internet utilis pour t l charger les documents lors du crawl HTTP ou HTTPS NNTP FTP Ces trois diff rents types de sources pr sentent une interface l g rement diff rente m me si le fonctionnement g n ral reste le m me au niveau ergonomique Dans le bas de l cran Bouton Valider pour fermer la fen tre de la source et sauvegarder tous ses param tres x Bouton Annuler pour fermer la fen tre de la source sans sauvegarder les param tres ventuellement modifi s Tous droits r serv s 2008 Page 31 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 3 6 1 Page principale de detail d une source El D tail d une source HTTP Page s sinvelhes Pages suivantes Espey let bens du mene ste pcq au revenu 0 Espia let bene vers d auttes ates et reba Alertes Celle source est en alerte lorsque sur une page surveill e w Lenombee d mot a chingi pir de Arce Lr quement lors de Une nouvelles cocumence dun mol c a d d tect e s La page es nourele v La page 4 deparu Abonnement aux alertes par E Mail Vabkdstian par EEM ad avart erroi I Parant
109. e lundi 13 f vrier 2006 4 1226 PM Last Modified samedi 30 d cembre 1899 1200 AM Server BustawS 1 0 ContentType text html Get services 7tk 1he 2 Host services ff fr Referer Her ue tT fr Accept text html i Figure 78 J ournal fichier ignor http s tfl fr mmdia i 98 5 729985 gif ignor L extension gif ne fait pas partie de la biblioth que d extensions de la source TF1 le lien est donc ignor une image l int rieur d une page Web a toujours un lien Certains sites appellent des adresses aux extensions qui leur sont sp cifiques Il est donc primordial de connaitre les liens ignor s pour ventuellement ajouter des extensions sp cifiques la biblioth que d extensions Tous droits r serv s 2008 Page 144 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 it Jo urnal Referer http rene nf ft a Accept text html useragent Moeilla 4 0 compatible MSIE 6 0 Windows NT 5 1 FunwebProducts SV1 NET CLR 1 1 4322 Cookie envoy MODE_AFF_LIST 1 R ponse HTTPA1 1 200 OK Date lundi 13 f vrier 2006 12 26 PM Last Modified samedi 30 d cembre 1899 1200 4M Server Bustaw5 1 0 ContentT ype text html Redirect Hip services tfl fr services 7trk 14e 39 Get http services WT fr services 7trks1bkes39 Host services H fr Referer Hilo Avaa HT fr Accept text htnd userdoent Moaila 4 0
110. e Utiliser le format RSS suivant Si la source contient un flux RSS la transformation RSS vers la page HTML se fera avec le fichier par d faut FormatRSS xsl Il est possible avec cette option de modifier le fichier XSLT pour une seule source en particulier 3 7 6 3 Param tres du Proxy Dans certains cas notamment lorsque l on veut crawler des documents situ s sur un intranet les param tres de connexion Internet via un serveur Proxy ne doivent pas s appliquer il faut alors cocher non 3 7 6 4 Erreurs ignorer Lors du t l chargement KB Crawl peur rencontrer ce que l on appelle en terme technique des socket errors le t l chargement du document est alors annul On peut changer ce comportement en listant les num ros de socket errors que l on veut ignorer Il suffit alors de placer entre les num ros des socket errors en question dans le champ pr vu cet effet Par exemple lors du crawl d une source si la boite de dialogue de KB Crawl affiche le message http www monsite com chec au t l chargement HTTP 1 1 404 Not Found Lien trouv l URL http www monsite com il est possible d ignorer cette erreur en sp cifiant dans le d tail de la source erreur ignorer HTTP 1 1 404 Not Found Ainsi le message d erreur ne s affichera plus pour cette source 3 7 7 Commentaires Tous droits r serv s 2008 Page 68 PO8 00112 A4fr A2 KB Crawl
111. e dossier la racine Nouveau groupe de recherche Renommer Ctrl M Supprimer Suppr Exporter Ctrl E Houvelle source Mots cl s d alerte Ctrl k Surveillance automatique Ctrl F Rafraichir F5 D rouler enti rement Ctrl 0 Replier enti renent Ctrl 4lk D NB la plupart de ces fonctionnalit s accessibles depuis ces menus contextuels le sont galement depuis la barre d outils g n rale ou par un raccourci clavier Tous droits r serv s 2008 Page 26 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 2 4 L explorateur de sources LY ha http 3 espacenet comresults st a Cr ep LG fr DB E POCOCETI lt plastic LY http 3 espacenet com results st a ly ep LlG re DB EPODOLE 7 Http vs espacenet com results Yst ably epkLG trekDB EP http 3 espacenet com results st ably ep LG tr iy http 43 espacenet com results t st at LT e Ly http 43 espacenet com results st LT http 3 espacenet cor Ly http yo espacer z i http 43 Ly Figure 4 L explorateur de sources Ce cadre nomm explorateur de sources est une vue arborescente du contenu d une source l arbre permet une vue hi rarchique des documents t l charg s en fonction de l ordre des liens suivis lors du crawl 3 Installation et lancement 3 1 Cr ation d un dossier LA Cr er Cliquer sur la fl che du bouton Cr er puis dans le sous menu sur le bouton Dossier Creer
112. e valeur minimale Si Tous droits r serv s 2008 Page 106 P08 001 12 A4fr A2 KB Crawl Manuel utilisateur v 3 1 la valeur est 1 valeur par d faut cela signifie que les pages d alertes seront toujours envoy es en pieces jointes des e mails est aussi possible d inclure les pages d alerte dans le corps des e mails pour cela il suffit de cocher la case Pages d alerte incluses dans l e mail jusqu et de pr ciser une valeur maximale Au del de cette valeur les fichiers ne seront plus dans le corps de l e mail Il est possible de combiner des fichiers en pi ce jointe ainsi que des alertes dans les corps de l e mail ATTENTION l inclusion des pages dans le corps de l e mail n est possible que si le format choisi pour la diffusion des e mails est HTML Le poids total maximum des documents attach s correspond la valeur maximale en Ko qu il est possible d atteindre pour un e mail d alerte Au del de ce poids les fichiers d alerte ne seront plus attach s l e mail mais celui ci sera tout de m me envoy Il est possible de choisir le libell des fichiers joints aux e mails d alerte en renseignant le champ Libell des fichiers joints Dans le cas o l on souhaiterait un libell automatique diff rent chaque session d envoi il suffit de cocher la case Libell automatique e S curit Lorsque KB Crawl envoie des e mails d alerte l information se trouvant dans le cham
113. ecevoir d alertes sur les pages interm diaires qui servent en r alit de pont e Filtre exclusif Rend une URL exclusive son niveau d arborescence e Filtre Black liste Black liste une URL son niveau d arborescence e Filtre avanc Donne acc s au gestionnaire de filtre avanc e Supprimer les filtres Supprime tous les filtres li s la source e Page export e Marque le document s lectionn dans l arbre d URL comme tant exporter e Page non export e Fonctionnalit qui a l effet inverse de la pr c dente e Page en ligne Ouvre le navigateur par d faut et navigue sur URL correspondante e Nouvelle source Voir le 4 3 16 13 3 3 L gende Affiche la liste des l gendes descriptive des diff rentes ic nes que l on peut voir dans arbre des URL Tous droits r serv s 2008 Page 159 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 FE L gende Ed Source i G Source Dossier OL s0Us dossier Se qui compote ENT pr CE Source Groupe de recherche a Source 2L veroul e i Document Dossier ou sous dossier FTP Document Document HTML ou texte le Document Formulaire Web 2 Document Document Flash 3 hs on cumerit Document Acrobat PDF Document word Document Document Excel 2 Document Power Font Document Message de groupe de news Document Document Image Alerte Aucune alerte sur le document Alerte Le
114. egistr est ajout une liste rattach e la source dont le nombre d l ments n est pas limit L analyseur de formulaires de KB Crawl est con u pour que la technique sous jacente aux formulaires demeure transparente et que leur manipulation reste simple afin de s affranchir compl tement de la partie technique li e aux formulaires Toutefois on peut si on le souhaite g rer soi m me la liste des formulaires depuis l interface de KB Crawl ces manipulations relevant d une utilisation avanc e Dans le cadre de gauche une grille montre la liste des formulaires enregistr s voir plus haut Figure 10 L analyseur de formulaires Lorsque l on pointe sur une ligne de la grille le cadre de droite fait appara tre le formulaire tel qu il a t enregistr au format HTML Tous droits r serv s 2008 Page 44 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 FE Formulaires AAA Hombre de fomulaves enregistr s 3 GP Ajouter 7 Modtier 28 Supprimer Forces le ben intelligence conomique Recherche Google J ai de la chance Rechercher dans Web C Pages francophones S Fages France Figure 13 Liste des formulaires enregistr s e Ajouter un formulaire Cliquer sur le bouton Ajouter puis renseigner les champs pr sents dans cet cran Tous droits r serv s 2008 Page 45 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 GE Nouveau formulaire Seles Url de destination Do
115. en La bo te dialogue de confirmation appara t Ci x P Forcer le lien vers le Formulaire s lectionn hye La F j Mui Mon omn Un clic sur Oui fait appara tre le message suivant Information xi 1 L adresse de destination du formulaire a t ajout e la liste des liens forc s pour le niveau 0 d arborescence Certains formulaires ne font pas figurer leur adresse de destination dans la balise lt ACTION gt qui leur correspond 3 7 1 1 Ainsi il se peut que le module de parsing de KB Crawl 1 5 ne puisse pas retrouver lors d un crawl un formulaire qui a t enregistr Si ce cas se produit il suffit d ajouter l adresse du formulaire cach la liste des liens forc s Lors du processus de crawl chaque niveau d arborescence KB Crawl visite les pages correspondantes aux liens forc s Pour cette raison il est important de pr ciser quel niveau de l arborescence le lien est visiter Par d faut il est cr pour le niveau 0 de l arborescence comme l indique la bo te de dialogue pr c dente NB Toutes ces actions ne sont pas enregistr es tant que l on n a pas cliqu sur le bouton Valider de la fen tre de propri t de la source 3 7 1 4 Le crawl avec des formulaires Lorsque KB Crawl analyse une page pour en extraire les liens il analyse le code des ventuels formulaires option coch e par d faut dans l onglet Options Lors de l analyse d
116. equis e Parties d URL ignorer Il apparait sur certains sites des adresses URLS qui sont diff rentes chaque connexion m me si la page r sultante est la m me Afin de s affranchir d alerte sur pages disparues et ou nouvelles il est possible de masquer certaines parties de ces URLS Ainsi il faut saisir une borne inf rieure et une borne sup rieure qui sont des chaines de caract res statiques contenues dans les adresses URL traiter La borne sup rieure peut tre vide signifiant ainsi que la limite sera la fin de l adresse URL e Options de s curit Tous droits r serv s 2008 Page 64 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Options de s curit User Agent d clar dans chaque requ te Mozila 4 0 compatible MSIE 6 0 Windows NT 5 1 SVT WET CLR 1 1 4322 Utiliser la configuration de s curit dintenet Explorer KB Craw prend en compte le fichier ROBOTS txt Oui Non Activer le temporisateur e User Agent Lorsqu une requ te HTTP est mise l ent te de celle ci qui est non visible pour l utilisateur contient une cha ne de caract res qui repr sente l identit du logiciel qui a mis la requ te HTTP c est ce que l on appelle le User Agent Certains serveurs exigeants refuseront de r pondre une requ te si celle ci ne pr sente pas un User Agent qu il consid re comme valide Par d faut ce param tre est initialis avec un User Agent qui co
117. es Lorsque KB Crawl visite une page pour la premi re fois il stocke int gralement le code source de celle ci dans cet espace Si des mots cl s d alerte sont pr sents dans cette page le surlignement de ces mots cl s est effectu dans la page juste avant son stockage Ainsi la version de r f rence de la page est cr e A chaque nouvelle visite d une page KB Crawl compare celle ci a sa version de r f rence Peuvent alors se pr senter deux cas de figure 1 Il n y a aucun changement par rapport la version de r f rence La page n est pas archiv e 2 Des changements sont d tect s entre la version de r f rence et la version observ e S il s agit d une premi re comparaison la nouvelle version de la page est archiv e en tant que version 2 Si une comparaison a d j eu lieu on distingue alors deux cas Cas 1 Si le mode mise jour automatique est activ dans les options de la source alors la version 2 devient la version de r f rence et la page analys e est stock e en tant que version 2 Tous droits r serv s 2008 Page 19 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Cas 2 Si le mode mise jour automatique n est pas activ dans les options de la source alors la page analys e prend la place de la version 2 et la version de r f rence reste la m me Le mode Mise jour automatique est indispensable lorsque l on surveille une page dont le c
118. es d une source s lectionn e 4 3 10Filtre avanc Appelle l assistant pour les filtres avanc s 4 3 11 Activer D sactiver KB Scraper sur cette URL Permet d acc der aux menus de KB Scraper Pour conna tre le fonctionnement de KB Scraper se reporter au manuel utilisateur KB Scraper 4 3 12 Appliquer la description KB Scraper toutes les URL de m me niveau Pour conna tre le fonctionnement de KB Scraper se reporter au manuel utilisateur KB Scraper 4 3 13 Page export e Marque la page comme tant a exporter lors de l export automatique qui a lieu a la fin de la comparaison 4 3 14 Page non export e Marque la page comme n tant pas exporter lors de l export automatique qui a lieu la fin de la comparaison 4 3 15 Visiter la page en ligne Chaque n ud de l arbre repr sente une URL ou adresse Internet qui peut tre visit e et visualis e dans le navigateur d fini par d faut Se positionner sur n importe quel n ud puis faire un clic droit Visiter la page en ligne Tous droits r serv s 2008 Page 78 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 4 3 16 Cr er une source avec l adresse s lectionn e comme adresse de d part Cette fonctionnalit permet de cr er une nouvelle source pour laquelle l adresse de d part est l adresse d un n ud quelconque de l arbre Se positionner sur n importe quel n ud puis faire un clic droit Cr er une source avec l adresse s lectionn e comme
119. es pages en cochant le bouton radio La derni re version t l charg e des pages 10 4 4 Affichage des r sultats Par d faut le moteur de recherche renvoie toutes les pages qui correspondent la requ te de recherche On peut par contre restreindre l ensemble de r sultats affich s aux n plus pertinents Tous droits r serv s 2008 Page 140 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 En effet les r sultats sont par d faut class s afin d obtenir en premi re page ceux qui correspondent le plus la recherche Ce classement peut se faire selon plusieurs crit res e Par nombre total de mots pr sents dans la page Ce nombre s obtient en additionnant le nombre d occurrences dans la page de chacun des mots cl s e Par nombre de mots cl s de recherche pr sents dans la page Ce nombre correspond au nombre de mots cl s de recherche diff rents trouv s dans la page pertinent dans le cas de requ tes contenant l op rateur OR e Par pourcentage relatif Le r sultat qui contient le plus grand nombre de mots pr sents dans la page est class en premier et poss de 100 Ensuite les autres r sultats poss dent un pourcentage relatif calcul en fonction du nombre de mots cl s de recherches pr sents dans la page comparativement au premier du classement On peut galement choisir de n avoir aucun classement ce qui optimise le temps d ex cution de la recherche car le moteur de recherche
120. esaneuvdondlecsnosaveunduedieuncesanensooiieeneentiusbouties 145 Journa Comp 146 Onglet G n ral du men OBS A rr tn esra r o irit 147 Onglet serveur proxy du menu OptiOnS esssssssseererssssssrrrrrsssssrrrrrerssssrrrrrrrssssrrirrrrerssssrrrreeessseen 151 kane ON EOS a E E E E A E A A E E E E A E A 165 Sauvegarde de la base de donn es iii iii 177 Journal deda Sauvegarde a a ii 178 Restauration d une sauvegarde sssssssesssssssssssssssererrreesssssssssssssnreettrreessssssssssssnsteeeteresessssssssssne 179 Journal de la restauration d une sauvegarde is 180 Tous droits r serv s 2008 Page 7 P08 001 12 A4fr A2 KB Crawl Manuel utilisateur v 3 1 1 Introduction a KB Crawl 1 1 Principales fonctionnalit s e KB Crawl est un outil d assistance la recherche et l exploration d informations sur Internet Habituellement lorsqu un internaute veut avoir acc s une information il ouvre son navigateur et visualise les pages Web qui l int ressent puis analyse leur contenu soit pour en prendre connaissance soit pour d tecter d ventuels changements l int rieur de ce contenu C est le processus que l on appelle Veille Ainsi le veilleur va p riodiquement rechercher de nouvelles informations t l charge et analyse les m mes pages et passe une grande part de son temps surfer sur le Web e KB Crawl permet d effectuer automatiquement ces t ches r p titives et de reproduire le
121. essaire d attendre que la v rification soit termin e avant l ouverture de KB Crawl Il est possible de d sactiver la v rification automatique de la base de donn es en appelant l application KB Crawl avec le param tre NOCHECK Ceci est fortement d conseill pour les raisons voqu es plus haut et revient assumer les risques encourus qui consistent dans le pire des sc narios perdre d finitivement les donn es stock es 13 7 2 5 V rifier la taille de la base Cette fonctionnalit est utilis e chaque ouverture de KB Crawl pour contr ler la taille de la base de donn es et voir si celle ci ne peut tre optimis e Cependant le contr le peut tre fait tout moment ce qui peut tre utile dans le cas de serveurs sur lesquels on ne ferme pas souvent application 13 7 3 Service d indexation Tous droits r serv s 2008 Page 182 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 13 7 3 1 V rifier la synchronisation de l indexation et des archives Le moteur d indexation des contenus de KB Crawl stocke tous les mots index s dans la base de donn es de KB Crawl plus pr cis ment dans une table d index Il tient jour galement cette table d index au fur et a mesure des crawls si l indexation automatique est activ e Pour effectuer une quelconque recherche avec le moteur de recherche de KB Crawl ou pour utiliser les alertes avanc es il est indispensable que la table d index soit a jou
122. etica sant qeniy assist i color S738b2 avsted assia Wede Sectorelle color 973602 informations relatives la publicalion Infoemations relatives le BE KB Inteligence 4 hip vGespacenet com tesults st ahCyseptLGaibDB EP 20 03 2007 12 30 A Werdana Geneva Anal Hebvebos sans sent pubio anal iont sine 10 Sr tr ala Geneva Ans Helvetica sang sent assist color SP98b2 awed asst aragba l ir omations relatives a phbca FRONT FORK FOR BICYCLE MAD 2 http A espacenet com results feat FIRST 1 CY eephl Graf 20 03 2007 12 ly Werdana Geneva Arial H ebvetios sans senf pubinfo smal font size 100 fontfambrVerdans Geneva Anal Helvetica sans senl assist color S799b2 acvisted assist color 979652 In cemations relatives la publication Inicamations relatives la 6 Fit QE Lespaceriet comresuhs afealCY rep G htDBetP 20 03 2007 iz 17 ly Verdana Geneva Arial Helvetica canst pubinfe emal font size 100 cafard Verdana Geneva Arial Helvetica cans seni t assist color 7900 acvisied asis color 97362 Ex AEINFORCED PLASTIC MOLDED BICYCLE AND PART COMPOSING m hiipi PENTET mmek gouv WOGCCAF AN dossiers correnenasi 19 03 2007 15 16 Infos pratiques Flash mio det peices de commurasation au pubbe en ligne informent buts abonn s de l eustence de moeng techniques permetan de restremdre Faoc s cetains Obbgstion dirdcamation _ OS electroreques dot compor
123. faut le r pertoire de destination est celui o se trouve l ex cutable de KB Crawl Mais on peut d finir le r pertoire que l on souhaite Fichier HTML de pr sentation Cette information concerne le fichier d index cr au m me niveau que les documents export s Un gabarit pour ce fichier est livr et install avec KB Crawl Le fonctionnement est le m me que pour le fichier HTML qui permet de constituer les e mails Il permet de personnaliser la page d index autour des parties non modifiables le titre et la liste des liens dynamiquement constitu s e Formats des noms de fichiers Les fichiers export s seront enregistr s au format suivant ei Date Heure Nom de fichier exemple 2006 01 25 1 0h32m223 MonDocument pdf C Nom de fichier exemple MonDocument pdf C0 Date HeureAdresse compl te esemple 2006 01 25 10h32me22s http wea monsite com MonDocunment pdf Adresse compl te exemple http ans monsite com MonDocument pdf C0 Saisie libre nsuite il faut sp cifier le format du nom des fichiers enregistr s Des formats pr tablis sont propos s 4 premiers boutons radios car ils sont pratiques et souvent tilis s mais il est galement possible de composer son propre masque de nom de fichier partir de variables comme par exemple qui prendra la valeur de la date au moment de l enregistrement du fichier Un bouton d aide permet de voir la liste des variables que l on peut utiliser
124. files txt Annuler S lectionner le fichier a importer puis cliquer sur Ouvrir 13 6 3 Modifier la cle d enregistrement KB Crawl Il est possible de changer la cl d utilisation de KB Crawl qui est inscrite dans la base de registre via l interface de KB Crawl RE Entrer le code d acc s Num ro identifiant transmettre par email pour obtenir le code d acc s en retour KEC12063 Code d acc s actuel Rb8713548 Cette fonctionnalit sera utile si l on acquiert une cl d utilisation d finitive de KB Crawl Il est ainsi ais de passer d une version de test de KB Crawl une version d finitive Tous droits r serv s 2008 Page 174 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Information i La cl d finitive t correctement saisie Elle est maintenant enregistr e 13 6 4 Modifier la cl d enregistrement de KB Scraper Il est aussi possible de modifier la cl d enregistrement de KB Scraper via l interface de KB Crawl BE Entrer le code d acc s Num ro identifiant transmettre par email pour obtenir le code d acc s en retour KBR12063 Code d acc s actuel 2UfT e248 w x Cette fonctionnalit sera utile si l on acquiert une cl d utilisation d finitive de KB Scraper Il est ainsi ais de passer d une version de test de KB Scraper une version d finitive Tous droits r serv s 2008 Page 175 P
125. ges Groupes Actualit s plus Veille Recherche Google J ai de la chance Rechercher dans Web Pages francophones Pages France Publicit Solutions d entreprise propos de Google Google com in English S2007 Google Auboriser les popups Figure 12 L analyseur de formulaires avec un moteur de recherche Source Google On navigue sur la page d accueil d un moteur de recherche puis on saisit une requ te dans la zone pr vue cet effet Ensuite on clique sur le bouton qui sert d clencher la recherche et on enregistre le formulaire Cette op ration peut tre ainsi r p t e autant de fois qu on le souhaite pour un m me formulaire Tous droits r serv s 2008 Page 43 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 1x La CI a Vow les formulares enregisti s EJ ox iGoogle Connexion Google France Web Images Groupes Actualit s plus Veille chauche quan Recherche Google J ai de la chance Outils linguistiques Autorisa les popups wW i Dans le cas d enregistrement de donn es multiples programm es pour un m me formulaire KB Crawl enverra autant de requ tes diff rentes pour le m me formulaire et enregistrera chaque page de r sultats du serveur distant comme une page part enti re du site voir plus bas exemples de crawl avec formulaires 3 7 1 3 Voir les formulaires enregistr s Chaque formulaire enr
126. ha ne de caract re qui constitue l int gralit de l URL mais la page Web qui y correspond n est en fait pas nouvelle Pour viter lors d un crawl de comparaison que l URL n 1 soit consid r e comme supprim e et l URL n 2 comme nouvelle il convient d ignorer ce param tre en le sp cifiant dans le champ param tres ignor s pour chaque URL Il peut y avoir plusieurs param tres ignorer dans ce cas ils doivent tre s par s par des Param tres ignorer Param tres ignor s pour chaque adresse Sly a plusieurs parame tres s par s les nome par un L exemple ci dessous montre ce qui se passe lorsque l on effectue un crawl de comparaison sur un site qui comporte des variables de sessions Il semble d apr s l explorateur que beaucoup de pages ont t supprim es et autant ajout es La coincidence laisse supposer la pr sence de variables de session ou encore parametres ignorer Tous droits r serv s 2008 Page 62 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 See E te Aww operdaszlo france conv phpBB 27 54 hit www openiasziofrance com phpBB2yviewforum php 18sid e5cfec1354b0401997da8ce0d76de451 45 tp dem openiaszio hance com phpBB2yviewfonum php t 1Oksid e5ciec Sb4b0d 09 fdatceld bded St 54 Rito vee opentlaszio hance com phpbB2 vewtorm php t 1lkeideeSctec S64bOd0M9ldatcelld bded St 48 Rite eau openilescio fance com phpBB 2 vewionum php t 2ecid eSchee 1
127. ier fait l objet d une alerte il re oit automatiquement un message par courrier lectronique Pour g rer ces abonnements cliquer sur Abonnements dans le menu d roulant de Liste de diffusion Tous droits r serv s 2008 Page 101 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 FE Gestion des abonnements par mail E Bfk Abonnements pour LA TRIBUNE Clique ii pour trie Cost Ema faf Come Email h nn rage dudos VEILLE Py Suppoit suppoitf bictavet i Brevets fi into mock board ret fe Espacen A D mo demat kbcraul rie 3 Groupe de recherche fa Exalead KBCram fa Google KE Crad Sources Contacts aR groupes A TRIBUNE i Le Monde LU Prochats T Ciocunrents PLF S Kerastase Flash E Public ahions cr Minedi Interne BG Veille concurentells ba Gif Ajouter lt Modifier a Suppuireer i Pa contact Figure 50 La gestion des abonnements L cran de gestion des abonnements comporte trois cadres e Cadre de gauche Il contient l arborescence des sources et des dossiers o Cadre du milieu Il contient la liste des contacts avec les m mes fonctionnalit s que dans le menu gestion des contacts Cadre de droite Il contient la liste des contacts abonn s la source ou le dossier s lectionn e dans le cadre de gauche Le bouton de la colonne centrale permet d abonner un contact ou un groupe de contacts la source ou au
128. ignal e dans l ent te de la reponse HTTP du serveur qui avertit qu il n a pu trouver la page Remarque Si une page contient n liens vers d autres pages et qu une ou plusieurs de ces pages n ont pu tre t l charg es cause d une erreur cela ne change rien au fait que cette page contient n liens Un lien d clar comme pr sent dans une page ne veut pas dire que ce lien est valide Par contre si une page n a pu tre t l charg e KB Crawl nous alertera en la faisant appara tre comme supprim e 1 5 Parsing Les pages Web telles qu on les visualise dans un navigateur sont issues de la traduction de leur code HTML KB Crawl parcourt syst matiquement l int gralit de ce code pour l analyser c est ce que l on appelle le parsing 1 5 1 Quelques notions de HTML Le code HTML d une page Web est constitu de balises qui servent a d terminer ou commence et ou finit une instruction du langage Exemple lt B gt Bon our lt B gt lt B gt est une balise qui signifie caract re gras Bold lt B gt ferme cette balise R sultat tous les caract res plac s l int rieur de la balise sont en gras Dans un browser la traduction de ce code donnera Bonjour A l int rieur d une page certaines balises contiennent des informations qui sont pertinentes au regard de la recherche d autres non Quelques exemples lt body bgcolor 990000 gt Cette balise lt body gt comporte u
129. ilisation des alertes avanc es Param tres d indexation Il est possible de modifier les param tres du moteur d indexation de KB Crawl gr ce a ces 4 champs Le champ M correspond au nombre minimum total de caract res dans un mot le champ V correspond au nombre minimum de voyelles dans les mots cl s le champ C correspond au nombre minimum de caract res a partir duquel le contr le du nombre de voyelles est r alis enfin le champ B correspond l cart entre le nombre de caract res num riques et alphab tiques ex si le champ B cela veut dire qu il devra y avoir au moins 2 caract res alphab tiques de plus que de num riques si le champ B 3 cela voudra dire qu il pourra y avoir dans le mot jusqu 3 caract res num riques de plus que d alphab tiques Extensions des fichiers t l charg s par d faut Cette liste recense la liste des extensions correspondant aux fichiers dont on veut s assurer qu ils seront t l charg s et non ignor s Tous droits r serv s 2008 Page 148 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Dossier utilisateur Dossier contenant tous les fichiers accessible en lecture et criture par l utilisateur de KB Crawl manuel fichiers journaux fichiers XSLT etc Par d faut il s agit du dossier d installation de KB Crawl mais il peut tre utile de le modifier si l utilisateur a des droits limit s sur son poste Dossier des fichiers t l charg s par d faut Ce champ
130. imons contours htm 8 http ananas andutinmons comohotos htm 18 Figure 28 S lection d une URL dans l explorateur de sources Toutes les fonctionnalit s de l explorateur de sources sont accessibles partir d une URL ou n ud de l arbre par un clic droit qui fait appara tre un menu contextuel E Voir les pages archiv es Fz Fi Voir la version de r f rence de la page Ctrl F E oir la derni re version de la page Alt F Voir le contenu textuel Ctrl T D tails des changements Chril 6 Ea Surveiller les adresses s lectionn es Ctrl 5 pe Me pas surveiller les adresses s lectionn es Ctrl alt s Ly Rendre exclusif Ctrl E Black lister Ctrl E or Filtre avanc Ctrl F ef Supprimer lets Filtrets s lectionn ts Ctrl ur Supprimer tous les filtres Maj Ctrl Le Activer D sactiver KBScrapper sur cette URL 4 Page export e F3 Al Page non export e olk F2 Visiter la page en ligne F4 Ly Cr er une source avec l adresse s lectionn e comme adresse de d part Crit E Tout s lectionner Ctrl i D rouler enti rement l arborescence Ctrl D f Replier enti rement l arborescence Ckrl Alt E Toutes ces fonctionnalit s sont donc contextuelles une URL 4 3 1 Voir les pages archiv es Se reporter au chapitre Gestionnaire d archives 5 Tous droits r serv s 2008 P08 00112 A4fr A2 Page 74 KB Crawl Manuel utilisateur v 3 1 4 3 2 Voir la version de r f rence de l
131. ion d une page r sultat d une recherche dans le browser Adresse EJ C 22 htm Fichier Edition pare ar 45mm Grame x CE re FAAdobe VTT Pr Rechercher gt mE Anti Spy YF Ouvrir a ID lt 42247faef newsgroups borland com gt Auteur Johan Anderlund Sujet ibserver exe terminated abnormally 1 Date 01 03 2005 15 43 58 Can anyone help me analyze this log The server had been on all rught the users arrives around 6 40 and trying to startup the chent programs but gets the 10054 error They told us that they didnt do anything with the server but what people say and do is not the same thing al the times as you know One thing that confuses me is that sometimes its the chent and sometimes its the server thatis shown in the log with the 10054 errors IEI run a program that connects to the database on the same machine is the program referred as chent then Or it has to be on another computer This is the first ines in the log tor today DOVMIB I Chent Tue Mar 01 06 42 02 2005 CAProgram Files B orland InterBase biniibserver exe terminated abnormally 1 D9VMIB I Chent Tue Mar 01 08 42 02 2005 Guardian starting C Program Files Borland InterBase binub server exe D9OVMIB 1 Chent Tue Mar 01 08 48 58 2005 C Program Files B orland UnterBase biniibserver exe terminated abnormally 1 gt Poste de travail Le cadre de droite pr sente une
132. ique e Cadre du haut Le cadre du haut pr sente principalement une grille qui affiche le planning de surveillance automatique d un l ment s lectionn dossier ou source ou bien le planning complet Tous droits r serv s 2008 Page 88 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Cette grille poss de 8 colonnes Date Source URL Dossier H rit H rit du dossier Heure Dernier temps de crawl Au sommet de la grille se trouve un panneau de regroupement on peut glisser d placer chacun des ent tes de colonnes pour effectuer un groupement Planning du 03 08 2007 au 03 08 2007 i Planning complet iai Statistiques Temps total pr vu 00h 00m 17 31ms Las OAL H rt du dossier Die eos dae Dossier Brevets Figure 39 Planning regroup exemple 1 Il est possible d effectuer n importe quel regroupement souhait Par d faut le planning est pr sent avec une rupture par date uniquement Plac au dessus de la grille du planning un panneau pr sente plusieurs l ments deux bo tes de saisie pour sp cifier la date de d but et la date de fin pour l affichage du planning dans la figure ci contre on affiche un jour de planning un bouton Statistiques La fonctionnalit Statistiques permet d afficher un graphique qui repr sente la dur e totale des crawls programm s en fonction des heures de la journ e Selon la dur e totale des crawls
133. ique tous les niveaux cocher la case correspondante cette option ventuellement un filtre avec un param tre variable 3 7 3 5 Filtre param tre variable Certaines URL trouv es sur une page Web sont semblables un param tre pr s Exemple http www google fr search q KB CRAWL amp h Hr amp ir Rie UTF 8 amp oe UTF 8 amp start 108 amp sa N et http www google fr search g KB CRAWL amp hI Sr amp lr sie UTF 8 amp o0e UTF 8 amp start 20 amp saS l Seule la valeur du param tre start diff rencie ces deux URL GO0000000008 le gt Page de r sultats 723456 6 310 Suivant Figure 21 Liens sur les r sultats de recherche Google Ces deux URL correspondent aux liens vers les pages de r sultats 2 et 3 de Google Soit la probl matique suivante on souhaite crawler tous les r sultats d une recherche de Google en r cup rant exclusivement les pages qui correspondent ces r sultats Tous droits r serv s 2008 Page 57 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Si l on param tre une profondeur de page sup rieure 1 pour que KB Crawl analyse les pages correspondantes aux liens vus plus haut il va r cup rer au passage beaucoup de pages parasites et les black lister toutes s av re fastidieux On ne peut pas non plus rendre exclusive l URL suivante http www goodgle fr search g KB CRAWLGhI SrGlr skie UTF 8 amp 0e UTF 8 amp start l0 amp saSv car dans ce cas les
134. irsrrrserirsrrrssrresn 56 Onglet Filtre du detail d Une SOUS a T 56 Liens sur les r sultats de recherche Google iii 57 URC eel AIMEE FC AO a o 58 PIRES CET YDS PA O E E D ne mommies 59 Bo te de dialogue d une authentification de base 64 6X OO late Uli Ge SO UE CC Sse a ona enema eae 72 Arbre repli dans l explorateur de SOS a cescecccrccaaeue teseren cone acinnnannetaatenteasucee 73 Arbre enti rement d pli dans l explorateur de Sources 73 S lection d une URL dans l explorateur de sources oo cece ceeececcescccesssccesssecesssecessseesesseesensseeeeaees 74 Contenu textuel dune URLE seei 75 D tail des changements OPA cepccons reac eaccweetoeene eee tcitecsnuiets aten cena 76 Surlignement des changements dans une Page cccccesssccccccccessssssceeeccccesssssseeeesceeesssssteeeeees 77 Surlignement des changements apparus dans une page 77 ES GOST ON aS ADN R 81 Faxr edri Wee ENS a ee ee ee 82 La barre d outils g n rale de l explorateur d archives 83 Affichage du planning complet de surveillance automatique 86 Affichage du planning de surveillance automatique d une source 87 Affichage du planning de surveillance automatique par dossier 88 Planning regroupe RD ssc rsasecccacesatrecincet oc onersacacsoeseaeceeactaassoatestncsssessassnsueeaaaneoacessoateenstaseseacias 89 Dur e des crawls programm s en fonction des heures de la journ e exprim e en secondes 90 Dur e des crawls programm s en
135. it que le mot exalead soit pr sent dans les pages r sultats Exemple 4 veille and recherche avanc e Tous droits r serv s 2008 Page 129 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 EE Module de recherche igquez ici pour tes R VEILLE Eby Vele Sectonelle ry TRES Figure 66 Fonction de recherche exemple 4 Ici on souhaite que la phrase recherche avanc e soit contenue dans la page Il faut pour cela encadrer la phrase avec des guillemets Les guillemets sont n cessaires pour tout element d une expression contenant plus d un mot Ici recherche avanc e est le deuxi me l ment de expression et contient deux mots d o la n cessit des guillemets Exemple 5 veille or internet Tous droits r serv s 2008 Page 130 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 LE Module de recherche Chquez ci pout Hier VEILLE Brevets see fi Espacenet dose nds Pr isualsation 10 te Groupe de recherche KE FT D SR IEE BE E Exalead KBCramt ATSSERTRE j 2 Exporter Foma Tapn ud a P i z 1 T DENT PREA is A m4 c aaa KB Coad REE l Al 1k ractelacor Ta re CE Su are Taps pr Mt Pr aT wid a di T 2 eyi 0 nn ae is an S fn zaie m TT fier sab 0 keik rji echanges aani Je CIE PARLES is qu ein lag Fr nt LT B TF i JNE TA pen ANS p Spey iis es Frans er des ack nae Bs mare t my TETT eed We uari renil le f Les unir jA His
136. l Validation par KBMail avant envoi Cette section ne concerne que la validation des e mails d alerte avant l envoi et n est utile que si ceux ci ne sont pas envoy s automatiquement apr s chaque crawl Les e mails qui requi rent une validation seront valider avant envoi dans le module KB Mail si celui ci est utilis Tous droits r serv s 2008 Page 35 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 3 6 3 Source NNTP FE D tail d une source NNTP A aA Emplacement Exemples avec documents PDF 21 Options Message s surveiller r Param tres de connexion Serveur de Mens d Tester la connexion Point de d part Groupe de news Choisir le groupe Alertes Cette source est en alerte lorsque sur la news surveill e Ml Une nouvelle occurence d un mot cl a t d tect e v Le message est nouveau Abonnement aux alertes par E Mail Validation par BMail avant envoi e Nom de la source Identique la source HTTP ou HTTPS e Param tres de connexion Un champ est pr vu a cet emplacement pour saisir le nom du serveur de News Le bouton Tester la connexion sert ensuite a verifier la connexion avec le serveur de news e Point de d part Saisir le nom du groupe de news Celui ci doit tre r f renc par le serveur de groupe de news Pour obtenir la liste des groupes disponibles sur ce serveur cliquer sur le bouton Choisir le groupe e Cette source est en a
137. l en ligne La Tribune fr ITTA Copyright 2004 2007 La Tribune D i Group fr Hon 11 Aug 2007 1 28 00 GMT Malgr le plongeon de sa valeur en Bourse la soci t am ricaine sp cialis e dans les pr ts immobiliers risque demande ta justice de forcer le fonds Lone Star la rac heter a au u prix fix e en juin dernier avant la crise du secteur Hon a ng 2007 09 36 00 GHT L ancien pr sident de fal R serve f d rale am ricaine va ajouter une nouvelle fonction ala palette de ses activit s de retrait tr s occ up r v le le Wall Street Journal er cat Figure 33 Le gestionnaire d archives Lorsque l on ouvre le module d archives celui ci se positionne automatiquement sur la derni re version archiv e de la page Tous droits r serv s 2008 Page 81 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 5 1 Ergonomie g n rale Le gestionnaire d archives comme la fen tre g n rale adopte une ergonomie de type explorer il est compos de trois parties principales L explorateur d archives la barre d outils g n rale et le browser d archives 5 1 1 L explorateur d archives Date Ann e 2007 Mois 6 I Jour 13 ae 13706 2007 14 06 40 La date d archivage ann e mois jour heure minute seconde de chaque page est enregistr e dans la base d archives de KB Crawl Ainsi toutes les archives d une m me page peuvent tre pr sent es regrou
138. la fonction sont ils a r cup rer en tant que bloc de texte 0 N Champ 5 la valeur de la variable ou les arguments de la fonction contiennent ils des liens a parcourir O N Champ 6 s agit il d une variable ou d une fonction Exemple avec une variable href http www kbcrawl net Ligne du fichier correspondante lt A gt HREF N O N Balise ouvrante lt A Balise fermante gt Le contenu de la variable n est pas r cup rer comme texte La variable contient une valeur cha ne interpr ter comme un lien HREF n est pas une fonction Remarque Le parser n est pas sensible la casse des champs saisis lt a href http www kbcrawl net gt Lorsque le parser rencontre la balise lt A il examine son contenu jusqu trouver gt Lors de cet examen il reconna t la variable href et se place apr s le signe et extrait tout ce qui est entre guillemets ou entre cotes Exemple avec une fonction WINDOW OPEN http www kbcrawl net Kocrawl Ligne du fichier correspondante lt SCRIPT lt SCRIPT gt WINDOW OPEN N 0 0 Balise ouvrante lt SCRIPT Balise fermante lt SCRIPT Nom de la fonction WINDOW OPEN Les arguments de la fonction ne sont pas r cup rer comme texte Les arguments de la fonction sont interpr ter comme des liens WINDOW OPEN est une fonction Tous droits r serv s 2008 Page 172 P08 00112 A4fr A2 KB
139. le champ Adresse Proxy http saisir le nom de machine du serveur ou son adresse IP Dans le champ Port saisir le port d coute sur ce serveur Si une authentification est n cessaire cocher la case Authentification puis l identifiant et le mot de passe requis pour cette authentification Par d faut KB Crawl utilisera ce serveur proxy pour tous les protocoles Cependant il est possible d utiliser d autres serveurs pour des protocoles diff rents Ainsi si l on d sire crawler des sources HTTPS NNTP ou FTP en utilisant un serveur proxy diff rent que celui pour le HTTP il est n cessaire de d cocher la case Utiliser ce serveur proxy pour tous les protocoles et de renseigner les champs correspondants adresse et port 12 2 3 Utiliser la configuration d Internet Explorer Cette option permet de d finir l option par d faut du m me nom dans toutes les sources nouvellement cr es Elle peut tre utile dans certains cas tr s sp cifiques notamment pour autoriser KB Crawl se connecter des serveurs proxy comprenant des s curit s avanc es 12 2 4Tester la connexion Web Afin de v rifier si les param tres renseign s pour la connexion Web sont corrects il est possible de tester la connexion Pour ce faire il faut renseigner le champ Adresse avec une URL valide et cliquer sur Tester Si les param tres renseign s sont corrects un message de confirmation s affiche l cran sinon il e
140. lerte lorsque sur la news surveill e Choisir ici les crit res qui d clenchent l alerte e Abonnement aux alertes par E Mail Identique la source HTTP ou HTTPS Tous droits r serv s 2008 Page 36 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 3 6 4 Source FTP FE D tail d une source FTP DOE Emplacement Exemples avec documents PDF Types de fichiers Fichier s surveiller E Options Param tres de connexion Hate Pot 21 Mon d utisateur Mot de passe Tester la connexion Fichiers surveill s Point de d part et profondeur OC word Power Pont R paitoie de d part CO Excel Flash POF CI Image OCR Piotondeu 0 Tous les dossiers st Alertes Cette source est en alerte lorsque pour le fichier surveill Le nombre de mots a chang partir de 1 Mot s wi Une nouvelle occurence dun mot cl a t d tect e Le fichier est nouveau w Le fichier a disparu Abonnement aux alertes par E Mail _ Validation par KEMail avant envoi ___Buites oplions Commentaires x e Nom de la source Identique la source HTTP ou HTTPS e Param tres de connexion Hote saisir ici l adresse du serveur FTP Port saisir ici le port du serveur FTP g n ralement 21 Type d authentification choisir entre anonyme ou normal Nom d utilisateur saisir ici le nom d utilisateur pour se connecter au serveur FTP Mot de p
141. les dexpott sua couter parun ghiser d placer o lisez les che Cliquez ici pour tries E El VEILLE F PC Program Fies EB i Brevets L HN C Program Fier Bl fay Espacenet 3 Groupe de recherche FE Exalead KBCraw fa Google KB Cral i Presse EE La Tribune BE Lemonde Produts H Decuments POF 8 Kerastase Flashi l Pubbeatons a himel Iriemzt CAA Vele concurrentielle ln a N DA Ps a la k r TE e E E Pass Me Lanta ue PP e sL 1m Gl GP Ajouter A Modifier DS Supprimer L cran de param trage des exports se divise en trois parties 8 1 Le cadre de gauche Le cadre de gauche pr sente la liste des sources et des dossiers sous forme arborescente similaire en tous points celui pr sent dans la fen tre principale Dans un premier temps s lectionner la source ou le dossier auquel le mod le d export va tre rattach 8 2 Le cadre central Tous droits r serv s 2008 Page 110 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Il dresse la liste des mod les d exports qui sont d j parametr s dans KB Crawl Il est possible d en ajouter Pour cela cliquer sur le bouton ajouter situ dans la barre de boutons au bas du cadre GE D tail du format d export Beles Hom R pertoire l i tee oran PiesiRE CrantExpor l Parcourir Exporter dans un tous repertoire contenant la date Fichier HTML nec ee C Program Files KE CralSndex html al Parcourir
142. lyse et stocke une nouvelle version de cette page P2 A une date t3 KB Crawl analyse une nouvelle version de cette page P3 Si l option mise jour automatique est s lectionn e P1 devient P2 et P3 devient P2 Dans le cas contraire P2 devient P3 alors que P1 reste la page de r f rence Si KB Crawl analyse de nouveau la page au stade Pn celle ci sera chaque fois compar e P1 Si on a choisi l option Archivage des diff rentes versions les pages Pn qui auraient d tre cras es sont stock es et restent consultables tout moment depuis le module de gestion d archives e Archiver toutes les versions Comme vu dans le chapitre 1 7 fonctions d archivage KB Crawl permet d archiver dans sa base de donn es chaque page qu il visite en plus de la version de r f rence et de la derni re version observ e d une page Choisir cette option indique KB Crawl qu il doit stocker une page chaque fois que celle ci pr sente un changement perceptible e Archiver la page m me si le changement n est pas visible META instructions Pour archiver la page quel que soit le type de changement survenu cela peut tre utile notamment lorsque des images ont chang cocher la case Archiver la page m me si le changement n est pas visible META instructions Tous droits r serv s 2008 Page 60 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 e Les adresses des l ments graphiques sont c
143. n A veille Normative Weile concurrentiel a Flash 3 4 1 Cr ation d un sous dossier La cr ation d un sous dossier ne se fait pas depuis le m me menu que les dossiers un sous dossier doit se cr er a partir d un dossier ou d un sous dossier afin de cr er un lien de parent a la cr ation Pour cr er un sous dossier il faut s lectionner un dossier ou un sous dossier dans le cadre gauche de la fen tre principale liste des sources puis faire un clic droit puis nouveau sous dossier 3 4 2 Renommer un sous dossier Se positionner sur un sous dossier et faire un clic droit puis renommer 3 4 3 Suppression d un sous dossier Se positionner sur un sous dossier et faire un clic droit puis supprimer Suppr 3 5 Ergonomie g n rale Lorsque l on cr e un sous dossier ou une source l l ment cr appartient forc ment un dossier ou un sous dossier Ce classement peut tre modifi facilement tout moment en utilisant les fonctionnalit s classiques de glisser d placer Tous droits r serv s 2008 Page 29 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 On peut s lectionner une source un groupe de sources un ou plusieurs dossier s sous dossier s et le s d placer dans n importe quel dossier ou sous dossier D s lors qu une source est plac e dans un dossier les propri t s mots cl s surveillance automatique de ce dossier et des dossiers plus hauts dans l
144. n attribut bgcolor qui donne la valeur de la couleur de fond du corps de la page elle ne pr sente pas d int r t particulier pour KB Crawl lt meta name description content Vous tes a la recherche d un logiciel de veille venez d couvrir le site KB Crawl votre sp cialiste de la surveillance des sites Internet gt La balise meta contient deux types de contenus name tant une propri t en l occurrence il s agit de la meta balise de description du contenu de la page et content qui est la valeur de la propri t ici la description de la page sous forme de courte synth se textuelle Les informations contenues dans ce content sont porteuses de sens car elles constituent la description de la page qui contient des mots cl s stocker Tous droits r serv s 2008 Page 13 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 lt a href profile html target _blank gt La balise lt gt est galement int ressante car elle contient un lien profile html qui va ventuellement servir explorer la suite du site Remarque Dans le corps de la page les caract res qui se trouvent en dehors des balises constituent le texte que l on voit appara tre lt td valign top colspan 2 gt lt p gt lt font face Verdana Arial Helvetica sans serif size 3 color 4 F FCC99 gt lt b gt lt a href products index htm target _blank gt lt r gt Produits KB Crawl lt a gt lt b gt lt
145. n internet ADSL conseill Tous droits r serv s 2008 Page 10 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 1 4 Telechargement Les pages HTML que l on t l charge sont de tr s longues cha nes de caract res suites d octets qui constituent le code HTML Le telechargement est la premi re phase du traitement appel crawl Concretement KB Crawl envoie une requ te HTTP a un serveur Web Une requ te HTTP est une chaine de caract res qui contient entre autres l adresse de l h te serveur qui h berge les pages Web exemple 217 147 236 241 adresse IP ou www kbcrawl com alias qui redirige vers une adresse IP le chemin complet du fichier que l on souhaite t l charger exemple products KBCRAWL htm On peut aussi appeler products parce que le serveur a une page d finie par d faut pour ce r pertoire ll arrive fr quemment qu un t l chargement choue pour des raisons diverses la page ne se situe pas l emplacement d sign HTTP 1 1 404 Objet introuvable un probl me est survenu avec la connexion Internet Socket Error 10061 Connection refused le serveur qui doit renvoyer la page a eu un probl me technique HTTP 1 1 500 Erreur serveur interne Lorsqu une erreur se produit durant le t l chargement elle est imm diatement inscrite au journal de KB Crawl cf 11 Il est parfois utile de consulter ce journal pour prendre connaissance du compte
146. n valide le formulaire envoyer On a le choix ici de visiter ces adresses ou non Analyser les listes ou menus d roulants Certaines pages Web contiennent des listes d roulantes dites navigantes Lorsque l on s lectionne un l ment qu elles proposent on navigue vers une autre page Parfois le code HTML qui produit ces listes d roulantes contient explicitement ces liens Lorsque l on choisit cette option KB Crawl va reconstruire un lien partir de la valeur qu il trouve derri re chaque l ment de ces listes d roulantes et tenter de visiter ce lien Ne pas cocher cette option permet d optimiser le temps d exploration en vitant de visiter des liens inutiles quand ces listes d roulantes ne sont pas navigantes Explorer les liens comportant des param tres Ces liens sont fr quemment appel s fat URL en anglais Ceci permet au serveur lorsqu il re oit la requ te HTTP du poste client de construire dynamiquement la page qui constitue sa r ponse en fonction de ces param tres Exemple http www monsite com search DetailArticle PK 4120 amp Order DATECREATION e sc amp StartRec 1 amp StartPageLink 1 amp Filter SID 178692269 amp DetailMode Modif Le premier param tre est toujours pr c d d un et les suivants d un amp Ici le param tre PK vaut 420 et SID vaut 478692269 Les sites dits dynamiques tant tr s r pandus ces types de liens le sont galement IIs ne sont pa
147. nformations ne hep fda ters L int gration technique des cerlilicats dans les 3linp vRepacenelcom resute sfsatCr epti G hiDB EP 20 03 2007 12 5 Inlornahors relatives amp le pubbeator linformatons relatives 8 la pubheation r cematioons relatives le pub catiorc INJECTION MOLDED PLASTIC BICYCLE WHEEL intcemations r labves la pubscabor INJECTION MOLDED PLASTIC BICYCLE WHEEL nfomatone es ee a a ee ee ee me ee eee ee ee meme 4 http ane adobe com abouladobe pressroom execulivebios 10 03 2006 Vr E constituents with infoemation more aicen and effectnely He oversees Adobe Ahal effectively Geste caphure and integrate information and processes across the eghuhoraes how Ihe world engaged with ideas and information anytime n Snywehere ond through ary medum F 5 Lip A adobe EE EP TREES 10703 2006 Wi 4 Utah Indomistion Tschrology Aradin Tech Museum of Innovation and currently is sitting onthe Board He ako serves on its volubionizes how the world engages with ideas and i lable eo UNE CRE eee A FECL os RENTON NOPE BB Documents POF Featlace Flash cl Pubicaiong fib Mined Intemet S MJ Vede Seciouiehe oe BH E Intetigence RS TS EE TE dance en TE ear rer mar re plus actwe dans l recherche dune solution au bige attente l vie pine Mais i exchi de ses interventions les probl mes techniques emp chart par exen par exemple l acc s
148. nn es envoy es M thode d envoi des donn es 65 POST Ce formulaire est exclusif xK Url de destination libell de l URL qui correspond la variable ACTION que l on trouve dans le code source du formulaire Donn es envoy es cha ne de caract res encod e au format HTTP qui r unit l ensemble des donn es envoy es au formulaire sous la forme PARAM1 VALEURL amp PARAM2 VALEUR amp PARAM3 VALEUR3 etc M thode d envoi des donn es cliquer sur le bouton radio GET ou POST selon la m thode d envoi des donn es au serveur La m thode d un formulaire se trouve en principe dans son code source et correspond la variable METHOD Option Ce formulaire est exclusif cette option est tr s importante lorsque l on se situe sur une page web contenant un formulaire cette page contient le lien pour l adresse de destination du formulaire URL de destination mais aussi bien souvent d autres liens On ne souhaite en g n ral pas que KB Crawl suive ces autres liens mais plut t qu il se concentre sur le formulaire en question e Modifier un formulaire Cliquer sur le bouton Modifier puis modifier les champs propos s a cet effet e Supprimer un formulaire Cliquer sur le bouton Supprimer Tous droits r serv s 2008 Page 46 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 e Forcer le lien Forcer le lien Cliquer sur le bouton Forcer le li
149. ns chacun d eux repr sente l URL compl te de la page et le nombre entre parenth ses correspond au nombre de liens qui ont t extraits de cette page qu ils aient d j t visit s ou non et dont l extension a t d finie dans la biblioth que d extensions La structure du site qui appara t repr sente la partie essentielle du plan du site Internet Le lien de parent entre deux pages d pend de l ordre dans lequel les liens du site ont t visit s et un lien n est visit qu une seule fois lors d une exploration Tous droits r serv s 2008 Page 72 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 4 2 Utilisation et ergonomie g n rale Lorsque l on ouvre une source avec l explorateur l arbre est d pli par d faut On peut ouvrir et fermer chacun des n uds en cliquant dessus sur la croix et faire ainsi appara tre ou dispara tre les pages filles du n ud s lectionn Figure 26 Arbre repli dans l explorateur de sources On peut aussi d rouler et replier l arbre enti rement par un clic droit D rouler enti rement Ctrl D ou le replier enti rement par un clic droit Replier enti rement Ctrl Alt D Fj http anna andytimnmons com bioframe htm E F http ananas andvtinimons com bio htm 9 ST http ananas andutinmons coml ftframe htm 18 http ananas andutinmons com contact htm 4 http fa andptimmons com tanbasetrame htm 5 Fj http ie anditimnmons com to
150. ns laquelle on peut saisir une URL Pour naviguer sur la page requise il suffit d appuyer sur la touche lt ENTREE gt du clavier ou de cliquer sur bouton OK gt Dans l exemple ci dessus on navigue sur un site qui exige une authentification L analyseur de formulaires permet de surfer sur Internet exactement comme le navigateur utilis par d faut On peut cliquer sur des liens hypertexte mais aussi et surtout remplir des formulaires Tous droits r serv s 2008 Page 41 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Lorsque l on clique sur le bouton Envoyer de la page Web vue l int rieur de l analyseur de formulaires celui ci d tecte cette action automatiquement et propose alors d enregistrer le formulaire et de ajouter a la liste des formulaires enregistr s pour cette source Ci x e Voulez vous ajouter ce Formulaire la liste Mui Mon n Figure 11 L analyseur de formulaire d tecte l envoi de donn es Si l on confirme avec le bouton Oui les donn es du formulaire seront enregistr es dans la base de donn es de KB Crawl et aucun param trage suppl mentaire n est n cessaire Tous droits r serv s 2008 Page 42 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Autre exemple un i Formulaires Hombee de Formulaires enregisli t 0 e Voir les formadaires ereegisi s f eS Erm E iGoogle Connexion Web Ima
151. ob comsboutedobe pressocen erecubrebias p 10072006 17 21 manages th company legal interests naudng mielectual property protection 5 hih ana adobs com aoutadobe pressocn ecscutnebto p 10 03 2006 17 3 sitificial inteligence Al group at LNK Corp a company funded by the U S Department Permet d acc der aux diff rentes pages de r sultats pages suivantes et le bouton lt lt aux dix pr c dentes Les diff rents cas de figure Si le nombre de pages r sultats est sup rieur 10 le bouton gt gt permet d acc der aux dix TO Ge Figure 57 Les 10 premi res pages de r sultats Tous droits r serv s 2008 P08 00112 A4fr A2 Page 123 KB Crawl Manuel utilisateur v 3 1 10 2 3 Cadre de gauche A R sultats 1 10 sur 27 0 015 3 Exporter Format d export n 1 v INTEGRALEMENT F INTEGRALLY INTEGRATE INTEGRATED ne a ir ELTS e 2 http www minefi gouv fi DGCCRF 04_dossiers consommat 15 03 2007 15 35 ai lt DGCCEF Fiches consommation litiges sur mtermet Vos interlocuteurs Litiges HE INT GRE priorit la m diation D faut de livraison ou commande non conforme sur Internet quelle INT GR est la bonne attitude pour obtern d une instance de m diation pour les litiges sur Internet INTEL 3 http han minef gouv frthemes technologies_info intemet 19 03 2007 15 20 INTELLECT UAL MINE FL Th me Internet N
152. ombre de r sultats par page Permet de param trer le nombre d enregistrements r sultats de la recherche par page Le bouton Rechercher Lance la recherche par rapport la requ te saisie dans la zone pr vue cet effet o Le lien Recherche avanc e Fait surgir l assistant pour les requ tes avanc es Le lien Mots voisins Lance une recherche avec des mots voisins de celui utilis pr c demment pour la recherche Tous droits r serv s 2008 Page 122 P08 00112 A4fr A2 KB Crawl hb H Module de recherche Cliquez ici pou tier E VEILLE Ea Brevets fe Espacenet fay Exalead KECravd S Google KE Crawl ES Presse EE La Tribune EE Lemonde E qd Produits ii Docurentzs PDF E Karastie a Fast E ul chert fal Mineh intel B ql Vede Sectuiele fe KE Intelligence Figure 56 Mots voisins 10 2 2 Cadre du bas Groupe de recherche KB INTELLECTUAL INTELLECTUELLE INTELLIGENCE INTELLIGENT INTELLIGENTS Manuel utilisateur v 3 1 10 E p sullats par page D Font Coat r eigents 2 it Low exalead i secachiC DMGwtliwi 34 2U LC 0MG 20 03 2007 155 3 ager intelligent veils internat Intelligence econgmigue la valle active det enliapiipes Agers 3 hitp aww google Ir search hiehtkg kbciawlbinG Recherche 20 03 2007 15 5 chee intelhgent vele memnet iniebgence econcemque le velle active des entreprises Achy 4 hittir ape m
153. ompl t es pour un affichage complet mais plus lent Une balise de redirection de tous les liens relatifs est ins r e dans le code source de chaque page archiv e ce qui permet de visualiser dans ces pages les images ou les frames cadres Dans certains cas cette redirection emp che de visualiser la page et il convient donc de ne pas choisir cette option en d cochant la case redirection des liens e Archiver sans les scripts Certaines pages contenant du code J avaScript posent des probl mes d affichage lorsque l on tente de les visualiser hors contexte g n ralement l affichage de la page se fait attendre pour parfois m me ne rien obtenir e Les anciennes archives des pages qui ne sont plus t l charg es sont supprim es automatiquement Lorsqu un document est identifi comme supprim le comportement par d faut du module de gestion des archives est de supprimer automatiquement ce document afin d optimiser la place occup e par la base d archive Ce comportement par d faut peut tre modifi afin de conserver dans la base de donn es les anciennes versions des documents qui ont t marqu s comme supprim s pour cela il suffit de d cocher la case Les anciennes archives des pages qui ne sont plus t l charg es sont supprim es automatiquement 3 7 5 Param tres avanc s e Variables de sessions Beaucoup d URL que l on rencontre sur le Web comportent des param tres Exemple URL n 1 htt
154. onse Cacanishation clatsque 0 Pubkeations E Mirah Internes 4 1 Vede concuentele Figure 63 Fonction de recherche exemple 1 Tous droits r serv s 2008 Page 127 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 10 3 2 Requ te avec bool ens Exemple 2 veille and internet r LE Module de recherche Eg Groupe de recherche KB Fe ats pen nr me SI Exalead KBCrand A bo 0G Exporter Format d expoit ni E Googe KE Crete 1 Ee documentake rappets naag 22 04 2008 10 2 1912 ql Pere I Internet et Entreprise internet 1997 nous chargeant 7 dexenuner de quelle fa on Intemet tran poust participer ia Compe no 7 Ge proposer des soko po que nos entieptioes treni te peleu past aa m Aia mi 2 tps lama google isearch thishe gekberawibinG Recherche 10701 2008 11 1 Produits P KE Crawl Logiciel de velle concurrentielle swvellance ste L volre sp cialiste de la survel navellance E Cocuments PDF des sites Internet outil de vele en version 2 0 Abondance fa Kerastase Flash l actu cuis vaile mis h Publc Alich php idoudl 286 13k r compens au salon expo 4G Pubhcations 4 Sih Avni ersed ti enarch C OMGwAMwAt34 2US4C 0MG 2003 2007 155 17 9 Mirah Internet ON lend is a worldnide Web search engine it halps intemet users lo search and find information on EREET salle a hy the cl de vedie concurrertiele survedlance site Intemet
155. ontenu change fr quemment afin de ne pas tre alert de mani re intempestive En revanche ce mode d utilisation fait que la version de r f rence est cras e et plusieurs comparaisons successives ne permettent plus de savoir quels sont les changements par rapport la premi re version que l on avait observ e sauf si l on utilise l option archivage des diff rentes versions Lorsque l option archivage des diff rentes versions est choisie la version de r f rence dans le cas 1 ou la version 2 dans le cas 2 ne seront pas cras es mais stock es en tant que versions interm diaires Le module de gestion des archives 5 permet ensuite de suivre l volution dans le temps de l information contenue pour une m me URL Tous droits r serv s 2008 Page 20 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 2 G n ralit s sur l interface La fen tre g n rale de KB crawl est compos e de trois cadres distincts qui contiennent la barre d outils g n rale et la barre de menu textuel cadre du haut la liste de sources class es par dossier appel e plan de classement cadre de gauche l explorateur de sources cadre de droite EF KB Crewi Version 3 1 Connect la base de donn es C Wropram Files Crawl ide a KB CRAMWIL BASE EXEMPLE GOR Ficher Eden Achim Acton Guh Piramis Mariage 7 Mos si gt arara few fal Cl tal i LOC oder Supplier id Gee TEP Cm Comes Sp En
156. os SEHR 3 t Aies options Corel genes x __ Fichiers t l chaig s Figure 7 Page principale d une source Formulaires La page principale d une source est compos e de deux cadres Ajouter Ke Consulter gt Le cadre de gauche pr sente les renseignements principaux n cessaires au bon fonctionnement du crawl tels que l adresse de d part pour une source de type HTTP ou HTTPS l adresse du serveur FTP pour une source FTP ou l adresse du serveur NNTP pour une source NNTP gt Le cadre de droite pr sente un menu a volets qui donne acces aux param trages avanc s de la source tels que les formulaires les fichiers t l charg s les filtres le param trage des archives les autres options les commentaires Fichiers t l charg s Filtres Le nombre de rubriques accessibles via le menu volets d pend du type de source Les formulaires par exemple sont inutiles dans les sources NNTP Archives Parametres avanc s Autres options Commentaires w x Tous droits r serv s 2008 Page 32 PO8 00112 A4fr A2 al KB Crawl Manuel utilisateur v 3 1 3 6 2 Source HTTP ou HTTPS ft D tail d une source HTTP Page s sanveilhes Pages suivantes spiscer les bens du m me ste ug au rereau i O Le sie erties Espiar les hens vers d autres stes et rebond 0 zea JO Alertes Cette source ett en alene lorsque sur une page t
157. ources s lectionn es S lectionner un ensemble de sources puis cliquer sur le bouton correspondant cette fonctionnalit r initialise les options des sources s lectionn es c est dire leur donne la m me valeur que lors de leur cr ation 13 4 4 Supprimer les archives de la source s lectionn e Supprime toutes les archives de la source s lectionn e sauf la version de r f rence de la page Tous droits r serv s 2008 Page 163 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 13 4 5 Initialiser toutes les connexions a la base de donn es Pour r aliser certaines actions comme un compactage de la base de donn es par exemple il faut que toutes les connexions clientes la base de donn es soient coup es Il peut arriver que bien que tous les utilisateurs ne soient plus apparemment connect s a la base de donn es celle ci ait gard e en m moire des connexions actives Le serveur de base de donn es n est pas toujours accessible c est pourquoi cette fonctionnalit a t cr e pour couper depuis un poste client toutes les connexions avec la base de donn es 13 5 Outils 13 5 1 Importer des sources venant d une autre base Il est possible depuis KB Crawl d importer des sources provenant d une autre base de donn es KB Crawl Cette fonctionnalit propose un outil simplifi pour ce type d change CE Choix des sources importer depuis une autre base de donn es Sei C Program Files B
158. p Nom de l exp diteur appara tra dans le champ De ou From de l e mail envoy S curit Hom de l esp diteur demot kberavl net L esp diteur doit tre une adresse E Mail valide Si e est falte aus E Mails KB Crawl Si une r ponse est faite aus E Mails que KB Crawl envole cette reponse sera re ue cette adresse 7 6 Envoi des messages L envoi des messages se fait soit automatiquement apr s chaque crawl soit manuellement en cliquant sur Envoyer les messages dans le menu d roulant de Diffusion Gestion des E Mails en attente La barre d tat indique alors que l envoi des messages est en cours et la barre de progression renseigne sur la progression de l envoi des messages A la fin de l envoi elle renseigne sur le r sultat de l envoi Ca Ca Ca Adresses r f renc es 4 Envol des messages termin avec succes Termin en Uh D m Ds 69m Tous droits r serv s 2008 Page 107 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Il se peut que l envoi choue pour un probleme li au serveur de messagerie ou pour un probl me de param trage SMTP Dans ce cas un message d information appara t dans la barre d tat Envoi des messages termin avec des erreurs voir le journal pour les d tails Figure 53 Erreur lors d envoi de messages Tous droits r serv s 2008 P08 00112 A4fr A2 Page 108 KB Crawl Manuel utili
159. p www openlaszlo france com phpBB2 viewforum php f 1 amp sid 58522fchc5967 7bf59cc4d11b 74a26e A partir du caract re on trouve une s rie d expressions de type parametre valeur qui sont toutes s par es par le caract re amp Ici on entre autres F 1 Tous droits r serv s 2008 Page 61 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 sid 58522fcbc596 bf59cc4d11b 74a26e Ces param tres sont des informations gu interpr te le serveur lorsqu il re oit la requ te HTTP du client L URL mentionn e ici a t trouv e sur le lien d une page Web A la prochaine session ouverte avec le serveur le m me lien qui m nera sur la m me page que la fois pr c dente recouvrera une URL l g rement diff rente Lorsque l on ouvre un navigateur par exemple on ouvre une nouvelle session et on ferme cette session lorsque l on referme ce m me navigateur Exemple URL n 2 http www openlaszlo france com phpBB2 viewforum php f 1 amp sid 649f0ef4894c807dc77f71c9a19fb5b0 En effet un parametre a chang SID Sa valeur est diff rente par rapport la session pr c dente et le changement de sa valeur ne change en rien la page qui correspond cette URL on appelle cela une variable de session A chaque crawl KB Crawl ouvre une session diff rente si bien que lors d un crawl de comparaison 3 8 cette URL sera consid r e comme nouvelle Elle l est si on consid re la c
160. p es et ordonn es par ann e mois jour Chaque l ment d archives est pr sent sous forme d un lien cliquable pour visionner le contenu de l archive dans le browser du module d archives La surbrillance grise montre qu une archive est s lectionn e Un clic droit fait appara tre un menu contextuel qui propose les fonctionnalit s suivantes Supprimer les archives de l ann e Supprimer les archives du mois Supprimer les archives du jour Supprimer le fichier archiv L ann e le mois ou le jour sont ceux du fichier archive s lectionn Tous droits r serv s 2008 Page 82 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 5 1 2 La barre d outils g n rale val Version de r f rence 2 Derni re version lt a Version pr c dente B Version suivante Supprimer les archives Regroupement Figure 35 La barre d outils g n rale de l explorateur d archives Elle pr sente les fonctionnalit s suivantes Version de r f rence Cliquer sur ce bouton pour voir la version de r f rence de la page c est dire la version laquelle a t compar e la derni re version ce cette page lors du dernier crawl de comparaison Derni re version Cliquer sur ce bouton pour voir la derni re version archiv e Version pr c dente Cliquer sur ce bouton pour voir la version pr c dente de la page d archive s lectionn e dans l explorateur d archives Version suivante Cliquer sur ce bou
161. pendant 30 jours D couvrez gratuitement KB Crawl TELECHARGEMENT Tableau d valuation fonctionnelle Document POF 76 Ko AEB Crawl Logiciel de veille automatique sur Internet Vous tes veilleur documentaliste organisme public PME grande entreprise Ne perdez plus de temps chercher les informations sur Internet Maitisez votre information strat gique et gagnez du temps en automatisant votre veille sur internet EB Crawl surveille le Web visible et invisible votre place H Solution compl te de veille sur Internet KE Crawl collecte filtre diffuse et capitalise tout type d information depuis Internet Vous pouvez surveiller vos concurrents effectuer votre revue de presse d tecter les innovations suivre la r glementation de votre secteur ou encore couter vos clients 4 travers les blogs les forums etc D couvrez quelques exemples d application du logiciel de veille BB Crawl HEB Crawl 545 propose une gamme de services autour de KB Crawl pour mettre en place votre H dispositt de veille strat gique Vous recherchez une solution pour votre cellule de veille sur Internet d couvrez les H fonctionnalit s et Hl A architecture de EB Crawl votre diteur fran ais de logiciels de veille 2006 KB Crawl Tous droits r serv s Confidentialit Figure 29 Contenu textuel d une URL Remarque Les sont des s parateurs de blocs de textes et deux devant un mot indiquent un
162. permet de choisir le dossier dans lequel l on souhaite enregistrer les fichiers t l charg s par KB Crawl doc ppt etc Actions automatiques lors des crawls automatiques Lorsque KB Crawl fonctionne en mode automatique il est possible d optimiser la base d archives et ou de faire un compactage de la base de donn es automatiquement si la taille de celle ci augmente trop vite Pour cela il est n cessaire de cocher les cases correspondantes son choix et de choisir un seuil partir duquel ces actions se r aliseront automatiquement Seulement entre X h et X h En cochant cette case il est possible de choisir une fen tre temporelle pendant laquelle les actions automatiques optimisation et ou compactage pourront s enclencher Bloquer la navigation depuis les archives Lorsque l on est dans l explorateur d archives il est possible de bloquer la navigation depuis la page que l on visualise dans le navigateur int gr KB Crawl les hyperliens du document visualis deviennent inactifs le document visualis est le reflet strict de la source stock e dans la base de donn es les frames par exemple ne sont pas t l charg s Ne pas afficher les images des archives Lorsque l on est dans l explorateur d archives il est possible de ne pas afficher les images cela peut tre utile notamment lorsque la connexion Internet est lente pour un affichage des informations plus rapide Ne pas afficher les scripts des archi
163. pondent l op rateur near 10 Fonction recherche 10 1 Fonctionnement g n ral Le moteur de recherche permet de retrouver l int rieur de la base de donn es de KB Crawl toute page dont le contenu a t index par le moteur de recherche KB Crawl On entend par contenu le texte de la page lisible depuis un navigateur Pour acc der ce module cliquer sur le bouton recherche de la barre d outils g n rale Si un ou plusieurs contenus r pondent aux criteres de la requ te soumise au moteur de recherche les pages correspondantes sont r cup r es du module d archives pour tre pr sent es avec les mots correspondant aux r sultats de la recherche FE Module de recherche Chquez ici pour hier d VEILLE qo Brevets fi Espacenet a Groupe de recherche KB Ey Exalead ER Cram HERO agen 2 en f S Google KB rad 1 Hp amanelec om gout Ton documentare rappt myag aae T 4 Presse e we meciametne fr JM Cofombani Pr sident du drectore du Mande joumal quia mvez une KE Leh ne PAT ET Le LE a z 2 F issili I KERT ane igt pail at i 2 lho aa anitae fr 16 06 2008 122 Pro Marc Pallain le pr siden du direclore va quiller ses fonctions Selon nes informations le groupe EX Cocument PDF rahontornique va changer de riche rerplasant pon cancel de surveillance H son director pal fie Kerastase Flash un conte dadrmnisthation classique g Fikcia ry Miel mi
164. profondeur de page de 1 Autre exemple Lae e Http an google fr search het q KE R Libina Recherche G ooglet meta 69 B http an google try search hl fraq BEA CONSEILEbInG Recherche Googletmeta 72 Http an google fr search hletr oq LOGICIEL YE ILLE amp btn Recherchertmeta 77 Figure 15 Formulaires multiples dans l explorateur de sources Ici l URL de d part www google fr contient un formulaire servant aux requ tes de recherche Pour la source correspondante on a enregistr trois jeux de donn es diff rents pour le m me formulaire afin d effectuer trois recherches diff rentes Ainsi dans l explorateur de sources on voit que les r sultats de chaque requ te sont mat rialis s par une page diff rente symbolis e par l ic ne formulaire Comme dans l exemple pr c dent la source est param tr e avec une profondeur de page de 1 Si on param tre une profondeur de page sup rieure chaque page r sultant de la requ te de recherche engendrera un certain nombre de pages filles 3 7 2 Fichiers t l charg s Tous droits r serv s 2008 Page 48 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 3 7 2 1 Fichiers enregistrer Lors d un crawl KB Crawl d tecte les liens qui m nent des fichiers images fichiers Excel PDF ou m dias divers MP3 vid os etc Par d faut KB Crawl ignore ces fichiers et ne t l charge que ceux dont le format est texte HTML Ceci pe
165. ptrame htm 5 http fans andptimmons com gear htm 3 ee ee http iwy andytinimons com merchframe htm 5 Fj http store andytinmons comindes html 30 Fj http store andytinmons com cds html 391 Fj http store andvtinimons comandthology 2 html 22 Fj Http shore andytinmons comedvdyhs html Fj http store andytinimons comind h See http store andytinmons c Fj http store andyti http sta j e Figure 27 Arbre enti rement d pli dans l explorateur de sources 4 3 Fonctionnalit s a partir de l arbre L arbre est constitu de n uds repr sentant des URL qui ont t crawl es par KB Crawl Une surbrillance grise indique qu un n ud ou URL est s lectionn Tous droits r serv s 2008 Page 73 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 g http anus anidutinimars corn 18 http Awa andptimmons cor biotrame htm E hg http an andytinmons com bio htm 9 http ey andytinmons coml ftframe htm 18 eee 61e anun nnnnNNNNNNNNENNNNNNNNNENNNNNENNNNNNNNNNNENENENENENNENENEENNENEEENENENENENNNNNENENENENANEENNAEENNNNNNNENENNNNEENNANNENNNENENAEENEENENENSENENENENENENNNENEE tho fans andytimmons cam tanbasetrame htm 5 F http ananas andutimmons com topframe htm 5 http ananas andytinmons com gear htm 3 http ananas andytinmons com merchtrame htm 5 http ananas andytinmons comes htm 4 Fr http fan andutin
166. r c est dire parfaitement synchrone avec les contenus archiv s dans la base de donn es Si l indexation automatique n tait pas utilis e et qu on l active parce que l on souhaite utiliser les alertes avanc es ou que l on souhaite effectuer une recherche la table d index doit tre reconstruite pour tre synchronis e avec les archives Cette op ration peut prendre plusieurs minutes si la base d archives est volumineuse Construction de la table d index Compte de mots M moire kb z gd 1 356 Temps coul M moire maximum kh 00 00 00 1 620 Lecture 14 Glossaire ADSL Anglais Asymmetrical Digital Subscriber Line Tous droits r serv s 2008 Page 183 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Francais Ligne asymetrique num rique Technologie capable de transporter plusieurs m gabits par seconde sur les deux fils de cuivre du t l phone Les donn es peuvent tre transmises jusqu 8 Mbits s en t l chargement Cette technologie est dite asym trique car le d bit descendant download est diff rent du d bit montant upload BASE DE DONNEES Anglais database Fichier ou ensemble de fichiers disque ou m moire permettant le stockage permanent ou temporaire et l acc s des informations structur es BROWSER Fran ais navigateur Programme utilis pour explorer le Web Les deux principaux browsers du march Internet Explorer Microsoft et Firefox Les Qu
167. r A2 KB Crawl Manuel utilisateur v 3 1 e Cadre de gauche Le cadre de gauche pr sente la liste des sources et des dossiers sous forme arborescente similaire en tous points celui pr sent dans la fen tre principale On peut ainsi s lectionner la source ou le dossier pour lesquels on souhaite param trer les mots cl s d alerte e Cadre central Le cadre central pr sente la liste des mots cl s contextuels l entit s lectionn e dans le cadre de gauche tri e par ordre alphab tique L entit peut tre un dossier ou bien une source Quel que soit le cas on observe deux types d expressions ou mots cl s ceux qui sont directement rattach s l entit et ceux qui sont h rit s d une entit contenant directement ou indirectement celle ci La grille du cadre central contient un champ h rit pr vu cet effet Si l expression d alerte est h rit e le dossier propri taire de cette expression est notifi e dans la colonne H ritage du dossier FE Param trage des mots cl s Chquezicipourtier 7 Expeessions ou mots cl s Cliquez ici pour nier Hente H stage udosser Sd VEILLE veste aF Vele Sectoiele qd Brevet Internet Espacenet Ste Groupe de recher fae Exsead KBC f Google KB Cre E Pretos El La Trbune p Vertes la sprane E Lemonde gi Preas T Assistant E Documents Pi fa Kaasas Fla f Pubbeatons H Hirel riere
168. r ce que l on appelle une authentification de base le serveur Web qui les h berge exige de la requ te HTTP qui demande leur t l chargement de pr senter les param tres d authentification requis Lorsque l on cherche t l charger un page prot g e par une authentification de base on voit surgir une boite de dialogue depuis le navigateur que l on utilise Tous droits r serv s 2008 Page 63 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Mot de passe r seau i J x vet F Entrez votre nom d utilisateur et votre mot de passe at r Site 172 397 255 170 Domaine 172 31 255 10 Horn de l utilisateur Mot de passe Enregistrer ce mot de passe dans votre liste de mots de passe Annuler Figure 24 Bo te de dialogue d une authentification de base Cette bo te de dialogue n appara t pas lorsque KB Crawl cherche t l charger une page Web parce qu il envoie directement sa requ te au serveur et re oit sa r ponse sans passer par l interface d un navigateur KB Crawl int gre les param tres d authentification de base une fois pour toutes au sein du param trage d une source II faut toutefois v rifier au pr alable que le t l chargement requiert effectivement cette authentification l aide d un navigateur Web Si c est le cas cocher la case situ e devant Authentification acc s un espace s curis puis saisir le nom d utilisateur et le mot de passe r
169. r la comparaison 4 L Pour cela il est n cessaire de se positionner sur une source dans l arborescence et de cliquer sur le bouton Comparer situ sur la barre d outils g n rale Les effets au niveau de l interface sont alors les m mes que ceux observ s durant le premier crawl Important Une source qui a d j fait l objet d un premier crawl peut tre de nouveau crawl e crawl d initialisation Cela revient a vider les espaces n 1 et n 2 des contenus de la source qu il contient et tout reprendre depuis le d but Dans ce cas une bo te de dialogue nous invite confirmer l crasement des donn es Confirmation Lancer le crawl des sources s lectionn es wd Remarque toutes les donn es t archives de ces sources seront effac es Cui Non explorateur de sources Tous droits r serv s 2008 Page 71 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 4 1 G n ralit s Une source contient au minimum une page Web Dans le cas o elle repr sente un ensemble de pages celle ci est hi rarchis e la page de d part a fourni un certain nombre de liens qui ont men vers des pages qui elles m mes fournissent d autres liens etc Cet ensemble de pages qui repr sente une partie ou l int gralit d un site Internet peut tre repr sent sous forme d un arbre afin d en observer sa structure C est ce que fait l explorateur de sources Fj the a
170. respond parce que leurs adresses sont identiques KB Crawl compare ces deux pages et observe les cas suivants e Il n y a pas de page P1 dans l espace n 2 Plbis est une page nouvelle Chaque nouvelle page identifi e est ins r e temporairement dans l espace n 1 afin de visualiser sa pr sence et dans l explorateur de sources 4 e Le nombre de liens contenus dans les pages P1 et Plbis est diff rent Si la valeur absolue de la diff rence entre ces deux nombres d passe le seuil d alerte d fini dans les options de la source la page 1 est marqu e comme ayant son nombre de liens chang le nombre de ces liens est stock dans les espaces n 1 et n 2 e Des mots cl s d alerte sont apparus KB Crawl a en m moire au moment de la comparaison le nombre d occurrences de chaque mot cl d alerte trouv dans la page P1 Si dans la page Plbis l un de ces Tous droits r serv s 2008 Page 70 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 mots cl s r f renc s appara t plus de fois que dans la page P1 la page P1 est marqu e comme ayant de nouveaux mots cl s apparus e Les contenus textuels des pages P1 et Plbis sont diff rents KB Crawl compte alors le total de mots de chacune des deux pages et observe si la valeur absolue de la diff rence entre les deux totaux d passe le seuil d alerte d fini dans les options Si oui la page 1 est marqu e comme ayant son contenu textuel chand 3 8 2 Lance
171. rmet d optimiser le temps d exploration en vitant de t l charger des fichiers volumineux qui ne contiennent pas de texte Cependant KB Crawl peut galement r cup rer ces fichiers additionnels en ajoutant ces extensions la biblioth que d extensions FE Fichiers enregistr s Documents texte autres que Word Excel et PowerPoint BR Ichiers compress s M dias La Ajouter une extension manuellement be Retirer une extension manuellement Extensions des fichiers t l charg s POF Figure 16 Onglet Fichiers enregistrer du d tail d une source Dans le cas ci dessus on souhaite r cup rer les fichiers PDF L extension PDF appara t car dans la fiche principale la case correspondante l extraction des fichiers PDF est coch e Le menu Fichiers enregistr s permet d ajouter d autres extensions automatiquement en cochant l une des cases suivantes Documents texte autre que Word Excel et PowerPoint Fichiers compress s ou M dias qui se subdivisent en sous types Tous droits r serv s 2008 Page 49 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 HE Fichiers enregistr s C Documents Web archiv s g Documents texte autres que Word Excel et PowerPoint Fichiers compress s iw mages Ca Musiques Wl Videos bed Ajouter une extension manuellement Lei Retirer une extension manuellement Extensions des fichiers t l charg s JPGJFEG GIFBMP
172. rmet de localiser plus pr cis ment ces mots cl s d alerte sur la page archiv e En cliquant sur le bouton D tail un navigateur s ouvre pour visualiser la page Web qui pr sente les changements d tect s lors du processus de comparaison Tous droits r serv s 2008 Page 76 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 E PAGE 2 Microsoft Internet Explorer fourni par BEA Conseil ome CI a E GLDranee Zee O12 3 0DE tea Liens aq hen vers la page 6 Figure 31 Surlignement des changements dans une page Si l alerte porte seulement sur un changement de contenu et non sur l apparition de mots cl s d alerte ce sont les blocs de textes qui ont chang et qui sont surlign s CECI EST LA PAGE 4 Tray Fant Th rl L k er LU f L LerL en LL LEL L Figure 32 Surlignement des changements apparus dans une page On peut galement exporter le tableau comparatif dans fichier Excel en cliquant sur le bouton Enregistrer sous 4 3 6 Rendre Exclusif Rend l URL s lectionn e de l arbre exclusive 3 7 3 1 Tous droits r serv s 2008 Page 77 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 4 3 7 Black lister Black liste URL s lectionn e dans l arbre 3 7 3 2 4 3 8 Supprimer le s filtre s s lectionn s Supprime tous les filtres appliqu s aux URL s lectionn es 4 3 9 Supprimer tous les filtres Supprime tous les filtr
173. rrespond Internet Explorer version 6 0 Dans certains cas particuliers il peut tre n cessaire de saisir un User Agent sp cifique e Utiliser la configuration de s curit d Internet Explorer Cette option est utile dans certains cas tr s sp cifiques notamment pour crawler des sites ayant un niveau de s curit avanc En activant cette option le crawl de la source s appuiera sur Internet Explorer il est donc indispensable de disposer de la version 6 d internet Explorer au minimum et de le configurer correctement afin qu internet Explorer ait acces internet proxy etc e Prise en compte du fichier ROBOTS TXT Le fichier ROBOTS TXT se trouve a la racine de certains sites et s adresse aux robots de type KB Crawl qui sont amen s t l charger un certain nombre de pages de ce site II mentionne pour chaque robot ou pour tous les robots la liste des chemins et documents pour lesquels le telechargement leur est interdit Pour que KB Crawl analyse ce fichier avant chaque crawl et tienne compte des interdictions qui y sont inscrites cocher l option prendre en compte le fichier ROBOTS TXT e Temporisateur Tous droits r serv s 2008 Page 65 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Une fois activ en cochant la case Activer le temporisateur une pause est marqu e entre chaque t l chargement La dur e de cette pause est comprise entre les deux valeurs saisies en ms
174. s dans un sous r petoire portant le nom de la source Ajouter la date au sous r pertoire au format aaaa nom hh mm 3 Placer les documents Web archiv s dans un sous r pertore HTML Me pas craser les fichiers portant le m me nom Vider le r pertoire avant chaque comparaison 3 7 3 Filtres Tous droits r serv s 2008 Page 52 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Pour acc der au param trage des filtres depuis la fiche de d tail de la source cliquer sur le bouton filtre du menu volets situ sur la droite L cran de param trage des filtres s ouvre EE Filtres CE a Ajouter CP bHodiier AE Supprimer Lorsque l on param tre une profondeur de pages sup rieure z ro dans une source KB Crawl explore un ensemble de pages et constitue ensuite une arborescence repr sentant la hi rarchie des pages entre elles 4 Sur l ensemble des pages trouv es par KB Crawl il se peut que seul un sous ensemble de ces pages soit int ressant surveiller Il devient alors int ressant de filtrer l ensemble des pages trouv es par KB Crawl afin de d terminer un p rim tre de scrutation restreint et personnalis Pour cela il est possible et souhaitable d appliquer deux types de filtrage 3 7 3 1 Exclusivit Lorsqu une URL est plac e dans le filtre Exclusivit elle devient exclusive pour un niveau de crawl donn lorsque cette URL est trouv e l int rieur d
175. s sont compos es d un ou plusieurs mots cl s ou expressions ventuellement s par s par des op rateurs bool ens and or not etc Nota Le moteur de recherche n est pas sensible la casse Les op rateurs and et not remplacent respectivement et utilis s dans les versions pr c dentes de KB Crawl Pour effectuer une requ te saisir une requ te de recherche dans la zone de saisie conseil Me Rechercher Source s lectionn e uniquement Recherche avanc e 7 P E ah Dossier de la source s lectionn e v Pr visualisation 10 T sultats par page Mols voisirs Figure 62 Fonction de recherche Tous droits r serv s 2008 Page 126 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 10 3 1 Requ te simple Ici on cherche les pages qui contiennent le mot directoire Le moteur de recherche ne tient jamais compte des minuscules majuscules par contre il tient compte des accents Exemple 1 Recherche avec le mot conseil FE Module de recherche Cliquez ici pour Hier VEILLE Brevets a Espacenet ia Grape de recherche KE pme fa Exalead KBCrand Foma d expert n 1 Rihapet liprosvanes122 Marc Pallain le pr tidert du dractore va quitter ses fonctions Selon not informations le groupe E Documents PDF radiophonique va changer de structure emplegant son conced de surveillance et son direcione pal Kerastase Flash un c
176. s temps de crawl fi Exelead KBC CREER PE Se TS l al Google KB Cri KE inte myer tte ve KBE mint Vaie i Gore F rede cos urrera 7 io Tom i Ce m ETY Em go Prene E La riba Et Leer oe lt Produ it Documents Pt E Kecechase Fis j Pubbcations fae Miel Intent ae concur TE NE roa tatioocher wi Meter des r gles de curvedance des dossust Heure de d clenchement M0000 o Lundi Fans d ciencherent p riodique toutes les i Figure 44 H ritage de surveillance automatique autre exemple L horaire 10h00 dispara t alors que les autres horaires persistent les jours actifs du cadre du bas sont contextuels l entit s lectionn e Ici ils ne concernent que les heures de d clenchement de la source Pour les dossiers p res tous les jours sont coch s ce qui explique que les autres horaires li s aux dossiers persistent dans le planning Tous droits r serv s 2008 Page 95 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 FE KB Crawl Version 3 1 Connect la base de donn es C Program Files KB Crawl3 data KBCRAWL BASEEXEMPLE GDB KIB A Aam Go 9 am 0m sia Auta gue Crawl s en cours Crawl s venir 10000 http ia adobe com aboutadobe pressroom executivebios main Atm 18 00 00 http w adobe com aboutadobe pressroom executryebios main Atml 18 00 00 http um adobe com aboutadobe pressroomexecutyebios main tml
177. s un obstacle au processus de crawl Cependant ils ne sont dans certains cas d aucun int r t au regard de l information qu ils peuvent apporter Ils peuvent m me parfois provoquer ce que l on appelle une boucle de crawl Exemple Un lien m ne une page construite dynamiquement avec le param tre suivant PARAMEXEMPLE 1 La page construite dynamiquement pr sente le m me lien avec PARAMEXEMPLE 2 qui va mener vers la m me page contenant le m me lien avec PARAMEXEMPLE 3 et ainsi de suite Tous droits r serv s 2008 Page 67 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Si on d coche cette option KB Crawl ne visitera pas les liens dynamiques e Analyse des scripts KB Crawl a la capacit d analyser les scripts J avaScript contenus dans le code HTML des pages Web afin d en extraire les liens qui m nent vers d autres pages Cette profondeur d analyse durant la m thode de parsing a un l ger co t en termes de performance qui peut tre conomis si la source ne visite que des pages ne contenant pas de scripts ou bien si ces scripts ne contiennent aucuns liens On peut donc optimiser le crawl en ne s lectionnant pas cette option e N explorer que les liens des zones scrap es Lors de l export des donn es par KB Crawl il peut tre utile dans le cas o l on utilise KB Scraper de n exporter que les zones scrap es des pages concern es cette op ration est possible gr ce a cette option
178. sateur v 3 1 8 Fonctions d export Tous les documents extraits du Web par KB Crawl sont stock s dans sa base de donn es et consultables depuis l interface de KB Crawl notamment avec l explorateur d archives Tous ces documents stock s au format HTML sont r cup rables n importe quel moment grace la fonction d export On appelle export le fait d extraire un lot de documents HTML de la base de donn es pour les placer dans un r pertoire du disque dur Les documents sont r cup r s tels quels rang s au m me niveau dans un dossier et accompagn s d un fichier d index au format HTML qui r pertorie tous ces documents et permet d y acc der directement Ce fichier contient plusieurs informations pour chaque document r pertori le nom du document form de diff rents l ments qui sont param trables la version du document version de r f rence version interm diaire derni re version les motifs r sum s de l alerte s il y en a une on retrouve les informations pr sentes dans l onglet liste Tous ces l ments param trables constituent le format d export Chaque source ou dossier peut tre rattach un format d export Tous droits r serv s 2008 Page 109 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Pour effectuer ce param trage il suffit de cliquer sur le bouton export depuis la barre d outils g n rale FE Param trage des exports Raltaches ler mod
179. sent du planning Tous droits r serv s 2008 Page 93 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 me EL Param trage de la surveillance automatique E SO Planeing du 03 08 2007 ae 00 08 2007 D ie Planning complet Q Statistiques Temps total pr vu 00h 00m 192 266m Brevets F 1 fe Erpacerel Ed Groupe de sechere Se E 7 ET Mi Evslesd KBC me Cite enced eat AT S Google KB Cre FKB inteligen hipo Ame khera net Vede concuth 10 00 00 OOH Den 13 pra Eg Fiere E iTi E Liemonde tl Fois EE Documerts Pl fae Kerastate Fis im TE Pubicaboni D Mine iner S fi Veils concumerte Figure 43 Non h ritage des heures de d clenchement L horaire 17h00 pr sent dans le planning d exemple pr c dent a t programm pour le dossier Veille concurrentielle Il est possible de le visualiser en cliquant sur un des dossiers dans le cadre de gauche Tous droits r serv s 2008 Page 94 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Autre exemple On est vendredi Si on d coche le Vendredi dans le cadre du bas en tant plac sur la source FE Param trage de la surveillance automatique EEK Ki pou Ire Planning du 03 06 2007 au 05 04 2007 LF Planning complet 99 Statistique Tempe total pr vu 00h 00m 19 266m3 VEILLE cx dbs oft baw a Espacenet Groupe de rechen es ee H n H rit du dorsier ie Cherrie
180. sources venant d un fichier Il est possible d importer des sources venant d un fichier Microsoft Excel CSV ou OPML Dans le fichier Excel la premi re colonne correspond au nom de la source la deuxi me l adresse URL de la page de d part Chaque ligne correspond la cr ation d une source D s la pr sence d une ligne ne comportant pas d adresse URL l import se termine Dans le fichier CSV chaque ligne correspond une source importer Le s parateur de colonne est les points virgules Voici un exemple de ligne Mon site http www monsite com Le fichier OPML est un fichier sp cifique au format XML qui contient une liste de sites g n ralement des flux RSS KB Crawl lors de ses imports sait g rer ce genre de formats Note Le nom de la source peut tre omis dans ce cas le nom de la source est g n r automatiquement D autre part l adresse URL peut ne pas contenir le nom du protocole http dans ce cas il sera ajout automatiquement 13 5 5 Statistiques Le module de statistiques permet pour une source s lectionn e de voir les 10 termes les plus souvent rencontr s dans les contenus de cette source Tous droits r serv s 2008 Page 166 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 if Statistiques TER Ca LS pue Cliquez ici pour trier bya VEILLE Fry Brevets ten Espacenet 5 Groupe de recherche KECranl Francais l Exalead KBCrawl FPS 0 Google KE Crawl JR
181. st n cessaire de modifier les param tres de connexion Information i Le site demand t trouv JJ Le param trage actuel pour la connexion Web est correct 12 3 Onglet Param tres de s curit pour l envoi des E Mails 12 3 1 Envoi par connexion SMTP Pour utiliser l envoi d e mails par le protocole SMTP cocher le bouton radio SMTP Il est ensuite n cessaire de renseigner correctement l adresse du serveur SMTP son port ainsi que le nom d utilisateur et le mot de passe de messagerie requis afin que les messages puissent tre envoy s Tous droits r serv s 2008 Page 152 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 FE Options g n rales n ral Param tres de s cunt pour la connexon Web Proxy Param tres de s cunt pour l envoi des E Mails Semeur pmp ir oleane com Le serveur SMTP requiert une authentification Tester lenyom d E M als SO EE Certains serveurs de messageries pour des raisons de s curit exigent une authentification il est alors n cessaire de cocher l option Le serveur SMTP requiert une authentification et de renseigner les champs correspondants 12 3 2 Envoi par connexion MAPI Pour utiliser l envoi d e mails par le protocole MAPI cocher le bouton radio MAPI MAPI est une librairie d applications qui communiquent avec le client de messagerie d fini par d faut sur l ordin
182. surveillance automatique qui permet de g rer facilement les heures de d clenchement a tous les niveaux et de pr visualiser le planning de surveillance r sultant de cette gestion 6 2 1 Acces Tous droits r serv s 2008 Page 85 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Pour acc der a ce module e Depuis la barre de menu g n rale avec le bouton d roulant Automatique puis Param tres de surveillance automatique Dans ce cas le module de param trage de la surveillance automatique s ouvre en affichant le planning g n ral contenant toutes les sources surveiller pi Param trage de la Hes nie automatique Belles wier ki Perera over eu 03 08 2007 C Piening comple O Stotistiques Temps total pr vu DUh 02m 19 2Em g Brevets es TS Espacene Eu Sg Groupe de roche Sauce um Dos Heme H t dudoes Hewe Damiartenps de cia E Exalead KBC Date vendredi 3 ao t 2007 fa Google KE Cre Mnef Interns http epee minei gou hihemes he Publications af VEILLE 16 dtt 00h G m 135 344s g Fier Lere orde Hite usa lemencde fr Preah VEILLE 16 OO Ch Oirn Ce jira E La Toiture La Tribune bit Feren latribune ints Presse a VEILLE 16 00 00 00h Olen 01s Sens EX Lenore Kentas oe fF Pip ies Herasiase ch meg ch Prod ats VEILLE 1B QU CO 00h Om mo Eu Produits KE inteligen Fap men kberamdnel Vele concu WF VEILLE 16 0
183. t s lection d une source ou d un dossier le planning est automatiquement recalcul et rafraichi 6 2 3 2 H ritage Par d faut une source h rite des heures de d clenchement de la hi rarchie de dossiers dans laquelle elle est contenue EE Param trage de la surveillance automatique E hes ag ae enr Ballon Gao 0 Mu M Suns Tous total pr vu 00h 60m 38 gt S3zes i VEILLE laniring du me r F BHi aji zi Date si SOC Er gi Groupe de recher Sore URL e Ebe a H n Mew Deter tempi de crawl E Exalead EBC E Date vended 3 ao t 2007 Dorie H ni D che RS o eaan Vaia enih 10 00 00 DO Wm 19 266m T La T cure Lemonde Produit ia Documente FI rl Kerastsse Fla z E Pubes sl E SR RS EN DE ON DCE MN ON ee a KB eligi a CARRE amp Heure de d clenchemert 170000 Lino Puss d clenchement p rodique toutes bes Maid E i Mercredi Jet v Vendredi Gare Dimanche Figure 42 H ritage des heures de d clenchement Dans le casillustr ici une seule heure de d clenchement a t programm e pour la source s lectionn e Cependant le planning affiche deux heures de d clenchement Une des heures de d clenchement est h rit e du dossier qui contient la source ce qui est clairement notifi dans la colonne h rit Si l on d coche l option H riter des r gles de surveillance des dossiers les autres heures que 10h00 disparais
184. t colour scheme this is the fighter background colour behind the publication data mentor etc in the famds list e g 3 hipc v3espacenet com resulls aies Cr sept Gatit DBE 2003 2007 12 72 eveted color 660000 tr row smeallbe amalbollfontaesght bold font size 1 00 fort fannde Verdana Geneva Arial Helvetica sans serif HA famiy resh list colour schere this is the lighter background cole behind the publicabon data mventor etc in the family ket e g dhap vZespacenet comtesuls staaiCymephlGahiOB EP 20 08 2007 12 67 amp wesit d color BEOQ00 tr roc smaliboldltont yeaght bold lont sine 100 lantan Verdana Geneva Arial Melvetica Sarica 2 amiy result et coloue scheme this i the bottes background colour behind the publication data inventor etc in the fandy bet eg 5 butte wa Pinan mirel gouv fyDGCCRF04_dossiers conommat 19 03 2007 15 DGCCRE Fiches consommation fourisseurs d acc s Intemet FAL rios piques Flash eo Fournisseurs d acc s Intenmet RAl e cence de communication au pubie en igra tone note nee eat alte sil id a eS a as a al wm RES ee me ee ee Se sun eo eee E ees P Documents POF S Kerastase Fast om i Publeshers E Minet inteme GES g Sactonele al err ee BADOOG i rove roro j emallboldifont weaght bold rae se 100 forts Verdana Geneva dna Hehretics sanc pent famiy result ist colour scheme thes i FONCTIONNAIRES
185. t de d part par un guide HTTP on peut alors importer un fichier l extension gui le fichier qui mat rialise le guide http Il est galement possible de cr er un guide HTTP en cliquant sur le bouton Liste des guides e Fichiers surveill s Fichiers surveill s C word C Power Point Excel C Flash C PDF L Image OCR KB Crawl 3 permet de surveiller plusieurs types de formats de documents fr quemment rencontr s sur le Web Word Excel PDF Power Point Flash et permet galement d extraire du texte contenu dans des images gr ce sa fonction OCR voir la documentation compl te du module OCR Afin que ces formats soient pris en compte en amont du parsing des documents il faut cocher les cases correspondantes aux formats de fichiers e Surveiller les pages suivantes Pour surveiller un site en profondeur il est n cessaire de renseigner un certain nombre de param tres dans le cadre Pages suivantes Pages suivantes Explorer les liens du m me site usqu au niveau 0 L Le site entier Explorer les liens vers d autres sites et rebondir 0 nl FOIS e Explorer les liens du m me site jusqu au niveau D finit la profondeur de page 1 6 Si on coche la case le site entier le site est alors explor en profondeur infinie e Explorer les liens vers d autres sites et rebondir n fois D finit la profondeur de site nombre de changements de nom de domaine successifs
186. taille du document En revanche lorsqu un document est supprim de la base de donn es parce qu une nouvelle version du document vient le chasser de la table d archive 8 1 7 2 ou tout simplement parce qu une source est supprim e les informations sont effac es mais l espace qui lui tait r serv dans la base demeure ceci pour des raisons techniques li es l optimisation des performances Ainsi force d ajouter et de supprimer des documents la base de donn es comporte de nombreux espaces physiquement accapar s mais inutilis s L espace qu elle occupe sur le disque dur peut donc tre optimis C est ce qu on appelle un compactage A chaque ouverture de KB Crawl celui ci confronte le nombre de documents stock s dans la base de donn es sa taille r elle sur le disque dur et propose si cela est pertinent d effectuer un compactage Cette fonctionnalit est galement accessible manuellement Lors de l acc s cette fonctionnalit un message de confirmation apparait et avertit que l op ration prend un temps relatif a la taille de la base Ce temps d pend galement de la vitesse du processeur et d autres parametres ce qui nous emp che de donner un ordre de grandeur Pour des bases de donn es tres volumineuses plusieurs giga octets plusieurs heures de traitement peuvent tre n cessaires tout comme la d fragmentation d un disque dur qui est une op ration comparable Confirmation e
187. ter les pages s lectionn es en tant que nouvelles sources dans le dossier Tous droits r serv s 2008 Page 162 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 VEILLE Brevets Groupe de recherche KB Crawl Fresse Produits Publications Cliquer ensuite sur la coche verte pour lancer l import Si KB Crawl est d j ouvert se positionner sur le cadre de gauche o sont contenues les sources puis appuyer sur F5 rafraichir pour faire appara tre les sources ainsi cr es 13 4 2 D verrouiller toutes les sources Lorsqu un crawl est lanc pour une source celle ci est verrouill e jusqu ce que le crawl soit termin et ceci pour plusieurs raisons emp cher qu un autre utilisateur connect la m me base de donn es ne lance un crawl sur la m me source en m me temps emp cher qu un autre utilisateur ne modifie les param tres de la source pendant qu un crawl est lanc Il peut arriver si le crawl ne s est pas termin correctement que la source ne soit pas d verrouill e Dans ce cas une ic ne en forme de verrou est positionn e sur la source visible depuis l interface al Exemple Groupes de f Free Interbase 0 fal Lorsqu une source est rest e verrouill e alors qu aucune action n est en cours on peut la d verrouiller tr s simplement en faisant un clic droit puis d verrouiller toutes les sources 13 4 3 R initialiser les options des s
188. ter su mang l s F i 3 3 4 Figure 68 Troncature exemple 1 Le moteur de recherche de KB Crawl renvoie non seulement les pages r sultant de la recherche mais galement tous les termes trouv s r pondant la troncature En cliquant sur un des termes trouv s pr sent s dans la colonne de gauche on affine la recherche en pr cisant qu elle se fait sur le terme exact s lectionn La troncature peut s appliquer autant de fois que l on souhaite pour un seul terme et n importe quel endroit du terme Tous droits r serv s 2008 Page 132 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 FM Module de recherche E Be VEILLE SC Brevets ont tal ee muo o S Espacenet Bossier de ls source pie alisatin OE hg Groupe de recherche B ip 5 RER 8 Exatead KBCrawd REFUS 2 SE sur SF OA 2 Googe KE Crad f tot i rer me eypanenet com esulls aLFIRST 1ECY ept Gei iE Presse prie evieted cok 660000 tr rowcct amalbokilonleght bold fontsre 100 E La nur EE oH lont fembrVercana Geneva Ansl Helvetica cans cent famiy teruh ligt Coleus schema ther it Dre PET E the kgh back ground colou behind the pubacahon dete erento elc J inthe lan het e g ar 2 tip v3 espacenet com tesults risat Cy sephLGatiOBeEP 20 03 2007 12 _acwesited color BS0000 trroweol smabokhiont weight bobd lont sive 1 OU fantfambrVerdans Geneva Arial Helvetica san senf family result lis
189. tions 12 1 Onglet g n ral 12 2 Onglet Param tres de s curit pour la connexion Web Proxy 12 2 1 Utiliser un script de configuration automatique 12 2 2 Param trage manuel 12 2 3 Utiliser la configuration d Internet Explorer 12 2 4 Tester la connexion Web 12 3 Onglet Param tres de s curit pour l envoi des E Mails 12 3 1 Envoi par connexion SMTP 12 3 2 Envoi par connexion MAPI 12 3 3 Utilisation du TLS 13 Fonctions utilitaires 13 1 Fichier 13 1 1 R duire KB Crawl en mode automatique ___ 13 1 2 Quitter KB Crawl 13 2 Edition 13 2 1 Liste des sources au format Excel Tous droits r serv s 2008 P08 00112 A4fr A2 107 109 110 110 114 115 116 121 121 122 122 123 124 124 126 127 128 132 135 139 _____ 139 140 140 140 142 147 147 151 151 152 152 152 152 152 153 155 155 156 156 156 156 157 Page 4 KB Crawl Manuel utilisateur v 3 1 13 3 Affichage _ 157 13 3 1 Volet de pr visualisation 158 13 3 2 Bo te outils URL 158 13 3 3 L gende 159 13 3 4 Journal 160 13 3 5 E mail _ 160 13 3 6 KB Scraper _____ 161 13 4 Actions 161 13 4 1 Installer le lien KB Craw dans Interner Explorer 161 13 4 2 D verrouiller toutes les sources 163 13 4 3 R initialiser les options des sources s lectionn es 163 13 4 4 Supprimer les archives de la source s lectionn e 163 13 4 5 Initialiser toutes les connexions la base de donn es 164 13 5 Outils 164 13 5
190. tique HTMLHTM SHTML HS CGI PHP 8SPCFM SP SVLT DLL Activer la mise en veile automatique Dossier utiksateur Apr s 15 minutes d inactivit de KB Crawl C AProgran Fles KB Crawia ie pl Dossier des fichiers t l chaig e pas d faut C Program Files KB Cravda Docs Actions automaliques lors des crawls automatique Oplimsation 1 Compactage w Seul minimal 20 en Paclies planes aus solid Cisne Seulement entre 23 Sih et 1 Sk tr Habillage de l interface Bares de mars Charge une aulre image Figure 81 Onglet G n ral du menu Options Le menu Options g n rales est accessible depuis la barre d outils g n rale en cliquant sur le bouton Options rr Le menu Options est une fen tre contenant trois onglets 12 1 Onglet g n ral e Nombre maximum de pages crawl es pour une source Indiquer ici la limite pour le nombre total de pages explor es lors d un crawl quelles que soient les valeurs indiqu es pour les profondeurs de page et de site Tous droits r serv s 2008 Page 147 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Temps maximum en secondes pour un telechargement Time out En anglais Time Out temps limite pour une tentative de t l chargement de page ou fichier 30 secondes est la valeur conseill e Ne pas afficher les messages Windows Mode silencieux permet ou non que des bo tes de dialogues authentifications messages d erreurs divers s
191. tm F O http ien telecom gouw friintemetint_ cyber htm 9 http ananas telecom gouw friintermetint_ dom htm 9 http ie telecom gous fr int rnet int pir htm 15 CAC se Lee 1e http ana telecom gous fr secur indes htm 2 Figure 18 Filtre de type Exclusif visible depuis l explorateur de sources Tous droits r serv s 2008 Page 55 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Il est possible de s lectionner plusieurs URL a la fois pour leur appliquer un m me filtre http ananas mineti gouv fr themes technoalogies_mfofintemetindes htm 106 a http Awa finances gouw tr cybercommerce 3 Fj http Away mineti gouy ty dermatenalization_icpdematenalization_dectar htm 42 BT bite ww minefi gouv ft DGCCRF O4_dossiers consommationiconss o E http es mineli gouv tvOGCCRF 04 dossiers consommation consa J http anna telecom gouw frintemnet charte_afa htm 7 g http fn telecom gouw fr intenety ink cyber htm 9 Wj http ana telecom gouw frinternetint_ dom htm 4 w http ann telecom gouw frinternet int pir htm 15 J the an telecon oqous fr secur indes htm 2 Figure 19 Application d un filtre plusieurs URL simultan ment Parmi les autres fonctionnalit s concernant le filtrage accessibles depuis l explorateur de sources il est possible de supprimer les filtres des URL s lectionn es SUPPR ou encore supprimer tous les filtres d une source
192. ton pour voir la version suivante de la page d archive s lectionn e dans l explorateur d archives Supprimer les archives En cliquant sur ce bouton un sous menu appara t de l ann e du molz de la journ e pour le fichier s lectionn Les fonctionnalit s de ce sous menu sont identiques celles propos es par le menu contextuel de l explorateur d archives Regroupement Tous droits r serv s 2008 Page 83 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 5 1 3 Lorsque l on clique sur le bouton Regroupement un sous menu appara t par ann es par mols par jours Par d faut l explorateur d archives regroupe les archives par ann e mois jour On peut changer ce regroupement en cochant ou d cochant les cases de ce sous menu par ann es par moig par jours L effet est imm diatement visible dans l explorateur d archives Ann e Mois Jour Date 2005 E 1717 0672005 16 Le browser d archives Le browser d archives permet de visualiser les pages archiv es dans la base de donn es de KB Crawl avec les ventuels surlignements Une fois la page affich e il se comporte comme le navigateur par d faut de l ordinateur et offre les m mes fonctionnalit s accessibles depuis le menu contextuel de ce navigateur Par exemple Afficher la source Imprimer Exporter vers Excel Etc Le clic droit sur un lien hypertexte offre les fonctionnalit s suivantes
193. u IE Espacenet Agentsinmelagents Groupe de recherche KBCrawl S Archimag Veille et Inteligence Econ E Exalead KBCrawl C Asselm Google KB Crawl a Cogitoom IE g o gt a Presse e Frangoie Bemand Huyghe Ka La Tribune ia GillesBalmisse com E Lemonde Guate Eco France 24 i Produits IE GOUY EX Documents PDF la INEGI intelligence Eco amp technologie la Kerastase Flash AFLU mechercher sur fe net a Pubis irs Infoguerre S Minefi Internet 8 inteligence Onine l information strat OCR a IT Ligentis Eg KE intelligence fal TES MOTERS OF LUE x R pertoire de base des favoris C Documerts and Settings antome Favoris La Parcourir D Figure 83 Import des favoris Il suffit de s lectionner les favoris importer dans la partie gauche de s lectionner le dossier de destination et de cliquer sur la fl che verte centrale Vous pouvez galement utiliser le glisser d placer Les dossiers des favoris seront repris en tant que nouveaux dossiers dans KB Crawl Tous droits r serv s 2008 Page 165 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 13 5 3 Import Export des sources avec KB Exchange Le module KB Exchange est un module sophistiqu plus complet que le pr c dent qui permet de g rer les changes de donn es entre diff rentes bases de donn es KB Crawl Pour plus d informations voir la documentation complete du module KB Exchange 13 5 4 Importer des
194. uer sur le bouton Lancer la sauvegarde Toutes les actions li es la sauvegarde r alis es par l utilitaire GBAK fourni avec la base de donn es Firebird sont monitor es dans la fen tre de sauvegarde Tous droits r serv s 2008 Page 177 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 EE Sauvegarde de la base de donn es Sele writing constraint PE KBUSER writing constraint FR LIN E LUSERGROUP writing constraint FEL LIN ELUSERGROUPS writing constraint INTEG 26 writing constraint INTEG 27 writing constraint PE RB MAIL writing constraint PE RBOIFFUSION writing constraint FE EB MAIL writing constraint FEL FORMS writing constraint FEUSEA KBDIFFUSION writing constraint FECAAYWLS TART EBDIFFUSION writing constraint FACARAWLS TART URL writing constraint FE RUBRIQUE writing constraint INTEG_ 31 writing constraint PE ESPORT writing constramt INTEG 2 writing constraint PEAT TPGUIDE writing constraint INTEG_ 33 writing referential constraints witing check constraints Citing SOL roles closing file committing and finishing 2196480 bytes written Fichier de sauvegarde compress GBK C Program Files B Lrawla datasKBCA amp MWL BASEESEMPLE gbk fi Parcourir Ll Lancer la sauvegarde La Figure 85 J ournal de la sauvegarde Les derni res lignes du journal de sauvegarde t moignent du bon ach vement du processus et la taille en octets du fichier de sauvegarde cr est in
195. uite il est possible de sp cifier le format du nom des fichiers enregistr s Des formats pr tablis sont propos s 4 premiers boutons radios car ils sont pratiques et souvent utilis s Il est galement possible de composer son propre masque de nom de fichier partir de variables comme par exemple qui prendra la valeur de la date au moment de l enregistrement du fichier Tous droits r serv s 2008 Page 51 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Un bouton d aide permet de voir la liste des variables que l on peut utiliser FE Aide St titre du document u nom de domaine de l URL d date courte Iddi mmyypy de t l chargement 2 chemin de URL h heure de t l chargement hh mm ss 42 nom de document dans FURL es milizecondes pour cr er un nom unique 4p parametres de l URL a Exemple de masque _ d_ h pourra donner le nom de fichier suivant www kbcrawl com presentation pdf 15 01 2006 15 05 55 Notons que les caract res et ont t remplac s automatiquement par des _ parce qu ils sont interdits dans les noms de fichiers Windows Il est ensuite possible de sp cifier les options d enregistrement Par d faut chaque document est plac dans un sous r pertoire portant le nom de la source a laquelle il est rattach et les documents s accumulent dans le r pertoire au fur et a mesure des crawls Uptions d enregistrement Placer les fichier
196. ultante de la liste des expressions saisies Liste d expressions lt expr A gt lt expr B gt lt expr C gt Expression finale lt expr A gt or lt expr B gt or lt expr C gt Pour v rifier que la syntaxe de cette expression finale est valide et que donc le m canisme d alerte avanc s effectuera sans anomalie il suffit de cliquer sur le bouton V rifier la syntaxe Un message d information appara t alors Information Les mots cl s saisis sont corrects Exemple d erreur Tous droits r serv s 2008 Page 119 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Expressions ou mots cl s Cliquez ici pour trier Heritage du dossier logiciel and veille Ls CA Exemples avec docul veille chat souris On clique sur v rifier la syntaxe RE Informations E 4 O x i Expression finale non valide Missing parenthesis V rifiez la syntaxe logiciel and veille or velle or chat souns and PECAAMLT5S On voit ici l expression finale En effet les termes chat et souris devraient tre s par s par des op rateurs logiques Le terme PKCRAWL15 est un identifiant qui permet de filtrer la recherche sur la source il est plac automatiquement dans l expression finale et n est pas prendre en compte Il est possible de cr er des requ tes avanc es afin d affiner sa surveillance et de n tre alert que dans certains cas pr
197. un site Internet peuvent conduire vers un autre site et ainsi de suite ce qui pourrait amener aspirer tout le Web On consid re deux types de liens relatifs un m me site Internet les liens internes ils permettent de naviguer vers des pages du m me site les liens externes ils permettent de naviguer vers des pages d un autre site Tous droits r serv s 2008 Page 15 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Deux URL sont dites du m me site si elles ont le m me nom de domaine ou si le domaine de l une est le sous domaine de l autre Exemple http www kbcrawl com KBCrawl index php et http www kbcrawl com actualit html appartiennent au m me site parce que leur nom de domaine www kbcrawl com est le m me De m me http www kbcrawl com KBCrawl index php et http www mail kocrawl com KBCrawl index php appartiennent au m me site parce que www mail kbcrawl com est un sous domaine de www kbcrawl com Il existe trois diff rents types de profondeur La profondeur de page c est le nombre maximum de niveaux parcourus l int rieur du site de d part La profondeur de site c est le nombre maximum de sites diff rents qui peuvent tre explor s La profondeur de page depuis les liens externes c est la profondeur de page qui s applique des lors que l on explore un site diff rent du site de d part Par d faut les valeurs propos
198. ur d archives 5 1 2 La barre d outils g n rale 5 1 3 Le browser d archives 6 Surveillance automatique 6 1 Le mode automatique 6 2 Param trage 6 2 1 Acc s 6 2 2 Ergonomie 6 2 3 Fonctionnement 6 3 Le d marrage en mode automatique 7 La liste de diffusion 7 1 Liste des contacts 7 2 Groupes de contacts 7 3 Gestion des abonnements 7 3 1 Ajout d un abonn 7 4 Gestion des e mails en attente 7 5 Param tres d envoi Tous droits r serv s 2008 P08 00112 A4fr A2 69 _ 70 70 71 71 72 73 73 74 75 75 75 75 11 78 78 78 78 78 78 78 78 78 19 79 81 82 82 83 84 85 85 _ 85 85 88 93 97 97 98 100 101 103 104 104 Page 3 KB Crawl Manuel utilisateur v 3 1 7 6 Envoi des messages 8 Fonctions d export 8 1 Le cadre de gauche _ 8 2 Le cadre central 8 3 Le cadre de droite 8 4 H ritage des mod les d export 9 Gestion des mots cl s d alerte 10 Fonction recherche 10 1 Fonctionnement g n ral __ 10 2 Ergonomie g n rale 10 2 1 Cadre du haut 10 2 2 Cadre du bas 10 2 3 Cadre de gauche 10 2 4 Cadre de droite 10 3 Effectuer une recherche 10 3 1 Requ te simple 10 3 2 Requ te avec bool ens 10 3 3 Gestion des troncatures 10 3 4 Gestion des masques 10 4 L assistant de recherches avanc es 10 4 1 Le constructeur d expressions bool ennes 10 4 2 Filtrage par dossiers 10 4 3 P rim tre de recherche 10 4 4 Affichage des r sultats 11 Le journal 12 Op
199. urgissent des navigateurs int gr s a KB Crawl Habituellement il est conseill d utiliser le mode silencieux Si la connexion Internet de l ordinateur requiert une authentification syst matique pour l acc s a un serveur proxy notamment il peut s av rer n cessaire de d sactiver le mode silencieux Activer le journal des connexions Permet d activer ou de d sactiver le journal 11 Cette fonctionnalit a t ajout e des la version KB Crawl 2 1 pour assurer la compatibilit avec Windows 98 dans ce casil faut d sactiver le journal Enregistrer automatiquement et supprimer au bout de X jours Permet d automatiser l enregistrement du fichier journal et d en conserver l historique sur une dur e choisie L enregistrement se fait automatiquement lors du basculement en mode de crawl automatique lors de l arr t de KB Crawl et minuit si KB Crawl est en mode automatique Les fichiers journaux sont stock s dans le dossier Utilisateur et portent l extension RTF KB Crawl prend en compte le fichier ROBOTS txt Appliqu toutes les sources Lorsque la case Prendre en compte pour toutes les sources est coch e toutes les sources prennent en compte le fichier ROBOTS TXT ventuellement situ a la racine du site crawl Indexation automatique des contenus indispensable pour l utilisation des alertes avanc es Permet l indexation syst matique des contenus apr s chaque crawl Cette option est indispensable pour l ut
200. urvedi e Lenomiue d mot a chingi prir de 1 MEME Ur equenerndt lors de Une nouvelle oncunence dun mol ch a l d tect e v La page ed nourvele v La psge a dpan Abonnement aux alertes par E Mail bich Vakdston par REM a Swari ermo Voici de haut en bas la liste des champs qui peuvent ou doivent tre remplis e Nom de la source Saisir ici le nom de la source C est le libell qui appara tra ensuite dans la liste des sources et qui permettra de la reconna tre parmi les autres e Point de d part Ici deux possibilit s L URL de d part de la source est connue Saisir ici l adresse ou URL complete qui d finit le point de d part du crawl D une mani re g n rale il convient d adopter la technique suivante saisir cette adresse de d part dans un navigateur classique pour v rifier que l URL est valide et qu elle correspond r ellement au point de d part souhait En effet il se peut que par un jeu de redirection l URL correspondant au point de d part soit diff rente de celle consid r e au premier abord C est alors la derni re URL indiqu e par le navigateur qu il faut saisir comme adresse de d part dans la source R Pagels surveiller Point de d part i Saisie libre Utilisation d un guide Tous droits r serv s 2008 Page 33 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Le crawl va tre amen son poin
201. us lancer un premier crawl on Tous droits r serv s 2008 Page 38 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 3 7 Param trage avanc d une source 3 7 1 Menu Formulaires 3 7 1 1 Introduction On appelle formulaire l ensemble du code HTML situ dans le code source d une page et plac entre deux balises lt FORM gt o d bute le code du formulaire et lt FORM gt o il se termine Le navigateur Web interpr te ce code et produit une interface pour l utilisateur afin que celui ci puisse saisir un certain nombre de donn es La saisie de ces donn es se fait gr ce des zones de saisie libre des listes d roulantes des boutons radios ou des cases cocher Un formulaire est g n ralement accompagn d un bouton cliquable dont le libell varie On retrouve cependant fr quemment les libell s suivant Envoyer ou Rechercher Lorsqu on appuie sur ce bouton les donn es renseign es par l utilisateur sont envoy es un serveur Web dont l adresse est inscrite dans le code du formulaire Le serveur Web r pond ensuite l internaute en fonction des donn es qu il a re ues On retrouve tr s fr quemment deux types de formulaires dont voici deux exemples e le formulaire d authentification Nom dutilisateur Mot de passe Connesion Mot de passe oubli Figure 8 Exemple de formulaire Web d authentification Diff rente de l authentification de base a
202. uthentification par formulaire est int gr e dans la page Web Sa forme varie l infini selon l environnement graphique de chaque site Internet Suite l envoi des donn es par ce formulaire on obtient g n ralement une page qui montre que l on s est authentifi correctement et que l on a acc s au site Internet s curis ou bien une page qui exprime le refus d acc der au reste des pages et ventuellement qui invite retenter l authentification Tous droits r serv s 2008 Page 39 PO8 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 e le formulaire de moteur de recherche 5 a Rechercher 4 l int rieur des documents Pechercher dans AD gt TION C Drivers et docs INTERBASE F OR AC EACC a a a a ie k an TET Te ET oT Tt oA Te RTT TO Pr To A mT FT eT Figure 9 Exemple de formulaire Web de moteur de recherche Suite l envoi des donn es de ce formulaire le serveur Web qui re oit la requ te construit une page de r sultats et l envoie comme r ponse au navigateur Web C est ainsi que fonctionnent tous les moteurs de recherche sur le Web Ainsi une grande partie des informations disponibles sur le Web est cach e derri re ces formulaires et les syst mes de s curit mis en place emp chent de t l charger une page directement sans les avoir correctement remplis KB Crawl permet d automatiser cette t che afin de r cup rer et surveiller les informations de ces sites s curis
203. v 3 1 En suppl ment de celles d crites dans les chapitres pr c dents KB Crawl propose des fonctionnalit s utilitaires accessibles depuis le menu textuel Voici la liste compl te de ces fonctionnalit s pass e en revue par l ment de menu 13 1 Fichier 13 1 1R duire KB Crawl en mode automatique On peut a tout moment fermer KB Crawl sans que l activit de celui ci n en soit perturb e En mode automatique notamment il n est pas utile que KB Crawl reste ouvert au m me titre que les autres fen tres d applications En appelant cette fonctionnalit la fen tre principale de KB Crawl se ferme mais l application travaille toujours et peut tre rappel e tout moment par un double clic sur l ic ne situ e droite dans la barre de t ches de Windows Si une alerte se d clenche l ic ne de KB Crawl change de couleur pour tre alert visuellement sans avoir rouvrir la fen tre principale de KB Crawl Ar mi i Ti ar an DEDM s o ee 15 30 13 1 2 Quitter KB Crawl Ferme d finitivement l application 13 2 Edition Tous droits r serv s 2008 Page 156 P08 001 12 A4fr A2 KB Crawl Manuel utilisateur v 3 1 13 2 1Liste des sources au format Excel Exporte l arborescence des sources et des dossiers au format Excel ainsi que les URL des pages de d part VE T k at Ravel C 2 ee 3 Brevets 4 Espacenet Groupe de stath 5
204. ves Lorsque l on est dans l explorateur d archives il est possible de ne pas afficher les scripts qui s ex cutent sur les pages que l on visualise cela peut permettre une visualisation plus claire Couleur de surlignement Couleur utilis e pour le surlignement des changements de contenu dans une page des mots cl s d alerte des mots cl s de la recherche Il est possible de changer ces couleurs en cliquant sur le bouton Modifier la couleur et de visualiser un exemple de surlignement sur la droite Tous droits r serv s 2008 Page 149 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 Activer la mise en veille automatique Lorsqu il n y a plus eu aucune interaction entre l utilisateur et KB Crawl pendant une dur e que l on param tre dans le champ juste au dessous la surveillance automatique peut se d clencher automatiquement Pour activer ce m canisme automatique il suffit de cocher cette option Habillage de l interface Il est possible de personnaliser l interface de KB Crawl en pla ant les images de fonds autres que celles fournies avec le logiciel on peut affecter un papier peint aux barres de menus ainsi qu aux surfaces planes que l on retrouve sur tous les crans Tous droits r serv s 2008 Page 150 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 12 2 Onglet Param tres de s curit pour la connexion Web Proxy Si l acc s Internet de l ordinateur qui
205. wl Version 3 1 Connecl la base de donnees C Program Piles AB Craewl ala RAHLRAWL OASEEXEMEPELE C0 HELLE LAAJIN HMI E Lr i i a 1 0 r Cim en cours p Tiai adobe mp ere re N a ea T hind hlipe l es adobe com shout adobe presseconmy enaure aa man him tps eae adobe pam bgu adobe pegon iue main hird blip ena adobe com abouli adibe perroon essare bas maa hind O Wip wea abe can anae e a man hind Hip purs adobe cam abou adobe peitto eaae oi mar hind Cette pile de sources crawler ainsi constitu e est inspect e a chaque seconde par l horloge pour faire passer les l ments de cette pile dont l heure de d clenchement est d actualit dans l espace En cours L espace En cours est une file d attente dans laquelle chaque source attend son tour pour un crawl de comparaison Chaque jour minuit l espace A venir est actualis en fonction des sources pour lesquelles une programmation de surveillance automatique est pr vue pour le jour qui commence Tous droits r serv s 2008 Page 92 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 6 2 3 Fonctionnement 6 2 3 1 Affichage du planning Le planning affich ne tient pas compte de l heure en cours au moment de la consultation il sert pr visualiser le planning de la surveillance automatique pour une journ e donn e A chaque fois qu un param tre est modifi sur un des cadres plage de dates heures et jours de d clenchemen
206. xardie amp et 4 Figi a femoncde fr 4062007 16 3 1 l LE MONDE INFORMATIONS INFOS QUOTIDIEN DAILY NEWS PRESSE PRESS NEWS FRANCE FRENCH DOSSIERS CONOMIE ECONOMY CULTURE INTERNATIONAL BOURSE CINEMA MOVIES LIVRES BOOKS MULTIMEDIA EDUCATION FORUMS FORUM SERVICES 5 Php lemonde iid 12 07 2007 11 4 q LE MONDE INFORMATIONS INFOS QUOTIDIEN DAILY NEWS PRESSE PRESS NEWS FRANCE FRENCH DOSSIERS ECONOMIE ECONOMY CULTURE INTERNATIONAL BOURSE CINEMA MOVIES LIVRES BOOKS MULTIMEDLA EDUCATION FORUMS FORUM SERVICES F4 Documents POF E Fed oot ane Flash binet Internet qo Velle Sectonele Bl KB Inteligence Figure 71 Masque exemple 1 Tous droits r serv s 2008 Page 135 PO08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 pi Module de recherche v Chavez ici pour tier ms ess Sd VEILLE ql Brevets 8 Espacenet E Groupe de recherche KE m a B ExaeadKBCad aa R sultats 1 2 sur 2 Google KE Cram ecient 1 Hs Hamel goin M DGCCRFAM dossers consommaton 12 03 2007 15 3 Fl Presse wie des sevice de communication au puble on ligne informer leurs abonn s de Pnatlonce de i La Trbuns opens techrequen pornellart de rethmnde acc s b cetar iLe prolessonnel prostoture de i A denice mioma le cor conmeteunt par Can a plus Et beak mous et au plus faid un mone avert ke a arene itp lues lemonde tr 29 06 2007 16 3 a Produits L INDIEN INFOSYS POURRAIT
207. y O VIVIV IV IV IV IV IV IV IV IV IV IV V Tous droits r serv s 2008 Page 14 P08 00112 A4fr A2 KB Crawl Manuel utilisateur v 3 1 lt PARAM VALUE pf TARGET O o pf ACTION a A LOCATIONHRER pO pf REF ye pp pf ACTION O CADI REPLAC o OPEN __ OPENPOPUP pp Tableau 2 Grammaire par d faut de KB Crawl 1 6 Recursivite et profondeur Le processus de parsing a deux vocations extraire tous les mots visibles et non visibles de la page extraire tous les liens vers d autres pages Un crawl a toujours un point de d part une adresse Internet partir de laquelle KB Crawl d bute son exploration Cette page est analys e selon le processus d crit plus haut puis tous les liens de cette page sont stock s temporairement Chaque lien faisant partie de cette collection est unique et constitue un nouveau point de d part pour KB Crawl qui peut ainsi reproduire le m me processus t l chargement parsing stockage pour chacun d eux et ainsi de suite C est ce qu on appelle un processus r cursif Il est important de d finir une limite pour cette exploration et ceci pour plusieurs raisons seul un ensemble bien d limit de pages est en g n ral int ressant quelques fois m me une seule page Internet fait l objet de la veille ou surveillance le temps de l exploration d pend du nombre de pages tout stockage repr sente un cout en termes de place sur le disque dur les liens d
208. zones de saisie qui servent faire une recherche de proximit Il s agit de rechercher des documents qui contiennent deux mots proches de n mots Exemple nformatique gestion Les deux mots suivants Lorsque l on valide l expression suivante est automatiquement g n r e informatique near gestion Sy Rechercher Source s lectionn e uniquement Recherche avanc e a i T pee 2 os J Dossier de la source s lectionn e w Pr visualisation 10 gt r sultats par page bots woisitrs L op rateur NEAR s pare deux termes qui font l objet de la proximit Remarque Des parenth ses sont automatiquement ajout es autour de l expression g n r e 10 4 2 Filtrage par dossiers On peut restreindre la recherche un dossier en particulier Pour cela il suffit de d cocher la case Tous les dossiers et de s lectionner le dossier qui fait l objet du filtrage Le filtre est d sactiv d s lors que le bouton Rechercher est de nouveau sollicit 10 4 3 P rim tre de recherche Les pages index es par le moteur de recherche sont toutes stock es dans la table d archive de la base de donn es Par d faut la recherche s effectue sur l ensemble des pages stock es dans cet espace sans tenir compte du type d archivage page de r f rence derni re version versions interm diaires Il est toutefois possible de restreindre le p rim tre de recherche la derni re version archiv e d
Download Pdf Manuals
Related Search
Related Contents
pickering Benutzer Handbuch FK 取扱説明書 B-450 Service Manual EO0-33003A SM-280 Curtis RCD951 User's Manual Digitus DK-1643-030 networking cable 取扱説明書 - 北日本エンジニアリング株式会社 Philips 55PL9773 55" Rear Projection Television Philips 55PUS7600 55" 4K Ultra HD 3D compatibility Smart TV Wi-Fi Black, Silver Copyright © All rights reserved.
Failed to retrieve file