Home
X - on the Quoniam.info website
Contents
1. Mots cl s Poids Fr quence globale Mot cl internes 7 77 32 Enzyme inhibitor 7 11 9 Microbial origin 6 78 9 Rat 6 32 8 Biological activity 5 7 3 Estrogen synthase 5 67 3 Sound production 5 38 15 In vitro I _ sial Document Done Em Figure 4 cluster Enzyme inhibitor Li Netscape Terpendoles novel ACAT inhibitors produced by Ps EG File Edit View Go Bookmarks Options Directory Window Help Notice extraite du corpus industrial enzyme Terpendoles novel ACAT inhibitors produced by Albophoma pamanashiensis II Production isolation and structure elucidation of new components Eight new components of terpendoles E to L were isolated and characterized from the culture broth of Albophoma yamanashiensis using a different production medium All the structures were elucidated by spectroscopic analyses including various NMR experiments indicating that all the terpendoles have the same indoloditerpene core as terpendoles A to D Terpendoles J K and L showed the moderate inhibition against acyl CoA cholesterol acyltransferase ACAT activity with IC values of 38 8 38 0 and 32 4 amp mgr M in rat liver microsomes respectively But terpendoles E amp sim showed weak activities IC 145 amp amp sim 383 amp mgr M TOMODA H TABATA N DA JUN YANG TAKAYANAGI H OMURA 5 Activit hinlasione Animal Cholest rol Foie In Tj Document Done
2. E a 4 Figure 6 bibliographic Our goal is not information retrieval by clustering analysis 11 but information analysis through a user friendly interface specifically adapted to the execution of this function by a user agent This is what we mean by assisted searching mode based on the Who does What and Where When with Whom metaphor The user can search by authors names affiliations keywords journals titles or other information sources in order to know in which clusters these elements are For obtaining a global idea of the areas of Chapitre 6 113 interest of a company he can express the following queries by a simple navigation path Figures 7 8 select all the affiliations of the corpus select all the documents whose affiliations begin by ARS select all the clusters related to documents whose affiliations begin by ARS and count the number of documents for each cluster tx Netscape Typologie th matique ARS Kansas state univ File Edit View Go Bookmarks Options Directory Window Help vix Netscape Recherche par Organismes industrial_enzyme Mi E3 File Edit View Go Bookmarks Options Directory Window Help Numero Titre des documents issus de s organisme s a Nom des organismes Production of 10 ketostearic acid from oleic acid by P5000931 Flavobacterium sp strain DS5 NRRL B 14859 Production purification and properties of a thermostable 95 0010200 amp bgr g
3. Un tableau r sumant les caract ristiques des classes permet d appr cier la qualit de la r partition des documents dans les classes et de cat goriser ces derni res Dans ce tableau chaque classe est caract ris e par 1 une valeur d inertie indiquant la dispersion des documents autour de l axe repr sentant la classe elle correspond a la somme des carr s des projection des documents ayant constitu la classe sur l axe repr sentant cette derni re 2 le nombre de documents ayant construit la classe c est a dire le nombre de documents ayant leur projection maximale sur l axe repr sentant cette classe 3 le nombre de documents affect s cette classe c est dire le nombre de documents dont la coordonn e sur cet axe est sup rieure au seuil d fini par l utilisateur 4 le nombre de mots cl s affect s cette classe c est dire le nombre de mots cl s dont la coordonn e sur cet axe est sup rieure au seuil d fini par l utilisateur 5 le nombre d auteurs associ s cette classe Chapitre 5 96 6 le nombre de sources associ s a cette classe Nom uj f B1 t51 161 Apprentissage 11 24 33 33 12 66 16 Base donnee 5 63 20 f s 21 34 9 7 Tableau 2 Exemple de tableau des caract ristiques des classes Dans ce tableau les classes sont tri es par valeur d inertie d croissante Les premiers th mes sont g n ralement les plus important
4. ces m thodes La mani re d aborder l analyse infom trique d un corpus de donn es diff re selon l objectif atteindre la veille ou l valuation la mesure de l activit de recherche Cette distinction op re sur deux crit res la couverture du sujet d tude et la r activit Dans le cas de la veille la couverture tente d tre exhaustive sur le sujet alors que dans le cas de l infom trie d indicateurs elle se doit d tre repr sentative Pour citer D J de Solla Price dans le cas de la veille on veut tout savoir sur Georges pour des raisons diverses mon futur employeur mon concurrent etc alors que dans le cas de la mesure de l activit de recherche on ne s int resse pas au cas de Georges en particulier les indicateurs sont fond s sur une logique de comparaison Dans ce cadre la s lectivit est pr f rable l exhaustivit c est dire la recherche d une couverture le plus souvent un ensemble de revues c ur du domaine r pondant des crit res qualitatifs les plus clairs et contr lables possibles Le crit re le plus utilis est le prestige de la revue fond sur le calcul des citations re ues Ce qui par le jeu des avantages cumul s induit une auto validation de la couverture Ce crit re est le plus souvent compl t par lavis d un comit d experts L aspect calcul et type d indicateurs dans le cadre de l valuation de la production scientif
5. chaque th me Une barre de menu commune toutes ces fen tres et locale au th me permet galement d acc der ces diff rents types d informations sans repasser par la carte et informe sur la quantit d information qui est agr g e autour du th me Les Chapitre 8 150 documents du theme pouvant appartenir d autres themes un lien Documents partag s avec d autres th mes permet d acc der la distributions des documents par th me 2 3 1 Comment se faire une id e du contenu d un th me Deux moyens diff rents sont mis disposition de l utilisateur via le menu local au th me e la liste tri e de mots cl s e la liste tri e des documents du th me 2 3 1 1La liste tri e de mots cl s Fig 3 Le lien Description renvoie donc la liste tri e de mots cl s ordonn s selon leur importance pour le th me Chaque mot cl est pr c d de son poids et de sa fr quence locale et globale Le mot de poids le plus lev donne par d faut son nom au th me ZJ Sommaire Microsoft Internet Explorer _ Of x Eile Edit View Go Favorites Help Address http yoda inistfr 9001 cgi bin main cgi demo_henoch frame_sommaire E DAEN GE sommaire carte th mes revues congr s organismes auteurs mots cl s Aide Description 11 titres 13 affiliations 35 auteurs 9 sources Documents partag s avec d autres th mes propos des th mes NEURODOC Description du
6. sont proches sur la carte les travaux sur les hypertextes correspondent un sous ensemble des probl mes d interface utilisateur La position des th mes sur la carte est interpr t e en fonction des axes horizontaux et verticaux d finissant le plan Dans un premier temps il est important de garder l esprit que les th mes les mieux repr sent s sur cette carte se situent plut t vers les extr mit s des deux axes c est dire vers les bords gauche et droit puis haut et bas de la carte La position des th mes situ s vers le centre de la carte est moins significative La carte figure 8 montre que sur l axe horizontal s opposent vers la gauche les th mes th orique de l Intelligence Artificielle comme processus acquisition raisonnement et m thodologie vers la droite les th mes applicatifs dans les domaines documentaire recherche documentaire et interface utilisateur base donn e interface utilisateur et hypertexte Sur l axe vertical s isolent en haut a gauche les th mes automatisation et syst me production qui correspondent des applications industrielles de l intelligence artificielle au centre de l axe se retrouvent les autres th mes d application de l intelligence artificielle dans la prise de d cision la construction navale th me conception assist e l informatique biom dicale l imagerie et la reconnai
7. 3 certains documents ayant construit cette classe ont une valeur de projection inf rieure au seuil il sont donc perdus lors de la classification exemple th me Raisonnement La colonne 4 permet d estimer la pertinence du seuil des mots cl s Nous remarquons qu un th me homog ne exemple Processus acquisition 4 10 est d fini par moins de mots cl s qu un th me plus dispers exemple Interface utilisateur 4 24 Chapitre 5 97 Les colonnes 5 et 6 permettent d estimer la dispersion des auteurs et des sources titres des revues autour des th mes c Cartographie Afin de positionner les th mes obtenus les uns par rapport aux autres nous repr sentons les classes obtenues par des points Une Analyse en Composantes Principales de l ensemble des points repr sentant les classes permet de d terminer un plan d formant le moins possible le nuage de points ainsi d fini Tous les points de ce nuage sont ensuite projet s sur ce plan constituant ainsi la carte des th mes Dans le cas pr sent nous avons utilis les coordonn es r elles des th mes et non le classement par rang consid rant que la carte obtenue figure 8 restait lisible Interpr tation de la carte obtenue figure 8 Sur la carte la proximit entre deux th mes indique qu ils sont d finis par des mots cl s issus de domaines connexes Par exemple les th mes Hypertexte et Interface Utilisateur
8. An extended relational Document Retrieval Model Information Processing and Management Vol 24 n 3 1988 259 371 4 BORDONS et al 1995 BORDONS M ZULUETA M A CABRERO A Identifying Research teams with bibliometric tools publications In Michael E D Koenig Abraham Bookstein Eds 5th International Conference of the International Society for Scientometrics and Informetrics Learned Information Inc Medford NJ 83 92 1995 5 BRAAM et al 1998 BRAAM R R MOED H F VAN RAAN AFJ Comparison and Combination of Co Citation and Co Word Clustering in Select Proceeding of the First International Workshop on Science and Technology Indicators Leiden 14 16 November 1988 p 307 337 1988 6 BALPE et al 1996 BALPE J P LELU A SALEH I ET PAPY F Techniques avanc es pour l hypertexte ditions Herm s 1996 7 BOUTIN et al 1998 BOUTIN E MANNINA B ROSTAING H QUONIAM L Construction automatique de r seaux un outil pour mieux appr hender l information provenant d Internet Actes JADT 98 Coord S Mellet UPRESA Bases Corpus et Langages Universit de Nice 1998 8 BRADFORD 1934 BRADFORD S C Sources of information on specific subjects Enginering 137 85 86 Janvier 1934 9 BROOKES 1980 BROOKES B C Information Space The Canadian Journal of Information Science vol 5 p 199 211 1980 10 BROOKES 1981 BROOKES B C The Foundations of Information Science Part IV Inform
9. Courtial J P 1990 Introduction la scientom trie Paris Anthropos Economica Grivel L et C Fran ois 1995 Une station de travail pour classer cartographier et analyser l information bibliographique dans une perspective de veille scientifique et technique SOLARIS n 2 a paraitre Gross G 1988 Structure des noms compos s Informatique amp Langue Naturelle ILN 88 Nantes France Octobre Chapitre 3 57 6 Habert B et C Jacquemin Noms compos s termes d nominations complexes probl matiques linguistiques et traitement automatiques Traitement Automatique des Langues 34 2 1993 p 5 42 7 Jacquemin C 1994 FASTR A Unification based Front end to Automatic Indexing RIAO 94 Conference Proceedings Intelligent Multimedia Information Retrieval Systems and Management Rockfeller University New York October 11 13 p 34 47 8 Jacquemin C et J Royaut 1994 Retrieving Terms and their Variants in a Lexicalised Unification Based Framework Proceedings 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval 3 6 July Dublin 9 Polanco X L Grivel C Fran ois et D Besagni 1993 L infom trie un programme de recherche Journ es d tudes Les syst mes d information labor e Ile Rousse Corse France 9 11 Juin texte n 3 10 Polanco X 1993 Analyse de l information scientifique et technique Construction de
10. EH H E eb H E H K sommaire carte th mes revues congr s organismes auteurs mots cl s Aide Typologie th matique de s organisme s affiliations des auteurs Laboratoire de Matherbologie Institut National de la Recherche Agronomique BV 1540 INRA Laboratoire de Matherbologie BV 1540 INRA lab matherboiogie Acc s aux documents par th matique x D selectionner 1 The cost of herbicide resistance in white chicory ecological implications for its commercial release 2 Gene dispersal from transgenic crops I Growth of interspecific hybrids between oilseed rape and the wild xl Figure 14 Le m me type d op ration peut tre effectu pour un mot cl Fig 15 X Sommaire Netscape LIELx File Edit View Go Communicator Help aa M ih El sommaire carte th mes revues congr s organismes auteurs mots cl s Aide Typologie th matique de l ensemble de documents index s par risk Acc s aux documents par th matique OK D selectionner food industry 4 risk 4 1 Ecological risk of growing transgenic potatoes in the United States and Canada 2 Gene flow from cultivated to wild raspberries in Scotland developing a basis for risk assessment for testing and deployment of transgenic cultivars Si PR Document Done 3s a wl 4 Figure 15 Les documents index s par le mot cl risk se r partissent ent
11. assignateur de cat gories grammaticales ROYAUTE et JACQUEMIN 1993 Ce dernier r alise l tiquetage des termes du lexique utilis Chacun des mots du terme est identifi par son lemme racine du mot sa cat gorie flexionnelle qui permet d identifier un nom avec ses pluriels r guliers et irr guliers une cat gorie syntaxique par exemple verbe nominalis son genre masculin f minin L analyseur FASTR permet le rep rage des termes et de leurs variantes Un ensemble de meta r gles qui varient selon la langue op re sur les termes tiquet s et d finit les possibilit s de variations flexionnelles et syntaxiques des termes ce qui rend possible leur identification sous des formes qui peuvent tre loign es de la forme enregistr e dans le lexique ou le th saurus ILC fonctionne actuellement sur le fran ais et anglais Les termes collect s anglais ou fran ais peuvent donc tre reconnus sous leurs formes d enregistrement dans le lexique terminologique de d part sous les formes singuliers ou pluriels variations flexionnelles ou sous des formes syntaxiques variantes ROYAUTE 1999 Trois sortes de variations syntaxiques sont trait es a la variation d insertion concerne tout mot l int rieur du groupe nominal a Pexception de la plupart des mots grammaticaux Par exemple X ray absorption spectroscopy est associ au terme X ray spectroscopy b la variation de coordination concerne toute forme co
12. est a dire a partir des termes utilis s par les chercheurs eux m mes dans les documents scientifiques et techniques L analyse repose sur des outils de classification automatique SDOC et NDOC utilisant les mots cl s ou descripteurs comme indicateurs de contenu 4 Maintenant grace aux traitements linguistiques nous sommes capables de nous affranchir de l ndexation manuelle Outre le fait qu ils sont le point d entr e du dispositif infom trique les traitements linguistiques que nous effectuons ont aussi comme finalit de fournir des indicateurs infom triques pour la veille 2 Objectifs et hypoth se Les objectifs que nous nous sommes fix s sont de trois types technique conceptuel et pragmatique L objectif technique est de coupler deux sortes d outils un outil scientom trique tel que le programme SDOC bas sur la technique des mots associ s et une plate forme de traitement informatique du langage naturel Rappelons ici que la m thode des mots associ s a t propos e par M Callon J P Courtial et W Turner pour la premi re fois au d but des ann es quatre vingt 1 2 3 Quant l objectif conceptuel de notre approche il est de classifier et de repr senter les connaissances v hicul es par les textes scientifiques et techniques sous leur forme crite en nous appuyant sur les ressources de l ing nierie linguistique et de la connaissance La r alisation de cet objectif signifie un pas en avant dan
13. est il possible de mettre en vidence les l ments h t rog nes d un front de recherche Actes des journ es d tude sur Les syst mes d information labor es organis es par SFBA Ile Rousse Corse 6 5 juin 1991 p 273 292 J Ducloy et X Polanco D une bo te outils la description du domaine des Cognisciences Actes des journ es d tude La scientom trie en action organis es par l ADEST Paris 1 2 juin 1992 p 65 73 5 Infographie C est la repr sentation graphique des r sultats dans notre cas l laboration de cartes comme sortie de NEURODOC et de SDOC Les cartes NEURODOC sont construites l aide d une Analyse en Composantes Principales ACP et affich es en Hypercard les cartes SDOC s affichent sous UNIX au moyen de trois modules graphiques d velopp s en langage C et utilisant le syst me de composition de documents LATEX voir E Nataf Composition de page en LATEX Cr ation d outils graphiques pour la scientom trie Rapport de stage INIST LU T de l Universit de Nancy 2 Option g nie informatique 1992 6 Hypertexte La g n ration d hypertextes l aide des logiciels Hypercard Folio sur PC ou Zer sous UNIX est consid rer selon un double objectif 1 fournir l utilisateur final un Protoype d diteur hypertexte d velopp par Bull Cediag dans le cadre du projet europ enn KWICK Annexe 1 179 document hypertexte qui lui permet de
14. ordre des donn es En utilisant un analyseur lexical on peut ais ment d crire au format SGML XML des notices bibliographiques d charg es partir d un serveur de donn es sans perdre d informations DUCLOY 91 La structure logique d une notice bibliographique telle que celle d crite en annexe 1 est tr s simple une suite de champs rep r s par un identifieur Il est relativement facile de d finir les r gles lexicales qui permettent d identifier le d but ou la fin d une notice le d but ou la fin d un champ l int rieur de la notice de mani re la transformer en document SGML en forme normale lt record gt lt NO gt 12508319 lt NO gt lt TI gt AMYOTROPHIC LATERAL SCLEROSIS AND STRUCTURAL DEFECTS IN CU ZN SUPEROXIDE DISMUTASE lt TI gt lt AU gt DENG HX HENTATI A TAINER JA IQBAL Z CAYABYAB A HUNG WY GETZOFF ED HU P HERZFELDT B ROOS RP WARNER C DENG G SORIANO E SMYTH C PARGE HE AHMED A ROSES AD HALLEWELL RA PERICAKVANCE MA SIDDIQUE T lt AU gt lt AF gt lt NA gt NORTHWESTERN UNIV SCH MED DEPT NEUROL 300 E SUPER ST NEUROL lt NA gt lt TO gt CHICAGO lt TO gt lt CO gt IL lt CO gt lt AF gt lt record gt 3 2 2 Int gration des donn es dans un SGBD m thode Une fois les donn es reformat es il faut ensuite les int grer dans un mod le de donn es En s appuyant sur la structure d arbre des documents SGML il est possible de d finir la correspondance entre les
15. un corpus dans le temps En guise de conclusion quelques pistes d am liorations sont bauch es Titre anglais Constructing hypertexts for the interpretation of scientific and technical information analysis methods R sum anglais Analysis of Scientific and Technical Information STI from bibliographical databases requires the co ordinated exploitation of various techniques Two methods making it possible to classify and represent on a topic map a set of documents are studied in depth They are based on keywords indexing the documents These studies show that the analysis and the interpretation of the results obtained by such tools require a mixture of intuitive browsing and of methodical exploration of the information worked out by these analysis tools metaphor browsing in an ocean of information highlights the necessity to generate automatically hypertexts based on the very data to be analysed and having their topic navigation map and some indicators of thematic position This point leads to the design and the development of an information processing system HENOCH based on SGML Standard Generalized MarkUp Language to gather and organise in a DBMS Data Base Management System some bibliographical data which are standardised and treated by different techniques computational linguistic data analysis clustering and mapping methods Then this information is distributed on INTERNET via an interface of navigation generated automa
16. un support fr quemment utilis pour le d p t de couches minces Ce th me est reli travers les associations externes fond es sur la cooccurrence des mots qui se sont agr g s dans des clusters diff rents aux th mes LAYERS couches et HETEROSTRUCTURES constitu es par une superposition de couches 0 65 PLASMA 0 45 0 20 0 19 0 03 y 0 15 densit x 0 08 centralit NUCLEATION GROWTH MONOLAYERS ISLANDS GRAPHITE MULTILAYERS Chapitre 3 54 Figure 3 Graphe repr sentant les associations internes entre les termes composants du clusters GROWTH La valeur plus lev e de son indice de densit ou de coh sion interne y explique sa position en haut de la carte figures 1 et 2 On voit ici un cluster qui pr sente une structure forte cause justement de la valeur moyenne de ses associations internes ENERGY LEVEL DENSITY P ELECTRONIC STRUCTURE PHOTOEMISSIONmmmmmm CORE LEVELS BINDING BAND STRUCTURE 0 10 0 15 0 09 0 01 ENERGY DISTRIBUTION ENERGY SPECTRA 4 y 0 05 densit x 0 05 centralit CONDUCTION BAND Sams VALENCE BANDS Figure 4 Graphe repr sentant les associations internes entre les termes composants du cluster ELECTRONIC STATE II faut noter que ce cluster a t renomm par l expert du domaine d un point de vue conceptuel La faible valeur de son indice de densit ou de coh sion interne y explique sa position en bas de la
17. Dans nos prochaines exp rimentations nous envisageons de donner un poids plus grand aux termes variants afin qu aucun de ces termes ne puissent tre rejet du processus de classification b La seconde remarque est qu on a pu contraster deux ensembles de clusters suivant le crit re de la variation des termes qui les composent 5 3 du point de vue du contenu scientifique est apparu pour l expert du domaine qu une telle distribution cf tableau 3 correspondait la distinction qu il pouvait reconna tre entre th mes d ordre plus th orique VAR CLU important et th mes d ordre beaucoup plus applicatif VAR LU faible Pourtant nous devons nous garder de tirer des conclusions un peu h tives visant associer termes variants et langage th orique ou probl mes th oriques de recherche et termes fig s et langage applicatif ou probl mes d application c Et pour conclure notre derni re remarque est qu il appara t n cessaire pour v ritablement tester le r le d indicateurs de ces ph nom nes de langue de travailler sur des ensembles plus importants de termes et par l m me partir d ensembles plus importants de textes pleins 7 R f rences 1 2 Callon M J Law A Rip 1986 Mapping the Dynamics of Science and Technology London MacMillan Callon M J P Courtial et H Penan 1993 La scientom trie Paris Presses Universitaires de France Que sais je N 2727
18. Grivel L Francois C Lelu A et th oriques Polanco X dans le d veloppement des syst mes d information Barre R Laville F Teixera N Zitt M de nouveaux modes d critures Noyer J M Courtial J P la production de connaissances Turner W Bossy M 1 Introduction Dans un contexte de veille scientifique l analyse infom trique de Jl information scientifique et technique comprend non seulement une analyse de contenu a partir des mots cl s r sum s et titres mais aussi une analyse de ses acteurs leurs relations leurs moyens de communications revues rapports congr s son actualit Dans cette perspective nous pr sentons ici une station d analyse de l information scientifique et technique d velopp e dans le cadre du programme de recherche en infom trie de l INIST CNRS D un point de vue fonctionnel elle doit non seulement fournir tous les indicateurs num riques usuellement mis en oeuvre pour prendre la mesure de Pimformation bibliographique mais galement proposer des repr sentations du contenu de la production scientifique Elle automatise l laboration des distributions bibliom triques statistiques unidimensionnelles sur les champs bibliographiques et supporte deux m thodes permettant de construire des cartes th matiques une m thode prouv e les mots associ s CALLON et al 1983 et une autre plus r cente associant une technique de classification les K means axiales LELU 1990 et 1
19. INIST CNRS qui m a permis d effectuer cette th se dans le contexte de l INIST pour son soutien Henri Dou responsable du Centre de recherche r trospective CRRM de Universit d Aix Marseille II pour m avoir accueilli dans son laboratoire Luc Quoniam professeur P IUT Service et Communication St Raphael qui m a incit a effectuer cette these et m a permis de la r aliser pour son encadrement efficace et bienveillant Jacky Kister Directeur de Recherche au CNRS qui a co dirig cette th se pour son int r t pour mes travaux son soutien et ses encouragements Jean Francois Marcotorchino Directeur du Centre Europ en de Math matiques Appliqu es CEMAP d IBM et Professeur Associ et Thierry Lafouge Maitre de Conf rence l Ecole Nationale Sup rieure des Sciences de l Information et des Biblioth ques ENSSIB habilit diriger des Recherches pour avoir accept la charge d valuer ces travaux ainsi que pour leurs remarques Xavier Polanco responsable de l Unit Recherche et Innovation l INIST avec qui je collabore depuis 10 ans pour sa confiance son soutien scientifique et moral Charles Huot Responsable du segment fouille de donn es textuelles IBM pour ses conseils et remarques tous les membres de URI et notamment Dominique Besagni Claire Francois Jean Royaut sans lesquels la majeure partie de cette recherche n aurait pu se faire Jacques Ducloy r
20. Intelligence Artificielle syst mes experts Ce corpus comprend 316 r f rences il est index par 955 mots cl s dont 665 de fr quence 1 soit 70 du vocabulaire d indexation La premi re tape des deux analyses pr sent es ci dessous a consist en une s lection du vocabulaire d indexation en se basant sur la loi de Zipf Suppression des 4 mots cl s le plus fr quents Intelligence artificielle Syst me expert Base de connaissance et Repr sentation des connaissances suppression des mots cl s de fr quence 1 3 2 1 Analyse des r sultats fournis par SDOC Le r sultat de la classification est une partition des mots cl s en classes structur es mais disjointes clusters m me si les clusters peuvent entretenir des relations avec d autres clusters Un cluster repr sente un th me trouv dans un ensemble de documents Chapitre 5 88 a Anatomie des clusters La figure 5 d crit l un des 21 clusters obtenus par SDOC sur ce corpus en limitant la taille des clusters 10 mots et en fixant une cooccurrence minimale des mots cl s 2 Baia navigation cl14 shuu FR E Baia navigation cl14 shuu FR Noeud Options Editew Pr c dent Noeud Options Editew Pr c dent SDOC Associations internes home 15 25 6 carte fone _ titres auteurs sources Poids Coocwrence Association 0 67 2 Formulation question lt gt Texte int gral Th me Recherche documentaire 0 38 Analyse linguistique lt
21. MOLECULAR REPLACEMENT X RAY CRYSTALLOGRAPHY ANALYSIS BOVINE PANCREATIC TRYPSIN INHIBITOR NERVE GROWTH FACTOR 91 4817 001 LIPASE GENE CDNA FOR STIMULATORY GDP GTP EXCHANGE PROTEIN EXPRESSION OF MESSENGER RNA 91 6189 001 BRAIN SUPEROXIDE DISMUTASE ACTIVITY FOLLOWING FOREBRAIN ISCHEMIA IN RAT REACTIVE OXYGEN SPECIES NERVE GROWTH FACTOR INVIVO GENERATION Cited References ANTONARAKIS SE 1992 V14 P1126 GENOMICS R f rences cit es format ordre BEAUCHAMP CO 1971 V44 P276 ANAL BIOCHEM HE Mots cl s obtenus par indexation automatiqu alphab tique ler auteur ann e volume l re page titre p riodique Chapitre 7 138 Chapitre 7 139 Missions Type d organisme et effectif Produits de l organisme Chapitre 7 Annexe 2 Tableau comparatif des trois organismes tudi s OST Observatoire des Sciences et des Techniques 93 rue de Vaugirard 75006 PARIS T l 01 42 22 30 30 T l copie 01 45 48 63 94 construire des indicateurs fiables pertinents et p rennes d crivant la science et la technologie fran aises en comparaison europ enne et internationale Groupement d Int r t Public GIP de 14 membres 7 minist res 6 grands tablissements publics CEA CNRS CNES CNET INSERM INRA et P ANRT Membre associ ORSTOM effectif environ 10 personnes Publications Indicateurs science et rapports annuels La lettre de POST Les cahiers de POST Produits des ateliers
22. Party and Chronology by century Moving from one topic to another the user explores the content of his data by examining a structured knowledge space He can decide either to follow another informational network or to stop the navigation process and browse the literature aggregated under a topic 3 4 Analysing Cluster Relationships Coword analysis is not only a method for classifying bibliographical references in clusters representing a research theme It also provides the possibility of analysing the associations between themes This analysis relies on the distinction between internal and external associations the notion of cluster saturation threshold and the size of the clusters Table 3 3 describes two categories of clusters A those whose external associations mean value is higher than the saturation threshold i e the external links are as strong as the most internal associations B those whose external associations mean value falls below the saturation threshold i e the internal links are much stronger than the external associations In this latter category we distinguish between those whose external associations are nethertheless relatively strong B1 from those whose external links are very weak B2 Clusters of category A identify themes which are secondary in the datafile insofar as they are of weak internal cohesiveness whereas their associations with other clusters are relatively strong i e they seem to be su
23. Very large two level SOM for the browing of newsgroups 5 International WWW Conference Paris 1995 56 KOPCSA et SCHIEBEL 1998 KOPCSA A SCHIEBEL E Science and technology mapping a new iteration model for representing relationships Jasis 167 49 1 7 17 1998 57 KRUSKAL 1964 KRUSKAL J B Multidimensonal scaling by optimizing goodness of fit to a nonmetric hypothesis Psychometrika 29 1 28 1964 58 LAFOUGE 1998 LAFOUGE T Math matiques du document et de l information Bibliom trie distributionnelle Habilitation diriger des recherches RECODOC Univ Lyon 1 Oct 1998 59 LEBART et SALEM 1988 LEBART L SALEM A Analyse statistique des donn es textuelles DUNOD Paris 1988 207 pages 60 LECOADIC 1994 LECOADIC Y La science de l information Que Sais je PUF Paris 1994 61 LELU 1990 LELU A Mod les neuronaux pour donn es textuelles Vers l analyse dynamique des donn es Journ es ASU de statistiques Tours France 62 LELU 1990 LELU A Mod les neuronaux de projection associative et analyse des donn es Approches symboliques et num riques pour l apprentissage de connaissances partir des donn es sous la direction d E DIDAY et Y KODRATOFF pp 283 305 CEPADUES Toulouse 1990 63 LELU et FRANCOIS 1992 LELU A et FRANCOIS C Automatic generation of hypertext links in information retrieval systems communication au colloque ECHT 92 Milan D L
24. cr Figure 7 2 3 4 Comment se faire une id es des modes de publications des auteurs du th me Le Lien source renvoie aux listes des titres de revues congr s ou universit s de soutenance pour les th ses tri es selon leur fr quence dans le th me o sont publi s les documents du th me Fig 8 Les sources sont pr c d es de leur fr quence et donnent acc s la liste des titres des documents du th me publi s par cette source La distribution selon le type de source revue congr s puis pour chaque type de source selon le journal ou le nom du congr s permet de qualifier les modes de communications privil gi s des auteurs Exemple Chapitre 8 154 2 Sommaire Microsoft Internet Explorer _ ol x Eile Edit View Go Favorites Help Address http yoda inist fr 9001 cgi bin main cgi demo_henoch frame_sommaire HERR EE sommaire carte th mes revues congr s organismes auteurs mots cl s Aide Description 11 titres 13 affiliations 35 auteurs 9 sources Documents partag s avec d autres th mes Sources du th me risk e Cliquer sur une source de publication donne la liste des titres des documents du th me issus de cette source On trouve gauche le nombre de documents correspondant 9 Publications en s rie Plant journal Transgenic research American potato journal Bio technology New York NY 1983 Experimen
25. d appr hender le plus rapidement possible les principaux noeuds th matiques du r seau Pour tablir ce plan de lecture le tableau des caract ristiques des clusters ne suffit pas Il faut galement utiliser la description compl te des clusters en particulier tudier pr cis ment leurs associations externes pour les situer les uns par rapport aux autres comme on l a vu par exemple dans le cas du cluster Industrie Batiment c Cartographie Chapitre 5 92 Les cartes fournissent une synth se visuelle de deux parametres du tableau pr c dent la densit et la centralit Nous utilisons ce mode de repr sentation pour obtenir une carte par cluster avec visualisation de ses relations s il poss de des associations externes Pour viter le recouvrement des clusters ayant des coordonn es voisines on peut red finir ces coordonn es en les classant selon leur rang C est la technique employ e pour la figure 6 home Rev tement m tallique J Assistance ordinateur Industrie b timent Equation d riv e partielle Syst me informatique Optimisation Centrale nucl aire Parall lisme onception assist e Th orie d cision Apprentissage Interface utilisateur Conception syst me Raisonnement Processus acquisition 5 10 Figure 6 Exemple de carte th matique obtenue avec SDOC interpr tation des cartes Nous resterons dans notre lecture de la carte au niveau d une explication des r sultat
26. d velopp es en analyse de donn es sont les plus adapt es Si de plus on se propose de repr senter les connaissances v hicul es par les textes scientifiques et techniques sous leur forme crite il est indispensable de s appuyer sur des techniques linguistiques POLANCO 1996 Dans ce cadre l analyse de PIST peut alors tre d finie comme l application de techniques de traitement automatique du langage naturel de classification automatique et de repr sentation graphique cartographie du contenu cognitif et factuel des donn es bibliographiques 2 L hypertexte et les m thodes d analyse de l IST Cette sous section explicite les liens entre le concept d hypertexte et les m thodes d analyse D une m taphore la navigation dans un oc an d information section 2 1 se Chapitre 1 4 d duit un principe de conception section 2 2 qui est aujourd hui commun a un certain nombre d quipes de recherche section 2 3 dans notre domaine d application l analyse de VIST g n rer automatiquement des hypertextes avec leur carte de navigation Ce principe se concr tise sur le plan op rationnel par un syst me g n rateur d hypertextes accompagn s de leur carte de navigation le syst me HENOCH au sein de la plate forme infom trique de URI section 2 4 2 1 Naviguer dans un oc an d information Le point de d part de mon travail t fond par la constatation suivante En 1990 poque o j
27. environnement d analyse de PIST devrait comporter non seulement un ensemble d outils d analyse disponibles au sein d une plate forme mais galement un observatoire v ritable syst me d information que nous appelons base infom trique o l utilisateur peut stocker explorer et exploiter m thodiquement par des requ tes les r sultats quantitatifs ou qualitatifs de l application de diff rentes m thodes d analyse sur des donn es brutes relatives une probl matique particuli re Le chapitre 6 d crit et justifie une approche tout fait originale au moment de sa conception en 1995 GRIVEL 1995b pour mettre en place un tel observatoire Cette approche est bas e sur une mod lisation relationnelle des donn es et une architecture mixte syst me de gestion de base de donn es et Web Elle est op rationnelle au sein du syst me d nomm HENOCH Le chapitre7 montre comment HENOCH peut aider construire des bases de donn es infom triques hybrides multi sources multi types de donn es exploitables pour le calcul d indicateurs des fins d analyse de l information scientifique et technique Le chapitre 8 d crit sur un exemple une d marche d analyse de PIST partir d un hypertexte g n r par le syst me HENOCH L usager dispose de plusieurs modes de navigation conviviaux lui permettant de satisfaire de multiples besoins comme par exemple avoir une vue d ensemble de l organisation th ma
28. grammaire et dans bien des cas travailler au niveau lexicographique suffit Ces caract ristiques nous ont conduits d velopper une boite outils appel e ILIB bas e sur SGML et sur UNIX DUCLOY et al 1991 En effet des programmes g n r s par Lex et des outils UNIX tels que Awk sont bien adapt s pour extraire de l information a la vol e sur un flot de donn es structur es puis la traiter La station de travail est ainsi constitu e de modules ind pendants de traitement de Pinformation qui communiquent entre eux par flot de donn es en s appuyant sur le m canisme de pipe d UNIX En collaboration avec H Millerand et J Kasprzak du service tude de la direction informatique INIST nous avons effectu des tests d applications de SDOC et NEURODOC sur de gros volumes de donn es transcrits dans le guide technique de SDOC et NEURODOC A titre d exemple le traitement de 16 000 r f rences bibliographiques par l un ou l autre des outils prend environ dix heures sur une machine d j ancienne Sun Sparc 1 avec 16 Mo de m moire vive Il faut noter que ce n est pas la phase de classification elle m me qui est longue mais la phase de documentation des classes libell s des mots cl s titres sources auteurs celle ci prend plus de la moiti du temps d ex cution Elle sera optimis e ult rieurement b Interface utilisateur Sc narii d analyse standard et mise en forme des r sultats Dans le souci d
29. gration de donn es h terog nes L objectif de cette deuxi me partie est de tirer les le ons de diverses exp riences de veille que nous avons men es L URI a d velopp une approche originale bas e sur un couplage SGML SGBD qui permet de construire et d exploiter des indicateurs infom triques dans un environnement hypertexte convivial des fins de veille scientifique en employant une m thodologie un peu analogue celle des observatoires des sciences et techniques section 2 et des m thodes de traitement de donn es issues du monde de la gestion documentaire Ces travaux ont d bouch sur une plate forme infom trique dont l un des composants le logiciel HENOCH permet d int grer des donn es h t rog nes en types et en formats GRIVEL 95 97 99 cf annexe 3 Ces exp riences ont n cessit l int gration de donn es h t rog nes dans une base de donn es relationnelle qui est comme nous l avons vu une des difficult s de la construction de bases infom triques hybrides Alimenter un SGBD partir de documents fait partie des applications courantes dans le monde documentaire D une mani re g n rale il s agit de transformer un document d une certaine structure logique en une autre L int r t de SGML XML dans ce contexte n est plus d montrer On trouve aujourd hui sur le march plusieurs diteurs SGML XML disposant d une interface avec les principaux SGBD du march MICHARD 98 Il est a
30. identifier des relations inter th mes non explicites e rep rer l mergence de nouveaux th mes de recherche e identifier et regrouper les acteurs les institutions leurs vecteurs de communication th ses rapports monographies p riodiques par th mes e valuer le positionnement th matique d un acteur d une institution d un pays d un vecteur de communication p riodique congr s Autrement dit explorer et analyser l information relative leur sujet de pr occupation un corpus bibliographique pour par exemple e avoir une premi re approche d un sujet de recherche e orienter des recherches e identifier des technologies mergentes e valuer les r sultats d une quipe de recherche e tablir un partenariat Habituellement un corpus bibliographique sur un sujet ou un domaine donn peut repr senter quelques milliers de r f rences qu il est exclu de parcourir s quentiellement Dans HENOCH un tel corpus est structur selon des principes infom triques de mani re a constituer une bases de donn es dites infom triques exploitables pour l analyse de l information 1 2 Qu est ce qu une base de donn es infom triques quoi a sert Pour permettre cette analyse de l information HENOCH exploite des indicateurs Ces indicateurs sont le r sultat d un ensemble de traitements linguistiques et statistiques classification et cartographie appliqu s des donn es structur es de type r f
31. l un est l valuation m trique des flux d information l autre est l valuation de qualit de l information trait e c La repr sentation graphique de V IST ou infographie est l laboration de cartes o l on peut positionner les contenus de l information mais aussi les acteurs de la recherche auteurs institutions pays Le but est ici de fournir une repr sentation de la structure de l information un moment donn de son d veloppement sur un espace deux ou trois dimensions 4 Des techniques d analyse Les techniques que nous avons d velopp es sous UNIX sont 1 la m thode des mots associ s a partir de la th se de doctorat de B Michelet L analyse des associations Universit de Paris 7 Paris 1988 et 2 la m thode de k means axiales partir d un mod le d fini par A Lelu Mod les neuronaux pour donn es textuelles Journ es ASU de Statistique Tours 25 mai ler juin 1990 ce sont respectivement les programmes NEURODOC et SDOC Ces outils permettent de structurer I information puis de la traiter sous la forme d un hypertexte Pour le moment limitons nous au fait qu ils constituent des moyens d organiser th matiquement I information Ainsi au lieu de parcourir une somme d information dans un ordre s quentiel une simple liste de r f rences une succession de notices bibliographiques nous avons ici une fa on de suivre un ordre th matique qui est co
32. ments de la plate forme infom trique de l INIST NEURODOC et HENOCH ADEST S minaire du 9 d cembre 1997 http www upmf grenoble fr adest seminaires 14 Polanco X Royaut J Grivel L Courgey A Infom trie et linguistique informatique une approche linguistico infom trique au service de la veille scientifique et technologique Les syst mes d information labor e Ile Rousse Corse 1995 15 Polanco X Grivel L Royaut J How to do things with terms in informetrics terminological variation and stabilization as science watch indicators Proceedings of the 5th International Conference of the International Society for Scientometrics and Informetrics Chicago Illinois pp 435 444 1995 16 Polanco X Grivel L Mapping knowledge the use of co word analysis techniques for mapping a sociology data file of four publishing countries France Germany United Kingdom and United State of America JISSI International Journal of Scientometrics and Informetrics Vol 1 Nr 2 june 1995 pp 123 137 4th International conference of Bibliometrics Informetrics and Scientometrics Berlin Germany 1993 17 Polanco X Grivel L Francois C Besagni D L infom trie un programme de recherche Journ es d tudes sur les syst mes d information labor e de la SFBA Ile Rousse Corse Document n 3 des Actes 9p 1993 18 Ducloy J Charpentier P Francois C Grivel L Une bo te outils pour le t
33. monographies p riodiques par th mes e valuer le positionnement th matique d un acteur d une institution d un pays d un vecteur de communication p riodique congr s Ces besoins sont illustr s dans le cadre d une tude sur les plantes transg niques Grivel L HENOCH un outil d analyse de corpus d information scientifique et technique Le Micro Bulletin Th matique n 3 L information scientifique et technique et l outil Internet CNRS DSI p 27 44 1999 1 Pr sentation g n rale d HENOCH Henoch est le r sultat de travaux men s au sein de l Unit Recherche et Innovation de PINIST Cet article d finit le public vis par cet outil son organisation des donn es selon des principes infom triques pour r pondre aux besoins nonc s puis tente de montrer par un jeu de questions r ponses comment se syst me peut aider des organisations laboratoire entreprises dans leur travail d exploration et d analyse de l information scientifique relative leur domaine d activit 1 1 A qui s adresse HENOCH HENOCH s adresse aux chercheurs veilleurs sp cialistes d un domaine scientifique technique ou conomique non n cessairement professionnels de la documentation ou de l informatique documentalistes qui sur un sujet ou un domaine donn veulent partir des bases bibliographiques PASCAL et FRANCIS e avoir une vue d ensemble e suivre et analyser l volution th matique
34. n est pas possible de normaliser de mani re fiable ces entit s sans utiliser de fichiers d autorit Si on prend l exemple du Laboratoire de Malherbologie on peut observer qu il figure dans la base de donn es sous 3 formes diff rentes Fig 13 Ce qui ne pose pas de probl me pour HENOCH car on peut s lectionner plusieurs formes lexicographiques en les consid rant comme constituant un objet unique BE J Sommaire Microsoft Internet Explorer Eile Edit View Go Favorites Help E http yoda inistfr 9001 cgi bin main cgi demo_henoch frame_sommair sommaire carte th mes revues congr s organismes auteurs mots cl s Aide Recherche par organismes ou soci t s Nom des organismes D selectionner D partement de Pathologie v g tale et Malherbologie INRA lab malherbologie INRA Laboratoire de Malherbologie BV 1540 Laboratoire de Malherbologie Institut National de la Recherche Agron Figure 13 Chapitre 8 158 Le lecteur peut donc observer le positionnement th matique de ce laboratoire Fig 14 et lister les documents qu il a produit Dans le cas pr sent ce laboratoire est l origine de trop de documents dans le corpus pour en tirer des conclusions F Sommaire Microsoft Internet Explorer ol x Elle Edit View Go Favorites Help Address fA http yode inist fr9001 cgi bin main cgi demo_henach frame_sommaire template where upper t_setnom 20like x
35. rences bibliographiques ou brevets repr sentatifs d un domaine HENOCH peut fonctionner partir de donn es provenant d autres bases mais seules des donn es provenant de nos bases seront accessibles par Internet Chapitre 8 146 Ce sont 1 les mots cl s comme indicateurs de la connaissance v hicul e par le document associ s aux r f rences bibliographiques de fa on manuelle ou assist e par ordinateur 2 les classes comme indicateurs des th mes ou centres d int r t autour desquels s agr ge l information articles auteurs institutions p riodiques 3 et enfin la carte comme indicateur strat gique de la position relative des th mes dans l espace de connaissance couvert par les documents analys s En conclusion nous d finissons une base de donn es infom triques comme rassemblant et structurant ces informations en les associant aux donn es bibliographiques donnant ainsi la possibilit de mettre en relation tout l ment constitutif d une r f rence bibliographique auteur titre source affiliation avec les th mes classes ou clusters obtenus par classification automatique Les caract ristiques concernant la classification et la cartographie sont disponibles l adresse de l Unit Recherche et Innovation http www inist fr pri pri htm et dans un article publi dans la revue lectronique SOLARIS accessible galement sur Internet http www info unicaen fr bnum jelec Solaris d02 2
36. ristiques physiques ou politiques Polanco X Grivel L Mapping knowledge the use of co word analysis techniques for mapping a sociology data file of four publishing countries France Germany United Kingdom and United State of America JISSI International Journal of Scientometrics and Informetrics Vol 1 Nr 2 june 1995 pp 123 137 4th International conference of Bibliometrics Informetrics and Scientometrics Berlin Germany 1993 1 INTRODUCTION We group bibliometrics as well as scientometrics under informetrics What is Informetrics for In our field of performance informetrics operates the following functions analyzing assessing and mapping scientific and technical information STD The analysis is aimed at answering strategic needs and serving scientific and technical monitoring purposes The end product is information on information There are two kinds of STI assessment a metrical assessment of information flows articles journals reports patents and a qualitative assessment of the information processed relevance Mapping or graphical representation consists in presenting STI as maps on which to position both information contents and research actors Moreover informetrics is for us a research programme in the context of an information industry The Institut de l Information Scientifique et Technique INIST is an integrated information centre created by the French Centre National de la Recherche S
37. t de couches minces Structure et ph nom nes lectroniques dans la mati re Etats lectroniques et ph nom nes lectroniques de surface Influence d un champ magn tique sur la mati re condens e Interaction des atomes et des mol cules avec un rayonnement lectromagn tique Etude des ph nom nes dus une irradiation par particules ou ra g Puits quantiques barri res de potentiel confinement optique Croissance et d p t de couches minces Tableau 1 Descriptif des th mes LAYERS GROWTH IRRADIATION PHOTONS VALENCE 15 QUANTUM WELLS COUPLINGS SCATTERING HETEROSTRUCTURES i THIN FILM MAGNETIC FIELDS INTERACTIONS ELECTRON DENSITY ELECTRIC FIELDS 5 PTICAL PROPERTIES IONIZATION PHOTOLUMINESCENCE SIZE ELECTRONIC STATES SURFACES Chapitre 3 46 Figure 1 Carte global du domaine analys Il n est pas question d entrer ici dans des consid rations plus d taill es sur la technique de construction de la carte et son mode d emploi dans l analyse de l IST Nous l avons d j fait plusieurs reprises 10 11 ainsi que nos coll gues qui sont l origine de la m thode des mots associ s 1 2 3 Nous nous contenterons ici de souligner que dans notre dispositif la carte joue le r le d une surface de repr sentation de ces structures complexes que sont les clusters Comme il a t expliqu 3 l emploi d un outil de classification automatique nous p
38. temps 161 3 Perspectives 162 Chapitre 10 Bibliographie g n rale 164 Annexe 1 Le Programme de Recherche Infom trie 1993 173 Annexe 2 Une boite outils pour le traitement de l information scientifique et technique 1991 187 vii Pr ambule Cette th se s est d roul e dans le cadre d une activit de recherche et d veloppement que j effectue depuis 10 ans l Institut d Information Scientifique et Technique INIST premier centre int gr d information scientifique et technique en Europe dont la mission est au sein du Centre National de la Recherche Scientifique CNRS de collecter traiter et diffuser les r sultats de la recherche scientifique et technique Les volutions du service charg des activit s de recherche et d veloppement auquel j appartiens expliquent certaines de mes orientations m thodologiques et informatiques Ces changements qui ont abouti la cr ation en 1998 de l Unit Recherche et Innovation URI mont permis de collaborer avec de nombreuses personnes J ai ainsi pu b n ficier de l exp rience acquise par le SERPIA dirig par William Turner au sein du CDST Dans le cadre d un projet europ en KWICK Esprit II project n 2466 initi par William Turner j ai eu la responsabilit de d velopper un outil nomm SDOC bas sur la m thode des mots associ s fruit d une collaboration entre le Centre de Sociologie de l Innovation de l Ecole des Mines de Paris et le CD
39. 0 067 State 0 032 Inequality 0 083 Work 0 032 Sanction 0 114 Ideologies 0 040 Careers 0 039 Gender Differences 0 018 Professions 0 041 Organisation 0 017 Family 0 021 Relations 0 042 Regions 0 044 Occupational Mobility 0 036 Enterprises 0 048 Females 0 040 Lowel em m Sy a oa pi eS pmi DS I ON Un A A Un Ww NUNUA RUUON AAF DCOCOCOHN NOOR 0 A 00 A BR o Un R U 1 D O A A Chapitre 2 37 Table 7 Germany Z Name Generation Woman s Work Fertility Application Technology Employment Political Attitudes Industry Politics Modernity Social Policy Social Movements Structures Research Attitude towards Social Change Communication Risk Relations Factors Feminism Work Representation Evolution os O sA N D I A Hi D I 8 OCDAADTAOCBRONN D NYTOCTDWAHONAFNWOF TA ND 00 R 00 00 O Un Un J EN RO Un DAA AD Name Mental Illness Drugs Blacks Crime Judicial Organization Offenses Sanction Professions Regions Youth Criminality City Police Religious Attitudes Family Employment Ethnic Groups Relations Females Theory FR wa os pd OWTOANDASPNWOHPADHPONAWANAINAMN BR D R R O Un 00 I A p
40. 2 4 donne des r sultats tr s prometteurs Le traitement de 1000 notices Unimarc environ 2000 caract res demande une minute sur station SUN y compris la transformation en SGML et la cr ation de fichiers inverses il faut par exemple moins d une heure pour obtenir une version jour du catalogue des p riodiques partir d une bande magn tique alors que cette op ration demande plusieurs jours sur la machine de gestion en amont ceci pour un co t de stockage minime Pour l exploitation des donn es et uniquement pour l exploitation nous sommes donc amen s proposer c t d une architecture SGBD un ensemble de bases d exploitation ventuellement redondantes c est dire qu un m me ensemble d informations peut exister plusieurs fois avec des structurations diff rentes Nous travaillons en ce moment sur ce type d organisation o les outils traditionnels tels que dictionnaires de donn es doivent tre adapt s pour tenir compte des nombreuses redondances volontairement accept es ou pour int grer une description parall le dans les DTD SGML Pour obtenir un r el Atelier Flexible il faudrait enfin prendre en compte l interface homme machine et nous serons probablement amen s avoir deux strat gies Pour les op rations bien maitris es et d di es des utilisateurs cibl s fabrication r p titive mais param trable d un produit nous produirons en utilisant des solutions existantes Aida des ateliers peu
41. 4 base de donn es 3 enregistrement 2 l ments de donn es objets l mentaires fig 6 3 2 1 Niveau des objets l mentaires Cette couche ne concerne que les r gles de codification des objets l mentaires d un point de vue mat riel caract res entiers Comme il s agit d changes de donn es entre processus pouvant s ex cuter sur des syst mes diff rents nous nous sommes limit s au seul type caract re En pratique nous avons d fini un jeu de caract res minimal ne posant aucun probl me de visualisation sur imprimante ou terminaux sous ensemble des caract res graphiques de la norme ISO 646 ayant comme seuls caract res de contr le le saut de ligne s parateur d enregistrements et la tabulation s parateur de zones 3 2 2 Niveau l ment de donn es Cette couche est utilis e pour sp cifier les objets l mentaires au niveau d une application codification des nombres des dates des noms de pays des noms propres Pour le moment nous nous sommes surtout int ress s a la codification des caract res sp ciaux et accentu s utilis s dans les langues latines L annexe D 4 de la norme SGML propose une suite de recommandations pour coder les caract res diacritiques les caract res accentu s des langues latines grecques ou cyrilliques Chaque caract re est repr sent par un et commercial amp suivi par son identification et un point virgule Par exemple est repr sent par amp
42. 5 Comment effectuer le positionnement d un p riodique d un auteur d une affiliation d un mot cl dans les th mes Objectif Le but est de savoir dans quelles th mes un p riodique un congr s un auteur une affiliation un mot cl est positionn le nombre de documents qui est l origine de ce positionnement dans le corpus pour chaque th me puis de naviguer vers ces documents Proc dure suivre Chapitre 8 156 Il faut d abord savoir si le p riodique le congr s l auteur l affiliation le mot cl dont on cherche le positionnement th matique est bien dans la liste des p riodiques des congr s des auteurs des affiliations des mots cl s et sous quelle les forme s il a t saisi Chacun des boutons 4 8 qui figurent de mani re permanente dans le menu principal a pour effet de d afficher une boite de s lection compos e d une zone de saisie et d un bouton intitul filtrer qui permet de faire une recherche sur la liste correspondant l intitul du bouton revues congr s organismes auteurs mots cl s ZJ Sommaire Microsoft Internet Explorer DO x File Edit View Go Favorites Help Address ja http yoda inist fr 9001 cgi bin main cgi demo_henoch frame_sommaire z sommaire carte th mes revues congr s organismes auteurs mots cl s Aide Recherche par periodiques sur le corpus Nom du periodique Filtrer OK D selectionner Acta bot gallica Acta pharmaceu
43. B MOTHE J Mining information in order to extract hidden and strategic information Computer Assisted Information Searching on Internet RIAO97 pp 32 51 June 1997 20 DKAKI et al 1998 DKAKI T DOUSSET B MOTHE J Analyse d informations issues du Web avec T tralogie VSST 98 Veille Strat gique Scientifique amp Technologique Toulouse Octobre 1998 21 DOU 1995 DOU H Veille technologique et comp titivit Dunod 1995 22 DOUSSET 1997 DOUSSET B DKAKI T Evaluation et expertise scientifique Journ es d tudes sur les syst mes d information labor e de la SFBA Ile Rousse Corse 1997 23 DUCLOY et al 1991 DUCLOY J CHARPENTIER P FRANCOIS C GRIVEL L Une bo te outils pour le traitement de l Information Scientifique et Technique 4es Journ es Internationales Le G nie logiciel et ses applications Toulouse 9 13 D cembre 1991 p 239 254 et dans G nie logiciel n 25 1991 p 80 90 24 DUCLOY et POLANCO 1992 DUCLOY J POLANCO X D une boite a outils la description du domaine des cognisciences Journ es d tude ADEST Prendre la mesure des sciences et techniques la scientom trie en action Paris 1 11 juin 1992 25 DUCLOY et al 1991 DUCLOY J GRIVEL L LAMIREL J C POLANCO X SCHMITT L INIST s Experience in Hyper Document Building from Bibliographic Databases Proceedings of Conf rence RIAO 91 Barcelone Spain vol 1 26 DUCLOY 1999 DUCLOY J
44. Chapitre 1 12 A partir d une repr sentation vectorielle des donn es la m thode des k means axiales consid re l ensemble des documents comme un nuage de points plong dans un espace g om trique o chaque dimension correspond un mot cl Elle est caract ris e par une repr sentation des classes par des vecteurs pointant vers les zones de forte densit du nuage Tandis que les techniques de classification non hi rarchiques usuelles repr sentent les k classes recherch es par leur centre de gravit la m thode k means axiales d finit les k classes par k demi axes passant par l origine de l espace g om trique ou k vecteurs unitaires pointant dans la direction des ces demi axes Cette m thode param tr e par le nombre maximal de classes d sir k et le seuil d appartenance des documents et des mots cl s dans les classes permet de construire des classes d un type particulier e ces classes sont recouvrantes car un document ou un mot cl peut appartenir plusieurs classes la fois e les l ments documents et mots cl s de chaque classe sont ordonn s selon leur degr de ressemblance au type id al de la classe Afin de positionner les classes obtenues les unes par rapport aux autres sur une carte l ensemble des classes est trait comme un nuage de points Une ACP recherche les directions d allongement maximum de ce nuage permettant de d terminer un plan sur lequel tous les points sont ensuite projet s orthogon
45. Directory Window Help Titres du th me Enzyme inhibitor extrait du corpus industrial enzyme 21 Titres 126 Auteurs Description textuelle ou graphique Sources Liste des th mes Carte Numero Titre 95 0537939 Terpendoles novel ACAT inhibitors produced by Albophoma yamanashiensis III Production isolation and structure elucidation of new components Anew aromatase inhibitor FR901537 I 95 0537784 Taxonomy fermentation isolation physicochemical characteristics and biological activities GERI BP001 compounds new inhibitors of 95 0538755 acyl CoA cholesterol acyltransferase from Aspergillus fumigatus F37 I Production isolation and physico chemical and biological properties 95 0501441 Actinoplanic acids A and B as novel inhibitors of farnesyl protein transferase Tha afanta af nan dantnitait ma oF barman man ts nan Biik x H zla Document Done M Z data Figure 5 titles related to Enzyme inhibitor 4 2 2 Assisted searching mode lolx x Netscape Description textuelle du th me Enzyme inhibitor File Edit View Go Bookmarks Options Directory Window Help Description du th me Enzyme inhibitor extrait du corpus industrial enzyme Description textuelle ou 21 Titres 126 Auteurs Sources kinis Liste des th mes Carie
46. Discovery Process A Multilayer Perceptron versus Principal Components Analysis A Comparative Study J M Zytkow and M Quafafou eds Principles of Data Mining and Knowledge Discovery Second European Symposium PKDD 98 Nantes France 23 26 September 1998 Lecture Note in Artificial Intelligence 1510 Subseries of Lecture Notes in Computer Science Berlin Springer pp 28 37 1998 QUONIAM L 1988 Quoniam L Bibliom trie Informatis e et Information Strat gique Th se de doctorat en Sciences de l information et de la communication Universit Aix Marseille III pp 330 1988 QUONIAM L 1992 Quoniam L Bibliom trie sur r f rences bibliographiques m thodologie in La Veille Technologique l Information scientifique technique industrielle DUNOD 1992 Rapport Inria N 3198 Acquisition et structuration des connaissances en corpus l ments m thodologiques Muller C Polanco X Royaut J Toussaint Y Rapport Inria N 3198 ROSTAING 1996 ROSTAING H La bibliom trie et ses techniques Edition sciences de la soci te coll Outils et m thodes 1996 13 1p ROUSSEAU 1998 Rousseau F L analyse de corpus d information comme support de la veille strat gique Document num rique 2 177 202 juin 1998 ROYAUTE et JACQUEMIN 1993 Royaut J et C Jacquemin 1993 Indexation automatique et recherche de noms compos s sous leurs diff rentes variations Informatique amp L
47. Eds Hypertexte et hypermedia r alisations outils et m thodes Paris Editions Herm s 109 118 1995 40 GRIVEL et al 1995 GRIVEL L MUTSCHKE P POLANCO X Thematic mapping on bibliographic databases by cluster analysis a description of the SDOC environment with SOLIS Journal of Knowledge Organization vol 22 2 70 77 1995 41 GRIVEL et al 1997 GRIVEL L POLANCO X KAPLAN A A computer system for big scientometrics at the age of the World Wide Web Scientometrics vol 40 N 3 493 506 1997 166 42 GRIVEL 1999 GRIVEL L HENOCH un outil d analyse de corpus d information scientifique et technique Le Micro Bulletin Th matique n 3 L information scientifique et technique et l outil Internet Editeur CNRS DSI p 27 44 1999 43 GROSS 1988 GROSS G Structure des noms compos s Informatique amp Langue Naturelle ILN 88 Nantes France Octobre 1988 44 HABERT ET JACQUEMIN 1993 HABERT B JACQUEMIN C Noms compos s termes d nominations complexes probl matiques linguistiques et traitement automatiques Traitement Automatique des Langues 34 2 p 5 42 1993 45 HEALEY et al 1986 P HEALEY H ROTHMAN P HOCH An Experiment in Science Mapping for Research Planning Research Policy vol 15 p 233 251 1986 46 HERWIJNEN 1990 HERWIJNEN E Practical SGML Kluwer Academic Publishers 1990 47 HUOT 1992 HUOT C Analyse relationnelle pour la veille tech
48. Nous avons pu mener des op rations d analyse de donn es en vue de veille scientifique en travaillant uniquement sur des donn es notices listes inverses associations ou clusters en balisage SGML brut De m me du c t des informaticiens et concepteurs nous avons Annexe 2 201 pu constater que la manipulation ou la visualisation de donn es interm diaires en format SGML tait un support plus performant pour l intuition que la simple sp cification abstraite de ces m mes informations 6 VERS DES ATELIERS En th orie cette biblioth que est un maillon d un ensemble plus complexe illustr par la figure ci dessous Les notices bibliographiques sont labor es dans le cadre d un sch ma relativement classique production des notices sur station de travail COR91 et gestion de la production sur SGBD DUC89 puis recopi es pour tre exploit es sur une plate forme documentaire Au niveau de la production un atelier de g nie logiciel classique est parfaitement adapt Au niveau de l exploitation la biblioth que ILIB constitue le noyau de ce qui devrait devenir un Atelier Flexible pour la Fabrication d Informations Elabor es Enfin pour batir cet Atelier en utilisant les r sultats pr c dents peut tre faut il construire ou plus pr cis ment adapter un Atelier de G nie Logiciel La construction de ces deux ateliers est l objet de ce paragraphe il est noter que l INIST a pour mission de produire de l information et non
49. RDBMS gateway figure 2 From a software engineering point of view HENOCH meets two requirements i e to integrate itself into our informetric system and to provide for the reusability of its components for other applications based on SGML RDBMS WWW HENOCH is designed as an applications generator HENOCH components permit to supply any RDBMS with SGML documents Then the WWW RDBMS gateway is as generic and extensible as possible use of templates of HTML pages containing both classical HTML tags and embedded SQL calls advanced functions of presentation such as graphs histograms maps Chapitre 6 108 Figure 1 The RDBMS supplying process 3 1 Conversion of SGML documents into database tables As shown in figure 1 Skelettor creates the skeleton of the database 1 e the basic structures to represent the data Skelettor takes as an input the tables description and the code of the insertion procedure in PLSQL procedural SQL associated to each table Then Convertor reads the SGML data files and stores the data in the database These two C programs communicate with the RDBMS through an API Application Programming Interface an abstraction level which makes transparent the calls to the specific functions of the chosen DBMS The API called Capsule encapsulates the creation and manipulation functions of the database system By using the API Capsule the programs are independent from the RDBMS To obtain independence from data struc
50. Techniques for mapping a Sociology Data File of four Publishing Countries FRANCE GERMANY UK and USA Publi en 1993 1 Introduction Method 2 1 Co words analysis 2 2 SDOC programmes 3 Data amp Bibliometric Analysis 3 1 Construction of the data file 3 2 Application of the Bradford Law 4 Results and Commentary 4 1 Cluster analysis 4 2 Representing Knowledge in Scatter Diagrams 29 Conclusion Epilogue Appendix R f rences D I ON Un Vili xi R I En U1 U R D D p 21 22 23 23 23 24 24 25 26 21 34 35 36 38 Chapitre 3 Apports de la linguistique informatique l analyse de PIST par la m thode des mots associ s Titre original Infom trie et linguistique informatique une approche linguistico infom trique au service de la veille scientifique et technologique Publi en 1995 1 3 6 7 Introduction Objectifs et hypoth se Donn es instruments et techniques 3 1 Donn es 3 2 Outil infom trique 3 3 Outils linguistiques Exp rimentation Discussion 5 1 Variation et figement 5 2 Indicateurs de variation et de figement 5 3 Application 5 4 Les clusters et les ph nom nes de variation et de figement 5 5 Analyse de deux th mes repr sentatifs de la variation et du figement Conclusion R f rences Chapitre 4 G n ration automatique d hypertextes avec cartes th matiques avant le World Wide Web Titre original Thematic Mapping on Bibliographic Databases
51. Une boite outils pour le traitement de l information scientifique et technique G nie logiciel et syst mes experts 25 1991 pp 80 90 Paris 9 E Garfield Citation analysis as a tool in journal evaluation Science 178 1972 pp 471 479 10 X Polanco X L Grivel Mapping knowledge the use of co word analysis techniques for mapping a sociology data file of four publishing countries France Germany United Kingdom and United State of America 4th International conference of Bibliometrics Informetrics and Scientometrics 11 15 Septembre 1993 Berlin Germany 11 G Salton The SMART retrieval system Experiments in automatic document processing Englewoods Cliff New Jersey Prentice Hall Inc 1971 12 G Salton Automatic text processing the transformation analysis and retrieval of information by computer New York Addison Wesley 1989 13 H Small Co citation in the scientific litterature A new measure of the relationship between two documents Journal of the American Society of Information Science 24 1973 pp 265 269 Chapitre 4 74 Chapitre 5 D marche g n rale d application de m thodes d analyse de PIST et d exploitation de leurs r sultats Comme cela a t signal dans le chapitre 2 l analyse de PIST ne peut tre effectu e sans s appuyer sur une solide d marche m thodologique Ceci suppose une documentation ad quate de la ou des m thode s employ e s et de la
52. ainsi que des quipes qui analysent les activit s de recherche comme le montre par ailleurs l ouvrage sous la direction de H l ne Desvals et Henri Dou La veille technologique Paris DUNOD 1992 2 D finitions On entend par infom trie l ensemble d activit s m triques concernant le domaine particulier de l information scientifique et technique IST a Bibliom trie celle ci a t d finie en 1969 comme Tapplication des math matiques et des m thodes statistiques aux livres articles et autres moyens de communication A Pritchard Statistical Bibliography or Bibliometrics Journal of Documentation vol 25 n 4 December 1969 p 348 349 voir aussi R N Boadus Toward a Definition of Bibliometrics Scientometrics vol 12 n 5 6 1987 p 373 379 b Scientom trie on peut la consid rer comme la bibliom trie sp cialis e au domaine de V IST Toutefois la scientom trie d signe d une mani re g n rale l application de m thodes statistiques des donn es quantitatives conomiques humaines bibliographiques caract ristiques de l tat de la science Ainsi par exemple dans la pr sentation de la revue Scientometrics on peut lire que la scientom trie comprend la research concerned with quantitative features and characteristics of science ainsi que the development and the mechanism of science studied by means of statistical mathematical methods c
53. another cluster the latter has been cited by the former as a related item of information The bibliographic information represented by a given cluster is measured and characterized by the parameters 8 and 9 The column 9 is also an indicator of the bibliographic independence of a cluster in relation to other clusters The name of a cluster is only a label The heuristic used to label the clusters is to choose the keyword which appears the most frequently in the associations The name of a cluster suggested automatically may sometimes be more a mask than a source of information The program should allow an expert to change its name in this case as for instance for the Relations cluster in the four lists of clusters But taking into account that this cluster is related to a significant number of bibliographic references SDOC programmes permit us to come back to this number of references to isolate it in a datafile and to process this datafile in order to again obtain a classification of the information masked by the label a visualisation of information We call this action the russian doll procedure One can also see the use of the word region in the singular and pluriel forms This demonstrates a certain indexing policy and indicates for us the need to adopt methods to normalize the indexing vocabulary in input in order to correct these undesirable effects These tables of clusters enable us to know something about the problems studied and
54. appara t dans un des dispositifs hypertextes possibles le logiciel Hypercard sur Macintosh Un th me est donc constitu de quatre listes mots cl s documents auteurs et sources tri es par ordre de pertinence d croissant par rapport au type id al de la classe Une classe est nomm e par le mot cl de typicit la plus forte par rapport au type id al de la classe cf 2 Dans environ 20 des cas la r vision de ce nom par un expert peut tre n cessaire CRT Un mot cl est repr sent par son libell et sa valeur de typicit par rapport au th me Les valeurs de typicit des mots cl s permettent de distinguer les mots cl s importants pour l interpr tation du th me et d estimer la structure de la classe En effet nous observons deux types de classes classe dont la typicit des mots cl s d croit de fa on continue dans la liste des mots cl s 12 Macintosh et Hypercard sont des marques d pos es de Apple Computer Inc 13 Nous rappelons que la pond ration utilis e pour calculer la valeur de typicit permet de faire ressortir les mots cl s fr quents dans cette classe et rares dans l ensemble des documents Chapitre 5 94 299 classe o nous observons des ruptures importantes dans les valeurs de typicit dans ce cas un nombre restreint de mots cl s d finissent le th me Les classes construites partir d un petit nombre de documents p
55. apports d un tel environnement sont jug s faibles ou insuffisants concernant les objectifs suivants e rep rage de nouvelles orientations voire de nouvelles activit s ou de nouvelles collaborations d un acteur traditionnel e suivi de l volution d un th me e rep rage de nouveaux acteurs services ou produits e identification des tendances par rapport un march Cette liste de points faibles constitue en fait une m me probl matique A ce jour HENOCH permet de visualiser des photographies classifications successives des corpus de donn es sans qu il y ait des moyens objectifs de mesurer l volution entre deux photographies Comment d passer ces limites et d tecter des volutions au fil du temps d tecter des signaux faibles des tendances Consid rant la difficult comparer des cartes th matiques dont les th mes ont chang E Noyons et A Van Raan ont propos r cemment deux type de comparaison dans le temps des cartes th matiques Noyons 1998 e reconstruire le pr sent partir du pass le principe est d affecter les articles publi s durant l ann e t une classification d articles d une ann e ant rieure par exemple t 4 puis d observer l volution des proximit s th matiques sur deux cartes au temps t et t 4 par exemple obtenues par la m thode du Multi Dimensional Scaling MDS Chapitre 9 163 KRUSKAL 1964 qui est une m thode de cartographie planaire qui tente d
56. approche permettrait de simuler les d formations des classifications au fil du temps Elle est donc potentiellement plus prometteuse que l approche d velopp e par Noyons et Van Raan N anmoins son applicabilit dans notre domaine n est pas vidente puis qu il faut recalculer les fr quences de mots d auteurs etc chaque nouveau document avant de reconstruire la hi rarchie des classes Et m me en se situant dans une hypoth se de vocabulaire ferm comme pr c demment ce qui serait fort restrictif comment rendre compte visuellement de ces ph nom nes 3 Perspectives Pour la d tection et l analyse des volutions th matiques dans le temps l int gration de techniques de classification incr mentale au sein d une plate forme d analyse est une piste prometteuse Elle suppose une volution de l ergonomie de l interface d analyse qui devra tre capable de construire dynamiquement des images anim es dans un espace multi dimensionnel partir de donn es stock es dans une base de donn es dont les valeurs volueront au fil du temps Ceci constitue un objectif long terme pour la recherche sur la g n ration automatique d hypertextes ergonomiques pour l analyse de l information Cette voie de recherche est une recherche appliqu e de nature transversale m lant profond ment informatique analyse de donn es et sciences de l information Elle n cessite une collaboration active avec des chercheurs de
57. as input to the clustering is 392 In order to analyse this datafile we will first study the variables which characterize a cluster as an indicator of a research theme Then we will focus on the use of the hypertext maps as a means to explore the thematic structure of the database by theme Chapitre 4 66 Finally we will analyse the cluster relationships 3 2 Coword Clusters as Knowledge Indicators Applying SDOC on the Social History document set provides 27 clusters in all s Fig 1 1 A General Map of Social History Themes Table 3 1 shows these clusters with the following characteristic data 1 Cluster saturation threshold 2 Density 3 Centrality 4 Number of internal keywords 5 Number of external keywords 6 Number of internal associations 7 Number of external associations with other clusters 8 Number of thematic references of a subject by other topics 9 number of bibliographical references related to the cluster 10 number of bibliographical references exclusively related to the cluster Table 3 1 Characteristics of the 27 clusters obtained in alphabetical order ONE Ae S Antisemitism 0 125 0 212 0 106 Bourgeoisie 0 133 0 185 0 129 A Chronology by 0 200 0 296 0 160 is 7 38 18 i Century 8 Culture 0 173 0 376 0 122 10 5 14 6 5 19 0 Domination 0 118 0 296 0 131 8 5 10 8 10 25 1 Emigration 0 083 0 218 0 071 10 1 18 1 6 22 6 Family 0 111 0 148 0 033 4 9 3 10 1 12 1 Forei
58. associ s AU gt une liste tri e des auteurs AF gt une liste tri e des affiliations des auteurs SO gt une liste tri e des des modes de publication des auteurs les sources 2 Choisir un th me sur la carte en cliquant sur le nom du th me ou sur le cercle noir positionn avant le nom Chapitre 8 149 FJ Sommaire Microsoft Internet Explorer OI x Eile Edit View Go Favorites Help I7 Address http yoda inistfr 9001 cgi bin main cgi demo_henoch frame_sommaire template where uppe ERE BUR A sommaire carte th mes revues congr s organismes auteurs mots cl s Aide 5 efood industry methods rape risk elignous plant breeding improvement pee resistance CTI protoplast organic acids G MC transfer oso lignous plant virus 3 AF kanamycin C AU regulation petunia maize cereals insertion nodule antibody rhizogene tomato epseudomonas transcription arabidopsis potato Figure 2 2 2 Comment analyser la carte L analyse de la carte d pend de la m thode de cartographie employ e Dans le cas pr sent l algorithme de cartographie l analyse en composante principale r duit le nombre de dimensions de donn es statistiques multidimensionnelles de telle mani re que deux th mes au contenu similaire soient relativement proches sur la carte L interpr tation de la carte est d lic
59. au syst me d assurer moindre co t la recomposition de l objet en utilisant les liaisons de O La technique propos e devrait donc tre plus efficace dans un environnement couplant XML un moteur d indexation et de recherche d information et un SGBDOO D un point de vue pragmatique le couplage XML et SGBD que ce dernier soit relationnel ou objet est de toute fa on une solution qui permet de b n ficier du meilleur de ces deux technologies Elle permet non seulement l int gration de donn es h t rog nes dans une base mais aussi de distribuer des informations extraites de la base de donn es sous forme de donn es XML soit pour des traitements ult rieurs soit pour naviguer dans la base infom trique travers une interface hypertexte Elle est viable sur le long terme d autant plus que chacun des deux types d environnement propose des interfaces de programmation API qui tendent se standardiser Chapitre 7 134 4 Conclusion L un des probl mes relatifs la constitution de bases infom triques est l h t rog n it des donn es Nous avons propos une approche informatique bas e sur un couplage XML SGBD pour l int gration de donn es h t rog nes Cette approche sp cifie de mani re d clarative les relations entre les l ments de donn es et leur repr sentation dans la base en utilisant une sorte de r gle de r criture qui permet d ex cuter par exemple une m thode de cr ation
60. automatiquement la structure cognitive d un grand ensemble de documents sans passer par un plan de classement pr tabli les technologies de classification automatique et de repr sentation graphique cartes d velopp es en analyse de donn es sont les plus adapt es Si de plus on se propose de repr senter les connaissances v hicul es par les textes scientifiques et techniques sous leur forme crite il est indispensable de s appuyer sur des techniques linguistiques Dans ce cadre l analyse de PIST peut alors tre d finie comme l application de techniques de traitement automatique du langage naturel de classification automatique et de repr sentation graphique cartographie du contenu cognitif et factuel des donn es bibliographiques La deuxi me partie explicite les liens entre le concept d hypertexte et les m thodes d analyse D une m taphore la navigation dans un oc an d information se d duit un principe de conception qui est aujourd hui commun a un certain nombre d quipes de recherche dans notre domaine d application l analyse de PIST g n rer automatiquement des hypertextes avec leur carte de navigation Ce principe se concr tise sur le plan op rationnel par un syst me g n rateur d hypertextes accompagn s de leur carte de navigation le syst me HENOCH Ce syst me trouve sa place au sein de la plate forme infom trique de l URI qui est d crite dans son ensemble Chapitre 1 1 1 L ana
61. bibliographic data A representation is a set of conventions about how to describe information Thinking seriously about scientific information of any sort requires thinking seriously about what representation is best suited to the domain from which the bibliographic information comes from Indeed the main purpose of the paper is to demonstrate the central importance of finding good representations capable of bearing good descriptions 2 2 SDOC programmes SDOC is an original implementation of co word analysis from the point of view of computer information technology The programmes are implemented under the Unix Chapitre 2 23 operating system and written in C language according to a toolkit philosophy based on modularity and data flow communication rather than a press button software package Thus the modules are organized in a toolbox Ducloy and alli 1991 We use SGML Standard Generalized Markup Language to describe bibliographical references whatever their source and SGML standard is used as pivot format and as specification language for coding intermediate data see Figure 1 Co words analysis has been broken down into the following steps each corresponding to an independent module communicating with others by file 1 Building keywords index from a set of bibliographic references 2 Computing cooccurrences of keywords and measuring the similarity of the keywords 3 Cutting up the keywords associations network into clu
62. carte figures 1 et 2 Il s agit d un cluster qui pr sente une structure molle cause justement de la valeur faible de ses associations internes ELECTRONIC STATE Ce th me rassemble des articles traitant de la structure lectronique niveaux d nergie structure de bande et des ph nom nes lectroniques propri t s optiques photo mission dans la mati re condens e incluant les puits quantiques et autres h t rostructures C est un th me tr s homog ne dont tous les mots cl s qu ils soient obtenus par associations internes ou externes voquent le comportement des lectrons dans la mati re ENERGY est en effet une composante de l expression ENERGY LEVEL relative aux niveaux d nergie lectronique On observe pour ce th me de nombreux ph nom nes de variation que l on peut classer en diff rents types a Certaines variations introduisent un autre objet ou un autre ph nom ne que celui contenu dans le mot cl original C est souvent le cas avec la variation de coordination le terme CONDUCTION BANDS est observ dans l expression conduction and valence band C est ainsi que dans cette expression est introduite une autre bande qui est la bande de valence On rencontre le m me ph nom ne pour le terme VALENCE BANDS b D autres variations les plus nombreuses apportent une pr cision sur l objet ou le ph nom ne d crit Par exemple le terme ELECTRONIC STRUCTURE est obtenu par r
63. categories of problems arise from the study of scientific knowledge One deals with the act of producing knowledge the other is concerned with the very structures of knowledge produced by scientific activity see Popper 1979 p 112 113 We are concerned in our study by this second category of problems Co word analysis is a way of mapping the structure of scientific knowledge expressed by authors in their publications What do maps actually represent On the one hand they represent a set of clusters which designate specific centres of interest or themes or subject areas On the other hand they represent a network structure It is a two dimensional space The Y axis called density indicator is defined by the strength of the internal word associations It is thought to indicate internal coherence of the subject area The X axis called centrality indicator is defined by the strength of the external associations It indicates the role of a subject area in structuring a field of research When Derek de Solla Price said that the pattern of bibliographic references indicates the nature of the research front he was clearly thinking of the citation analysis Price 1965 The citation of one paper by another in its footnotes or bibliography was the basis of his idea that science can be mapped The co word analysis is another tradition in mapping science We emphasize that co word maps are representations of knowledge structures network The figure 3
64. ces trois domaines Ma formation initiale en informatique DEA et la r flexion que j ai men e dans le cadre de cette recherche devraient me permettre de poursuivre cette voie en collaboration avec l quipe Orpailleur du LORIA Nancy avec laquelle URI partage un objectif moyen terme construire un syst me de gestion de connaissances au service de la veille scientifique POLANCO et al 1998b Chapitre 9 164 Par ailleurs j entends poursuivre la r flexion que j ai d velopp e dans le chapitre 7 sur la constitution de bases infom triques hybrides multi sources multi types de donn es et notamment l int gration de donn es h t rog nes Le besoin croissant d indicateurs europ ens nationaux r gionaux institutionnels demande pour tre satisfait la mise en place de ces nouvelles bases de donn es hybrides adapt es au calcul d indicateurs Pour PINIST cela signifie la possibilit de se positionner comme un acteur important sur la sc ne europ enne Chapitre 9 165 Bibliographie g n rale 1 ABITEBOUL et al 1997 ABITEBOUL S CLUET S CHRISTOPHIDES V MILO T MOERKOTTE G SIMEON J Querying Documents in Object Databases International Journal on Digital Libraries 1 1 5 19 1997 2 BARRE et al 1995 BARRE R LAVILLE F TEIXEIRA N ZITT M L observatoire des sciences et des techniques activit s d finition m thodologie SOLARIS 2 p 219 235 1995 3 BLAIR 1988 BLAIR D C
65. cessit de g n rer automatiquement des hypertextes avec leur carte de navigation et des indicateurs de positionnement partir des donn es analyser L exploration de cette voie a d bouch sur la conception et le d veloppement d un syst me informatique HENOCH qui permet de rassembler et d organiser dans un SGBD Syst me de gestion de bases de donn es des donn es bibliographiques normalis es et trait es par diverses techniques puis de distribuer ces informations sur INTERNET via une interface de navigation g n r e automatiquement et adapt e l analyse de l information chapitres 6 7 et 8 Sur le plan technologique l originalit d HENOCH est de s appuyer sur SGML pour r aliser le couplage SGBD Web Ce couplage permet non seulement l int gration de donn es h t rog nes des notices dans diff rents formats des r sultats de classification des tables de nomenclatures etc dans une base mais aussi de distribuer des informations extraites de la base de donn es sous forme de donn es SGML ou HTML soit pour des traitements ult rieurs soit pour naviguer dans la base infom trique a travers une interface hypertexte dont les liens sont exprim s dynamiquement sous forme de requ tes dans le SGBD Sur le plan conceptuel il a t montr exp rimentalement que l hypertexte en tant que principe d organisation de l information permet de mod liser et de mettre en place concr tement des m canisme
66. cha ne de traitement une d finition claire des sources de donn es et des indicateurs utilis s C est l approche qui est suivie dans ce chapitre Ce chapitre d crit une d marche d analyse mettant en uvre deux m thodes permettant de classer et repr senter graphiquement d normes quantit s d information bibliographique les mots associ s et une autre plus r cente associant une technique de classification les K means axiales une technique d analyse factorielle courante P Analyse en Composantes Principales ACP Dans la premi re partie les deux m thodes sont pr sent es en d tail et compar es d un point de vue th orique et pratique Bien qu il existe une grande sym trie entre les deux processus expliquant les accords observ s exp rimentalement entre les r sultats des deux m thodes les m thodes offrent des repr sentations diff rentes classes de mots cl s structur es par les relations de cooccurrences dans un cas classes de mots cl s floues et recouvrantes dans l autre cartes th matiques fournissant des informations de natures diff rentes indicateurs structurels et visualisation des r seaux locaux dans un cas oppositions des th mes selon deux axes principaux dans l autre cas La deuxi me partie de ce chapitre aborde le probl me de la qualification des r sultats afin de limiter les risques d erreurs lors de leur interpr tation Une d marche d analyse est propos e qui met l a
67. cl s appartenant a la liste de mots cl s internes et un mot cl s appartenant a la liste de mots cl s externes 7 Les param tres fixer mode de calcul des coefficients d associations taille de classes nombre max d associations internes nombre max d associations externes nombre maximum de documents par classe 8 Position des th mes sur un plan Axe horizontal X associations externes Axe vertical Y associations internes 8 La connaissance objective Nous exposons ici les bases th oriques de notre programme infom trique que nous entendons circonscrire prioritairement au domaine des sciences de information Selon le philosophe des sciences Karl Popper il existe le monde des ph nom nes physiques et sociaux le monde subjectif des tats de conscience des tats mentaux ou des dispositions comportementales celui du sujet connaissant et par rapport auquel la connaissance crite celle qui est v hicul e par la litt rature scientifique et que nous analysons repr sentent la connaissance objective Ceci induit deux cat gories de probl mes concernant l tude de la connaissance la premi re comprend les probl mes relatifs aux actes de production ou de formation de connaissance la seconde comprend les probl mes relatifs aux structures de la connaissance produite au sens objectif d crite et publique C est cette deuxi me cat gorie de probl mes qui constitue l objet de notre travai
68. coordonner l exploitation des r sultats de diff rentes techniques d analyse techniques linguistiques classificatoires cartographiques etc appliqu es a des donn es bibliographiques D nomm HENOCH ce syst me permet de e rassembler et d organiser dans un SGBD Systeme de gestion de bases de donn es des donn es bibliographiques normalis es et codifi es ainsi que les r sultats de Papplications des diff rentes techniques d analyse ces donn es e distribuer ces informations sur INTERNET via une interface de navigation g n r e automatiquement et adapt e l analyse de l information HENOCH est employ r guli rement par l INIST dans le cadre d op rations de veille n cessitant l analyse de gros volumes d informations Les bases de donn es hypertextes construites par HENOCH sont consult es par les partenaires de l INIST d partements scientifiques du CNRS centres de recherche fran ais et trangers consultants etc pour produire des rapports de veille ou de tendances comme par exemple une tude sur les prions UNIPS unit d indicateurs de politique scientifique du CNRS un rapport de tendance sur les plantes transg niques Bureau Van Dijk un rapport europ en sur les th mes cl s dans le domaine des biotechnologies rapport EUR 17342 EN Universit de Bristol Royaume Uni HENOCH est galement un support d enseignement de la veille technologique l Universit de Nancy
69. d occurrence de documents dans les clusters dans notre cas 321 doit tre examin la lumi re de la distribution des documents dans les clusters Celle ci a un comportement analogue la loi de Zipf 53 des documents class s ne sont pr sents que dans un seul cluster 30 dans deux clusters 10 dans 3 clusters etc Ces chiffres permettent d valuer le niveau d inclusion mutuelle ou recouvrement des ensembles de documents associ s aux clusters Ce taux de recouvrement des classes de documents est en partie maitrisable par l utilisateur en limitant le nombre d associations externes aux N plus fortes Caract ristiques des clusters Un tableau r sumant les caract ristiques structurelles des clusters permet de les cat goriser et d appr cier la r partition des documents dans les clusters Nom a 210 131 141 151 61 71 81 91 10 Revetement metallique __ 0 66 0 75 0 00 5 0 fs fo jo 3 3 Industrie b timent 0 40 0 62 0 00 s fo 20 fo u 4 ji O o S S S S e AS ES EE ee Recherche documentaire 0 10 0 24 0 06 9 7 12 fs 4 is 15 Langage naturel 0 06 0 20 0 04 6 5 6 fs 3 14 4 Processus acquisition 0 04 0 07 0 04 8 10 9 10 6 27 i a a ae NE Tableau 1 Exemple de tableau des caract ristiques des clusters 1 Seuil de saturation 2 densit 3 centralit 4 Nombre de mots cl s internes 5 Nombre de mots cl s externes 6 Nombre d associations internes 7 Nomb
70. d marche m thodologique Ceci suppose une documentation ad quate de la m thode employ e et de la cha ne de traitement une d finition claire des sources de donn es et des indicateurs utilis s C est l approche qui est suivie dans ce chapitre pour illustrer l utilisation des lois bibliom triques pour l analyse de l information par la m thode des mots associ s La loi de Bradford est appliqu e pour d finir les fichiers de donn es qui seront en entr e du processus de classification et cartographie dans le cadre d une application dans le domaine des sciences sociales La m thode des mots associ s est employ e pour structurer l information en th mes et repr senter ces th mes et leurs relations dans un espace bi dimensionnel Une documentation de la m thode est propos e principes param trage variables utilis es pour d crire les caract ristiques des th mes et les repr senter g ographiquement sur une carte Les r sultats obtenus sont discut s et notamment la perspective de construire des cartes capables de repr senter et visualiser l tat de la connaissance scientifique partir des bases de donn es La cartographie de la science est en effet une repr sentation spatiale de la mani re dont les disciplines les domaines les sp cialit s les articles les auteurs sont associ s les uns aux autres Un peu la mani re dont des cartes g ographiques peuvent rendre compte des relations entre des caract
71. de la plate forme La premi re tape est donc un reformatage des notices bibliographiques afin de les rendre exploitables tout au long de la chaine Une fois que toutes les donn es sont homog n is es dans un format pivot unique il est plus facile de concevoir des outils g n riques La plupart des traitements sur de tels documents se r duisent a associer des actions a une balise Ces caract ristiques nous ont conduits d velopper une boite outils appel e ILIB bas e sur SGML et sur les outils du syst me d exploitation UNIX cf Annexe II DUCLOY et al 1991 2 4 2 Statistique descriptives MIRIAD comprend plusieurs modules permettant de faire des statistiques standard sur diff rents formats de notices commencer par ceux utilis s l INIST pour les bases PASCAL et FRANCIS Ces statistiques portent e sur les l ments bibliographiques des notices distribution par code de classement par type de document par date de publication par langue par affiliation des auteurs et par pays de publication e sur les p riodiques nombre de notices produites par titre et nombre de titres par pays de publication e sur l indexation distribution des mots cl s par notices et distribution des mots cl s par fr quence Leur emploi dans le cadre de l analyse de l IST est d crit dans le chapitre 2 MIRIAD permet de repr senter sous forme de tableaux ou histogrammes la distribution des l ments bibliographiques d
72. de traitement infom trique POLANCO et al 1993a La figure 4 pr sente le d roulement g n ral d une application scientom trique PostScript est une marque d pos e de Adobe nroff et troff sont des formatteurs de texte disponibles en standard sous UNIX LaTeX est un environnement langage et programme batit sur TeX marque d pos e de American Mathematical Society disponible par ftp ftp inria fr TeX 10 Un document hypertexte est un fichier de texte o figurent des liens vers d autres parties du document lui m me ou vers d autres documents La pr sence de liens dans un document est mise en vidence par une signal tique pr d finie boutons mots en gras ou encadr s Cela signifie qu en cliquant sur ces zones appel es galement ancres on acc de un autre document Dans notre cas les documents ne contiennent pas seulement du texte mais aussi des images cartes th matiques Ce sont des documents hypermedia Chapitre 5 85 lt gt ACQUISITION DES BASES DONNEES TD 1 2 PREPARATION DES DONNEES DISTRIBUTIONS ANALYSE DES BIBLIOMETRIQUES ie DONNEES i 3 4 MISE EN FORME 5 5 MISE EN FORME DES RESULTATS DES RESULTATS 6 ANALYSE SCIENTOMETRIQUE Donn es t l d charg es f A Fichier en format sgml E Fichier en format tableur hypertexte graphiques documents textuels tables cartes Figure 4 la chaine de traitement infom
73. des informations de nature quantitative sur les donn es elle fournit des indicateurs utilis s pour le param trage de la classification Elle est galement param tr e par le nom des champs sur lesquels les comptages sont effectu s L analyse des donn es phase 4 Cette phase permet la cr ation des classes de mots cl s et de documents en format SGML Elle est ind pendante du format initial des documents car elle prend en entr e les donn es normalis es obtenues par la phase 2 Deux logiciels sont disponibles a ce jour le logiciel SDOC impl mentation de la m thode des mots associ s le logiciel NEURODOC impl mentation des K means axiales et d une Analyse en Composantes Principales Les traitements de SDOC s effectuent en 4 tapes 1 calcul des cooccurrences de mots cl s et mesure de la force d association des paires de mots cl s 2 classification regroupement des mots cl s en clusters 3 calcul des coordonn es g ographiques des clusters 4 affectation aux clusters des documents et des informations relatives ceux ci titre auteurs sources Les traitements de NEURODOC s effectuent en 3 tapes 1 calcul des classes de mots cl s et de documents par la m thode des K means axiales 2 calcul des coordonn es g ographiques des classes sur un plan par une Analyse en Composantes Principales 3 documentation des classes c est dire addition du libell des mots cl s du titre des do
74. deux cas les bases de donn es bibliographiques sont une source importante d information JAKOBIAK 1996 LECOADIC 1994 L infom trie fournit en effet des outils et des m thodes pour traiter de grandes quantit s d information Ces m thodes vont de la statistique descriptive aux analyses multidimensionnelles en passant par des techniques de classification et de cartographie Elles s appuient sur des lois Lotka Zipf Bradford appel es galement lois bibliom triques ou infom triques qui sont l analyse de PIST ce que la loi de Pareto individus revenus est l conomie ou les statistiques d mographiques l tude des populations Ces trois lois aident d terminer des crit res quantitatifs pour s lectionner un ensemble repr sentatif d un point de vue analyse de donn es d auteurs LOTKA 1927 de p riodiques BRADFORD 1934 ou de mots cl s ZIPF 1949 sur lesquels on peut ensuite appliquer des techniques d analyse descriptive ou d analyse de donn es pour construire des indicateurs de politique scientifique Signalons cependant que le caract re hyperbolique de ces distributions interdit l application de toute une famille de m thodes statistiques fond e sur une distribution de type r partition normale moyenne cart type etc ce qui limite dans une certaine mesure leur emploi LAFOUGE 1998 ROSTAING 1996 et POLANCO 1995 constituent une introduction accessible et document e en fran ais
75. devenait complexe contraintes transactionnelles nombreux aspects organisationnels Mais les techniques n utilisant qu une seule approche SGBD LAG ont galement leurs limites par exemple traitement des informations de taille variable donn es textuelles probl mes forte contraintes algorithmiques prototypage arbres profondeur variable etc Les avanc es technologiques ont fait reculer certaines barri res par exemple sur une station de travail il faut moins d une seconde pour soumettre et ex cuter une s rie de commandes sur un ensemble de fichiers Dans l dition la biblioth conomie ou la documentation les d lais de fabrication ou d laboration intellectuelle des informations sont parfois de plusieurs jours et quelques minutes de d lai dans le traitement de certaines transactions n ont aucune autre incidence On peut donc parfaitement mettre en place des architectures mixtes o une partie des informations est g r e par un SGBD et les traitements caract re algorithmique sont effectu s par des chaines de commandes 2 3 2 Syst me proposant des m canismes simples de communication entre programmes Unix ou quivalent Il serait absurde de chercher d composer un probl me en modules de quelques lignes si l assemblage des modules devenait plus complexe que le corps des modules eux m mes Les syst mes d exploitation anciens MVS par exemple s av rent donc inadapt s Annexe 2 189 Parmi les syst
76. documentaires et textuelles Th se de doctorat de l universit de Paris VI 4 mars 1993 238 pages LELU A et FRANCOIS C 1992 Automatic generation of hypertext links in information retrieval systems communication au colloque ECHT 92 Milan D Lucarella amp al eds ACM Press New York PETERS H P F VAN RAAN A F J 1993 Co word based science maps of chemical engineering Part II Representations by combined clustering and multidimensional scaling Research Policy vol 22 1993 p 47 70 POLANCO X 1995 Aux sources de la scientom trie SOLARIS n 2 Presses Universitaires de Rennes p 13 79 http www info unicaen bnum jelec Solaris Chapitre 5 102 POLANCO X et FRANCOIS C 1994 Les enjeux de l information scientifique et technique a travers une analyse d infom trie cognitive utilisant une m thode de classification automatique et de repr sentation conceptuelle NEURODOC Actes du colloque ORSTOM UNESCO Les sciences hors occident au XX si cle Paris 19 23 septembre 1994 POLANCO X et GRIVEL L 1995 Mapping knowledge the use of co word analysis techniques for mapping a sociology data file of four publishing countries France Germany United Kingdom and United State of America Internation journal of Scientometrics and Informetrics Voll 2 pp123 137 POLANCO X FRANCOIS C BESAGNI D MULLER C GRIVEL L 1993a Le programme de recherche infom trie Les syst mes d inf
77. du chacun des termes et du nombre de cooccurrences des deux termes L ensemble des associations entre mots cl s forme un r seau valu d associations Un algorithme de classification bas sur la 5 ancien centre de documentation du CNRS avant la cr ation de l INIST gt SDOC b n ficie d un financement de la CEE projet ESPRIT KWICK n 2466 Ce projet b n ficie d un financement du MRT et du SERICS dans le cadre de l appel propositions Interfaces Intelligentes 7 LEXIMAPPE est une marque d pos e du CNRS et del Ecole des Mines de Paris Annexe 2 198 m thode du simple lien CAL83 et MIC88 permet de d couper le r seau en clusters groupement de mots avec des relations entre ces mots D un point de vue s mantique les tudes r alis es montrent que les clusters s apparentent aux th mes de recherche que l on peut trouver dans un domaine scientifique De plus les clusters peuvent admettre des relations avec d autres clusters et chaque cluster est associ e une liste tri e par degr de pertinence de r f rences bibliographiques On obtient donc un r seau structur et hi rarchis de clusters par opposition au r seau plat des associations entre mots Ce r seau de clusters est ensuite traduit en termes de noeuds et de liens hypertextes Cette repr sentation permet un utilisateur de naviguer de th mes en th mes d ilots de connaissance en lots de connaissance puis via
78. du comptage est effectu par la commande de tri sort sous Unix 2 3 4 Utilisation de balisages parenth s s et descriptifs SGML ou quivalent Pour profiter au mieux des avantages offerts par les outils lexicaux et dans la mesure o le programmeur poss de la totale ma trise des sp cifications des donn es chang es entre programmes il para t opportun d examiner le formatage de ces donn es En fait seule l analyse des donn es pose un probl me de reconnaissance La partie d di e l analyse du flot de donn es peut devenir rapidement un programme spaghetti non maintenable pour peu que plusieurs tests doivent tre r alis s simultan ment Par exemple se demander si le caract re lu est un caract re courant de la zone en cours le caract re de fin le caract re de fin d une zone englobante le caract re de d but de la zone suivante et dans ce cas le caract re pr c dent tait mais on ne le sait que maintenant le caract re de fin de la zone pr c dente Pour viter cet inconv nient majeur 1l suffit d tre rigoureux dans les sp cifications des donn es interm diaires Cette sp cification peut tre souvent d crite l aide d une Annexe 2 190 grammaire La norme SGML ISO 8879 1986 nous offre un outil pour la d crire la DTD Document Type Definition HER88 SGML Standard Generalized Markup Language con u comme un format d change pour documents lectroniques en vue de leur impressi
79. du logiciel et que des actions de d veloppement en G nie Logiciel ne sont entreprises que si cela s av re strictement n cessaire gestion de AGL gt production classique SGBD syst me documentaire AGL documentaire Atelier flexible fig 9 6 1 Atelier Flexible pour la fabrication d Informations Elabor es L Atelier Flexible doit permettre un ing nieur en sciences de l information de r aliser rapidement la demande une simple investigation une tude ou une cha ne documentaire compl te capable de produire des documents bruts notices Annexe 2 202 bibliographiques comme des documents plus labor s cartes conceptuelles synth ses bibliographiques La biblioth que est la premi re pierre de cet objectif Trois types d extensions sont en cours D abord on tend ses fonctionnalit s par de nombreux outils nouveaux modules statistiques linguistiques et de nouvelles techniques ou des passerelles vers des produits du march telles que OCR traitements graphiques Ensuite nous compl tons la biblioth que strictement logicielle par une partie documentaire en particulier par une collection d chantillons de notices de provenances diverses accompagn es de leurs modules de conversion en SGML et d exemples de traitements Enfin nous abordons l exploitation d ensembles de donn es volumineux La mise en uvre de techniques simples telles que celles cit es au paragraphe 3
80. en mettant en oeuvre un ensemble de progiciels par exemple un SGBD et un syst me documentaire fig 4 Pour leur permettre de communiquer on doit souvent r aliser des programmes ou des chaines de programmes Ici encore si ce type d architecture est de plus en plus r pandu la formation ou les ouvrages m thodologiques ont tendance l ignorer probl me fig 4 L INIST centrale documentaire o l on est amen traiter tous les probl mes informatiques li s aux sciences de l information depuis la biblioth conomie jusqu Vinfom trie en passant par l dition et la documentation est perp tuellement confront la communication entre progiciels De plus les donn es manipul es collection de fiches ou notices bibliographiques se pr tent bien une modularit par d composition en programmes qui s changent des flux d information Le D partement Recherche et Produits Nouveaux de l INIST est en train de r aliser une biblioth que d outils d informatique documentaire bas e principalement sur cette approche 2 QUELQUES ASPECTS DE LA MODULARITE PAR DECOMPOSITION EN PROGRAMMES 2 1 Un exemple d introduction Supposons que l on souhaite analyser un texte de fa on faire appara tre les termes les plus fr quents Dans une approche classique ce probl me se r sout facilement en construisant une liste de couples terme fr quence d apparition Cette programmation n a rien de tr s co
81. es normalisation et mod le de donn es une approche int gr e pour r soudre les probl mes d h t rog n it des donn es et des formats 3 3 Evaluation Conclusion R f rences Annexes Chapiter 8 Analyse de PIST sous HENOCH une illustration dans le domaine des plantes transg niques Titre original HENOCH un outil d analyse de corpus d information scientifique et technique Publi en 1999 1 Pr sentation g n rale d HENOCH 1 1 A qui s adresse HENOCH 1 2 Qu est ce qu une base de donn es infom triques quoi a sert 1 3 Architecture informatique Comment HENOCH permet d explorer et d analyser l information scientifique et technique sans avoir faire l apprentissage de commandes complexes 2 1 Comment naviguer depuis la carte th matique 2 2 Comment analyser la carte 2 3 Comment observer l organisation th matique 2 4 Comment utiliser la description bibliographique d un document 2 5 Comment effectuer le positionnement d un p riodique d un auteur d une affiliation d un mot cl dans les th mes Conclusion et perspectives R f rences 119 120 121 121 122 128 130 130 131 132 134 135 137 143 144 144 144 145 146 147 148 148 153 154 157 158 Vi Chapitre 9 Bilan critique et perspectives 159 1 Les points forts adaptabilit et ergonomie 160 2 Les points faibles la d tection et l analyse des volutions th matiques dans le
82. et SCHIEBEL de la science 1998 School of Library and Information Science University of Wisconsin Milwaukee USA Neural Networks Research Centre Helsinki University of Technology Finlande neuronaux et hypertexte KOHONEN et al 1995 Tableau 1 contexte scientifique 2 4 La plate forme infom trique de l URI pour analyser PIST L URI a pour but principal la conception et la production d instruments c est a dire d indicateurs de m thodes et d outils d analyse de l information scientifique et technique IST Cette activit se traduit sur le plan informatique par le d veloppement d une plate forme logicielle La plate forme infom trique Figure 1 est le nom g n rique donn a l ensemble des outils de PURI Elle int gre une certain nombre de techniques 1 des techniques linguistiques fournissant des m canismes d extraction terminologique sur du texte int gral en anglais et en fran ais qui permettent de s affranchir de l indexation manuelle ROYAUTE 99 Ces techniques sont int gr es au sein d une plate forme d ing nierie linguistique d nomm e ILC 2 des statistiques descriptives fond es sur les distributions bibliom triques 3 des techniques de classification hi rarchique et non hi rarchique et de cartographie ACP diagramme strat gique r seaux neuronaux pour la structuration de l information Ces techniques sont int gr es dans deux programmes SDOC GRIVEL 1995a et NEURODOC LELU
83. having an idea of what the information space looks like By clicking on a cluster name here Enzyme inhibitor in this map he can zoom its description by a weighted keywords list Figure 4 He can then examine its related list of document titles Figure 5 or authors or sources and select one of these titles to access its full bibliographic description Figure 6 He can also use the keywords composing the cluster to access the bibliographic references belonging to this cluster and indexed with these keywords Map based navigation helps to make a global analysis of the information landscape for a given subject It is also an invaluable aid for a user to first explore a domain which is at the outer edges of its usual area of interest But it is insufficient to answer to a question like Who does What and Where When with Whom Chapitre 6 112 Netscape Carte Thematique Thematic Map File Edit View Go Bookmarks Options Directory Window Help Aller Vers Goto Titres Titles Industrial Pharmaceutical Human Enzyme Enzyme inhibitor Production quality Plant leaf Cell culture waste water Bacteria technology Gene expression Eleaching Microorganism culture Aspergillus niger Physicochemical properties amp bgr Fructofuranosidase Review Ethanol electrode Organic solvent Food industry yix Netscape Titres du th me Enzyme inhibitor File Edit View Go Bookmarks Options
84. implemented by a group of software engineer students during their last year of study In march 1995 a mock up proved the feasibility of the system with a freeware RDBMS Requiem Six months later a prototype was built by one of these students on a SUN workstation with Oracle DBMS HENOCH is now fully operational It is an element of the INIST information system since its transfer on an HP mini computer Beta testing by INIST partners customers has started in summer 1996 and will end in March 1997 This computer system is currently used in many applications in the industrial sector as well as in research HENOCH was presented at the central office of the CNRS the 25th of June 1996 In section 2 we will explain our choices in terms of information and hypertext systems In section 3 we will present the software components of HENOCH which is used as a Chapitre 6 106 generic environment for storing SGML documents into a relational database and to make this data accessible via the Web This is exemplified in the particular case where the stored data are clusters and bibliographical data In section 4 we will show the benefits of this environment for information analysts if the data is properly modeled for information analysis 2 HENOCH SYSTEM The information analysis process in the frame of scientific watch is a mix of informal exploration and of specific requests like Who does What and Where When Hypertext technology extended wi
85. in one cluster Table 4 France Germany United Kingdom United States 1 4 2 3 4 2 1568 462 676 1287 3 1119 392 498 938 4 28 24 17 20 5 944 324 434 756 6 493 156 233 422 These are the main global indicators which allow us to adjust the clustering process by measuring the loss of information in function of the cooccurrence threshold and then the ratio number of references in the clusters initial number of references Table 4 provides only the data corresponding to our final choice for that application We have tried to find a good compromise between the number of clusters for each data file and the loss of information due to both the selected cooccurrence threshold and the clustering parameters The statistical variables which characterize each cluster are the following Number of columns Definition of the statistical parameters 1 Cluster s saturation threshold 2 Density the mean of the internal associations 3 Centrality the mean of the external associations 4 Number of keywords defining the subject 5 Number of internal associations between the keywords defining the subject 6 Number of external associations with other subjects or clusters 7 Number of citations of a subject by other subjects 8 Subject s bibliographic information number of references 9 Specific subject s bibliographic information We indicate for each cluster the quantitative value of these parameters The values of the fi
86. insertion 29 27 20 oso 2 kanamycin 153 150 24 0 0 3 Figure 1 La barre de menu principale est compos e de 8 boutons plus une aide en ligne Les trois premiers boutons permettent d acc der respectivement la liste des bases de donn es infom triques disponibles la carte th matique au tableau des themes Fig 1 les 5 suivants correspondent aux fonctions de positionnement Nous allons voir leur utilisation en commengant par la carte th matique qui est un peu le poste de pilotage de la navigation tandis que le tableau des th mes pr sent en premier lieu a surtout pour objectif de fournir a l utilisateur des informations quantitatives sur les r sultats de classification Le lecteur peut notamment se faire rapidement une id e de la distribution des documents dans les themes et par type de document Par exemple le theme Accumulation rassemble 70 documents dont 68 r partis dans 26 p riodiques et 2 th ses 2 1 Comment naviguer depuis la carte th matique Depuis la carte de th matique Fig 2 l analyste peut acc der a diff rents types d informations pertinentes pour un th me et visualiser tr s rapidement les l ments les plus repr sentatifs du th me son organisation Pour l utilisateur la proc dure est la suivante 1 Choisir dans la table de boutons radio gauche de la carte un type destination MC gt une liste tri e de mots cl s TI gt une liste tri e de titres des documents
87. l ments par th me En s lectionnant un nom de th me et en validant par OK on acc de la liste des titres des documents relatifs ce th me pour le ou les l ments s lectionn s Chapitre 8 157 Dans le cas de la revue qui nous int resse Theoretical and Applied Genetics le lecteur peut voir Fig 12 qu elle se positionne en premier lieu dans le theme Protoplasts qui correspond au transfert de g nes dans les protoplastes et r g n ration des plantes a partir de cultures de protoplastes 3 Sommaire Microsoft Internet Explorer Of x Eile Edit View Go Favorites Help Address http yoda inist fr 9001 cgi bin main cgi demo_henoch frame_sommaire templ sommaire carte th mes revues congr s organismes auteurs mots cl s Aide Typologie th matique de s p riodique s Theoretical and Applied Genetics Acc s aux documents par th matique D selectionner Regeneration of transgenic microspore derived fertile barle Transformation of protoplasts and intact cells from slowly growing embryogenic callus of wheat Triticum aestivum L Gene flow between cultivated and wild sunflowers Molecular and genetic characterization of elite transgenic rice plants l Figure 12 Pour des raisons diverses les titres de p riodique les noms de congr s ou d auteurs ou les affiliations peuvent se trouver sous diff rentes formes lexicographiques En effet il
88. le lecteur puisse uniquement extraire les fragments dont il a besoin il sera tout m me rassur d avoir trouv l information dans un contexte concret o il peut la replacer C est pourquoi il est toujours n cessaire de pr senter l information dans le cadre d une structure cognitive pertinente Il est donc important de pouvoir repr senter un tel cadre a partir de la connaissance qui est enregistr e dans la litt rature scientifique l aide d outils permettant de structurer l information comme le font les programmes NEURODOC et SDOC Annexe 1 184 11 Le r ductionnisme bibliom trique L article scientifique est consid r d une mani re explicite depuis les ann es 1960 a peu pr s comme un indicateur output de la recherche scientifique le comptage de publications l analyse de citations et de co citations Sous la forme objective de donn es bibliographiques la science devient l objet empirique d une approche qui applique l outil math matique au corpus mondial des publications scientifiques dans lequel se mat rialise la connaissance scientifique L article scientifique devient un instrument de d finition de la science et du scientifique une quivalence est ainsi tablie entre la notion de science et l crit scientifique On entend par science ce qui se publie dans les articles des revues les communications les rapports les th ses et les ouvrages scientifiques ou d u
89. les th mes d acc der aux r f rences bibliographiques 4 3 Le projet NEURODOC nouveaux profils documentaires Le logiciel NEURODOC LEL90 effectue une classification simultan e des documents et des mots cl s qui les indexent Il extrait de la base de r f rences bibliographiques un ensemble de th mes Chacun d entre eux est repr sent par un axe sur lequel se regroupent et s ordonnent la fois les documents et les mots cl s Ces th mes correspondent un type de classe particulier ces classes sont recouvrantes car un document ou un mot cl peut appartenir plusieurs classes la fois les l ments documents et mots cl s de chaque classe sont ordonn s selon un degr de ressemblance au type id al de la classe Les th mes sont situ s les uns par rapport aux autres sur une carte globale pr sent e l utilisateur dans le dispositif d interface hypertexte utilis Cette carte globale des th mes est r alis e par une projection sur un plan des th mes repr sent s dans l espace des mots cl s 4 4 Utilisation pratique des r sultats infom triques Les m thodes sous jacentes SDOC et NEURODOC produisent des r sultats de m me type mais qui peuvent pr senter des diff rences notables tant dans les concepts mis en vidence les regroupements entre documents ou leurs relations En pratique nous avons pour l instant deux cibles privil gi es D une part SDOC et NEURODOC
90. lignes d organisation de ces derniers 2 2 Technologie informatique Nos choix ont vis d une part maitriser la diversit des m thodes mettre en oeuvre et des formats bibliographiques existants ainsi que les volumes d information a traiter d autre part fournir l utilisateur une interface conviviale pour traiter l information visualiser et analyser les r sultats Pour atteindre le premier objectif nous avons utilis les techniques du G nie Logiciel modularit par d composition en programmes ind pendants adoption de standards La station de travail a t con ue comme un outil modulaire dot d un ensemble de fonctionnalit s qui peuvent tre mises en oeuvre selon les besoins de l analyse Pour atteindre le deuxi me objectif nous avons estim qu il fallait avant tout banaliser et standardiser le processus de traitement de l information en l automatisant a Une conception modulaire bas e sur des standards La nature textuelle des donn es analyser la diversit de leur structure le nombre de champs diff rents traiter pour mener bien une tude infom trique nous ont amen s adopter la norme SGML pour la description de la structure logique de tous les document manipul s par les outils de la station Les avantages imm diats de ce choix sont distinction nette entre contenant et contenu codage unique des caract res accentu s r gles de balisage existence d outi
91. multim dia texte image graphique son interconnect s par des liens repr sentant les relations existantes entre ces granules de connaissance DAN90 La combinaison de ces deux techniques calcul de graphe par infom trie et visualisation par hypertextes permet un utilisateur de naviguer travers l information pertinente en suivant les relations entre concepts tablies d un point de vue statistique Le Centre de Sociologie de l Innovation de l Ecole des Mines de Paris et le CDST ont d fini et mis au point plusieurs approches d analyses de donn es pour des tudes scientom triques Elles ont t exp riment es avec succ s sur Macintosh et sur PC pour traiter des volumes de donn es moyens 20 30 000 documents MIC88 Elle ont t red finies et r crites dans le cadre de la ILIB donnant naissance deux applications SDOC et NEURODOC 4 2 Le projet SDOC les cartes conceptuelles L application SDOC GRI91 produit des cartes montrant l organisation conceptuelle d un domaine scientifique partir d un sous ensemble de notices bibliographiques extraites de bases de donn es telles que PASCAL ou FRANCIS SDOC repose sur la m thode des mots associ s analyse des cooccurrences des mots cl s qui a d j t exploit e dans le cadre du produit LEXIMAPPE Un indice statistique permet de mesurer la force associative de deux mots cl s Cet indice est une fonction du nombre d occurrences
92. nom ne d crit C est ainsi que l on trouve le terme CORE LEVELS sous la forme core electron levels ce qui dans le contexte de la photoluminescence n apporte rien de plus que core levels d Enfin certaines variations sont dues au fait que l auteur fait r f rence ce dont il vient de parler spectra in this energy structure on the latter band L analyse de ce dernier th me montre que la variation permet de rendre l analyse plus pr cise et plus fine Du point de vue de l analyse des th mes nous v rifions ci dessus que pour la variation d insertion chaque l ment ins r est porteur d une information de contexte utile exploiter Cette information de contexte nous la retrouvons dans la permutation quand celle ci se compose avec la variation d insertion properties of lateral surfaces li au terme SURFACE PROPERTIES o l adjectif lateral sp cifie surface La coordination apporte une information de proximit s mantique entre deux termes la s quence conduction and valence band montre que les termes CONDUCTION BANDS et VALENCE BANDS peuvent se coordonner parce que s mantiquement proche Cette proximit s mantique est v rifi e galement par le lien de cooccurrence des deux termes dans le cluster 6 Conclusion 1 Maintenant il importe de s interroger sur le nouvel objet que nous avons cr par le couplage des outils infom triques et linguistiques savoir un r seau de termes dont certai
93. op ratoire par rapport ce que nous sommes capables d observer On consid re comme fig tout terme pour lequel les l ments qui le composent sont indissociables et pour lesquels l ordre et la contigu t de ses l ments sont stables ou faiblement affect s Cette d finition exclut les groupes nominaux ordinaires pour lesquels on n observe pas ce type de contrainte part les contraintes de bonne formation du syntagme Il a t montr que le figement n est pas un crit re absolu mais qu il existe des degr s de figement reposant sur des propri t s transformationnelles propres au groupe nominal 5 Les variations d insertion de coordination et de permutation sont les op rations de notre d finition et elles reposent sur ces propri t s transformationnelles Sans entrer plus dans le d tail nous consid rerons conform ment notre d finition comme plus fig un terme qui n admet pas l insertion la coordination ou la permutation qu un terme qui les accepte exemple le terme Electron collisions soumis la variation d insertion electron molecule collision de permutation collision strengths for electron ou de coordination electron and hole collisions Si l on relie variation et figement la variation est ce que l on peut observer pour un terme t dans un corpus C le figement est ce que l on peut ventuellement d duire de cette observation car ce n est pas parce qu aucune varia
94. pays mots cl s ann e de publication etc Comme les bases de donn es relationnelles ont t con ues explicitement pour relier des l ments de donn es elles sont un choix naturel pour les analyses bibliom triques Technologie prouv e datant des ann es 70 leur emploi en infom trie est relativement r cent d but des ann es 90 Les principes de bases du mod le relationnel sont e repr sentation des donn es sous forme de tables e manipulation de ces donn es l aide d op rateurs appliqu s aux tables pour fournir d autres tables dans le cadre d une alg bre relationnelle langage SQL L int r t majeur d une telle structuration relationnelle est que les informations provenant de tables pr sentant un champ commun num ro d article auteur pays titre de journal quelles proviennent ou non d une m me source sont potentiellement combinables Ainsi la plupart des indicateurs produire peuvent tre calcul s par de simples commandes SQL Une requ te telle que compter le nombre de documents produits par chaque pays d affiliation des auteurs et trier les pays par fr quence d croissante s crit facilement en SQL Le lecteur int ress trouvera dans BLAIR 88 de nombreux exemples de requ tes de ce type impl ment es en SQL Des tables r ceptionnent les r sultats des op rations de croisement n cessaires pour le calcul des indicateurs Chaque l ment d information titre de p riodiqu
95. principes de l hypertexte et le besoin de cartes interactives pour naviguer Chapitre 1 5 Dans notre probl matique ces entit s ou noeuds peuvent tre des documents des auteurs des revues des agr gats clusters de documents ou de mots cl s des indicateurs des cartes etc Ces noeuds peuvent tre dit s ou calcul s Les relations existant entre ces entit s constituent les liens hypertextuels qui peuvent tre de deux types liens de r f rences liens hi rarchiques Ces liens peuvent tre tablis manuellement ou calcul s automatiquement D s lors qu il s agit d analyser de gros volumes d information il n est plus question de construire l hypertexte manuellement mais de le g n rer c est a dire de calculer dynamiquement les noeuds et liens qui constituent l hypertexte partir de textes ou des donn es d j disponibles C est l que peuvent tres mises profit certaines des techniques cit es en section 1 3 Mais pour viter la d sorientation de l usager devant l norme quantit de liens g n r s automatiquement une repr sentation cartographique de l ensemble du contenu de la base est n cessaire L enjeu est alors de g n rer automatiquement ces hypertextes avec leur carte de navigation La g n ration automatique de noeuds et de liens hypertextes utilise trois approches compl mentaires BALPE 1995 1 une approche structurelle une donn e bibliographique par exemple
96. re peut varier d une ann e l autre En outre une classification au niveau d un p riodique qui est ensuite r percut e tous les articles de ce p riodique ne peut tre aussi pertinente qu une classification effectu e article par article L avantage est que les tudes utilisant cette nomenclature sont comparables La classification de PISI est de fait devenue une sorte de classification pivot avec d autres syst mes de classification L OST par exemple a construit sa propre classification en 8 disciplines partir de la classification de PISI Les indicateurs bas s sur des classifications th matiques au niveau article sont plus rarement utilis s m me si on leur reconna t de nombreuses qualit s intrins ques souplesse dans la d finition du domaine pertinence etc Leur emploi est r serv aux tudes effectu es sur des donn es issues de bases qui indexent au niveau article C est le cas de la plupart des bases de donn es sp cialis es INSPEC pour la physique CAB pour la chimie MEDLINE pour la m decine etc et de la base multidisciplinaire PASCAL Entit g ographique institutionnelle Dans la plupart des indicateurs l unit d analyse l objet d tude est une entit g ographique ou institutionnelle Les publications sont assign es ces unit s sur la base d une analyse des adresses des auteurs Au sein de donn es bibliographiques les variations de noms de pays sont limit
97. s sont bien connus m me s ils font encore l objet de recherches C est autour de cette d marche que s articule la formation la programmation probl me gt fig 1 Dans les applications pr sentant des contraintes organisationnelles et transactionnelles on privil gie une architecture reposant sur une base de donn es autour de laquelle gravitent commandes transactionnelles ti et programmes batch pi fig 2 Les m thodes classiques d analyse et la formation associ e reposent sur cette architecture Cot C e Cr Ce fig 2 L am lioration de l ergonomie des syst mes d exploitation et la simplification des langages de commande permettent de r aliser facilement des communications entre programmes par l interm diaire de fichiers ou par des tubes ou pipe en terminologie Unix Pour atteindre l objectif de modularit on dispose alors d un m canisme compl mentaire que nous appellerons d composition en programmes Le probl me de la figure 1 qui se d compose en 5 fonctions logiques peut finalement tre r alis en 3 programmes fig 3 o l on remarque que la fonction f3 peut tre r alis e par un programme sp cifique ou par une commande plus g n rale telle qu un tri Hormis les articles ou ouvrages consacr s la programmation sous Unix la litt rature la recherche et la formation sont peu abondantes sur ce sujet Annexe 2 186 fig 3 Enfin un probl me peut se r soudre
98. scientifique serait en retard par rapport la connaissance scientifique en action sur les fronts de la recherche L objectif est de coupler les techniques linguistiques et infom triques afin de classifier et de repr senter les connaissances v hicul es par les textes scientifiques et techniques sous leur forme crite Ce couplage doit in fine permettre de r pondre a des questions strat giques concernant beaucoup plus la connaissance que les documents eux m mes informatique documentaire Les traitements linguistiques mis en uvre reposent sur l identification en corpus des termes d une nomenclature terminologique th saurus lexique d indexation glossaire etc sous leurs formes de base ou sous des formes variantes Ces traitements linguistiques am liorent sensiblement la collecte des termes comme le montre l tude r alis e sur un corpus dans le domaine de la physique La technique des mots associ s a t appliqu e pour mettre en vidence un r seau terminologique qui inclut la fois des termes variants et non variants qui n auraient pas t d tect s sans ce traitement linguistique On peut rep rer les clusters qui se singularisent par leur nombre lev de termes variants Il a t observ exp rimentalement sur certains de ces clusters que cela correspondait a un changement d activit une acc l ration des recherches dans le th me en question Cependant une certaine prudence s impose avant de
99. se de doctorat en informatique Universit H Poincar Nancy I 1999 104 SERRES 1995 SERRES A L hypertexte une histoire revisiter Documentaliste vol 32 n 2 71 83 1995 105 SALTON 1971 G SALTON The SMART retrieval system Experiments in automatic document processing Englewoods Cliff New Jersey Prentice Hall Inc 1971 106 SALTON 1989 G SALTON Automatic text processing the transformation analysis and retrieval of information by computer New York Addison Wesley 1989 107 SMALL et GARFIELD 1988 H SMALL E GARFIELD The Geography of Science Disciplinary and National Mappings in Science Citation Index 1988 Philadelphia Institut for Scientific Information p 46 58 1988 108 SMALL 1973 SMALL H Co citation in the scientific litterature A new measure of the relationship between two documents Journal of the American Society of Information Science 24 pp 265 269 1973 109 SMALL 1995 SMALL H Relational bibliometrics In Michael E D Koenig Abraham Bookstein Eds 5th International Conference of the International Society for Scientometrics and Informetrics Learned Information Inc Medford NJ 525 530 1995 110 SMALL 1997 SMALL H Update on science mapping creating large document spaces Scientometrics 38 2 275 293 1997 111 SMALL 1999 SMALL H Visualizing science by citation mapping Jasis 50 171 9 799 813 1999 112 TEIL 1991 TEIL G Candide un outi
100. semaine La d composition en programmes s av re extr mement performante lors de la phase de mise au point des applications D une part parce que les programmes sont petits si l on utilise effectivement des outils lexicaux D autre part parce que en cas d incident les sorties interm diaires peuvent tre redirig es sur un fichier o il est facile de rep rer pr cis ment l incident de l isoler et de le reproduire Cette d composition permet galement de faire reculer des contraintes physiques Par exemple dans la version ant rieure de l application SDOC la matrice des cooccurrences des paires de mots cl s tait construite en m moire centrale ce qui limitait le nombre de documents que l application pouvait traiter En combinant de simples programmes Lex ind pendants avec des tris comme dans la figure 5 on obtient le fichier de cooccurrences des mots cl s directement partir du flot de donn es sans rien stocker en m moire centrale Cette am lioration est importante tant donn le volume de donn es traiter En effet les bases PASCAL et FRANCIS contiennent des millions de r f rences et un domaine peut concerner des centaines de milliers de r f rences bibliographiques Enfin une derni re observation plut t inattendue au d part L utilisation d un balisage descriptif s est av r e tr s performante dans le dialogue avec les utilisateurs qui peuvent tr s rapidement lire et interpr ter une structure SGML
101. shows that with two theoretically important attributes density and centrality we have four possible combinations see Callon et alii 1991 p 165 167 Chapitre 2 30 High density and High density and Low centrality centrality Low density and Low density and centrality High centrality X Figure 3 Scatter Diagram and categorized classes of clusters as indicators of research subjects identified from bibliographic data by computer programmes In examining a scatter diagram the first thing to look for is the clusters distribution in these four zones of the diagram The clusters are scattered according to the mean value of the internal associations along the Y axis and of the external associations along the X axis The information provided by the diagrams concerns the relative importance of themes or subjects clusters according to these two attributes density and centrality This relative importance of clusters is set up from the network of internal associations of each cluster position along the Y axis and external associations between the clusters position along the X axis The first value along the Y axis defines categories of subjects more or less coherent and integrated as units of information The second value along the X axis defines more or less isolated or linked clusters this is the notion of centralness of a theme in the knowledge space Our scatter diagrams are not metric spaces the fact that two or three cluster
102. sorted by saturation threshold This corresponds to the order in which they have been frozen during the clustering The user selects the cluster name and points to its description He can then examine a the characteristics of the cluster number of documents authors and sources saturation threshold density centrality number of citations by the other clusters b the characteristics of the keywords in the cluster weight frequency and their associations Equivalence index cooccurrence and c the associated clusters including a description of the external associations involved 3 Information Analysis of the SOLIS Datafile 3 1 The Indexing Vocabulary Keywords are primarily used for information retrieval by boolean queries Here they are used as content indicators to which the SDOC analysis is applied The vocabulary indexing the 285 retrieved Social History documents consists of 892 controled terms manually assigned on the base of the Social Science thesaurus of the Informations zentrum Sozialwissenschaften For this coword analysis the English keywords of SOLIS are used with the exception of the keyword Germany because given the search query this keyword yields no information The 499 keywords of frequency 1 which represent 56 of the indexing vocabulary are excluded as input to the coword analysis They complicate the keywords association network with potentially noisy information So the effective number of keywords
103. sources utilis es leur permettrait de r pondre de mani re plus satisfaisante aux multiples niveaux de demande Quels sont les obstacles la construction de bases infom triques hybrides multi sources Ils sont la fois techniques et juridiques Sur le plan technique une base infom trique hybride suppose une v ritable int gration des donn es dans le SGBD On se rapproche ici des probl matiques de la gestion de bases documentaires o le besoin de transformer les documents pour pouvoir les partager entre applications a toujours t une pr occupation majeure Les apports de ces techniques sont d velopp s dans la section suivante o nous abordons la question de l h t rog n it des donn es et des formats et donc de la normalisation Nous abordons galement la question de la mod lisation des donn es et de P environnement informatique Les autres obstacles sont de nature plus politique ou juridique Par exemple pour d finir une couverture largie il est n cessaire d interroger plusieurs bases de donn es Certains Chapitre 7 129 producteurs de donn es refusent ou font payer tr s cher la constitution de nouvelles bases a partir de donn es leur appartenant imposant une licence a un co t lev et ou se donnant un droit de regard sur l utilisation de ses donn es Autre exemple la constitution de fichiers d autorit s pour les organismes d affiliation Sans la collaboration des organismes concern s il
104. termes ne variant pas Il tait donc naturel de consid rer les termes simples form s d un seul mot tout autant stabilis que les termes complexes form s de plusieurs mots ne variant pas Ainsi nous avons attribu la valeur nulle aux termes d un seul mot Chapitre 3 51 VARCLU 13 32 5 ELECTRIC FIELDS 13 21 4 ELECTRON DENSITY 13 17 17 IRRADIATION 11 52 16 PHOTONS 10 96 15 MAGNETIC FIELDS 5 71 13 ELECTRONIC STATES 3 13 6 SCATTERING 1 93 0 OPTICAL PROPERTIES 1 29 14 SURFACES 0 39 2 COUPLINGS 0 32 18 QUANTUM WELLS 0 32 11 INTERRACTIONS 0 28 3 IONIZATION 0 16 10 PHOTOLUMINESCENCE 0 10 12 LAYERS 0 00 7 THIN FILM 0 00 8 HETEROSTRUCTURE 0 00 9 VALENCE 0 00 19 GROWTH 0 00 1 SIZE 2 6 8 Nb Termes Complexes Tableau 4 La variation dans les clusters L indice de variation du cluster VARCLU est obtenu par un calcul simple qui consiste a sommer pour chaque cluster les diff rents coefficients de variation de chacun des termes complexes qui le composent VARcLy VAR Dans le tableau 4 les clusters sont ordonn s par valeurs croissantes de leur indice VARc LU Ce classement des clusters selon le crit re de la variation des termes qui le composent VARCLU permet d opposer deux ensembles de clusters a Ceux avec les termes les plus fig s SIZE GROWTH VALENCE HETEROSTRUCTURE THIN FILMS LAYERS PHOTOLUMINESCENCE Ces clusters sont li s plus particuli r
105. the insertion procedure to execute INS_AFFILIATION NAME TOWN COUNTRY end Avant de stocker les informations dans la base la proc dure d insertion effectue les tests n cessaires pour par exemple v rifier si le nom du pays est bien conforme a un nom de pays figurant dans la table des noms de pays tenter d apparier la cha ne de caract re repr sentant le nom de l organisme avec la table des noms d organismes etc Cette approche sp cifie donc de mani re d clarative les relations entre les l ments de donn es et leur repr sentation dans la base en utilisant une sorte de r gle de r criture qui permet d ex cuter par exemple une m thode de cr ation d un objet complexe par exemple une super notice bibliographique partir des l ments de donn es 3 3 Evaluation Ce proc d a t implant dans le logiciel HENOCH GRIVEL 95 97 99 dans un contexte de veille o le nombre de documents g rer ne d passe pas quelques milliers de documents Cette m thode est plus efficace qu une interpr tation directe du fichier de donn es qui se contenterait de stocker l l ment de donn es sous forme de cha ne de caract res string directement dans la base Elle permet d viter la pr sence d informations inutiles dans cette cha ne de caract re en la traitant avant de la stocker dans la base et de pallier a l absence 7 Dans le cas de donn es multi sources la pr sence d
106. their relative importance in the datafiles We can then analyse in more detail each element that is to say 1 the keywords which form one cluster 2 the internal and external associations with other clusters 3 the sources 4 the authors and 5 the titles of articles belonging to clusters The conversion of all this data into hypertext hugely facilitates these operations It increases the analysis and assessment task performance of this information previously structured by the automatic clustering process We can also compare the research subjects in each case for instance to compare the European publishing research in sociology to compare it as a whole with the United States from the point of view of study subjects similarities differences and areas of research as for instance social economic or politics areas We can also focus on a subject in the four countries transverse analysis for instance technological innovation or social deviances see maps below Another possibility is to use the co word clustering process as an instrument for bibliographic retrieval Retrieval systems are designed to enable a user to query a database of documents or document surrogates In this sense we have a co word based retrieval system where the user can navigate through clusters in different subject areas of research and immediately identify their authors journals titles of papers Looking at the scatter diagrams is the next step of the co
107. thematical networks in the form of maps In other words it maps the knowledge embedded in documents thematic structure but also the individual agents authors institutions and the way they communicate By considering the relationships between clusters their internal structure and the less or more central role they play within a network of themes the importance of a certain thematic aspect for the research field studied can be examined Table 3 3 Categories of clusters Domination Town Reformation National State Labor Movement Liberalism Historiography Gender Role Culture German Question Occupational Prestige Socialism Party Sixteenth Century National Identity Foreign Policy Emigration Antisemitism Political Attitude Bourgeoisie Peasant Income Structural Change Handicraft Trade Family Worker Modernization Chapitre 4 12 25 alre German question l occupational prestige socialism 20 domination chronology by century ational identity 15 fortign palicy 10 labor movement liberalism historiography ay Cee PA RE ET Centrality Figure 3 4 Cluster Domination An example of crossroad cluster 4 Conclusion In the present paper two possibilities of using the mapping method of SDOC are illustrated The first one is to give an easy access to distributed database information In front of the thematic structure of the database content the user can define his own strategy of information
108. trique Le sch ma de traitement propos comprend 6 phases successives 1 acquisition des donn es a analyser 2 pr paration des donn es 3 distributions bibliom triques 4 analyse des donn es 5 mise en forme des r sultats 6 analyse scientom trique des r sultats Les phases 2 5 sont automatis es et seront d crites dans ce paragraphe La phase d acquisition des donn es 1 est manuelle et d pend des donn es tudier elle ne sera pas d taill e ici L analyse scientom trique des r sultats phase 6 est manuelle elle est trait e dans la deuxi me partie de l article La pr paration des donn es phase 2 Cette phase permet de normaliser la collection de documents reformatage et de g n rer les donn es n cessaires aux phases 3 et 4 savoir la collection de documents initiaux convertis au format SGML Chapitre 5 86 a 7 11 s des index qui permettent de rep rer pour chaque forme tous les endroits du corpus o elle est utilis e Par exemple un index des mots cl s associe chaque mot cl la liste des num ros des documents qu il indexe Cette phase est param tr e par le noms des champs bibliographiques pour lesquels la cr ation d index est effectu ainsi que par les s parateurs de forme Les index sont galement des documents SGML Des distributions bibliom triques phase 3 Cette phase a pour objectif d tablir les distributions des champs a tudier Outre
109. vol 13 1984 p 3 20 H Small and E Garfield The Geography of Science Disciplinary and National Mappings in Science Citation Index 1988 Philadelphia Institut for Scientific Information p 46 58 W Turner G Charton F Laville B Michelet Packinging Information for Peer review New Co word Analysis Techniques in A F J van Raan ed Handbook of Quantitative Studies of Science and Technology Amsterdam Elsevier Science Publisher 1988 p 291 323 Chapitre 2 39 P H Winston Artificial Intelligence London Addison Wesley Publishing Co 1977 Chapitre 2 40 Chapitre 3 Apports de l analyse linguistique informatique dans l analyse de l information par la m thode des mots associ s D s lors que l on se propose de faire merger le contenu cognitif d un grand ensemble de documents et de le relier au contenu factuel titres noms d auteurs laboratoires etc il peut tre avantageux de s appuyer sur des techniques linguistiques Ici les titres et r sum s d auteurs des notices bibliographiques c est dire des termes utilis s par les chercheurs eux m mes dans les documents scientifiques et techniques sont utilis s afin d op rer une extraction terminologique et de s affranchir de l indexation manuelle pour viter l effet de l indexeur Comme son nom l indique cet effet d signe les cons quences du fait que l indexation manuelle soit le produit de non chercheurs dont la formation
110. word analysis The scatter diagram for any set of keyword clusters shows what we call a knowledge space Meincke and Atherton 1976 or information space Brookes 1980 In this space clusters are the indicators of items of knowledge and their positions are indicators of the density Y axis and centrality X axis of this item of knowledge Such diagrams are included in the next section of this paper Each scatter diagram is a representation of a set of clusters using the values of the columns 2 and 3 of the tables in the appendix 4 2 Representing Knowledge in Scatter Diagrams From a perspective of analysis the first stage of description was the cluster analysis and now the second step is the network analysis Relations are principally the subject of network analysis A network is a type of relation linking a defined set of clusters unit of Chapitre 2 29 information The clusters can be defined as micro networks or graphs and the maps as macro networks They are the building blocks of our network analysis We propose a two dimensional device for visualizing the organization of objective knowledge diffused by bibliographic data information We develop a representation of information items The chief ouput is a spatial representation consisting of a configuration of subjects or clusters as on a map Each subject in the configuration corresponds to one item of information This configuration reflects the hidden stru
111. www sil org sgml sgml html SGML is a meta language used to build specific markup languages The best known markup language based on SGML is HTML HyperText Markup Language which describes the logical representation of Hyperdocuments on the World Wide Web A markup language based on SGML can be built for each class or type of documents The SGML Handbook is a reference Chapitre 6 116 for those who want to understand in very detail the SGML standard in order to developp SGML based tools like for instance parsers http www sil org sgml publicS W html parserTools The book of Dr Eric van Herwijnen can be given both for beginners to use SGML and for programmers to implement SGML It is really practical A SGML toolkit called ILIB Ducloy amp al 1991 was developped at INIST from 1990 to 1993 SGML is used to describe data for instance bibliographical data whatever their source and also intermediate data between programs communicating by pipe There is also an API which permits to manipulate SGML documents as a tree Codd is the inventor of the relational model In this model data are represented by tables Basically a table can represent either an entity or a relationship between entities A table is comprised of rows and columns Each column of a table represents one attribute of an entity Each row represents one occurrence of an entity or relationship represented in a table The table manipulations are insured by a set of a
112. 0 BORSTEIN J RILEY V Hypertext Interchange Format in Proceedings of the Hypertext Standardization Workshop National Institute of Standards and Technology 1990 pp 39 48 CAL83 CALLON M COURTIAL J P TURNER W A BAUIN S From Translation to Problematic Networks An Introduction to Co Word Analysis in Social Science Information vol 22 1983 pp 191 235 COR91 CORET A DUCLOY J MENILLET D Les stations de travail des ing nieurs documentalistes l INIST 9 me congr s IDT Bordeaux 1991 pp 189 195 DAN90 DANIEL VATONNE M C Hypertextes des principes communs et des variations Technique et Science informatiques 1990 Vol 9 No sp cial les hypertextes pp 475 492 DUC89 DUCLOY J L INIST et ses choix technologiques pour l informatisation in Actes congr s INFORSID 89 Nancy 5 89 pp 139 145 Annexe 2 204 DUC91 1 DUCLOY J GRIVEL L LAMIREL J C POLANCO X SCHMITT L INIST s Experience in Hyper Document building from bibliographic Databases Proceedings of RIAO 91 Barcelone April 91 DUC91 2 DUCLOY J LELU A Construction d hyperdocuments l aide de proc d s neuronaux G nie Linguistique 91 Versailles FR 16 17 01 1991 DUS91 DUSOULIER N DUCLOY J Processing of data and exchange of records in a scientific and technical information center Formats what for UNIMARC CCF Workshop Florence IT IFLA UNESCO 05 07 Juin 1991 EC85 EC FORMEX Formalized Exchange of E
113. 0 08 2 Recherche documentaire lt gt Interface 0 05 France 008 2 Recherche documentaire lt gt France 0 05 Interface 0 05 Traitement en ligne Avec le th me Conception assist e 0 05 Syst me documentaire 003 2 Traitement automatis lt gt Conception assist e Figure 5 Exemple de th me obtenu avec SDOC Recherche documentaire Un cluster est compos de une liste de mots cl s une liste d associations internes une liste d associations externes une tiquette une liste de documents affect s apr s la classification La liste de mots cl s regroupe des mots qui sont proches les uns des autres Nous distinguons les mots cl s internes qui apparaissent dans les associations internes des mots cl s externes qui apparaissent seulement dans les associations externes car ils ont t rejet s de ce cluster cause du crit re de taille maximal des clusters Ainsi sur la Chapitre 5 89 figure les mots cl s figurant dans les associations internes constituent les mots cl s internes du cluster Recherche documentaire et les mots cl s situ s a droite dans les associations externes constituent les mots cl s externes du cluster Par exemple Interface dans Recherche documentaire Interface sera l un de ses mots cl s externes Les mots cl s sont tri s selon leur nombre d apparitions dans les associations internes et externes du cluster La liste d associations internes d crit
114. 1993 FRANCOIS 1998 etc 4 des techniques d ing nierie documentaire bas es sur l emploi de SGML DUCLOY et al 91 d un SGBD relationnel et d un serveur Web int gr s au sein du SGML Standard Generalised Mark Up Language norme ISO 8879 GOLDFARB 90 HERWIJNEN 90 Le format SGML Standard Generalized Markup Language Chapitre 1 8 logiciel HENOCH GRIVEL et FRANCOIS1995b GRIVEL et al 1997 GRIVEL 1999 Une chaine de constitution de corpus et de traitements s appuyant sur cette plate forme a t mise en place Le traitement se d cline en 5 phases successives e reformatage des notices selon la norme SGML e traitement statistique portant sur les l ments bibliographiques des notices auteurs p riodiques dates indexation le programme MIRIAD e traitement linguistique d acquisition terminologique la plate forme ILC e traitement de classification et de cartographie par les logiciels SDOC ou NEURODOC et enfin e stockage par le logiciel HENOCH des r sultats de ces traitements ant rieurs et mise disposition sur le Web selon une interface bas e sur la m taphore d crite en section LA Texte francais La plateforme infom trique ou anglais Reformatage Th saurus SGML ee Base Infom trique Constitution de Acquisition terminologique Infom trie corpus T Plateforme ILC al gt HENOCH se SDOC Assignateur de cat gories Mots associ s _ S
115. 993 une technique d analyse factorielle courante l Analyse en Composantes Principales ACP Notre objectif est de classer et repr senter d normes quantit s d information bibliographique afin d en extraire des synth ses labor es utilisables pour effectuer une veille scientifique donn es chiffr es caract risant un ensemble de r f rences bibliographiques hypertextes th matiques documents de synth se tels que des cartes de l information scientifique et technique La premi re partie de cet article d crit les m thodes mises en oeuvre pour repr senter le contenu de l information et montre leur sp cificit et leur compl mentarit Nous y exposons galement nos choix technologiques puis nous d crivons l objet technique r alis une cha ne de traitement infom trique sous Unix bas e sur la norme SGML La deuxi me partie est consacr e l analyse des r sultats Nous abordons ici le probl me de la qualification des r sultats afin de limiter les risques d erreurs lors de leur interpr tation L analyse des distributions bibliom triques n est qu esquiss e Elle ne pr sente notre avis pas de difficult s majeures puisqu il est possible de s appuyer sur des lois qui d crivent leur comportement Par contre l exploitation des r sultats de m thodes d analyse de donn es demande quelques pr cautions car il ne faut pas oublier qu elles proc dent par r duction de donn es Nous ex
116. Bibliometric Indicator for the Humanities and the Social and Behavioural Sciences A Comparative Study Scientometrics vol 15 n 5 6 p 423 433 1989 80 NAUER 99 NAUER E De l importance de la normalisation en bibliom trie Journ es d tudes sur les syst mes d information labor e de la SFBA Ile Rousse Corse 27 septembre 1 octobre 1999 81 NOYONS et VAN RAAN 1998 Noyons E Van Raan A Monitoring scientific developments from a dynamic perspective Jasis 49 1 68 81 1998 82 PETERS et VAN RAAN 1993 PETERS H P F VAN RAAN A F J Co word based science maps of chemical engineering Part II Representations by combined clustering and multidimensional scaling Research Policy vol 22 1993 p 47 70 83 POLANCO et al 1993 POLANCO X L GRIVEL C FRANCOIS ET D BESAGNI L infom trie un programme de recherche Journ es d tudes Les syst mes d information labor e Ile Rousse Corse France 9 11 Juin1993 texte n 3 84 POLANCO 1993 POLANCO X Analyse de l information scientifique et technique Construction de clusters de mots cl s Sciences de la soci t n 29 p 111 126 85 POLANCO et FRANCOIS 1994 POLANCO X FRANCOIS C Les enjeux de l information scientifique et technique travers une analyse d infom trie cognitive utilisant une m thode de classification automatique et de repr sentation bd 169 conceptuelle NEURODOC Actes du colloque ORSTOM UN
117. DILIB une plate forme XML pour la g n ration de serveurs WWW et la veille scientifique et technique Le Micro Bulletin Th matique n 3 L information scientifique et technique et l outil Internet Editeur CNRS DSI 1999 p 113 137 27 DUCOURNEAU 1998 Langages et mod les et objets Editeurs DUCOURNEAU R EUZENAT J MASINI G NAPOLI A Collection Didactique INRIA 527 p 1998 28 DUSOULIER 1991 DUSOULIER N DUCLOY J Processing of data and exchange of records in a scientific and technical information center Formats what for UNIMARC CCF Workshop Florence IT IFLA UNESCO 05 07 Juin 1991 165 29 FAUCOMPRE 1998 FAUCOMPRE P La mise en correspondance automatique de banques de donn es bibliographiques scientifiques et techniques a l aide de la classification internationale de brevets Th se de doctorat en Sciences de l information et de la communication Universit Aix Marseille II 1998 30 FERNANDEZ 1993 FERNANDEZ M T CABRERO A ZULUETA M A GOMEZ T Constructing a relational database for bibliometric analysis Research Evaluation Vol 3 n 1 55 62 1993 31 FRANCOIS 1998 FRANCOIS C NEURODOC un outil d analyse de l information Conf rence VSST 98 Veille Strat gique Scientifique et Technologique Toulouse 19 23 octobre 1998 32 GARFIELD 1972 E Garfield Citation analysis as a tool in journal evaluation Science 178 pp 471 479 1972 33 GLANZEL 1996 GLANZEL W The
118. ESCO Les sciences hors occident au XX si cle Paris 19 23 septembre 1994 86 POLANCO et GRIVEL 1995 POLANCO X GRIVEL L Mapping knowledge the use of co word analysis techniques for mapping a sociology data file of four publishing countries France Germany United Kingdom and United State of America Internation journal of Scientometrics and Informetrics Voll 2 pp 123 137 1995 87 POLANCO 1995 POLANCO X Aux sources de la scientom trie SOLARIS Vol 2 Les sciences de I information bibliom trie scientom trie infom trie sous la direction de Jean Max Noyer Edition Presses Universitaires de Rennes pp 13 78 1995 88 POLANCO et al 1995 POLANCO X GRIVEL L ROYAUTE J How to do things with terms in informetrics terminological variation and stabilization as science watch indicators In Michael E D Koenig Abraham Bookstein Eds 5th International Conference of the International Society for Scientometrics and Informetrics Learned Information Inc Medford NJ 435 444 1995 89 POLANCO et al 1997 POLANCO X FRANCOIS C KEIM J P Artificial Neural Network Technology for the classification and Cartography of Scientific and Technical Information to be published in Proceedings 6th International Conference of the International Society for Scientometrics and Informetrics Jerusalem June 16 19 1997 90 POLANCO 1997 POLANCO X La notion d analyse de l information dans le domaine de l infor
119. Figure 7 search by affiliations Figure 8 results of the search by affiliations This WWW RDBMS based interface permits to build complex queries very easily without requiring knowledge in SQL query language It provides the information analyst with a simple and efficient means to intersect or join some items of information featuring a scientific or technical activity sector 5 CONCLUSION In this paper we have proposed a computer system for Big Scientometrics at the age of the World Wide Web This computer system is a generator of informetric databases HENOCH is a generic environment to store in a relational database any SGML document produced by an informetric environment 12 and to make these data accessible via the Web Big Scientometrics requires a significant computer environment with computational linguistic techniques statistical methods graphic tools and an efficient storage and management system We think that the technical architecture proposed here can be applied to other informetric environments Application to other document types than bibliographical data or clusters is straightforward It corresponds to a mapping between SGML tree structure and a relational model Today HENOCH contains around 20 bibliographical data corpora on different subjects in various formats Each corpus is the result of a request on a database PASCAL FRANCIS SCI used as an information documentary profile on a given subject for instance hum
120. Galileo turned the telescope on the heavens and set up the modern scientific revolution at the beginning of the Seventeenth Century Furthermore we think that Price s instrumentality theory of innovation see Price 1984 can be applied to the informetric techniques field which offer new instrumentalities in order to produce a more empirical approach vis a vis traditional epistemology taken to be the theory of scientific knowledge As we know Price coined the term instrumentality in order to indicate methods and techniques from which spring a scientific change or a new technology Chapitre 2 36 APPENDIX Table 5 France 4 Name Judicial Organization Criminality Public Administration Trade Information Teachers Population Attitude towards Regions Identity Innovations Art Professions Region Industries Social Class Migrants Youth Enterprises Religions Transportation Relations Work Organization Political Parties Politics Economic Sectors Housing Theory gt pe D I A Li R D KH CWWPOWWOWNTNOA Un OO ON I 00 OO 00 D D J D D A D D CNAUNNRFRNNANOFR SUNN N ORF ONY D 4 4 7 10 4 5 6 9 8 6 10 1 7 4 10 8 5 4 10 8 10 6 ne mm per COON N M O0 n D an Table 6 United Kingdom Name Technological Innovation0 100 Crime
121. II o j enseigne r guli rement en 2 ann e d IUT l URFIST de Toulouse et de Rennes o j ai galement effectu ponctuellement des interventions PESIEE Ecole Sup rieure d ing nieurs en Electrotechnique et Electronique de la Chambre de Commerce et d Industrie de Paris o Xavier Polanco intervient r guli rement l universit d Aix Marseille IT DEA intelligence conomique etc HENOCH constitue une pi ce centrale dans le cadre de projets ou programmes de coop ration de l URI avec des organismes trangers tels que le Centre de Veille technologique du Centre de Recherche Public Henri Tudor Luxembourg notamment le projet ILC Ing ni rie Linguistique et Connaissance rapport INRIA n 3198 juin 1997 cf section 1 2 4 10 Henoch est le nom d un patriarche pr biblique qui assumait un r le de gardien de veilleur d o le nom choisi pour ce syst me l disponible commercialement aupr s du Bureau Van Dijk Martine Dejean et PINIST 7 Lettre de l URFIST de TOULOUSE n 21 juillet 1999 J ai galement effectu des pr sentations orales lors de s minaires ou salons o l INIST tait exposant parmi celles ci je citerais IDT 1998 journ e satellite Intelligence Economique et Comp titivit les journ es IEC Intelligence Economique et Comp titivit 1995 1996 1997 organis es par SCIP FRANCE Society of Competitive Intelligence Professionnals La conduite de ces deux projets pendan
122. Infom trie terme adopt en 1987 par la F I D pour d signer l ensemble des activit s m triques relatives l information couvrant aussi bien la bibliom trie que la scientom trie voir L Egghe et R Rousseau ds Informetrics 87 88 Amsterdam Elsevier 1988 p IV voir aussi dans ce m me ouvrage la r f rence que fait dans ce sens B C Brookes dans son article Comments on the Scope of Bibliometrics p 29 3 Les fonctions de l infom trie Les fonctions de l infom trie sont l analyse l valuation et la repr sentation graphique de IST au moyen des m thodes statistiques math matiques et d analyse de donn es nous nous proposons galement d explorer l application de techniques Annexe 1 174 non quantitatives comme celles qui sont g n r es dans les domaines de l intelligence artificielle et des syst mes experts voir par exemple R Davis d Intelligent Information Systems Chichester U K Ellis Horwood Limited amp John Wiley amp Sons 1986 Les fonctions de l infom trie sont donc l analyse l valuation et la repr sentation graphique de l IST Au prix d une analyse un peu sommaire nous les d finissons de la mani re suivante a L analyse a pour objectif de r pondre des questions d ordre strat gique et de veille scientifique ou technologique Il s agit de produire une information de l information b L valuation de VIST est de deux types
123. LS Complete screening of the SOD1 coding region revealed that the mutation Ala4 to Val in exon was the most frequent one mutations were identified in exons 2 4 and 5 but not in the active site region formed by exon 3 The 2 4 angstrom crystal structure of human SOD along with two other SOD structures established that all 12 observed FALS mutant sites alter conserved interactions critical to the beta barrel fold and dimer contact rather than catalysis Red cells from heterozygotes had less than 50 percent normal SOD activity consistent with a structurally defective SOD dimer Thus defective SOD is linked to motor neuron deat implications for understanding and possible treatment of FALS Identifiers KeyWords Plus MANGANESE PROTEIN ENZYME MUTATIONS INTERFACE STABILITY DISEASE LINKAGE Research Fronts 91 2104 002 SUPEROXIDE DISMUTASES REACTIVE OXYGEN SPECIES ANTIOXIDANT ENZYMES 91 0391 001 ENDOTHELIUM DERIVED RELAXING FACTOR NITRIC OXIDE SYNTHASE L ARGININE PATHWAY CONTINUOUS BASAL EDRF RELEASE 91 1725 001 CU ZN SUPEROXIDE DISMUTASE ACTIVITY COPPER SITES INACTIVE PROENZYME IN ANAEROBIC YEAST 91 2496 001 2 5 A RESOLUTION CRYSTAL STRUCTURE OF MANDELATE RACEMASE TRYPANOSOMAL TRIOSEPHOS PHATE ISOMERASE CRYSTALLOGRAPHIC REFINEMENT 91 3964 001 POLYMERASE CHAIN REACTION FACTOR IX GENE SEVERE HEMOPHILIA B HAVING A POINT MUTATION RAPID DETECTION OF SINGLE BASE MISMATCHES DYSTROPHIN MESSENGER RNA 91 4514 001 2 4 A RESOLUTION
124. Latex De m me la formalisation de la structure des donn es interm diaires permet de remplacer un module de traitement statistique par un autre ou d int grer facilement une tape de traitement linguistique dans le processus de fabrication d informations labor es 5 QUELQUES PREMIERES OBSERVATIONS Une premi re version de cette biblioth que a t mise en service interne au D partement au premier trimestre 91 elle a commenc tre utilis e pour des applications r elles en fin de premier semestre 91 Notre exp rience est donc r duite mais des premi res observations peuvent d j tre d gag es Les r sultats escompt s en mati re de r utilisation ont t atteints c est dire qu une fonction mise en biblioth que est effectivement utilis e par d autres Cependant ce r sultat est loin d tre gratuit Nous observons tr s souvent un facteur multiplicatif sup rieur 10 entre l criture d un programme permettant de r soudre un probl me pr cis et l obtention d un module de biblioth que correctement document De plus l criture de fonctions de biblioth que demande des informaticiens tr s confirm s Plus pr cis ment nous obtenons les ordres de grandeur suivants criture d un programme par un programmeur 3 jours criture du m me programme par un informaticien de haut niveau 1 2 journ e conception criture et documentation d un module de biblioth que par ce sp cialiste 1
125. Les sciences de l information bibliom trie scientom trie infom trie sous la direction de Jean Max Noyer Edition Presses Universitaires de Rennes 1995 pp 13 78 ROYAUTE 99 ROYAUTE J Les groupes nominaux complexes et leurs propri t s application a l analyse de l information Th se de doctorat en informatique Universit H Poincar Nancy I 1999 RAE 97 Rapport europ en sur les indicateurs scientifiques et technologiques 1997 Annexes m thodologiques note m thodologique D Rapport OST 1998 Science et Technologie Indicateurs 1998 annexes m thodologiques ROSTAING 96 ROSTAING H La bibliom trie et ses techniques Edition sciences de la soci te coll Outils et m thodes 1996 131p SMALL 95 SMALL H Relational bibliometrics In Michael E D Koenig Abraham Bookstein Eds 5th International Conference on Scientometrics and Informetrics Learned Information Inc Medford NJ 525 530 VINKLER 96 VINKLER P Standardization of Scientometric Indicators vol 35 N 2 1996 237 245 ZITT 96 ZITT M TEIXEIRA N Science Macro Indicators some aspects of OST Experience Scientometrics vol 35 N 2 1996 209 222 Chapitre 7 137 Annexe 1 une notice extraite du SCIENCE CITATION INDEX SERVEUR Dialog Nb de r f cit es 20 5 1 12508319 Genuine Article LT747 Number of References 52 Title AMYOTROPHIC LATERAL SCLEROSIS AND STRUCTURAL DEFECTS IN CU ZN S
126. Lex 3 3 3 Des modules applicatifs A partir des fichiers directs et des fichiers inverses des tudes bibliom triques ou scientom triques peuvent tre men es et des applications telles que celles pr sent es dans le chapitre 4 peuvent tre d velopp es Pour cela des fonctions d acc s aux donn es adapt es aux documents structur s en SGML se sont av r es n cessaires Par exemple une fonction largement inspir e de la philosophie de la commande grep d Unix permet de cr er un nouveau fichier en s lectionnant ou en liminant des enregistrements qui contiennent une certaine forme ou pattern Ainsi utiliser cette fonction peut servir liminer dans un fichier inverse les enregistrements correspondant une fr quence inf rieure un certain seuil 3 4 Int gration la philosophie Unix 3 4 1 La param trisation des fonctions Quel que soit le type d information initiale Unimarc CCF format l mentaire le m canisme de structuration est unique en SGML et cela quel que soit le niveau d un l ment dans l arborescence Il est donc possible de d finir un op rateur capable de Annexe 2 196 faire des manipulations sur des arbres ou des l ments d arbre quel que soit la localisation d un l ment dans cet arbre De cette constatation est n e l id e de param trer certaines fonctions avec des options standardis es Par exemple tous les filtres qui op rent sur un l ment sp cifique d une struct
127. Lpaths needed to extract the data Convertor parses the document searches for all these paths and stores them in an associative array variable lt gt data The instantiated insertion procedures are then executed 3 2 A generic and extensible WWW RDBMS gateway Figure 2 shows a WWW server triggering a WWW RDBMS gateway called ICGI a program compliant with the Common Gateway Interface CGI protocol of communication between an external program and a Web server ICGI has been designed as a C object class whose main functions include a the parsing of its arguments and especially the one which specifies the type of graphical display to be built and according to this type of display b the transmission of its arguments to the involved object class used to interpret the other parameters like for instance HTML template containing some SQL queries user name and password size of the map to build Using these parameters the involved object class creates the DBMS connection via the Capsule module we have previously described sends SQL queries to the RDBMS kernel always via the Capsule formats on the fly into HTML the rows returned by the database and lastly disconnects from the DBMS To achieve new advanced functions of presentation or some complex SQL statements using intermediary results ICGI can be extended by creating a new specialized sub class Web server HTML documents built on the fly ee sends SQL queries Figu
128. Need for Standards in Bibliometric Research and Technology Scientometrics vol 35 N 2 167 176 1996 34 GODIN 1995 GODIN R MINEAU G MISSAOUI R MILI H M thodes de classification conceptuelles bas es sur les treillis de Gallois et applications Revue d intelligence artificielle Vol 9 n 2 pages 105 137 1995 35 GOLDFARB 1990 GOLDFARB C The SGML Handbook Oxford Oxford University Press 1990 36 GOMEZ 1996 GOMEZ I BORDONS M FERNANDEZ M T MENDEZ A Copying with the problem of Subject Classification Diversity Scientometrics vol 35 N 2 223 236 1996 37 GRIVEL et LAMIREL 1993 GRIVEL L LAMIREL J C An analysis tool for scientometric studies integrated in an hypermedia environment ICO93 4th International Conference on Cognitive and Computer Sciences for Organizations Montreal Quebec Canada pp146 154 4 7 mai 1993 38 GRIVEL et FRANCOIS 1995a GRIVEL L FRANCOIS C Une station de travail pour classer cartographier et analyser l information bibliographique dans une perspective de veille scientifique et technique SOLARIS n 2 Presses Universitaires de Rennes p 81 112 1995 et http www info unicaen bnum jelec Solaris 39 GRIVEL et FRANCOIS 1995b GRIVEL L FRANCOIS C Conception et d veloppement d un syst me d information d di la veille scientifique bas sur les sorties des outils de classification th matique SDOC et NEURODOC In BALPE J P LELU A SALEH I
129. OT Netherlands Observatory of Science and Technology qui coordonne la collaboration de deux quipes pour la publication du Netherlands S amp T Indicators Report le CWTS Centre for Science and Technology Studies http sahara fsw leidenuniv nl et le MERIT Maastricht Economic Research Institute on Innovation and Technology Leur rapport 1998 est disponible sur Internet http sahara fsw leidenuniv nl cwts summary html Chapitre 7 122 Centre de recherche dans le domaine de l analyse quantitative de la recherche le CWTS est Porigine de la conception de la base infom trique permettant l laboration et l application d indicateurs dans le domaine de la recherche scientifique et technologique aux Pays Bas MOED 1988 1995 1996 2 2 Donn es et structure de donn es dans les bases infom triques Nous mettrons l accent dans cette sous section sur ce qui caract rise une base infom trique Les m thodes pour r aliser des indicateurs a partir de donn es bibliographiques vont de la Statistique descriptive aux analyses multidimensionnelles en passant par des techniques de classification et de cartographie ROSTAING 96 constitue une bonne introduction a ces m thodes L aspect calcul et type d indicateurs est abord plus compl tement dans MOED 96 GLANZEL 96 On peut observer que la plupart des indicateurs publi s dans les rapports des trois observatoires tudi s sont des indicateurs univari s Les indicateur
130. ST Avec Jacques Ducloy responsable du DRPN de 1991 1993 j ai particip au d veloppement d une bo te outils pour le traitement de l Information Scientifique et Technique Avec X Polanco responsable de PURI je travaille depuis 1993 la d finition m thodologique et op rationnelle de l analyse de l information au sein d une quipe de cinq ing nieurs double comp tence la fois informatique et scientifique sp cialis s dans les sciences et technologies de l information Les travaux qui sont pr sent s dans cette th se se situent dans le cadre du d veloppement d une plate forme logicielle d di e l analyse de PIST Ce d veloppement qui a d but en 1993 se poursuit actuellement au sein de PURI sous la forme d une station de travail int gr e nomm e STANALYST marque d pos e Ces travaux ont donn naissance au sein de cette station de travail a deux outils op rationnels SDOC et HENOCH SDOC Scientific DOCumentary system est une impl mentation informatique compl tement param trable de la m thode des mots associ s qui permet de classer et repr senter cartographiquement un ensemble de documents en se basant sur les mots cl s qui d crivent le contenu des documents SDOC a t employ dans de nombreuses tudes de veille men es l INIST dans diff rents domaines d application sciences de Ex CDST Centre de Documentation Scientifique et Technique du CNRS Cette
131. UNIVERSITE DE DROIT D ECONOMIE ET DES SCIENCES D AIX MARSEILLE FACULTE DES SCIENCES ET TECHNIQUES DE SAINT JEROME N attribu par la biblioth que LISS IS SIT IS L HYPERTEXTE COMME MODE D EXPLOITATION DES RESULTATS D OUTILS ET METHODES D ANALYSE DE L INFORMATION SCIENTIFIQUE ET TECHNIQUE THESE pour obtenir le grade de Docteur en Sciences de l Universit de Droit d Economie et des Sciences d Aix Marseille Discipline Sciences de l information et de la Communication pr sent e et soutenue publiquement par Luc GRIVEL le 10 janvier 2000 JURY M Luc Quoniam Professeur TUT Service et Communication St Raphael Directeur de th se M Jacky Kister Directeur de Recherche au CNRS Co directeur de th se M Jean Francois Marcotorchino Directeur du Centre Europ en de Math matiques Appliqu es CEMAP d IBM et Professeur associ l Universit de Marne la Vall e M Thierry Lafouge Ma tre de Conf rence l Ecole Nationale Sup rieure des Sciences de l Information et des Biblioth ques ENSSIB habilit diriger des Recherches M Xavier Polanco Responsable de l Unit Recherche et Innovation de l Institut de l Information Scientifique INIST CNRS Remerciements Je tiens a remercier toutes les personnes qui par leur aide ou leurs encouragements m ont permis de r aliser cette th se Alain Chanudet directeur de l Institut d Information Scientifique et Technique
132. UPEROXIDE DI Author s DENG HX HENTATI A TAINER JA IQBAL Z CAYABYAB A HUNG WY GETZOFF ED HU P HERZFELDT B ROOS RP WARNER C DENG G SORIANO E SMYTH C PARG AHMED A ROSES AD HALLEWELL RA PERICAKVANCE MA SIDDIQUE T Corporate Source NORTHWESTERN UNIV SCH MED DEPT NEUROL 300 E SUPER ST CHICAGO IL 6061 1 NORTHWESTERN UNIV SCH MED DEPT NEUROL 300 E SUPER ST CHICAGO IL 60611 SCRIPPS CLIN amp RES INST DEPT MOLEC BIOL LA JOLLA CA 92037 NORTHWESTERN UNIV INST NEUROSCI CHICAGO IL 6061 1 UNIV CHICAGO DEPT NEUROL CHICAGO IL 60637 DENT NEUROL INST DEPT NEUROL BUFFALO NY 14209 DUKE UNIV MED CTR DEPT MED NEUROL DURHAM NC 27710 UNIV LONDON IMPERIAL COLL SCI TECHNOL amp MED DEPT BIOCHEM LONDON SW7 2AZ ENGLAND NORTHWESTERN UNIV SCH MED DEPT CELL MOLEC amp STRUCT BIOL CHICAGO IL 6061 1 apne Journal SCIENCE 1993 V261 N5124 AUG 20 P1047 1051 Cat gorie de p riodique et non ISSN 0036 8075 plan de classement Language ENGLISH Document Type ARTICLE Geographic Location ENGLAND USA Subfile SciSearch CC PHYS Current Contents Physical Chemical amp EarthSciences CC LIFE Current Contents Life Sciences CC AGRI Current Contents Agriculture Biology amp Enviropmental Sciences Journal Subject Category MULTIDISCIPLINARY SCIENCES Abstract Single site mutants in the Cu Zn superoxide dismutase SOD gene SOD1 occur in patients with the fatal neurodegenerative disorder familial amyotrophic lateral sclerosis FA
133. ai d but mes travaux les outils d analyse de l information taient d j relativement nombreux et vari s du point de vue des m thodes mises en uvre COURTIAL 1990 mais l exploitation et l interpr tation des r sultats obtenus restaient mal ais es Sans doute parce que le processus d analyse de l information est un m lange d exploration informelle intuitive par association d id es et d exploitation m thodique de l information labor e par diff rents outils d analyse et que les outils d velopp s cet poque ne prenaient pas en compte suffisamment cet aspect Ceci suppose d assister le travail d interpr tation des sorties des m thodes d analyse de l information en favorisant les interactions entre les sch mas mentaux de l utilisateur sa repr sentation du domaine couvert par la litt rature scientifique et diff rentes repr sentations cognitives fournies par les m thodes d analyse L hypoth se effectu e dans mes recherches est que ces techniques d analyses devaient tre coordonn es par une m taphore galement exprim e par LELU 1993 la navigation dans un oc an d information Pour s y retrouver avoir une vue d ensemble se positionner et positionner ses concurrents l usager doit disposer d une carte du domaine d une boussole pour orienter sa carte sa connaissance du domaine et de m thodes d analyse pour faire le point conna tre son positionnement se situer par rappo
134. aits s ils existent les auteurs et les sources de ces derniers Les auteurs et les sources sont affect s du poids du document correspondant Si un auteur ou une source est associ plusieurs documents du th me les poids de ces derniers sont somm s Les th mes sont compl t s par la liste tri e des auteurs et des sources Les listes des auteurs et des sources sont visualisables en s lectionnant les mots auteurs et sources elles permettent de conna tre les quipes de scientifiques les plus importantes pour un th me donn et les principales revues qui publient ces articles b Interpr tation de la partition obtenue Qualit de la partition La classification est effectu e par approximations successives aussi le r capitulatif du d roulement de la classification permet de v rifier la convergence du processus Si la Chapitre 5 95 stabilisation n a pas lieu il peut tre int ressant d augmenter le nombre de classes pour cr er des classes sp cifiques aux documents oscillants entre deux classes Les indicateurs globaux permettant d appr cier la qualit de la partition obtenue sont le nombre de classes obtenues le nombre de classes demand es est un nombre maximal certains axes initialis s peuvent ne pas avoir t utilis s pour la classification le nombre de documents et de mots cl s class s permet de mesurer la r duction des donn es c est a dire la part d information co
135. alement Les classes obtenues sont des indicateurs des themes ou des centres d int r t autour desquels s agr ge l information tandis que la carte propose une visualisation globale des th mes et repr sente un indicateur strat gique permettant d appr cier la position relative des classes dans l espace de connaissance Les deux outils SDOC et NEURODOC sont d crits plus pr cis ment et compar s dans le chapitre 5 Ils peuvent traiter aussi bien des textes index s manuellement ou par la plate forme ILC 2 4 5 La g n ration automatique d hypertextes dynamiques sur le Web HENOCH HENOCH est un g n rateur d applications hypertextes avec carte de navigation Il tablit une passerelle entre un syst me producteur d indicateurs infom triques un syst me de gestion de bases de donn es SGBD relationnel et un navigateur sur le Web HENOCH permet de stocker les r sultats des traitements infom triques linguistiques et statistiques au sein d une base de donn es ORACLE puis de distribuer ces r sultats sur le Web Sur le plan informatique le syst me HENOCH assure deux fonctions principales e Alimenter un SGBD partir de documents structur s SGML produits par NEURODOC ou SDOC constituant ainsi une base de donn es dite base infom trique car elle rassemble et organise des donn es bibliographiques normalis es et codifi es et les r sultats de l applications des diff rentes techniques d analyse selon une str
136. allon Courtial Turner and Bauin 3 call this representation strategic diagram and use this typology to assess the strategic interest of the themes In this kind of analysis the mainstream themes in the research field studied should be represented by those clusters having the highest values on both axes type 1 in table 3 2 Clusters of type 2 may correspond to central themes in the future Clusters of type 3 are specialized themes while clusters of type 4 are both peripheral and weakly developed and represent the margins of the network This categorization should be cautiously used in collaboration with an expert of the domain The strategic diagrams are generally used to study the life cycle of the themes A case study can be found in 6 Here our use of the map is different We use this representation to define an informational space or global context of research information where the local networks are highlighted i e the associations between the clusters The hypertext interface permits the user to follow the local networks of each theme s Fig 3 1 to 3 4 and then to proceed to an analysis If for instance he is interested in questions of nation and nationality in the framework of the German Question he can see that this cluster s Fig 3 1 is associated with one other cluster Foreign Policy Type 1 Gender Role Culture German Question Occupational Prestige Domination Sixteenth Century Town National Identity Foreign Pol
137. an ressources natural energies linguistic ingeneering and natural language Chapitre 6 114 processing information technology artificial intelligence and expert systems etc Each profile has been clustered mapped by NEURODOC or SDOC and stored in the informetric database for beta testing under WWW by our partners until the end of March 1997 ACKNOWLEDGMENTS We would like to thank C Broussaudier B Levy who with A Kaplan were members of the ESIAL team working on the first phase of this project Special credit should also be paid to Mrs Brigitte Jaray professor at ESIAL for her guidance in this initial phase 6 REFERENCES BALPE J P LELU A PAPY F SALEH I 1996 Techniques avanc es pour l hypertexte Paris Editions Herm s CODD E F 1970 A relational model of data for large shared data banks Comm of the ACM Voll3 6 377 387 DUCLOY J GRIVEL L LAMIREL J C POLANCO X SCHMITT L 1991 INIST s Experience in Hyper Document Building from Bibliographic Databases Proceedings of Conf rence RIAO 91 Barcelone Spain vol 1 GOLDFARB C 1990 The SGML Handbook Oxford Oxford University Press GRIVEL L MUTSCHKE P POLANCO X 1995 Thematic mapping on bibliographic databases by cluster analysis a description of the SDOC environment with SOLIS Journal of Knowledge Organization vol 22 2 70 TI GRIVEL L FRANCOIS C 1995a Une station de travail pour classer cartographier et analyser l in
138. and mapping programs applied onto a corpus of bibliographic data in a particular scientific field The relational data model depends on the features of these results Here we take the results of the NEURODOC program as an example The data model slightly differs in the case of citation co citation 9 or coword analysis The two main components of NEURODOC are a Cluster analysis which groups the documents by cluster and therefore also the authors their affiliations and the journals in which they were published This cluster analysis is achieved using the axial k means method b A factor representation of topics or clusters identified above based on the principal component analysis PCA The keywords are used indicators of the knowledge content of documents Polanco amp al 1997 A NEURODOC cluster consists of a ranked list of weighted keywords and a ranked list of weighted documents A label is attached to each cluster A cluster has coordinate values on a bi dimensional map Each bibliographic reference is composed of fields possibly in several languages such as title abstract authors affiliations publication date document type etc These two SGML document types clusters and bibliographic data are considered as two composite entities and are broken down into several interrelated tables cluster table cluster keyword table document table author table keyword table affiliation table The document Id and the cluste
139. angue Naturelle ILN 93 Nantes France ROYAUTE 1999 ROYAUTE J Les groupes nominaux complexes et leurs propri t s application l analyse de l information Th se de doctorat en informatique Universit H Poincar Nancy I 1999 SERRES 95 Serres A L hypertexte une histoire a revisiter Documentaliste 1995 vol 32 n 2 71 83 SMALL 1997 Small H Update on science mapping creating large document spaces Scientometrics 38 2 275 293 1997 SMALL 1999 Small H Visualizing science by citation mapping Jasis 50 9 799 813 1990 WOLFRAM 1996 Wolfram D Inter Record linkage structure in a hypertext bibliographic retrieval system Jasis 46 10 765 774 1996 Chapitre 1 19 ZIPF 1949 Zipf G K Human Behavior and the Principle of Least Effort Addison Wesley 1949 ZITT 1996 ZITT M TEIXEIRA N Science Macro Indicators some aspects of OST Experience Scientometrics vol 35 N 2 1996 209 222 Chapitre 1 20 Chapitre 2 Bibliom trie et cartographie de PIST par la m thode des mots associ s d marche applicative L analyse de l information peut tre d finie comme l application de techniques de traitement automatique du langage naturel de classification automatique et de repr sentation graphique cartographie du contenu cognitif et factuel des donn es bibliographiques M me ainsi outill e l analyse de PIST ne peut tre effectu e sans s appuyer sur une solide
140. appartenir plusieurs clusters le nombre total de document class s dans un cluster donn 9 est distinct du nombre de documents propres au cluster 10 Aussi la somme des valeurs de la colonne 9 donne le nombre d occurrences de documents dans les clusters La somme des valeurs de la colonne 10 donne le nombre de documents qui ne figurent que dans un seul cluster Le rapport des colonnes 9 et 10 donne le pourcentage de documents propres un cluster Nous utilisons une cat gorisation des clusters d crite dans COURTIAL 1990 page100 pour d finir un plan de lecture des clusters Un cluster est dit principal si son seuil de saturation 1 est plus lev que celui de ces clusters associ s ou clusters externes L intensit de ses associations externes 3 est g n ralement inf rieure son seuil de saturation Les clusters associ s sont appel s clusters secondaires Ils sont l extension naturelle du cluster principal Ainsi Recherche documentaire est un exemple de cluster principal avec comme cluster secondaire associ Langage naturel qui par ailleurs joue un r le de cluster principal vis vis de processus acquisition Par cette m thode de lecture le d coupage en classes de taille fixes ne change pas les r sultats que l on cherche mettre en vidence Dans une lecture des clusters en vue d une analyse nous privil gions les clusters principaux entretenant de nombreuses relations avec d autres clusters en vue
141. application and value for use in ecological studies in particular risk assessment of the deliberate release of transgenic plants are discussed Auteurs LAVIGNE C GODELLE B REBOUD X GOUYON P H Descripteurs anglais P riodique Theoretical and Applied Genetics Vol 93 No 8 1319 1326 1996 ISSN 0040 5752 7 Nom Institut f r Umweltwissenschaften Universitat Zurich Irchel Winterthurestrasse 190 Lieu 8057 Z rich ts Code pays CHE Nom Laboratoire d Evolution et Syst matique des V g taux Universit Paris Sud XI bat 362 URA 1492 Affiliations Lieu 91405 Orsay Code pays FRA Nom INRA Laboratoire de Malherbologie BV 1540 Lieu 21034 Dijon Code pays FRA Voir Mots cles ou voir Titres de risk ri Voir Mots cles ou voir Titres de methods 42 r Figure 10 application crop growth method plant pollen risk sensitivity transformation transgene L acces la description bibliographique du document permet de compl ter les observations effectu es et peut sugg rer de nouvelles voies de navigation Ici supposons que l utilisateur s interroge sur le positionnement th matique de la revue Theoretical and Applied Genetics puis sur le positionnement des 3 organismes qui coop rent et enfin se faire une id e des contextes dans lequel le mot cl risk est employ La section suivante illustre comment ce besoin peut tre satisfait 2
142. assifications sur ces donn es Dans le contexte des observatoires une solution plus efficace consisterait coupler un moteur d indexation et de recherche au syst me de gestion de bases de donn es Sur de tr s gros volumes de donn es ce qui est le cas des bases infom triques des observatoires un couplage XML SGBD Orient Objet serait sans doute mieux adapt qu un couplage XML SGBD relationnel En effet dans le mod le relationnel la repr sentation plate d un document structur tel qu une notice bibliographique se paie par un co t qui peut vite devenir r dhibitoire pour de grands volume de donn es Lorsqu il s agit de reconstruire une notice partir de ses l ments le mod le objet est plus efficace puisqu il permet de repr senter directement la hi rarchie des l ments et l h ritage des propri t s dans l arbre repr sentant le document MICHARD 98 En effet dans le mod le objet on dispose de deux m canismes d acc s un objet DUCOURNEAU 98 un m canisme d acc s par contenu comme dans un SGBD relationnel et un m canisme d acc s par r f rence utilisant ses liaisons logiques avec d autres objets Chaque fois qu un nouvel objet par exemple un l ment de la notice est cr dans la base il est possible de lui donner un identificateur et de le retrouver directement dans une transaction Les identificateurs des objets avec lesquels un objet O est en relation par h ritage permettent
143. ate car le lecteur doit s appuyer sur les connaissances qu il a du domaine et sur une observation attentive de chaque th me op ration illustr e dans 4 3 L interpr tation de la carte correspondant ce jeu de donn es est disponible dans le rapport de tendance qui est commercialis 2 3 Comment observer l organisation th matique Observer l organisation d un th me suppose de pouvoir d crire son contenu les auteurs qui travaillent sur ce theme leur organisme d appartenance leur modes de publication les relations avec les autres th mes L organisation du th me est d crite par e une liste de mots cl s ordonn s selon leur importance pour la d finition du th me le mot cl de plus fort poids donnant son nom au th me e une liste de titres de documents ordonn s selon le m me crit re e une liste des affiliations ensemble des affiliations des auteurs des documents du th me ces derniers sont tri s selon leur fr quence dans le th me e une liste d auteurs ensemble des auteurs des documents du th me ces derniers sont tri s selon leur fr quence dans le th me et e une liste de sources ensemble des titres de revues o sont dit s les documents du th me ces derni res sont tri s selon leur fr quence dans le th me On peut acc der chacune de ces informations par la carte Il existe une fen tre par type d information mots cl s titres des documents auteurs affiliations sources associ
144. ategic indicators for instance authors or countries productivity or centers of interest 12 The informetric platform is composed of a natural language processing environment in French and in English called ILC platform Polanco amp al 1995 NEURODOC Polanco amp Fran ois 1997 and SDOC Polanco amp Grivel 1995 Recently it has been used in collaboration with INRIA Institut National de Recherche en Informatique et en Automatique to experiment knowledge acquisition and structuration from corpora on the field of agriculture Acquisition et structuration des connaissance en corpus l ments m thodologiques Muller C Polanco X Royaut J Toussaint Y INRIA research report N 3198 juin 1997 available in postcript format ftp inria fr 192 93 2 54 Chapitre 6 118 Chapitre 7 La conception de bases infom triques Une application des programmes d velopp s dans le cadre du projet HENOCH pr sent dans le chapitre pr c dent est la possibilit de construire des bases de donn es infom triques hybrides multi sources multi types de donn es exploitables pour le calcul d indicateurs de politique scientifiques selon un mode hypertexte Rassemblant des informations scientifiques et techniques normalis es et codifi es une base est dite infom trique ou bibliom trique lorsque sa structure a t con ue pour obtenir des indicateurs infom triques ou bibliom triques Il n existe pas de producteurs d
145. ation field multiphoton ionization ionization by strong fields ionization in strong laser fields ionization in very intense radiation fields ionization probability decreases with increasing field collision strengths for electron electron and hole collisions electron atom ionizing collisions electron h2 collisions electron molecule collision external bias field external electric field external magnetic field external magnetic fields properties of a lateral surface properties of lateral surface properties of the al surfaces epitaxial insulating layer epitaxial sil xGex layers epitaxial siC conversion layer laser ablation to produce a pulsed pulsed and cw laser pulsed ruby laser pulsed xeCl laser Tableau 3 Les termes les plus variants chantillon Si les ph nom nes de variation et de figement peuvent s interpr ter en termes d indicateurs de connaissance ils doivent n cessairement trouver une expression dans les clusters m me si la classification a tendance a rejeter un nombre important de termes variants Afin de mettre en vidence l effet de la variation et du figement au sein des clusters nous avons t amen s imaginer une fa on de les classer en prenant en compte le fait qu un cluster est constitu a la fois de termes simples un seul mot et de termes complexes plusieurs mots Nous avons donc retenu pour ce classement le coefficient de variation VAR qui assigne la valeur nulle aux
146. ation Science The Changing Paradigm Journal of Information Science vol 3 1981 p 3 12 11 CALLON et al 1983 CALLON M COURTIAL J P TURNER W A BAUIN S 1983 From Translation to Problematic Networks An Introduction to Co Word Analysis in Social Science Information vol 22 pp 191 235 12 CALLON et al 1986 M CALLON J LAW A RIP eds Mapping the Dynamics of Science and Technology London Macmillan Press 1986 13 CALLON et al 1991 M CALLON J P COURTIAL F LAVILLE Co word analysis as a tool for describing the network of interactions between basic and technological research The case of polymer chemistry Scientometrics vol 22 n 1 p 155 205 1991 14 CALLON 1993 CALLON M COURTIAL J P PENAN H La scientom trie Que Sais je PUF Paris 1993 164 15 CAPPONI 1999 CAPPONI N G n ralisation de structures pr dicatives Application l analyse de l information Th se de doctorat Science de V information et de la communication Universit H Poincarr Nancy 1 1999 16 CODD 1970 CODD E F A relational model of data for large shared data banks Comm of the ACM Vol13 6 377 387 1970 17 COURTIAL 1990 COURTIAL J P Introduction la scientom trie de la bibliom trie la veille technologique Anthropos Economica Paris 1990 18 DESVAL et DOU 1992 H DESVALS H DOU La veille technologique DUNOD Paris 1992 19 DKAKI et al 1997 DKAKI T DOUSSET
147. attribut de chaque table constituant la base relationnelle et des chemins d acc s aux l ments de donn es et d associer un traitement particulier a ces donn es une proc dure qui r alise les tests et actions n cessaires pour interpr ter la chaine de caract re correspondant l l ment de donn es en fonction du mod le de donn es de la base La structure d arbre permet un acc s direct tout noeud de l arbre Nous avons d fini une sorte de grammaire annot e qui permet d associer une variable un noeud cette variable tant un param tre d une proc dure PL SQL en l occurrence qui est ex cut e lorsque tous ses param tres sont instanci s Un noeud l ment de donn es dans la terminologie SGML peut Chapitre 7 132 tre qualifi par un symbole d occurrence Par exemple un noeud d clenche autant d appels de la proc dure qu il y a de valeurs r p titives c est le cas par exemple d une liste de mots cl s ou d affiliations Un fichier de configuration associ un type de document d crit la mise en correspondance entre les variables et les diff rents champs de la notice Dans l exemple ci dessous ce fichier d crit comment alimenter une table des affiliations partir d un document reformat comme celui de la section 3 1 1 Nom de la variable Chemin d acc s un noeud de l arbre occurrence Name record AF NA repeat Town record AF TO repeat Country record AF CO repeat query begin
148. aviguer l utilisateur dispose d une carte d une boussole pour orienter sa carte sa connaissance du domaine et de m thodes pour faire le point conna tre son positionnement et celui des autres C est le r le jou par les indicateurs infom triques HENOCH propose deux types de navigation compl mentaires en exploitant les indicateurs infom triques e une exploration intuitive bas e sur la carte th matique permettant d acc der rapidement des listes pond r es de mots cl s auteurs affiliations sources pour chaque th me puis de naviguer vers les documents associ s chaque l ment de ces listes e des fonctions de recherche bas es sur ces indicateurs permettent par exemple de savoir dans quelles th mes un organisme est positionn le nombre de documents qui est l origine de ce positionnement dans le corpus pour chaque th me puis de naviguer vers ces documents L interface d HENOCH ob it au principe des interfaces m taphoriques c est dire qu elle permet l utilisateur de travailler sans n cessiter l apprentissage fastidieux de proc dures et de commandes Nous prendrons comme exemple un corpus issu de la base Pascal 1 339 enregistrements production Pascal 1995 96 qui a t utilis par Le Bureau Van Dijk et l INIST afin de r aliser un rapport de tendance sur les plantes transg niques L outil de classification et cartographie qui a t employ est NEURODOC HENOCH en organisant les r su
149. base relationnelle par le syst me HENOCH POLANCO 98 SGML Standard Generalised Mark Up Language norme ISO 8879 GOLDFARB 90 HERWIJNEN 90 Le format SGML Standard Generalized Markup Language donne des r gles de balisage pour d crire des structures arborescentes o chaque noeud est identifi par une tiquette Baliser un document consiste ins rer dans le texte des cha nes de caract res qui donnent de l information sur le contenu du document XML eXtensible Markup Language est une version modernis e et simplifi e de SGML issue des travaux du W3C XML retient les caract ristiques essentielles de SGML en l purant de ses caract ristiques les plus complexes mettre en uvre et en apportant de puissants de m canismes de liens tendant ceux pr sents dans HTML Il existe une traduction en fran ais de la norme XML http babel alis com web_ml xml Chapitre 7 131 Peut on facilement transposer cette approche d velopp e dans un contexte de veille l chelle des bases infom triques des observatoires des sciences et techniques Nous exposons ici notre m thode et nous l valuons 3 2 Structure de donn es normalisation et mod le de donn es une approche int gr e pour r soudre les probl mes d h t rog n it des donn es et des formats 3 2 1 Reformatage Dans le cas de notices bibliographiques la s mantique est exprim e dans les tiquettes d crivant les champs et ventuellement par l
150. bjets SGML en Lisp Prolog ou C par exemple sont les bienvenus Au niveau des sp cifications la d finition formelle de SGML est un atout qu il faut pouvoir utiliser Pour la phase de g n ration cot de parsers SGML sophistiqu s mais qui demandent de traiter un document de fa on globale il faudrait disposer d outils permettant de travailler simplement sur un sous ensemble mais de fa on plus conviviale que Lex Nous avons lanc la r alisation d une maquette sur ce dernier th me Malgr la jeunesse du projet et le petit nombre d intervenants nous sommes d j confront s des probl mes de maintenance Les outils tels que make ne prennent pas toujours bien en compte la maintenance de biblioth ques de composants g n raux ils privil gient l assemblage de composants pour fabriquer des programmes et non les ensembles de composants sans programme cible d clar mais avec des contraintes de coh rence Les programmes r alis s sont souvent li s une DTD mais ce lien n est jamais explicite Pourtant 1l faut maintenir la coh rence entre les programmes et les DTD Cela veut dire que nous serons amen s nous confronter la gestion des objets partie essentielle des AGL Nous sommes encore trop peu avanc s sur ce point pour mettre des opinions d finitives mais il semble que notre probl me se r duira probablement au choix d un AGL existant et disposant de facilit s de param trisation BIBLIOGRAPHIE BOR9
151. bo te outils pour le traitement de l Information Scientifique et Technique 4es Journ es Internationales Le G nie logiciel et ses applications Toulouse 9 13 D cembre 1991 p 239 254 et dans G nie logiciel n 25 1991 p 80 90 DUCLOY 1999 DUCLOY J DILIB une plate forme XML pour la g n ration de serveurs WWW et la veille scientifique et technique Le Micro Bulletin Th matique n 3 L information scientifique et technique et l outil Internet Editeur CNRS DSI 1999 p 113 137 FRANCOIS 1998 Fran ois C NEURODOC un outil d analyse de l information Conf rence VSST 98 Veille Strat gique Scientifique et Technologique Toulouse 19 23 octobre 1998 GLANZEL 1996 GLANZEL W The Need for Standards in Bibliometric Research and Technology Scientometrics vol 35 N 2 1996 167 176 Chapitre 1 16 GODIN 1995 Godin R Mineau G Missaoui R Mili H M thodes de classification conceptuelles bas es sur les treillis de Gallois et applications Revue d intelligence artificielle Vol 9 n 2 pages 105 137 GOLDFARB 1990 GOLDFARB C The SGML Handbook Oxford Oxford University Press 1990 GRIVEL et FRANCOIS 1995a GRIVEL L FRANCOIS C Une station de travail pour classer cartographier et analyser l information bibliographique dans une perspective de veille scientifique et technique SOLARIS n 2 Presses Universitaires de Rennes p 81 112 1995 et dans http www mfo unicaen bnu
152. bres d un organisme une association ou l initiative d un producteur d information sur un th me porteur On peut donc imaginer dans le futur un lieu virtuel village Internet o l information partag e autour d une th matique serait exclusivement r serv e aux membres du cercle lesquels pourraient galement commander les documents en ligne demander une tudes compl mentaire ou changer des informations via un forum sp cialement mis leur disposition Un syst me comme HENOCH pourrait donc tout fait s int grer dans un bouquet de services 4 BIBLIOGRAPHIE RELATIVE HENOCH 1 Grivel L X Polanco A Kaplan A computer System for Big Scientometrics at the Age of the World Wide Web Scientometrics vol 40 N 3 1997 493 506 1997 et galement in proceedings of the 6th International Conference on Scientometrics and Informetrics Jerusalem 131 142 1997 2 Grivel L C Francois X Polanco Analyse de l information par cartographie neuromim tique et requ tes SQL sur le Web 4 me Conf Intern Hypertextes et Hypermedias r alisation outils m thodes Hypertextes et Hypermedias Editions Herm s Vol 1 n 2 237 248 1997 3 Grivel L X Polanco A Kaplan Requ tes et navigation partir de l information structur e le syste me HENOCH Le Micro Bulletin N 70 493 506 1997 Chapitre 8 160 Chapitre 9 Bilan critique et perspectives Apr s dix ans de travail de rec
153. bservatoires europ ens repr sentatifs sur le plan international qui ont d crit leur base infom trique dans des publications scientifiques un pays largement anglophone la Hollande et deux pays de langue latine l Espagne et la France Un tableau descriptif des observatoires sur le plan des missions ressources indicateurs produits figure en annexe II 2 1 Pr sentation des organismes et de leurs objectifs a L Espagne L Espagne dispose avec le CINDOC centre de documentation scientifique du CSIC Consejo Superior de Investigaciones Cientifica http www cindoc csic es d un organisme comparable l INIST en France Parmi ses missions figure la r alisation d tudes bibliom triques en tant qu outils d aide la d finition d une politique scientifique et a l valuation des programmes scientifiques espagnols FERNANDEZ 93 BORDONS 95 GOMEZ 95 b La France La France a cr en 1990 lObservatoire des Sciences et Technologie OST groupement d int r t public charg de fournir des l ments d analyse sur les activit s de recherche et de d veloppement technologique en France L OST a construit sa propre base de donn es infom triques avec comme objectif la construction d indicateurs fiables pertinents et p rennes d crivant la science et la technologie fran aise en comparaison europ enne ou internationale BARRE 95 Rapport OST 1998 ZITT 1996 c La Hollande La Hollande a cr en 1992 le NW
154. bthemes of these clusters For instance Liberalism seems to be secondary with respect to the theme Bourgeoisie Furthermore in this category of clusters we can discover crossroad clusters Domination and Town which connect very heterogenous topics via one generic keyword s Fig 3 4 Thus crossroad clusters usually represent very generic research topics which are crossing Chapitre 4 71 points of themes Clusters of category B1 could be qualified as mainstream themes if their internal associations are numerous and relatively strong A typical example is German Question s Fig 3 1 and 3 2 whose local network has been already studied An analysis process should start with them because they are the main thematic nodes of the network Clusters of category B2 represent peripheral themes because the links tying them to the network are very weak In this category Handicraft Trade is a good example of such a cluster The only external associations it has are with Chronology by century Family Worker and Modernization have numerous but weak associations to other clusters Since their internal structure is moreover very weak see the number of internal keywords 6 and internal associations 7 in table 3 1 we consider them as peripheral themes Structural Change is a special case because it points out a theme with a strong density i e a homogeneous research field but without any association with other clusters SDOC visualizes such
155. by Cluster Analysis A Description of the SDOC Environment with SOLIS Publi en 1995 1 Introduction Thematic Mapping 2 1 Coword Analysis 2 2 SDOCS clustering process 2 3 The Structure of a Cluster 2 4 Constructing thematic maps Information Analysis of the SOLIS Datafile 3 1 The Indexing Vocabulary 3 2 Coword Clusters as Knowledge Indicators 3 3 Mapping Knowledge A Hypertext System 3 4 Analysing Cluster Relationships Conclusion R f rences iv 40 41 41 42 42 42 42 43 46 46 47 48 49 52 56 57 59 60 62 62 62 64 65 66 66 67 68 71 73 74 Chapitre 5 D marche g n rale d application de m thodes d analyse de PIST et d exploitation de leurs r sultats Titre original Une station de travail pour classer cartographier et analyser Pinformation bibliographique dans une perspective de veille scientifique et technique Publi en 1995 1 Introduction Choix m thodologiques et technologiques 2 1 M thodes mises en uvre 2 2 Technologie informatique 2 3 La cha ne de traitement infom trique 3 Analyse scientom trique des r sultats 3 1 Exploitation des distributions bibliom triques 3 2 Exploitation des r sultats des m thodes d analyse de donn es 4 Bilan et volutions de la station de travail 5 R f rences Chapitre 6 Assister l analyse de VIST par la g n ration automatique d hypertextes dynamiques l re d internet et du World Wide Web conception et d veloppemen
156. ccent sur les apports de la navigation hypertexte et sur la possibilit de mesurer les accords entre les r sultats des deux m thodes d analyse par des indicateurs globaux N anmoins comme les souligne la conclusion de ce chapitre les hyper documents g n r s automatiquement restent statiques ce qui ne permet pas de croiser dynamiquement certaines informations relatives aux r sultats de classification et aux donn es analyser L id e vient alors de constituer une base de donn es accessible via le Web o sont stock s tous les l ments n cessaires l analyse de l information C est le concept de base de donn es infom triques qui est d velopp dans le chapitre suivant Grivel L Francois C Une station de travail pour classer cartographier et analyser l information bibliographique dans une perspective de veille scientifique et technique Solaris n 2 Les sciences de l Information Bibliom trie Scientom trie Infom trie Presses universitaires de Rennes p 81 113 1995 http www info unicaen fr bnum jelec Solaris Cet article a t publi dans la revue lectronique SOLARIS dit e par le Groupe interuniversitaire de recherche en sciences de l information et de la communication GIRSIC dans le cadre d un num ro sp cial sur la bibliom trie scientom trie infom trie Visant 4 mettre en perspective des approches infom triques ce num ro a rassembl un ensemble de r flexions pratiques
157. ce Citation Index de PISI est donc la source par excellence pour les tudes infom triques a partir des publications scientifiques Les qualit s qui ont fait du SCI la base de r f rence sont d apr s BARRE 95 Rapport europ en 97 e multi disciplinarit tous les domaines de recherche y sont bien repr sent s part les sciences sociales et les math matiques couvertes respectivement par le SSCI et CompuMath produites galement par l IST e s lectivit s lection des p riodiques selon une mesure d impact et selon avis d un comit d experts e traitement complet des p riodiques cover to cover tous les documents issus du p riodique sont enregistr s dans la base qu il s agisse d articles normaux de synth ses de notes de lettres etc e en principe compl tude des auteurs et des adresses utilis es pour l analyse des collaborations scientifiques e citations toutes les r f rences bibliographiques sont saisies permettant une analyse des citations e disponibilit dans un format exploitable infom triquement l Integrated Citation File Ses principaux d fauts Rapport europ en 97 DOUSSET 97 sont e couverture in gale ou discutable de certains domaines scientifiques sciences appliqu es notamment les sciences pour l ing nieur ou la p dologie et d s quilibre entre les disciplines sur repr sentation de la m decine clinique par exemple e origine essentiellement anglop
158. cientifique Journ es d tudes sur les syst mes d information labor e de la SFBA Ile Rousse Corse 1997 DUCLOY 91 DUCLOY J CHARPENTIER P FRANCOIS C GRIVEL L 1991 Une bo te outils pour le traitement de l Information Scientifique et Technique 4es Journ es Internationales Le G nie logiciel et ses applications Toulouse 9 13 D cembre 1991 p 239 254 et dans G nie logiciel n 25 1991 p 80 90 DUCLOY 99 DUCLOY J DILIB une plate forme XML pour la g n ration de serveurs WWW et la veille scientifique et technique Le Micro Bulletin Th matique n 3 L information scientifique et technique et l outil Internet Editeur CNRS DSI 1999 p 113 137 DUCOURNEAU 98 Langages et mod les et objets Editeurs DUCOURNEAU R EUZENAT J MASINI G NAPOLI A Collection Didactique INRIA 527 p DUSOULIER 91 DUSOULIER N DUCLOY J Processing of data and exchange of records in a scientific and technical information center Formats what for UNIMARC CCF Workshop Florence IT IFLA UNESCO 05 07 Juin 1991 FERNANDEZ 93 FERNANDEZ M T CABRERO A ZULUETA M A GOMEZ T Constructing a relational database for bibliometric analysis Research Evaluation 1993 Vol 3 n 1 55 62 FAUCOMPRE 98 FAUCOMPRE P La mise en correspondance automatique de banques de donn es bibliographiques scientifiques et techniques l aide de la classification internationale de brevets Th se de doctorat en Sciences de
159. cientifique CNRS for worldwide promotion of French and European research Its mission is to collect and process the results of research and to make them immediately accessible Scientometric analysis has mostly been applied in the natural and life sciences A small number of studies have used scientometric tools to analyse the research developments in the social sciences Whereas scientometric tools have proved their usefulness as monitors of research developments in the natural and life sciences evidence on this point is lacking almost completely for the humanities and social sciences disciplines This paper is an attempt to apply a scientometric approach in the field of the social sciences and to evaluate its potential usefulness The first goal of the study is to map knowledge or subject maps as Price said 1986 p 269 According to Small and Garfield 1988 p 46 The notion that science can be mapped was first clearly stated by D Price during the 1960s In order to map knowledge we use co word analysis Callon Law Rip 1986 We have implemented SDOC programmes the co word analysis in order to classify and visualize the STI It is based on the keywords assigned to scientific documents As a general definition we shall take a co word map of scientific information to be the representation of the topology of relationships between distinct subject areas or research themes which are embedded in the database from which the data has been extra
160. cl Mais les temps de r ponse sont tels qu on ne peut l envisager sur des corpus importants Nous sommes donc la recherche d autres supports pour une telle r alisation L mergence d une nouvelle g n ration de syst mes hypertextes sur l internet nous permet d envisager aujourd hui ce d veloppement avec plus d optimisme Int gration d autres techniques d analyse et de visualisation des r sultats Consid rant que l INIST constitue un observatoire privil gi des sciences nous d sirons appliquer toute m thode pertinente pour cette observation Nous pensons que le soin que nous avons port la conception de cette station notamment au niveau de sa modularit facilitera ce type d int gration Notre ambition n est pas de vouloir red velopper des techniques d analyse existantes mais plut t d tre capable d int grer leurs r sultats facilement La station jouera alors un r le d int grateur en tant que moyen de consultation Remerciements La station d analyse infom trique est le produit d une quipe Nous remercions nos coll gues du Programme de Recherche en Infom trie Xavier Polanco Dominique Besagni Chantal Muller et Jean Royaut pour leurs d veloppements critiques et r flexions ainsi qu Alain Lelu pour ses apports crits et verbaux concernant la sym trie des deux m thodes Nota Notre bibliographie est volontairement circonscrite notre fili re m thodologique
161. clusters L id e de cooccurrence est essentielle En effet si on consid re que deux documents sont proches parce qu ils sont index s par des mots cl s similaires alors deux mots cl s figurant ensemble dans un grand nombre de documents seront consid r s comme proches Cependant la cooccurrence ne permet pas a elle seule de mesurer la force des associations entre mots cl s leur proximit car elle avantage les mots cl s de haute fr quence par rapport a ceux de basse fr quence L emploi d un indice statistique appropri permet de normaliser la mesure de Passociation entre deux mots cl s En pratique nous utilisons le plus souvent l indice d Equivalence dont les valeurs varient entre 0 et 1 Ejj Ci2 Cj Cj o Ci est le nombre de cooccurrences des mots cl s 1 et j Cj la fr quence du mot cl i C la fr quence du mot cl j gt SERPIA Service d Etude et de R alisation de Produits d Information Avanc s CDST Centre de Documentation Scientifique et Technique du CNRS Un cluster est une classe de mots entre lesquels il existe des associations fortes Chapitre 5 71 A partir des mesures de proximit entre les mots un algorithme de classification hi rarchique construit des groupes de mots proches les uns des autres clusters n exc dant pas une taille maximale nombre de mots fix e par l utilisateur Ainsi la figure 1 montre deux clusters C1 et C2 contenant respectivement les mots cl
162. clusters de mots cl s Sciences de la soci t n 29 p 111 126 11 Polanco X et L Grivel 1993 Mapping Knowledge The Use of Co Word Analysis Techniques for Mapping a Sociology Data File of Four Publishing Countries France Germany United Kingdom and United States of America Fourth International Conference on Bibliometrics Informetrics and Scientometrics 13 18 September Berlin Germany 12 Polanco X L Grivel J Royaut How to Do Things with Terms in Informetrics Terminological Variation and Stabilization as Science Watch Indicators Fifth International Conference on Scientometrics amp Informetrics River Forest Chicago Illinois USA June 7 10 1995 a paraitre 13 Royaut J et C Jacquemin 1993 Indexation automatique et recherche de noms compos s sous leurs diff rentes variations Informatique amp Langue Naturelle ILN 93 Nantes France D cembre 14 Traitement Automatique des Langues 34 2 1993 Revue de I Association pour le Traitement Automatique des Langues ISSN 0039 8217 Chapitre 3 58 Chapitre 4 G n ration automatique d hypertextes avec cartes th matiques avant le World Wide Web Ce chapitre approfondit la d marche d analyse bauch e dans les chapitres pr c dents en montrant plus particuli rement comment l utilisation traditionnelle du diagramme strat gique dans la m thode des mots associ s peut tre compl t e par une analyse des relations int
163. cted In this paper we are going to describe the application of our informetric chain based upon the analysis and processing of word associations in a database to the social sciences information in the specific field of sociology For this purpose we use the FRANCIS database produced by INIST in France FRANCIS is a unique set of 20 multidisciplinary bibliographic data bases covering the core of the world literature in Humanities Social Sciences and Economics Then we shall limit our analysis to sociology information just as it is stored in a particular database We will focus our attention on the results of the treatment of the four sets of bibliographic data each corresponding to one of the following publishing countries France Germany United Kingdom and United States of America We emphasize that this four country comparison does not represent a complete survey of the state of the art Chapitre 2 22 Database Data File SGML Conversion SGML File Bibliometric Data Analysis Co words SDOC Clusters Quantitative Data Maps Hypertexte facilities a Elaborated or specialized Scientometric Analysis information Figure 1 The informetric chain operates at a number of levels 2 METHOD 2 1 Co words analysis Co words analysis is an alternative tradition to a more well known and wide spread tradition of citation and co citations analysis in the scientometric community The idea to use keywords to describe the distr
164. ctorat de l universit de Paris VI 4 mars 1993 238 pages LELU et al 1997 Lelu A Tisseau Pirot A G Adnani A Cartographie de corpus textuels volutifs un outi pour l analyse et la navigation Hypertextes et Hypermedia Voll N 1 ditions Herm s Paris 1997 LELU et al 1998 Lelu A Halleb M Delprat B Recherche d information et cartographie dans des corpus textuels partir des fr quences de N Grammes Actes des 4 journ es internationales d analyse statistique des donn es textuelles Nice 1998 LEVEILLE 1998 Leveille V Rostaing H Quoniam L Cr ation d hypertextes automatiques appliqu s la veille VSST 98 Veille Strat gique Scientifique amp Technologique Toulouse Octobre 1998 LEVY 1990 Levy P Les technologies de l inteligence Collection Points Sciences Edition La d couverte 234p 1990 LOTKA 1927 Lotka A J The frequency distribution of scientific productivity Journal of the Washington academy of sciences 16 2 317 323 Juin 1927 MARCOTORCHINO 1991 Marcotorchino F seriation problems an overview Applied stochastics Models and Data Analysis Vol 7 N 2 1991 MARTEAU P F KRUMEICH C Analyse s mantique pour le veille technologique IDT Information documentation transfert des connaissances Paris France Pp 258 263 1995 MICHARD 1998 MICHARD A XML Langage et application Editions Eyrolles 361 p 1998 MICHELET 1988 Michelet B L anal
165. cture in the data and often makes the data much easier to comprehend Before going into details about the description a remark must be made about the sense of the scatter diagrams in our procedure We use them as a way to produce a knowledge representation A representation has been defined to be a set of conventions for describing things Experience has shown that designing a good representation is often the key to turn hard problems into simplest ones and it is therefore reasonable to work hard on establishing what symbols a representation is to use and how those symbols are to be arranged to produce descriptions of particular things Winston 1977 p 179 On the other hand as Poppers says 1979 p 108 109 there are two different senses of knowledge the first is knowledge in the subjective sense consisting of a state of mind and the second is knowledge in an objective sense consisting of problems theories and arguments as such Knowledge in this objective sense is totally independent of anybody s claim to know it is also independent of anybody s belief or disposition to assent or to assert or to act Knowledge in the objective sense is knowledge without knower it is knowledge without a knowing subject Knowledge is taken by us in an objective sense consisting of journal literature the medium through which natural or social scientists report their own original work and in which they evaluate work done by others Two main
166. cuments des auteurs et des sources associ s La mise en forme des r sultats phase 5 Cette phase permet a l utilisateur de visualiser les r sultats des phases 3 et 4 Les repr sentations g n r es sont les instruments de travail de l analyse scientom trique phase 6 3 Analyse scientom trique des r sultats 1l suite de caract res encadr e par un caract re jouant un r le de s parateur LEBART et SALEM 1988 Chapitre 5 87 3 1 Exploitation des distributions bibliom triques A partir des diff rentes distributions plusieurs types d observations peuvent tre effectu es Pour un domaine donn on peut ainsi quantifier sa magnitude nombre d articles nombre de revues son actualit selon la date de publication sa localisation selon le pays d dition des revues scientifiques l importance des p riodiques scientifiques selon le nombre d articles dont ils sont la source au cours d une p riode d termin e la localisation des auteurs selon leur appartenance institutionnelle et son vocabulaire d indexation Tous ces l ments seront galement utilis s pour orienter une analyse approfondie d un domaine particulier Ils permettront de d finir un corpus de r f rences bibliographiques homog ne et pertinent sur lequel les m thodes d analyse des donn es peuvent tre appliqu es Par exemple on peut utiliser la loi de Bradford pour focaliser son attention sur les revues les plus
167. d un objet complexe a partir des l ments de donn es Nous avons en montr les avantages et les limites pour la constitution de bases infom triques hybrides adapt es au calcul d indicateurs La technique propos e permet d viter la pr sence d informations inutiles dans la base et de pallier l absence d information dans la cha ne elle m me en allant si n cessaire chercher de l information dans d autres l ments de donn es des index ou dans la base Cette technique test e dans un environnement SGML SGBD relationnel serait plus efficace dans un environnement couplant SGML un moteur d indexation et de recherche d information et un SGBDOO D une mani re g n rale l emploi de SGML XML en association avec un syst me de gestion de base de donn es si possible orient objet am liore significativement les possibilit s de d exploitation des bases donn es documentaires existantes bibliographiques brevets etc ce qui devrait permettre de r pondre plus compl tement aux multiples niveaux de demande Nous avons appris r cemment qu un proc d similaire dans l esprit celui que nous avions mis en place dans le syst me HENOCH mais bas sur la technologie objet tait mis en oeuvre pour charger des donn es h t rog nes dans un SGBDOO O2 ABITBOUL 97 Ce n est pas trop surprenant L int gration de donn es h t rog nes au sein d un SGBD est un champ de recherche tr s actif dont l
168. d the number of internal and external associations 6 and 7 of each cluster The cluster size 4 is the number of distinct keywords appearing in the internal associations 6 whose mean value 2 represents the density of the cluster This characterizes the cohesion of the cluster The sum of the values of column 4 gives the number of keywords kept in the clusters Here 208 keywords appear in the 27 clusters This can be compared with the initial number of keywords 892 to evaluate the data reduction The number of external associations 7 the mean value of these associations 3 the number of external keywords involved in these external associations 5 and the number of times a cluster is referenced by the others 8 give an idea regarding the role it plays within the network of themes describing a certain research context see Section 3 4 Analysing Cluster Relationships Column 9 and 10 indicate the quantity of bibliographic information relative to each cluster Since document classes can overlap the total number of documents classified in a given cluster 9 is not the same as the number of documents exlusively associated to that cluster 10 The sum of the values of 9 gives the number of documents belonging to the clusters In this case there are 756 document cluster associations whereas the total number of distinct documents in the clusters is only 266 Of these 266 52 are related to exclusively one cluster Overlaps lik
169. dans analyse de l information Ensuite il s agit de caract riser la structure d ensemble du r seau et la contribution de chacun des clusters th mes sa structuration Ainsi les notions de centralit et de coh sion ou densit sont destin es mettre en vidence la contribution des diff rents clusters agr gats ou amas la structuration du r seau global figure 1 La centralit sur l abscisse mesure pour un cluster la force de ses associations avec d autres clusters relations inter clusters Plus ces associations sont nombreuses et fortes plus le cluster d signe un ensemble de probl mes de recherche d importance dans l ensemble de l information scientifique et technique que l on analyse La coh sion ou densit sur l ordonn e mesure la force des associations qui unissent les mots qui composent un cluster Plus ces associations sont fortes et plus les probl mes de recherche correspondant au cluster constituent un ensemble coh rent et int gr Quand ces associations intra cluster sont faibles le cluster pr sente une structure interne molle clat e ce que l on peut interpr ter comme l indice d un th me constitu par des unit s d information relativement d sagr g es M me si comme l a constat l expert du domaine le cluster ELECTRONIC STATES est homog ne il a pourtant une valeur de coh sion tr s faible comme nous pouvons l observer sur la carte voir les figures 1
170. dans la mesure o notre objectif dans cet article n est pas de comparer notre station de travail ou les m thodes utilis es avec d autres mais de pr senter une r alisation du programme de recherche infom trie et une d marche d analyse Diverses tudes ont t men es partir des outils pr sents sur cette station tude TELETHESE Sant Sciences et Sciences Sociales 40 000 th ses analys es en mars 1992 pour le minist re de l ducation nationale dans le domaine des cognisciences DUCLOY et POLANCO 1992 Chapitre 5 101 l conomie de l information POLANCO et al 1993b la sociologie 14 000 r f rences de la base FRANCIS en sociologie de 1989 a 1991 POLANCO et GRIVEL 1994 Phistoire sociale allemande partir de la base SOLIS de I InformationsZentrum Sozialwissenschaften IZ GRIVEL et al 1995 la revue Scientometrics POLANCO et FRANCOIS 1994 etc 5 R f rences CALLON M COURTIAL J P TURNER W A BAUIN S 1983 From Translation to Problematic Networks An Introduction to Co Word Analysis in Social Science Information vol 22 pp 191 235 CALLON M LAW J RIP eds 1986 Mapping the Dynamics of Science and Technology LONDON The Macmillan Press Ltd CALLON M COURTIAL J P PENAN H 1993 La scientom trie Presses Universitaires de France collection Que sais je Paris COURTIAL J P 1990 Introduction la scientom trie Anthropos Economica Par
171. de POST pour analyse strat gique la micro indicateurs technologie demande CINDOC Centro de Informacion y Documentacion Cientifica Joaquin Costa 22 28002 Madrid T l 34 1 5635482 T l copie 34 1 5642644 laboration de bases de donn es bibliographiques et r alisation d analyses bibliom triques de la production scientifique espagnole ainsi que normalisation de la terminologie scientifique Centre de documentation scientifique du CSIC Consejo Superior de Investigaciones Cientifica Environ 130 personnes services comparables ceux de l INIST fourniture de documents recherches bibliographiques traductions bases de donn es multidisciplinaires ICYT science et technique et ISOC sciences humaines Toutes ces bases de donn es couvrent sp cifiquement la litt rature espagnole Concernant l Infom trie une base de donn es bibliom trique une revue lectronique Cybermetrics journal international de recherche en scientom trie bibliom trie et infom trie CWTS Centre for Science and Technology Studies Leiden University PO Box 9555 2300 RB Leiden Tel 31 71 527 3909 Fax 31 71 527 3911 cartographier la science et la technologie plus particuli rement celles des Pays Bas en utilisant des m thodes quantitatives sp cialement des m thodes bibliom triques et infom triques Centre financ par le NWO Organization for Scientific Research 8 chercheurs 4 ing nieur
172. de S PRICE The Science Technology Relationship the Craft of Experimental Science and Policy for the improvement of High Technology Innovation Research Policy vol 13 1984 p 3 20 97 QUONIAM L 1988 QUONIAM L Bibliom trie Informatis e et Information Strat gique Th se de doctorat en Sciences de l information et de la communication Universit Aix Marseille II pp 330 1988 98 QUONIAM L 1992 QUONIAM L Bibliom trie sur r f rences bibliographiques m thodologie in La Veille Technologique l Information scientifique technique industrielle DUNOD 1992 99 Rapport Inria N 3198 MULLER C POLANCO X ROYAUTE J TOUSSAINT Y Acquisition et structuration des connaissances en corpus l ments m thodologiques Rapport Inria N 3198 1997 100 ROSTAING 1996 ROSTAING H La bibliom trie et ses techniques Edition sciences de la soci t coll Outils et m thodes 131p 1996 101 ROUSSEAU 1998 ROUSSEAU F L analyse de corpus d information comme support de la veille strat gique Document num rique 2 177 202 juin 1998 102 ROYAUTE et JACQUEMIN 1993 ROYAUTE J JACQUEMIN C Indexation automatique et recherche de noms compos s sous leurs diff rentes variations Informatique amp Langue Naturelle ILN 93 Nantes France 1993 103 ROYAUTE 1999 ROYAUTE J Les groupes nominaux complexes et leurs propri t s application a l analyse de l information Th
173. de donn es h t rog nes dans une base mais aussi de distribuer des informations extraites de la base de donn es sous forme de donn es SGML pour des traitements ult rieurs ou pour naviguer dans la base infom trique travers une interface hypertexte Grivel L Fagherazzi H Fourneret P Zerouki A Conception de bases de donn es infom triques hybrides analyse de la pratique de trois observatoires europ ens et propositions Les syst mes d information labor e Tle Rousse Corse Edition CD ROM CRRM Marseille 1999 Chapitre 7 120 1 Introduction On constate depuis quelques ann es une demande croissante pour des indicateurs permettant de mesurer les activit s scientifiques et technologiques et ce a diff rents niveaux Ainsi selon l Observatoire des Sciences et Technologie OST en France mergent de nouveaux besoins et de nouveaux march s pour l infom trie tant au niveau des politiques r gionale nationale europ enne et internationale qu au niveau du CNRS des laboratoires des directions scientifiques de la direction du CNRS voire des sections du Comit National Selon son homologue canadien tous les minist res tant aux Etats Unis qu au Canada niveau f d ral doivent proposer des indicateurs de performance dans la description m me de leurs programmes Les programmes et activit s relatifs la science et la technologie n chappent pas la r gle Les universit s au niveau pro
174. des documents indicateurs de contenu de mani re plus complexe que les traditionnels mots cl s fournis par les notices bibliographiques elles m mes 3 1 Donn es Nous d taillons ci dessous les ressources documentaires n cessaires l exp rience Nous avons utilis en premier lieu un thesaurus le thesaurus du FIZ qui comporte 18 351 master terms termes sous leurs formes pr f rentielles et 2 804 used for synonymes En second lieu nous avons fait porter les traitements sur un ensemble de revues scientifiques Physical Review A Physical Review B et Applied Physics Letters qui sont a l origine de 519 r f rences bibliographiques dans la base Pascal Ces revues sont en anglais et comportent toutes des r sum s Les termes utilis s au total 672 ont t extraits automatiquement des titres et des r sum s d auteurs de ces notices bibliographiques Il faut noter que Physical Review A est consacr e la diffusion des travaux en physique atomique et mol culaire tandis que Physical Review B et Applied Physics Letters diffusent les r sultats de la recherche en physique de l tat condens Cette diversit doit se refl ter au niveau des th mes identifi s Cela ne repr sente pas un probl me dans la mesure o le but de l exp rience n est pas d analyser un domaine en particulier mais de prouver l importance et la faisabilit du projet que nous avons nonc dans les sections pr c dentes cf 1 et 2 et qu
175. developping a Java interface to diffuse co citation analysis results on INRA intranet Based on JDBC the developed programs will be used both in HENOCH under Oracle and in SAS environment Special attention will be paid on graphical outputs taking advantage of the Advanced Window Toolkit AWT a set of classes and interfaces classes for building sophisticated graphical interfaces 10 In the first article we compare SDOC and NEURODOC and suggest scenarii to analyse and qualify theirs results A primary hypertext interface is demonstrated based Chapitre 6 117 on these scenarii The second article can be considered as the birth certificate of HENOCH as an interface to analyse SDOC and NEURODOC results HENOCH is specified from a functional point of view by taking into account some drawbacks noticed in the primary interface 11 In section 10 2 Automatic Document Classification Salton 89 G Salton shows how clustering analysis can be used in information retrieval for both searching and browsing a collection of documents In this case the clustered file provides efficient file access by limiting the search to those document clusters which appear to be most similar to the corresponding queries In our case we use clustering methods for information analysis In this aspect assisted searching based on the Who does What and Where When with Whom question is not only browsing or searching information but the dynamic calculus of str
176. donn es AGRICOLA BIOSIS EMBASE Les donn es ont t stock es dans une base relationnelle par le syst me HENOCH POLANCO 98 Chapitre 7 121 distinctes La premi re ne n cessite pratiquement aucune connaissance en informatique et peut se lire ind pendamment de la deuxi me A l inverse la deuxi me s adresse plut t des informaticiens mais requiert la lecture de la premi re partie pour comprendre le contexte d application La premi re partie section 2 d crit la couverture et de l organisation g n rale des bases infom triques en se basant sur les pratiques d observatoires des sciences et technologies dans trois pays europ ens la Hollande la France et Espagne Il ne s agit pas de comparer ces trois observatoires mais de d crire ce qui caract rise une base infom trique de nos jours Les probl mes relatifs la constitution de tels bases sont mis en vidence L un de ces probl mes l h t rog n it des donn es constitue le sujet d tude de la deuxi me partie section 3 Il y est d crit une m thode d int gration de donn es h t rog nes d velopp e dans un contexte de veille scientifique Cette m thode utilise des techniques informatiques de gestion documentaire Nous en montrons les avantages et les limites pour la constitution de bases infom triques hybrides adapt es au calcul d indicateurs 2 Bases de donn es infom triques Nous avons choisi comme source d exemples trois o
177. e Le figement correspond une minimisation des formes variantes du terme tendant vers 0 par rapport la forme de base et il ne peut pas tre admis de parler de figement si les formes variantes sont plus nombreuses que les formes de base Ce crit re de minimisation n existe pas pour la quantification de la variation et il n est pas absurde de lui donner une valeur si les formes de base sont plus nombreuses que les variantes Chapitre 3 48 Soit ij un entier qui prend la valeur 1 quand il existe une ou plusieurs variations du terme i dans le document j T le nombre de documents du corpus Alors n le nombre de documents comportant des variations du terme i est gal _ fij Soit N le nombre de documents index s par le terme i alors N n est le nombre de documents index s par la forme normale du terme i On d signe par VAR l indice de variation du terme i et par FIG l indice de figement du terme 1 Nous proposons un indice de variation qui privil gie les termes qui varient beaucoup dans le plus grand nombre de documents VAR n2 N T n2 N T 1 VAR tend vers 1 pour tout terme apparaissant au moins une fois dans chaque document sous une forme uniquement variante pour n N T L indice de figement privil gie les termes variant peu ou pas dans le plus grand nombre de documents A N 2n est la diff rence entre le nombre de documents o le terme apparait sous sa forme de base et le nombre de docume
178. e auteur etc de chaque document alimente la table lui correspondant table des p riodiques table des auteurs etc Chaque document est identifi par une cl Num roDocument c est dire un num ro attribut qui le relie aux auteurs aux institutions et au journal o l article a t publi Les fichiers de nomenclatures sont galement mis sous forme de tables comme par exemple la classification des p riodiques par cat gorie Les trois observatoires stockent leurs donn es dans une base relationnelle afin de r aliser par des requ tes SQL les croisements effectuer pour calculer les indicateurs Les volumes de donn es stock s sont de l ordre de plusieurs millions de documents Chapitre 7 128 2 4 Conclusion Nous venons de d crire les donn es et structures de donn es qui caract risent les bases infom triques de trois observatoires fichiers d autorit donn es bibliographiques normalis es mod lisation relationnelle en explicitant les raisons de leurs diff rents choix Sur le plan m thodologique les points cl s sont 1 une couverture multi disciplinaire tr s s lective a l instar de ce que fait PISI au niveau des p riodiques revues c ur et stable dans le temps tout en garantissant une bonne repr sentativit des diff rents domaines La couverture optimale d une th matique n cessite une d marche multidisciplinaire Ce qui suppose un largissement des domaines couverts Cette c
179. e respecter aux mieux les distances entre points voisins dans un espace multi dimensionnel e Re visiter le pass partir du pr sent c est dire affecter les articles publi s durant les ann es ant rieures a une classification d articles de l ann e pr sente puis reconstruire une carte par la m thode du MDS puis d observer l volution entre les deux cartes C est en fait ce mode de comparaison qui semble le meilleur car bien videmment la situation pr sente est mieux d crite L inconv nient de cette m thode est aussi son principal avantage Il est plus facile a effectuer la comparaison entre deux cartes car les noms des th mes sur la carte n ont pas chang s il s agit de la m me classification mais bien videmment on ne peut pas observer les volutions entre classifications Une autre approche s inspirant des m thodes utilis es en intelligence artificielle pour la repr sentation des connaissances pourrait tre utilis e GODIN et al 1998 Dans ce type de m thode la hi rarchie des classes est restructur e calcul e incr mentalement grace a des op rateurs chaque fois qu une nouvelle information est soumise au syst me Ainsi chaque tape la nouvelle donn e est compar e avec les classes d j construites L arriv e d un nouvel l ment peut aussi bien avoir un effet mod r faire grossir une classe existante que provoquer un bouleversement dans la classification Cette
180. e champ d application a pris une surface consid rable avec l essor du Web Ce champ de recherche n a pas r ellement retenu l attention des infom triciens dont la pr occupation premi re est de d finir de nouvelles m thodes de calculs d indicateurs Pourtant la fiabilit de ces calculs repose en partie sur la capacit r soudre les probl mes li s l h t rog n it des donn es Il est donc important de s appuyer sur les techniques les plus avanc es des syst mes de gestion de bases de donn es Chapitre 7 135 BIBLIOGRAPHIE ABITEBOUL 97 Querying Documents in Object Databases Serge Abiteboul Sophie Cluet Vassilis Christophides Tova Milo Guido Moerkotte Jerome Simeon International Journal on Digital Libraries 1 1 5 19 1997 BARRE 95 BARRE R LAVILLE F TEIXEIRA N ZITT M L observatoire des sciences et des techniques activit s d finition m thodologie SOLARIS 1995 2 p 219 235 BLAIR 88 BLAIR D C An extended relational Document Retrieval Model Information Processing and Management Vol 24 n 3 1988 259 371 BORDONS 95 BORDONS M ZULUETA M A CABRERO A Identifying Research teams with bibliometric tools publications In Michael E D Koenig Abraham Bookstein Eds 5th International Conference of the International Society for Scientometrics and Informetrics Learned Information Inc Medford NJ 83 92 DOUSSET 97 DOUSSET B DKAKI T Evaluation et expertise s
181. e chapitre 4 montre plus particuli rement comment l utilisation traditionnelle du diagramme strat gique dans la m thode des mots associ s peut tre compl t e par une analyse des relations inter th mes sur une carte th matique en s appuyant sur un hypertexte g n r automatiquement selon une technologie ant rieure au World Wide Web Le chapitre 5 constitue une articulation essentielle entre les trois premiers chapitres et les trois suivants Il explicite la d marche d analyse et de qualification des r sultats applicable deux m thodes de classification et cartographie de l information qui sont d crites en d tail la m thode des mots associ s et une autre plus r cente associant une technique de classification les K means axiales une technique d analyse factorielle courante l Analyse en Composantes Principales ACP En mettant en vidence le besoin de pouvoir croiser dynamiquement certaines informations relatives aux r sultats de classification et aux donn es analyser ce chapitre introduit en quelque sorte les trois chapitres suivants qui ont trait la g n ration automatique d hypertexte tudes que j ai effectu es ou auxquelles j ai particip en collaboration avec des sp cialistes du domaine Chapitre 1 14 dynamiques pouvant assister l utilisateur dans sa d marche d analyse de l IST En cons quence de ce besoin et cela a t signal dans ce premier chapitre un
182. e comme faisant partie des sciences de la cognition H D White and K W McCain Bibliometrics Annual Review of Information Science and Technology vol 24 1989 p 164 Mars 1993 Annexe 1 186 Annexe 2 Une boite a outils pour le traitement de l Information Scientifique et Technique Cet article pr sente les id es directrices de la r alisation d une boite a outils pour le traitement de I information scientifique et technique modularit par d composition en programmes utilisation du standard SGML des exemples d application et des commentaires sur les premiers r sultats Ducloy J Charpentier P Francois C Grivel L Une boite a outils pour le traitement de l Information Scientifique et Technique 4es Journ es Internationales Le G nie logiciel et ses applications Toulouse 9 13 D cembre 1991 p 239 254 et dans G nie logiciel n 25 p 80 90 1991 Annexe 2 185 1 INTRODUCTION Traditionnellement la d marche d informatisation privil gie deux approches Dans les cas simples ou plut t ceux dans lesquels les contraintes transactionnelles sont absentes on associe simplement un programme la r solution d un probl me fig 1 Les m canismes favorisant la modularit conduisent en fait une d composition en fonctions en utilisant la terminologie Pascal ou langage C si possible compil es s par ment et coordonn es par un programme principal Les outils et langages associ
183. e doublons est in vitable Au lieu d liminer les doublons en ne gardant qu un exemplaire de notice pour chaque cl en privil giant par exemple un ordre de pr f rence d pendant de la base d origine NAUER 99 les doublons peuvent tre utilis s pour construire des super notices en prenant par exemple tel champ d une source et tel autre d une autre source ou en combinant deux champs sur la base de la pr sence ou de l absence de telle ou telle information cf annexe 3 Chapitre 7 133 d information dans la cha ne elle m me en allant si n cessaire chercher de l information dans d autres l ments de donn es des index ou dans la base La technologie utilis e dans HENOCH au niveau de la proc dure d insertion une proc dure crite en PL SQL a un inconv nient principal dans la phase de stockage elle effectue des tests sur le contenu de cha nes de caract res stock es dans le SGBD Elle utilise les m thodes de recherches du SGBD qui sont moins performantes que les syst mes bas s sur les index Cette limite est inh rente la technologie de la plupart des SGBD relationnels ils n indexent pas les structures de donn es de type string Lorsque nous avions d velopp HENOCH nous ne nous tions pas pos s le probl me en ces termes L id e tait simplement de pouvoir stocker facilement quelques milliers de documents issus de diff rentes sources au format SGML ainsi que les r sultats de cl
184. e faciliter l utilisation de cette station de travail nous avons d fini des sc narit d analyse standards Ces derniers sont mat rialis s par des fichiers de param tres standards o sont d finis les param tres de l analyse directement d pendants de la m thode choisie et les diff rentes ditions ou mises en forme de r sultats souhait es L utilisateur peut donc diter un fichier de param tres standard le modifier l enregistrer sous un autre nom puis demander l ex cution de telle ou telle phase de traitement partir du nouveau fichier de param tres Chapitre 5 84 Nous avons apport un soin particulier a la mise en forme des r sultats avec comme objectif d obtenir des repr sentations lisibles et combinables favorisant l intuition et les rapprochements d id es Pour cela nous nous sommes appuy s sur trois techniques le transfert des r sultats vers des applicatifs sp cialis s tableurs diteurs Exemples tableaux 1 et 2 les langages de composition code interpr t par un logiciel ou une imprimante tels que PostScript nroff troff et LaTex pour les ditions de documents que nous avons d sir automatiser compl tement hypertexte pour la navigation dans l espace documentaire constitu des cartes th matiques classes de mots cl s et de documents liste d auteurs GRIVEL et LAMIREL 1993 LELU et FRANCOIS 1992 Exemples figures 5 6 7 8 2 3 La cha ne
185. e nous d taillons par la suite 3 2 Outil Infom trique Du point de vue infom trique l application de la m thode des mots associ s ici le programme SDOC l ensemble des termes du titre et du r sum d tect s par le traitement linguistique d extraction terminologique d crit ci dessous 3 3 nous a permis d obtenir un r seau de termes variant peu ou fig s et de termes variant qui auraient t ignor s autrement La variation offre la possibilit de capter les signaux faibles mis par ces termes et de les faire merger D autre part la classification a permis de situer ces termes dans des th mes au total 20 clusters qui se sont par ailleurs r v l s tre des structures complexes compos es de p les d agr gation 12 3 3 Outils linguistiques La cha ne linguistique infom trique que nous avons mis en place s appuie sur un analyseur FASTR 7 et sur un module d assignation de cat gories grammaticales d velopp VINIST pour l tiquetage des mots de diff rents lexiques terminologiques 8 13 Ces outils permettent a partir d une nomenclature terminologique quelconque de rep rer des termes sous leurs formes de base ou leurs formes variantes Chapitre 3 43 Nous identifions trois cat gories de variations 1 la variation flexionnelle 2 la variation syntaxique et 3 la variation de type morpho d rivationnelle Chacune de ces variations pose un probl me particulier pour la reconna
186. e p riodiques internationaux dont 9 000 environ correspondent des abonnements en cours en 1999 la litt rature grise plusieurs centaines de milliers de documents chappant aux circuits commerciaux traditionnels de l dition comme par exemple les th ses les comptes de congr s ou les rapports scientifiques Pour donner un ordre de grandeur INIST fournit actuellement 700 000 copies de documents par an En 1999 plus de 6 000 p riodiques sont analys s pour alimenter deux bases bibliographiques multilingues et multidisciplinaires PASCAL en sciences technologie et m decine FRANCIS en sciences humaines et sociales rassemblant respectivement 13 millions et 2 3 millions de r f rences D s lors que la description bibliographique de ces millions de documents se trouve accessible en ligne sous format lectronique il est possible d utiliser cette mine d informations des fins strat giques la gestion strat gique de la recherche et de la technologie la d termination d une politique scientifique la surveillance d un domaine scientifique avec ses multiples aspects la synth se d information l observation des tendances le positionnement des acteurs de la recherche etc La valorisation de l information et notamment de ses bases bibliographiques faisant partie des missions de l INIST Vinstitut s est dot d une unit de recherche URI Unit Recherche et Innovation ayant pour but principal la conception et la product
187. e this are indicators of theme relationships More than 93 of the documents in the initial file of 285 documents are covered by the 27 clusters We may stress that we have obtained a manageable number of items 27 clusters without losing too much bibliographic information 3 3 Mapping Knowledge A Hypertext System On our maps s Fig 3 1 to 3 4 the 27 clusters are arranged along the vertical Y axis by order of increasing mean value of internal associations density and along the horizontal X axis by order of increasing mean value of the external associations centrality Each cluster has a certain thematic significance within the studied research field expressed by its position on the two axes The fact that two clusters appear close to one another in the information space or map does not mean that they are closely associated with one another It only means that their values of centrality and density are similar The higher a cluster is located on the Y axis the more it is a coherent unit of Chapitre 4 68 mr information The farther right it is on the X axis the greater are its links to other clusters The authors of coword analysis method traditionally distinguishes four types of clusters clusters with high density and centrality type 1 with a low density and high centrality type 2 with high density while peripheral from the point of view of centrality type 3 and themes with low values on both axes type 4 C
188. eacute par amp acirc a par amp agr Tous les modules linguistiques de pr paration de tris ou d dition de la biblioth que utilisent cette recommandation et la phrase suivante Les normes Unimarc amp SGML sont utilis es pour l change de donn es 3 14159 peut tre cod e comme suit Les normes Unimarc amp amp SGML sont utilis amp eacute es pour I amp eacute change de donn amp eacute es amp pgr 3 14159 3 2 3 Niveau notice ou enregistrement Annexe 2 193 A ce niveau sont trait es les structures compos es d l ments simples mais manipul es de fa on globale au niveau des entr es sorties C est ce niveau que l on trouve par exemple la description des formats de notices bibliographiques Il s agit donc simplement de d finir pour chaque type de donn es une DTD SGML Les formats d changes des informations bibliographiques Unimarc Pascal CCF pr conisent des structures 2 niveaux suivant la norme ISO 2709 Certaines organisations par exemple la CEE avec FORMEX EC85 GUI90 proposent des DTD qui reprennent toutes les informations bibliographiques d un format particulier mais dans une organisation sp cifique Nous avons choisi une approche diff rente en d finissant une DTD directement associ e au format ISO 2709 FRA90 permettant d crire un programme de transformation s appliquant de fait tous les formats d riv s DUS91 fig 7 Unimarc Pascal Unimarc Pascal sgml s
189. ective de veille scientifique et technique Solaris n 2 Les sciences de l Information Bibliom trie Scientom trie Infom trie Presses universitaires de Rennes p 81 113 1995 8 Grivel L Francois C Conception et d veloppement d un syst me d information d di la veille scientifique bas sur les sorties des outils de classification th matique SDOC et NEURODOC 3 me conf Intern Hypertextes et Hypermedias r alisation outils m thodes Editions Herm s pp 109 118 1995 9 Grivel L Lamirel J Ch An analysis tool for scientometric studies integrated in an hypermedia environment Proceedings of 4th International Conference on Cognitive and Computer Sciences for Organizations ICO93 Montreal Quebec Canada pp 146 154 1993 Et in rapport CRIN 93 R 179 10 Grivel L Lamirel J Ch SDOC A Generator of Hypertext Structures M Feeney et S Day Eds Multimedia information Londres Bowker Saur p 69 81 1991 en tant que co auteur 11 Polanco X Francois C Royaut J Grivel L Besagni D Dejean M Otto C Organisation et gestion des connaissances en veille scientifique et technologique VSST 98 Toulouse 1998 12 Faucompr P Grivel L Polanco X Dou H Quoniam L Un lien effectif entre informations scientifiques et informations techniques Les syst mes d information labor e Ile Rousse Corse 1997 13 Fran ois C Grivel L Deux l
190. ecture and effectiveness A computationally effective informetric system should explain the relationships between the nature of statistical representation the effectiveness of techniques and the computational architecture in which the computations informetric techniques are performed Cluster analysis and map based representation formulation are examples of such informetric techniques The INIST s Informetric Research Program in french Le Programme de Recherche Infometrie PRI is at the origin of a global informetric system for the analysis of scientific and technical information STI Polanco 1996 This system or computational architecture uses 1 Computational linguistic programs which provide mechanisms of terminological extraction on full text in English and in French in order to replace manual indexing and to build more complex linguistic knowledge indicators than simple keywords Polanco amp al 1995 2 Clustering and mapping programs such as NEURODOC Polanco amp Frangois 1997 and SDOC Grivel amp Polanco 1995 Grivel amp al 1995 3 HENOCH system HENOCH system organizes the results of NEURODOC or SDOC in a relational database management system RDBMS and provides them to users through a client server architecture based on World Wide Web WWW via Internet or Intranet HENOCH development started in September 1994 with a joint project with ESIAL Ecole Sup rieure d Informatique et Applications de Lorraine
191. effectuant le point sur les outils de veille Cette activit soutenue m am ne pr senter cette th se sous une forme originale pour la discipline un recueil d articles publi s Le corps de la th se se compose d une s lection de 7 articles illustrant chacun un aspect de la probl matique de l analyse de Pinformation scientifique ainsi que deux articles en annexe retra ant la gen se de ma recherche dans ses composantes th oriques et techniques Ce recueil est pr c d par une introduction d finissant cette probl matique et situant mes d veloppements dans un contexte scientifique Il est suivi par un bilan critique et une mise en perspective de mon activit de recherche 7 Soit en tout 20 articles dont 5 ont t la fois publi s dans des actes de congr s puis s lectionn s dans des revues 14 Chaque article constitue un chapitre qui est pr c d d une page en couleur comportant un titre se r f rant au sommaire une note de r f rence l article original et une synth se mettant en exergue les points cl s trait s par rapport la probl matique Liste de mes publications par ordre chronologique Les articles signal s en gras constituent le corps de cette th se ceux en italique figurent en annexe en tant qu auteur principal 1 Grivel L HENOCH un outil d analyse de corpus d information scientifique et technique Le Micro Bulletin Th matique n 3 L information scientifique
192. ematic information Furthermore SDOC generates a hypertext system Thus the user can navigate through the generated knowledge space map of themes SDOC is described more detailed in Section 2 On the basis of such thematical maps two types of information analysis can be considered One is the analysis of the thematic structure of the database itself What is in the database the other is the observation of the research field Who does what SDOC differs from LEXIMAPPE concerning technical characteristics SDOC has been implemented in C under UNIX in order to allow the treatment of very large data files whereas LEXIMAPPE is for DOS and Mclntosh systems The modules of SDOC rely on a library of C functions developed at INIST specialized in the treatment of any SGML document 8 so that SGML is used by SDOC both as a conversion format for the raw data as input and as pivot format for the intermediary data which are exchanged between the modules In the following cluster names are printed in italics and start with an uppercase letter Keywords are printed in italics small letter size and lowercase letters Chapitre 4 61 where and when A researcher or teacher in social history at least needs to know the thematic structure of the database he is consulting to satisfy his information request The role of information analysis here is to provide the user with a state of the art of a certain domain of interest in order for
193. ement a des th matiques concernant les couches minces leurs croissances et d p ts les ph nom nes lectroniques dans les semi conducteurs et la photoluminescence sur les couches semiconductrices les h t rostructures b Ceux avec les termes les plus variants ELECTRIC FIELDS ELECTRON DENSITY IRRADIATION PHOTONS MAGNETIC FIELDS et ELECTRONIC STATES Ces clusters concernent les champs lectriques et l influence des champs magn tiques sur la mati re condens e la densit lectronique et les ph nom nes lectroniques dans la mati re le rayonnement lectromagn tique et les interactions atomes mol cules A partir de cette observation deux clusters GROWTH et ELECTRONIC STATE repr sentatifs de ces deux ensembles ont t choisis afin de les analyser en d tail du point de vue de ce qu un expert du domaine pouvait observer quant aux r les de ces ph nom nes de langue au niveau des clusters voir les graphes des figures 3 et 4 relatifs Chapitre 3 52 ces deux clusters Les remarques de la section suivante sont principalement le r sultat de ce travail d expertise 5 5 Analyse de deux th mes repr sentatifs de la variation et du figement Il est n cessaire auparavant de rappeler les propri t s de la m thode infom trique que nous utilisons Identifier les clusters et d crire les associations qui les constituent intra clusters et qui les unissent inter clusters repr sentent la premi re tape
194. ent dans l ensemble du domaine au moment de Panalyse C est aussi un moyen de repr senter automatiquement les contenus de connaissance v hicul s par les documents partir de la terminologie utilis e dans un cluster agr gat ou amas En r sum ce type de carte est un outil d aide l analyse de Pmformation Chapitre 3 45 OPTICAL PROPERTIES SIZE COUPLINGS IONIZATION ELECTRON DENSITY ELECTRIC FIELDS SCATTERING THIN FILM HETEROSTRUCTURES VALENCE PHOTOLUMINESCENCE INTERACTIONS LAYERS ELECTRONIC STATES SURFACES MAGNETIC FIELDS PHOTONS IRRADIATION QUANTUM WELLS GROWTH Propri t s optiques Lasers Effets dimensionnels Super r seaux Diffusion des impuret s en particulier l hydrog ne Interaction particules particules et particules rayonnement Ionisation transitions lectroniques dans les atomes les mol cules et la mati re condens e Etudes de la densit lectronique et des ondes de densit de charge Champs lectriques influence comportement dans les atomes mol cules et dans la mati re condens e Ph nom nes de transport Structures propri t s des couches minces et des monocristaux Puits quantiques et autres h t rostructures Ph nom nes relatifs la structure lectronique dans les semiconducteurs Etudes de la photoluminescence sur des couches semiconductrices ou des puits quantiques Interaction entre particules ou quasiparticules Croissance et d p
195. entaire Matrice creuse documents descripteurs o dans case i j si document i index par descripteur j 0 sinon Les descripteurs sont les axes du rep re o les documents sont positionn s Ils jouent tous le m me r le et sont perpendiculaires 2 2 Le rep re utilis est donc de type euclidien 3 M thode de classification Classification non hi rarchique des documents dans l espace d fini par les mots cl puis projection simultan es des documents et descripteurs sur les axes repr sentant les classes Cf m thode des K means axiales Annexe 1 180 4 Anatomie d une classe Une classe est un d mi axe d fini dans l espace des mots cl s passant par l origine de cet espace Sur cet axe s ordonnent les documents et mots cl s Une classe est donc constitu e de deux listes de mots cl s et de documents tri s par ordre de pertinence d croissante par rapport au type de la classe 5 Nom du th me Le mot cl de poids le plus fort sur l axe repr sentant le th me est utilis comme nom du th me Cette heuristique est tr s frustre la r vision de ce nom par un expert du domaine semble n cessaire 6 Documents associ s aux th mes Les documents ayant une projection sur l axe repr sentant le th me sup rieure un seuil param tre de la m thode 7 Les param tres fixer nombre de classes mode d initialisation des classes seuil des documents seuil des d
196. enu Il faut remarquer que la plupart des termes rejet s tait des termes d un seul mot unitermes Le bilan qui peut en tre fait est que outre la qualit finale de la classification cette op ration a t peu cofiteuse en temps un peu plus d une demi journ e de travail d expertise pour une personne De plus il est apparu qu elle pourrait tre automatis e de fa on quasi complete en la g n ralisant l ensemble du vocabulaire d entr e Cette tape pr alable d puration du vocabulaire a permis d obtenir une classification en 20 th mes principaux Chacun de ces th mes a pu tre analys et d crit par l expert du domaine Le tableau 1 donne ci dessous le descriptif succinct de chacun de ces th mes Ces th mes ont t plac s automatiquement sur une carte en fonction des crit res de coh sion et de centralit propres l outil d analyse infom trique SDOC La coh sion caract rise la valeur des associations unissant les mots qui composent un th me donn La centralit rend compte pour un th me de la valeur de ses associations avec d autres th mes Ces deux mesures permettent de ranger les diff rents th mes sur un plan bidimensionnel voir figure 1 D une fa on g n rale la carte est un indicateur de l importance relative des th mes par rapport la coh sion y de l information qu ils repr sentent individuellement et la centralit x c est dire le r le qu ils jou
197. envoi de synonymie du thesaurus sur le terme ATOMIC SHELLS Certaines Chapitre 3 55 variations de permutation combin es avec l insertion Auger spectrum la s quence ins r e vont permettre de rep rer ce synonyme dans les expressions shell Auger spectrum in atomic shell Auger spectrum of atomic pr cisant le type d tude spectre Auger de la structure lectronique r alis e Pr cisons toutefois que cette variation aurait d tre rejet e avec des m tar gles plus filtrantes les m tar gles sont des r gles qui permettent de contr ler le processus de rep rage des termes variants car atomic est un adjectif qui ne peut sp cifier que le nom qui suit et qui ne peut donc pas permuter du point de vue stricte de la syntaxe Cependant d un point de vue s mantique le terme identifi est valide Les expressions electronic band structure electronic subband structure obtenues par la variation d insertion pr cisent que l on a affaire une structure de bandes et l expression density of inoccupied states apporte une pr cision inoccupied sur les tats lectroniques d crits Le terme ENERGY SPECTRA rep r galement l aide de l insertion appara t dans les expressions energy Auger spectrum energy loss spectra energy r solution photoemission spectra qui toutes pr cisent le type de spectre d crit c Une autre variation observ e n apporte pas vraiment de pr cision sur l objet ou le ph
198. er est cit par les autres clusters via leurs associations externes On consid re que les colonnes 3 5 7 and 8 caract risent les associations externes d un cluster et permettent d appr cier son rattachement au r seau Ainsi les 2 clusters Recherche documentaire et Langage naturel ont de nombreux liens avec les autres clusters du r seau tandis que Revetement metallique est particuli rement isol Le cas de Industrie b timent est un petit peu plus complexe car il n a pas d associations externes mais est cit 11 fois La navigation hypertexte permet de lever imm diatement ce myst re en facilitant l acc s a la description des clusters En fait il existe un th me nomm Conception assist e traitant des applications de IA dans l industrie naval qui fait neuf fois r f rence Industrie b timent travers le terme Conception assist e On a donc en r alit deux th mes autonomes Industrie b timent et un th me qu on peut appeler Industrie naval aux vocabulaires tr s sp cifiques reli s par un terme plus g n rique de fr quence plus lev e Conception assist e Le tri du tableau complet des clusters par centralit permet de situer la force de ces liens qui dans le cas pr sent tait relativement lev e pour Recherche documentaire dans le premier tiers d un tableau de 21 clusters Les colonnes 9 et 10 permettent d appr cier la r partition des documents dans les clusters Comme un document peut
199. er juin 1990 MEY90 MEYER B Conception et programmation par objets Interedition Paris 1990 MIC88 MICHELET B L analyse des associations Th se de doctorat Universit de Paris VII 1988 Annexe 2 205 NEW90 NEWCOMB S X3V1 8MSD7 Journal of Development Standard Music Description Language in Proceedings of the Hypertext Standardization Workshop National Institute of Standards and Technology 1990 pp179 188 PGI88 UNESCO PGI amp UNISIST CCF The Common Communication Format Second Edition Paris 1988 PGI 88 WS 2 POL91 POLANCO X SCHMITT L BESAGNI D GRIVEL L A la recherche de la diversit perdue est il possible de mettre en vidence les l ments h t rog nes d un front de recherche Journ es d tude de la SFBA les syst mes d information labor e Ile Rousse FR 5 7 juin 1991 Annexe 2 206 R sum francais L analyse de l Information Scientifique et Technique IST stock e dans les bases de donn es bibliographiques requiert l exploitation coordonn e de diff rentes techniques Deux m thodes permettant de classer et repr senter sur une carte th matique un ensemble de documents en se basant sur les mots cl s qui les indexent sont tudi es en profondeur Ces tudes montrent que l analyse et l interpr tation des r sultats obtenus par de tels outils supposent un m lange d exploration informelle intuitive et d exploitation m thodique de l information
200. er th mes sur une carte th matique en s appuyant sur un hypertexte g n r automatiquement selon une technologie ant rieure au World Wide Web Sur la base d une telle carte th matique deux types d analyse de l information sont consid r s l une est l observation de la structure du corpus de donn es et l autre et V observation du champ de recherche qui fait quoi o et quand Dans cette exp rience l utilisation d un hypertexte sp cialis dans la visualisation et lexploration de cartes th matiques illustre l un des principes qui pr vaudront la conception du syst me HENOCH l utilisation de la carte comme moyen d exploration des structures th matiques Grivel L Mutschke P Polanco X Thematic mapping on bibliographic databases by cluster analysis a description of SDOC environment with SOLIS Journal of Knowledge Organization Vol 22 n 2 70 77 1995 Cet article est le fruit d une collaboration avec le InformationsZentrum Socialwissenschaften IZS de Bonn Il montre l application d une m thode d analyse sur des donn es provenant d une base allemande en sciences sociales SOLIS et illustre un mode d exploitation des r sultats que permet le syst me hypertexte 1 Introduction Bibliographical information in public databases are as Brookes 2 p 9 says abundantly generated and systematically stored but not yet efficiently used The present paper addresse
201. ermet de replacer les ph nom nes linguistiques de la variation et du figement cf 3 2 l int rieur des clusters une fois que ces ph nom nes ont t automatiquement rep r s au niveau des textes eux m mes par les traitements informatiques linguistiques cf 3 3 On verra dans la section 5 comment ces ph nom nes de langue sont repr sent s d une mani re quantitative suite un calcul et qualitative dans la structure des clusters 5 Discussion Le but de cette section est de montrer l apport que signifie la mise en uvre de notre hypoth se cf 2 savoir que la variation et le figement peuvent tre des indicateurs linguistiques de connaissance susceptibles d tre l objet d une mesure dans le cadre d une ing nierie de l information et donc exploitables du point de vue infom trique Il s agit ici de mesurer le r le qu ils jouent dans les clusters et les types de clusters qu ils privil gient Il faut noter que les clusters sont des indicateurs des th mes ou des centres d int r t autour desquels s agr ge l information un moment donn Quand on observe les termes qui ont servis cr er les clusters on remarque que certains varient beaucoup alors que d autres sont remarquables par leur stabilit Que traduit ce ph nom ne de langue et comment lui donner une interpr tation en terme d indicateurs de connaissance Nous cherchons dans un premier temps donner une explication lingu
202. ers index Traitements linguistiques _ s Traitements statistiques A ya Analyses Algorithmes de lexicographiques et classification syntaxiques Analyse des mots Lemmatisation assaci Finition Edition Publication Creation d hyperdocuments PAO Composition fig 8 Les deux applications d crites ci dessus diff rent essentiellement par les m thodes statistiques utilis es et les interfaces hypertextes choisies A chaque m thode correspond un module de la ILIB en r alit le m me principe de d composition a t utilis La communication entre les programmes de cette architecture est bas e sur la d finition pr cise de la structure des donn es interm diaires Les deux premi res tapes de la figure 8 s appuient sur le mod le de donn es fichiers inverses et fichiers d associations De la m me fa on nous avons d fini une structure SGML commune d crivant les clusters ou classes obtenus par les modules statistiques des applications SDOC et NEURODOC Une fois les clusters obtenus il faut les diter et ou les publier L encore le m me m canisme s applique et il est extr mement facile d associer une balise un traitement pour diter son contenu ou pour cr er un n ud hypertexte En outre cette facilit d criture garantit la possibilit pour les deux applications d changer facilement les Annexe 2 200 cibles hypertexte sous Unix sous Macintosh sous PC publication sous NROFF
203. erveur grammaticales MIRIAD SGBDR ae NEURODOC Serveur WWW Statistiques K means axiales bibliom triques FASTR ACP lt a SS Mac rc sn Figure 1 la plate forme infom trique 2 4 1 Reformatage donne des r gles de balisage pour d crire des structures arborescentes o chaque noeud est identifi par une tiquette Baliser un document consiste ins rer dans le texte des cha nes de caract res qui donnent de l information sur le contenu du document 7 Ce programme a t r alis par D Besagni URI La plate forme ILC a t r alis e par Jean Royaut URI et Chantal Muller qui a quitt PURI depuis Ce programme a t r alis par L Grivel URD 10 Ce programme a t r alis par C Fran ois URI ll Ce syst me a t con u par L GRIVEL URI puis r alis en collaboration avec 3 ing nieurs en informatique A Kaplan B Levy Ch Broussaudier de l ESIAL Figure extraite du document technique R alisation d une station de l analyse de l information INIST 14 01 1998 Chapitre 1 9 La nature textuelle des donn es analyser la diversit de leur structure le nombre de champs diff rents a traiter pour mener a bien une tude infom trique nous ont amen s a adopter la norme SGML pour la description de la structure logique de tous les document manipul s par les outils
204. es aboutissent 4 d tecter les m mes blocs dans le tableau En effet dans nos exp rimentations nous n avons pas relev de contradictions entre les r sultats des deux m thodes sur un m me fichier de donn es En les param trant de fa on obtenir un nombre identique de classes partir d un m me fichier de donn es il est courant d observer entre 60 et 80 de classes similaires Les deux m thodes d tectent sensiblement les m mes blocs Leur emploi sur un m me fichier permet donc d obtenir des repr sentations diff rentes des classes que nous r capitulons ici Les classes de mots cl s des Mots associ s sont structur es par des associations internes et externes Pour les diff rencier des demi axes repr sentant les classes de mots cl s non structur es et recouvrantes des Kmeans axiales nous les appelons clusters Les clusters sont disjoints mais on peut consid rer que la notion d association externe adoucit cette classification stricte de la m me mani re que la notion de seuil permet d adoucir la classification des documents par les Kmeans axiales Les clusters de mots cl s sont relativement faciles a interpr ter car la notion de cooccurrence est intuitivement compr hensible par tout un chacun Dans les deux cas les classes de documents sont recouvrantes Les classes de documents obtenues par lesKmeans axiales sont en g n ral explicites car tri es par valeur de projection des documents sur les axes L
205. es cartes des Mots associ s construites partir des mesures de centralit et de coh sion des clusters fournissent une repr sentation synth tique de la morphologie du r seau Si ces cartes permettent de comparer les clusters d un point de vue structurel elles ne rendent pas compte des proximit s entre th mes comme les cartes par ACP de 7 L algorithme de classification utilis le simple lien utilise uniquement l ordre des paires de mots cl s pour regrouper les mots au sein d une m me classe Il est invariant par transformation monotone de la matrice de similarit s Aussi du point de vue du r sultat de la classification il est indiff rent d utiliser E ou sa racine et donc consid rer qu il s agit du m me indice de similarit Chapitre 5 82 NEURODOC ou comme pourrait le faire une carte obtenue par bi dimensionnal scaling coword maps PETERS et VAN RAAN 93 C est pourquoi figurent sur les cartes de SDOC les relations entre themes mises en vidence par les associations externes Les cartes par ACP de NEURODOC o la distance entre th mes a un sens d un point de vue s mantique sont intuitivement plus lisibles mais n cessitent une certaine exp rience pour leur interpr tation En effet il faut garder a l esprit que les th mes les mieux repr sent s se situent aux extr mit s des axes horizontaux et verticaux ainsi il est possible de d gager des oppositions entre th mes et par l les grandes
206. es en nombre Comme le souligne MOED 96 mettre en correspondance publications et institutions de recherche est une t che beaucoup plus d licate qui ne peut tre effectu e directement et simplement en se basant sur les adresses des auteurs des publications Tr s fr quemment il arrive de rencontrer de nombreuses formes lexicographiques pour la m me donn e Ceci suppose l existence de fichiers d autorit g ographiques codes postaux villes r gions pays et institutionnels code d institution classification sectorielle des organismes Chaque organisme s est donc dot de fichiers d autorit Espagne Pour le traitement des affiliations le CINDOC a constitu les fichiers d autorit suivants I Centres de recherche Nom standardis m Code institution pour les centres espagnols a 5 niveaux 1 d pendance administrative Chapitre 7 126 2 type d organisation l int rieur de chaque d pendance administrative Un code pays en trois lettres est introduit ici pour les centres trangers acronyme code UNESCO disciplinaire code postal NB les centres trangers sont codifi s un niveau plus agr g Un R Il Villes espagnoles variations des noms et code postal indiquant la province et la communaut autonome IT Pays trangers codes pays anglais et espagnols code ISO avec agr gations pour les pays du royaume uni ou les deux anciennes Allemagnes ainsi que pour des r g
207. es groupes de mots pouvant permuter autour d un l ment pivot pr positions ou s quences verbales Par exemple range of power modulation frequency est associ au terme Frequency range 3 3 3 Variation morpho d rivationnelle La variation morpho d rivationnelle int gre dans la terminologie les ph nom nes de nominalisation et d adjectivisation Ainsi la nominalisation de l adjectif permet d associer la s quence textuelle instable combustion au terme Combustion instability dans les cas de nominalisation des verbes promotes degration of the cellular tumor se trouve associ tumor promotion et pour l adjectivisation des noms optic disk est quivalent au terme optical disk En r alit notre exp rimentation ne traite pas les ph nom nes de d rivation qui ne sont cit s ici que pour l exemple elle ne traite comme nous avons dit que les variations flexionnelles 3 3 1 et syntaxiques 3 3 2 4 Exp rimentation Elle s est d roul e en deux phases La premi re compl tement automatique est le r sultat brut du couplage du module d extraction terminologique avec SDOC Elle a permis d obtenir sans intervention humaine une premi re classification La deuxi me phase a n cessit l intervention d un ing nieur documentaliste expert en physique Chapitre 3 44 La premi re tape de l expertise a consist filtrer les termes du vocabulaire peu informatifs du point de vue du cont
208. escripteurs nombre maximum de documents par classe nombre maximum de descripteurs par classe 8 Position des th mes sur un plan ACP des themes obtenus d finis dans l espace des mots cl s B Programme SDOC 1 Technique statistique M thode du simple lien 2 Repr sentation des donn es documentaires Matrice creuse documents descripteurs o 1 dans case i j si document i index par descripteur j 0 sinon Cette matrice permet de d finir la co occurence entre 2 mots cl s puis un coefficient d association entre ceux ci Un r seau d associations entre les mots cl s est donc d fini Ces associations d finissent une distance entre les mots cl s 3 M thode de classification Classification hi rarchique des mots cl s bas e sur la distance d finie ci dessus Cf m thode du simple lien 4 Anatomie d une classe Une classe est un sous ensemble du r seau des mots cl s Elle est donc constitu e d une liste de mots cl s internes d une liste d associations internes d une liste d associations externes d une liste de mots cl s externes Annexe 1 181 5 Nom du th me Le mot cl appartenant la liste de mots cl s internes figurant dans le plus grand nombre d associations internes et externes est utilis comme nom du th me 6 Documents associ s aux th mes Les documents ayant au moins deux mots cl s appartenant la liste de mots cl s internes ou un mot
209. esponsable de la premi re entit de recherche l INIST qui ma communiqu son exp rience de la gestion de projets et qui m a fait confiance dans la conduite du projet SDOC tous les stagiaires pour leurs d veloppements informatiques et notamment trois l ves ing nieurs qui ont particip en 1995 pendant 6 mois au projet HENOCH Charles Broussaudier Bruno Levy Andr Kaplan dans le cadre d un stage de l cole sup rieur en informatique et automatisme de Lorraine ESIAL Mes parents Catherine Table des mati res Pr ambule Liste de mes publications par ordre chronologique Chapitre 1 De l analyse de l information scientifique l hypertexte 1 L analyse de l information scientifique et technique IST 1 1 La probl matique de l analyse de PIST et son int r t pour un institut tel que l INIST 1 2 L infom trie discipline carrefour pour l analyse de l IST 1 3 Une d finition op rationnelle de l analyse de IST 2 L hypertexte et les m thodes d analyse de PIST 2 1 Naviguer dans un oc an d information 2 2 La g n ration automatique d hypertexte et les techniques d analyse 2 3 Contexte scientifique 2 4 La plate forme infom trique de URI 3 Conclusion et articulation des chapitres suivants 4 Bibliographie Chapitre 2 Bibliom trie et cartographie de IST par la m thode des mots associ s d marche applicative Titre original Mapping knowledge The Use of Coword Analysis
210. est structur e d coup e en unit s l mentaires hi rarchis es avec des renvois multiples bibliographie notes liens entre auteurs et affiliation etc qui peuvent tre utilis s pour g n rer des liens SGML et son volution XML sont les normes utilis es aujourd hui pour d crire la structure logique de documents 2 une approche linguistique cette approche consiste consid rer la langue du texte comme porteuse d informations analysables pour en extraire des liens hypertextes En r cup rant toutes les informations que peut fournir le texte d un document 1l est possible d en extraire un ou plusieurs r seaux de parcours possible Le principe consiste exhiber par des moyens automatiques une organisation partir des l ments d information unit s textuelles l mentaires ou termes qu il est possible d extraire du corpus c est dire lier ces l ments entre eux r seaux de sens de type encyclop dique comme par exemple dans le syst me TAIGA MARTEAU 95 liens de cooccurrence comme dans le syst me SAMPLER JOUVE 1998 issus de la m thode des mots associ s CALLON et al 1983 1986 1993 MICHELET 1988 liens de variations flexionnelles ou syntaxiques d un terme complexe tel que le groupe nominal ROYAUTE 1999 section 2 4 3 et chapitre 4 etc 3 une approche statistique cette approche consiste a consid rer une collection de documents pour en extraire des caract ristiques Elle
211. est difficile d tablir des fichiers pertinents La fourniture d un organigramme simplifie la tache de la m me mani re qu il est plus facile de faire une normalisation des descripteurs mots cl s si on dispose de ressources terminologiques A travers ce constat se pose le probl me de la d finition des relations producteur de bases de donn es observatoires et producteurs de bases de donn es entre eux sans oublier les auteurs organismes qui sont l origine des publications Sans comp tence particuli re sur le plan juridique nos r flexions se limitent exprimer une opinion Construire des bases infom triques hybrides ne peut s envisager sans mettre en place un cadre de coop ration quitable entre les producteurs de bases de donn es et les observatoires les instituts de recherche pour d finir la couverture des bases am liorer la normalisation des donn es constituer ou utiliser des fichiers d autorit s communs en partageant co ts comp tences et forces de travail Sur ce dernier point signalons les travaux de J Royaut sur les groupes nominaux complexes ROY AUTE 99 et leurs propri t s et notamment son tude du ph nom ne de la variation en corpus quelles soient flexionnelles ou syntaxiques Ces travaux ont d bouch sur une plate forme linguistique ILC qui permet de rep rer des termes en corpus sous leurs diff rentes formes en liaison avec un lexique terminologique Chapitre 7 130 3 Int
212. et 2 et le graphe de la figure 4 Outre les informations fournies par la m thode des mots associ s relatives aux propri t s des clusters nous disposons maintenant des informations linguistiques telles que la variation et le figement concernant les termes qui composent les clusters L expertise a consist a faire une lecture des clusters du point de vue du contenu scientifique qu ils repr sentent en exploitant toutes ces informations Chapitre 3 53 LAYERS GROWTH VALENCE QUANTUM WELLS SCATTERING N HETEROSTRUCTURES ELECTRONIC STATES Figure 2 Carte locale repr sentant les deux th mes choisis GROWTH et ELECTRONIC STATES et leurs associations externes avec d autres th mes r seaux locaux On voit que ces deux th mes sont reli s travers le th me HETEROSTRUCTURES Leurs positions sur la carte montrent que si ils sont relativement proches sur l axe de la centralit x mais assez distants sur l axe de la coh sion y GROWTH Ce th me fait partie des th mes compos s de termes variant peu Il regroupe 45 articles qui traitent de la croissance et du d p t de couches minces Les mots cl s du th me voquent soit les couches minces elles m mes FILMS MONOLAYERS MULTILAYERS LAYERS soit le ph nom ne de croissance de la couche GROWTH ISLANDS NUCLEATION soit la m thode de d p t utilis e DEPOSITION VAPORS CVD PLASMA MOLECULAR BEAMS Enfin le mot cl GRAPHITE se rapporte
213. et technique et l outil Internet CNRS DSI p 27 44 1999 2 Grivel L Fagherazzi H Fourneret P Zerouki A Conception de bases de donn es infom triques hybrides analyse de la pratique de trois observatoires europ ens et propositions Les syst mes d information labor e Ile Rousse Corse Edition CD ROM CRRM Marseille 1999 3 Grivel L Polanco X Kaplan A A computer System for Big Scientometrics at the Age of the World Wide Web Scientometrics vol 40 N 3 1997 493 506 1997 et in proceedings of the 6th International Conference on Scientometrics and Informetrics Jerusalem 131 142 1997 4 Grivel L Francois C Polanco X Analyse de l information par cartographie neuromim tique et requ tes SQL sur le Web 4 me Conf Intern Hypertextes et Hypermedias r alisation outils m thodes Universit Paris 8 Saint Denis in H2PTM97 Editions Herm s Vol 1 n 2 237 248 1997 5 Grivel L Polanco X Kaplan A Requ tes et navigation partir de l information structur e le syst me HENOCH Le Micro Bulletin N 70 1997 493 506 6 Grivel L Mutschke P Polanco X Thematic mapping on bibliographic databases by cluster analysis a description of SDOC environment with SOLIS Journal of Knowledge Organization Vol 22 n 2 70 77 1995 7 Grivel L Francois C Une station de travail pour classer cartographier et analyser Vinformation bibliographique dans une persp
214. ette phase de la cha ne infom trique on utilise des shell script UNIX encapsulant des programmes crits en langage C On peut envisager l utilisations des outils disponibles sur le march comme par exemple MATLAB en math matiques Annexe 1 178 SAS en statistiques et SPAD N en analyse de donn es et le d veloppement d un g nie math matique plus sophistiqu 4 Outils scientom triques Ce sont les programmes NEURODOC et SDOC voir leur fiche technique dans la section 7 de cette communication NEURODOC est un ensemble de modules impl mentant la m thode de K means axiales Voir C Francois N Appel G Bloch M Gabsi J Ducloy NEURODOC Nouveaux profils documentaire Compte rendu de fin d tude d une recherche financ e par le Minist re de la Recherche et de la Technologie d cembre 1991 A Lelu et C Francois Information retrieval based on a neural unsupervised extraction of thematic fuzzy clusters communication Neuro Nimes 92 Les r seaux neuro mim tiques et leurs applications Nimes 2 6 novembre 1992 A Lelu et C Francois Hypertext paradigm in the field of information retrieval a neural approach communication a Fourth ACM conference on Hypertext ECHT 92 Milan Italie 30 novembre 4 d cembre 1992 SDOC est un ensemble de modules impl mentant la m thode des mots associ s Voir X Polanco L Schmitt D Besagni L Grivel A la recherche de la diversit perdue
215. f a late pollen transcript 53 1996 Pollen and the heat shock response 5 1994 Ecological risk of growing transgenic potatoes in the United States and Canada 49 1996 The Arabidopsis thaliana ACT4 ACT12 actin gene subclass is strongly expressed throughout pollen development 49 1995 Development of a pollen mediated transformation method for Nicotiana glutinosa 46 1996 A novel transient assay system demonstrates that DT A is a temperature sensitive toxin in plant tissues 46 99 acking ariable e e ere e a e ki e ry Document Done Jw w Pe Figure 5 0 PR A 2 3 2 Comment se faire une id e de l environnement institutionnel d un th me Le lien affiliations renvoie la liste des affiliations des auteurs des documents du th me Fig 6 tri es selon leur fr quence dans le th me Ceci donne une indication de la productivit de l institution dans le th me Chaque affiliation est pr c d e de sa fr quence dans le th me et donne acc s la liste des titres des documents du th me crits par des auteurs membres de cette affiliation sommaire carte th mes revues congr s organismes auteurs m Description 11 titres 13 affiliations 35 auteurs 9 sources Documents partag s avec d autres th mes Affiliations des auteurs du th me risk e Cliquer sur une affiliation donne la liste des titres des docume
216. flexibles mais utilisables par des non informaticiens Pour les op rations complexes v ritables investigations documentaires l exp rience montre qu il y a toujours des petits d veloppements informatiques r aliser et donc qu elles doivent tre men es par du personnel ayant une forte comp tence informatique et les environnements courants tels que SunView m me s ils m ritent des am liorations s av rent parfaitement adapt s 6 2 Quels Ateliers de G nie Logiciel pour l ing nierie de l IST Nous avons choisi d lib r ment d investir fortement sur le niveau constituants de base par exemple fichier mots cl s et fichier cooccurrent Nous avons d j obtenu une premi re retomb e car cette biblioth que constitue un excellent outil pour le prototypage d applications de production ou de transformation d Information Scientifique et Technique Mais on peut souhaiter aller plus loin afin d obtenir un v ritable Atelier de G nie Logiciel d di l Information Scientifique et Technique ou plus exactement son ing nierie Nous d marrons nos r flexions sur ce sujet et plusieurs pistes se d gagent Annexe 2 203 Nous travaillons actuellement au niveau des outils de cet Atelier dont la ILIB n est qu un produit cible Pour les aspects prototypage la structure arborescente de SGML la rend particuli rement apte l utilisation d outils d intelligence artificielle et des travaux sur les bonnes fa ons de manipuler des o
217. ford S C 1934 Sources of information on specific subjects Enginering 137 85 86 Janvier 1934 CALLON et al 1983 Callon M Courtial J P Turner W A Bauin S 1983 From Translation to Problematic Networks An Introduction to Co Word Analysis in Social Science Information vol 22 pp 191 235 CALLON et al 1986 M Callon J Law and A Rip eds Mapping the Dynamics of Science and Technology London Macmillan Press 1986 CALLON 1993 Callon M La scientom trie Que Sais je PUF Paris 1993 CAPPONI 1999 Capponi Nicolas G n ralisation de structures pr dicatives Application l analyse de l information Th se de doctorat Science de l information et de la communication Universit H Poincarr Nancy 1 1999 COURTIAL 1990 Courtial J P Introduction la scientom trie de la bibliom trie la veille technologique Anthropos Economica Paris DKAKI et al 1997 Dkaki T Dousset B Mothe J Mining information in order to extract hidden and strategic information Computer Assisted Information Searching on Internet RIAO97 pp 32 51 June 1997 DKAKI et al 1998 Dkaki T Dousset B Mothe J Analyse d informations issues du Web avec T tralogie VSST 98 Veille Strat gique Scientifique amp Technologique Toulouse Octobre 1998 DOU 1995 Dou H Veille technologique et comp titivit Dunod 1995 DUCLOY 1991 DUCLOY J CHARPENTIER P FRANCOIS C GRIVEL L 1991 Une
218. formation bibliographique dans une perspective de veille scientifique et technique SOLARIS n 2 Presses Universitaires de Rennes 81 113 and also on internet http www info unicaen fr bnum jelec Solaris GRIVEL L FRANCOIS C 1995b Conception et d veloppement d un syst me d information d di a la veille scientifique bas sur les sorties des outils de classification th matique SDOC et NEURODOC In BALPE J P LELU A SALEH I Eds Hypertexte et hypermedia r alisations outils et m thodes Paris Editions Herm s 109 118 HERWIJNEN E 1990 Practical SGML Kluwer Academic Publishers POLANCO X GRIVEL L 1995 Mapping knowledge the use of co word analysis techniques for mapping a sociology data file of four publishing countries France Germany United Kingdom and United Chapitre 6 115 State of America International Journal of Scientometrics and Informetrics Vol 1 2 123 137 POLANCO X GRIVEL L ROYAUTE J 1995 How to do things with terms in informetrics terminological variation and stabilization as science watch indicators In Michael E D Koenig Abraham Bookstein Eds 5th International Conference of the International Society for Scientometrics and Informetrics Learned Information Inc Medford NJ 435 444 POLANCO X 1996 La notion d analyse de l information dans le domaine de l information scientifique et technique Conference INRA Information scientifique et technique 21 23 october Tou
219. frent des repr sentations diff rentes classes de mots cl s structur es par les relations de cooccurrences dans un cas classes de mots cl s floues et recouvrantes repr sent es par des demi axes dans l autre On a vu galement que les cartes fournissaient des informations de natures diff rentes indicateurs structurels et visualisation des r seaux locaux pour SDOC oppositions des themes selon deux axes principaux pour NEURODOC Cette richesse au niveau des repr sentations ainsi que la possibilit de comparer globalement les r sultats justifient notre avis la pr sence des deux m thodes au sein de la station chaque m thode apportant un clairage analytique particulier Les volutions de notre station de travail court moyen et long terme Am lioration de l interface L interface actuelle pour le pilotage de la chaine de traitement infom trique est trop rudimentaire dans le cadre d une utilisation occasionnelle de la station Nous en avons fait l exp rience au cours de la formation d un agent nos outils L existence de g n rateurs d interface MOTIF nous permet d envisager avec confiance le d veloppement d une interface graphique pour le pilotage des modules de traitement et de visualisation En effet les fonctionnalit s de la station de travail sont maintenant bien stabilis es Chapitre 5 100 Am lioration des possibilit s d exploitation des r sultats fournis SDOC et NEURODOC Les protot
220. gml conversion de i iso2709 ISO 2709 structure SGML fig 7 Par exemple l information collectivit auteur d une notice Unimarc classiquement dit e en forme externe comme suit 210 aLisboa cMuseu Nacional de Arqueologia e Etnologia d1895 produit la structure SGML suivante lt f210 gt lt sa gt Lisboa lt sa gt lt sc gt Museu Nacional de Arqueologia e Etnologia lt sc gt lt sd gt 1895 lt sd gt lt f210 gt De fa on similaire on peut facilement d finir une structure SGML quivalente aux formats obtenus par d chargement de serveurs ou de CD ROM Par exemple la notice suivante NO 90 0128293 TI Density dependent interactions between seedlings of Dactylorhiza majalis Orchidaceae in symbiotic in vitro culture AU RASMUSSEN H JOHANSEN B ANDERSEN T F Annexe 2 194 AF N1 Univ Copenhagen botanical lab V1 Copenhagen 1123 P1 DNK DT Publication en serie devient en SGML lt record gt lt NO gt 90 0128293 lt NO gt lt TI gt Density dependent interactions between seedlings of Dactylorhiza majalis Orchidaceae in symbiotic in vitro culture lt TI gt lt AU gt RASMUSSEN H JOHANSEN B ANDERSEN T F lt AU gt lt AF gt lt N1 gt Univ Copenhagen botanical lab lt N1 gt lt V1 gt Copenhagen 1123 lt V1 gt lt P1 gt DNK lt P1 gt lt AF gt lt DT gt Publication en serie lt DT gt lt record gt De m me les donn es interm diaires sont sp cifi es en util
221. gn Policy 0 160 0 262 0 143 4 7 3 10 6 11 1 Gender Role 0 213 0 527 0 196 8 2 18 2 5 10 2 German Question 0 267 0 337 0 219 9 2 12 5 13 14 0 Handicraft Trade 0 167 0 222 0 019 5 4 4 10 0 12 1 Historiography 0 082 0 163 0 086 8 8 7 9 2 18 2 Income 0 114 0 137 0 103 9 5 13 7 6 19 0 Labor Movement 0 091 0 169 0 096 9 8 10 10 7 46 1 Liberalism 0 062 0 166 0 079 7 6 6 9 2 18 1 Modernization 0 071 0 093 0 039 4 6 3 9 0 16 2 National Identity 0 188 0 289 0 147 9 2 14 2 8 19 6 National State 0 078 0 194 0 087 9 10 10 10 9 33 0 Occupational 0 190 0 315 0 115 9 6 12 6 8 18 0 Prestige Party 0 133 0 297 0 076 6 7 11 9 3 11 2 Peasant 0 089 0 184 0 060 7 7 9 10 0 14 0 Political Attitude 0 114 0 186 0 066 5 6 4 9 2 13 0 Reformation 0 111 0 221 0 121 8 3 14 6 4 13 0 Chapitre 4 67 Socialism 0 167 0 309 0 095 8 5 8 10 6 15 Structural Change 0 200 0 486 0 000 8 0 20 0 5 4 Town 0 113 0 289 0 124 10 6 12 7 16 60 Worker 0 067 0 142 0 057 6 8 6 8 1 15 Column 1 permits to identify the order in which the clusters have been frozen during the clustering It is used in combination with column 3 for analysing cluster relationships see Section 3 4 The values of columns 2 and 3 are used to plot the clusters in a two dimensional space representation To get a more detailed idea of the structural diversity of the clusters a connection can be made between these mean values 2 and 3 an
222. grivel html Un compte rendu d un s minaire tenu l ADEST le 9 12 97 http www upmf grenoble fr adest seminaires francois htm fait le point sur les l ments techniques composant la plate forme infom trique 1 3 Architecture informatique D un point de vue informatique HENOCH r alise une passerelle entre trois l ments e un syst me infom trique extracteur terminologique moteurs de classification et de cartographie e un syst me de gestion de bases de donn es relationnel ici Oracle e un navigateur sur le Web en assurant deux fonctions principales e alimenter le SGBD partir de documents SGML produits par le syst me infom trique e tablir une interface WWW SGBD par une passerelle qui sait donc se connecter au SGBD soumettre des requ tes SQL partir d un mod le de page HTML incluant des requ tes SQL r cup rer le r sultat et le mettre au format HTML conform ment au mod le et enfin se d connecter Le cadre informatique de ce d veloppement a t plus pr cis ment d crit dans 1 2 3 Chapitre 8 147 2 Comment HENOCH permet d explorer et d analyser l information scientifique et technique sans avoir faire l apprentissage de commandes complexes L information est organis e sous la forme d un hypertexte bas e sur une m taphore cartographique Ainsi HENOCH dispose d outils de navigation qui permettent d viter le ph nom ne de d sorientation commun aux hypertextes Pour n
223. gt Traitement automatis 0 27 Analyse s mantique lt gt Analyse syntaxique 0 25 Recherche documentaire lt gt Traitement automatis Donne s quantitatives 0 25 Formulation question lt gt Recherche documentaire 0 25 Concept lt gt Recherche documentaire 0 20 Analyse s mantique lt gt Indexation Nombre de citations par les autres clusters 4 017 Recherche documentaire lt gt Texte int gral Indice de coh sion 0 24 017 Analyse linguistique lt gt Recherche documentaire Indice de centralit 0 06 0 12 Indexation lt gt Recherche documentaire 0 10 Analyse s mantique lt gt Traitement automatis 0 10 Analyse s mantique lt gt Recherche documentaire Coefficient de saturation 0 10 Mots cl s du th me Poids Fr quence Mots cl Associations externes 0 60 Recherche documentaire 0 30 Traitement automatis Avec le th me Hypertexte 0 20 Analyse s mantique 0 10 Analyse linguistique 012 2 Recherche documentaire lt gt Syst me documentaire 0 10 Texte int gral 0 03 2 Traitement automatis lt gt Conception 0 10 Formulation question 0 03 2 Recherche documentaire lt gt Conception 0 10 Indexation 0 05 Concept Avec le th me Interface utilisateur 0 05 Analyse syntaxique 0 08 2 Recherche documentaire lt gt Traitement en ligne 0 10 Conception 0 05 Mod lisation Avec le th me Langage naturel 0 05 Conception assist e
224. herche il est n cessaire de jeter un regard critique sur ce que l on a r alis Ce dernier chapitre permet partir d une valuation critique des fonctions du syst me par un groupe d utilisateurs de d gager diverses voies de recherches possibles notamment la visualisation et la comparaison dans le temps de repr sentations cognitives de donn es la classification incr mentale qui constituent de nouveaux enjeux pour la recherche sur la g n ration automatique d hypertextes ergonomiques Tout au long des articles constituant le corps de cette th se il a t soulign l importance d une exploitation coordonn e de diff rentes techniques pour analyser l Information Scientifique et Technique IST telle qu elle est repr sent e dans les grandes bases bibliographiques Deux outils SDOC et NEURODOC qui permettent de classer et repr senter sur une carte un ensemble de documents en se basant sur les mots cl s descripteurs du contenu des documents ont t mis en uvre et tudi s en profondeur sur diff rents domaines d application chapitres 2 3 4 et 5 Ces tudes ont montr que l exploitation et l interpr tation des r sultats obtenus par de tels outils d analyse supposent un m lange d exploration informelle intuitive et d exploitation m thodique de l information labor e par ces outils d analyse En partant d une m taphore la navigation dans un oc an d informations il a t tabli la n
225. hone des publications qu elle signale e forte coloration am ricaine ce qui implique que la recherche europ enne ne s y trouve que partiellement repr sent e e absence de normalisation des auteurs citants et cit s et des titres des revues Ces donn es saisies l tat brut doivent faire l objet de nombreuses corrections e pas d indexation au niveau article Cet aspect est en partie compens par les mots cl s d auteurs lorsqu ils sont pr sents et les mot cl s rassembl s sous le champ keywords Chapitre 7 124 Indexation automatique sur les titres des articles cit s et les notes de bas de page des auteurs Les autres bases bibliographiques quelles soient sp cialis es INSPEC pour la physique P lectronique et informatique CAB pour la chimie MEDLINE pour la m decine etc ou multidisciplinaire PASCAL bien que signal es comme tant utilis es par le CINDOC et POST ne sont en fait employ es que marginalement Ces bases sont sous utilis es du point de vue exploitation infom trique Les points les plus critiques sont selon les observatoires et dans cet ordre e une absence de politique claire concernant la couverture e la saisie incompl te des auteurs e absence des citations Bien entendu ces points faibles sont variables selon les bases Des bases comme MEDLINE ou INSPEC sont reconnues disposer d une couverture satisfaisante dans leur domaine PASCAL saisit depuis 1996 les adresses de tous les a
226. i re condens e rayonnement lectromagn tique ph nom nes lectroniques de surface et lasers 5 4 Les clusters et les ph nom nes de variation et de figement La variation n est pas un ph nom ne num riquement important et pour l observer il faut un nombre significatif de documents Quand on regarde les textes on ne trouve pas de r sum qui se singularise du point de vue de ce ph nom ne S il n existe pas de texte singulier du point de vue de la variation qui est un signal trop faible pour tre d tect dans des courts r sum s d auteurs il fallait trouver un moyen de l observer et de lopposer au figement Les clusters semblaient tre le lieu logique d une telle observation Chapitre 3 50 Termes Variantes ariations SURFACE ENERGY VARi 8 67 X RAY SPECTRA N 6 n 5 VARi 8 03 FIELD IONIZATION N 6 n 5 VARi 8 03 ELECTRON COLLISIONS N 6 n 5 VARi 8 03 EXTERNAL FIELDS VARi 7 71 SURFACE PROPERTIES N 4 n 3 VARi 4 34 EPITAXIAL LAYERS N 5 n 3 VARi 3 47 PULSED LASERS N 9 n 4 VARi 3 43 energies of si surfaces energy dissipation in sliding crystal surfaces energy for a number of surfaces energy necessary to achieve a given surface surface free energies surface state energies surface state energy spectra produced by x ray x ray absorption spectrum x ray emission spectra x ray photoemission spectrum x ray scattering spectra field induced ioniz
227. ibution of units of information in a scientometrics sense is due to the Centre de Sociologie de l Innovation de l Ecole de Mines de Paris The first article in a journal describing this method was published in 1983 Callon and alii 1983 1986 According to indexing documentary tradition a keyword is an indicator of the subject content of a document We are ready to admit that the problem here is the quality of the indexing process This problem is known as the indexer effect see Healey and alii 1986 p 245 see also Polanco 1993 It is important to note what the main characteristics of the method are As we know the first quantitative pattern of keywords is the frequency Bibliometricians know that the frequency distribution of words is governed by Zipf law The second pattern is the keywords co occurrence The idea of co occurrence is central Co words are as its name indicates a relationship indicator as well as citation and co citation this cannot be expressed by an isolated word as for instance the keywords of frequency one The third level is the formation of clusters A cluster is a group of associated keywords indexing a number of papers which are the units of information about the subject indicated by the cluster In this sense each cluster is an indicator of knowledge founded on frequency and co occurrence statistical values The last procedure is to map knowledge Usually scientific knowledge is in the form of collections of
228. icy Reformation Type 2 Antisemistism Bourgeoisie Labor Movement Income Emigration National State Political Attitude Peasant Liberalism Historiography Family Worker Modernization Table 3 2 Cluster categorization in a strategic diagram German Question and Foreign Policy are associated by way of five bidirectional associations s Fig 2 1 The analysis of these associations shows that Foreign Policy is a subtheme of German Question because the saturation threshold of German Question is higher than the mean value of its external associations to Foreign Policy and vice versa the strength of the external associations of Foreign Policy with German Question are higher than its saturation threshold The relative position of Foreign Policy with respect to German Question below and more left is an indicator but not a sufficient condition for the existence of such a relationship because we need to know the saturation threshold and the strength of the external associations concerned Figure 3 2 illustrates the local network of the theme Foreign Policy Thus the initial topic German Question is also associated with National Identity Labor Movement and Emigration Chapitre 4 69 Density gender role 25 culture German question occupational prestige ae socialism 20 domination chronology by century 15 handicraft trade reformation emigration antisemitism 10 national state political attitude bourgeoisie peasan
229. ification thus their association has an Equivalence index of 0 3 since German question has a frequency of ten whereas reunification appears only three times in the datafile 2 2 SDOC s clustering process These weighted coword relations are the basis to construct a thematic representation keyword clusters of scientific areas and the relationships between research themes The clustering method aims at aggregating the keywords into groups of closely linked keywords The algorithm implemented in SDOC is an adaptation of the single link clustering in accordance with readability criteria size of the cluster minimum and maximum number of keywords belonging to it and the maximum number of keyword associations constructing the cluster The algorithm used is the following Initially each keyword is considered as a cluster The list of keyword pairs sorted by decreasing value of Equivalence index is examined sequentially to build the clusters If both elements of a given pair belong to the same cluster the link between these keywords is considered as an internal association of that cluster If they belong to two different clusters the algorithm tries to aggregate the clusters into one by merging them This is authorized if the size of the resulting cluster complies with the readability criteria Otherwise the association is taken to be an external association Three saturation options are available when an aggregation fails because of the readabil
230. imary or secondary classification code and indexed by the keyword Germany This yields 285 bibliographical references Traditionally the user could only browse sequentially these documents with the difficulty of determining the importance of the topics and the links between them By examining the indexing vocabulary he can define certain topics manually and search for related documents But even if the sample is not big this iterative process is long and fastidious The problem faced by all users of information systems is the need to reduce the amount of information to a manageable number of items to be examined SDOC belongs to a family of methods which use term associations and clustering techniques to solve this problem Callon Courtial Turner and Bauin 3 call it coword analysis and Salton 12 term clustering This technique was early used in the SMART automatic document retrieval system 11 The use of term associations in automatic information retrieval has been studied since a long time whereas coword analysis has been implemented in the eighties into the LEXIMAPPE program to highlight the dynamics of scientific and technical development In the latter context cowords are used for identifying and visualizing the centres of interest in scientific literature by mean of coword maps 3 This method is an alternative to the well known tradition of citation analysis 9 and co citation analysis 13 see 1 for a compari
231. importants que les pr c dents Si on se focalise sur un th me particulier comme ici Recherche documentaire on peut examiner son r seau local Etant donn le corpus tudi il n est pas surprenant de trouver de grands types d application de l IA l informatique documentaire tels que les interfaces volu es hypertexte les syst mes d analyse linguistique langage naturel les syst mes experts fond s sur une repr sentation conceptuelle de documents un sous th me pr sent dans le cluster mod lisation La liaison avec Conception assist e exprime elle une relation plus g n rale entre les mots cl s traitement automatis et Conception assist e sans qu il y ait de rapports directs avec la recherche documentaire En effet le cluster Conception assist e traite en fait d applications de IA dans la construction navale La navigation hypertexte permet de suivre les associations int ressantes et les cartes sont d un grand secours pour viter de se perdre au cours de la consultation 3 2 2 Analyse des r sultats fournis par NEURODOC Le r sultat de la classification est une partition des mots cl s et des documents en classes recouvrantes Une classe ainsi d finie correspond un th me sous ensemble homog ne de l information contenue dans le corpus documentaire tudi a Anatomie des classes obtenues La figure 7 montre l exemple de la classe ou du th me Hypertexte tel qu il
232. information scientifique et technique et l outil Internet Editeur CNRS DSI 1999 p 27 44 HERWIJNEN 90 HERWIJNEN E Practical SGML Kluwer Academic Publishers 1990 ISO 8879 1986 Information processing Text and office systems Standard Generalised Markup Language SGML 155 pages MICHARD 98 MICHARD A XML Langage et application Editions Eyrolles 361 p 1998 MOED 88 MOED H F The use of On line databases for bibliometric analysis In L Egghe and R Rousseau editors Informetrics 87 88 Elsevier Science Publishers Amsterdam 145 158 MOED 95 MOED H F DE BRUIN RE Van LEEUWEN TH New bibliometric tools for the assessment of National Research Performance Database description overview of indicators and first applications Scientometrics Vol 33 n 3 1995 381 422 MOED 95b MOED H F Van LEEUWEN TH Improving th accuracy of the ISI s journal impact factor Journal of the American Society for Information Science 46 1995 381 422 MOED 96 MOED H F Differences in the construction of SCI Based Bibliometric Indicators among Various Producer A first Overview Scientometrics vol 35 N 2 1996 177 192 NAUER 99 NAUER E De l importance de la normalisation en bibliom trie Journ es d tudes sur les syst mes d information labor e de la SFBA Ile Rousse Corse 27 septembre 1 octobre 1999 POLANCO 95 POLANCO X Aux sources de la scientom trie in SOLARIS
233. insi possible en utilisant les interfaces de programmation API de l diteur SGML XML et du SGBD de d velopper une passerelle de stockage dans la base de donn e de tout l ment XML pars analys par l diteur L approche la plus commune couramment utilis e par la plupart des parseurs analyseurs de documents SGML est d extraire la structure des documents en passant par un mod le pivot interm diaire le plus souvent une structure d arbre tiquet La totalit du document est alors repr sent e dans cette structure d arbre tiquet L approche que nous exposons ici s inspire de cette m thode Elle est de prendre les documents dans leur structure logique initiale traduite le plus fid lement possible dans le format SGML en extrayant les donn es qui nous int ressent dans un SGBD relationnel selon une m thode qui permette de tenir compte la fois des donn es repr sent es dans une structure d arbre et des donn es existant dans la base Par exemple en 1998 une analyse infom trique de donn es multi sources a t mise en uvre dans le cadre d une collaboration avec le Bureau Van Dijk BVD pour r aliser un rapport de tendance dans le domaine des plantes transg niques L tude a t r alis e sur un corpus de brevets et trois corpus de r f rences bibliographiques issus de PASCAL et d autres bases de donn es AGRICOLA BIOSIS EMBASE Les donn es ont t stock es dans une
234. instance to get its most relevant scientists or journals or to compare the scientific discussion in different countries 10 In this paper we will focus on the analysis of the thematic structure of the database By applying SDOC to the SOLIS data file see Section 3 we want to demonstrate how this tool can be used to support this kind of analysis on the basis of bibliographical data 2 Thematic Mapping 2 1 Coword Analysis Coword analysis used in SDOC is an analytical method for identifying and visualizing the centres of interest in scientific literature 3 The method is founded on the use of keywords as indicators of information content The essential concept is the cooccurrence of content describing keywords belonging to the same document It is based on the idea that two keywords i and j which are used together in the description of a single document are related It is clear that the cooccurrence value Cij number of cooccurrences of words i and j in a given set of documents is not the best measure of the strength of a keyword association because very frequently used keywords have an advantage over those used less often In order to normalize the proximity value of keyword pairs the Equivalence index Ey Cij2 Ci Cj square of Ochiai index also called Salton index is used where Ci is the frequency of i and Cj the frequency of j in the data set The keyword German question for instance cooccurs three times with the keyword reun
235. ion d instruments c est dire d indicateurs de m thodes et d outils d analyse de l information scientifique et technique IST La section suivante positionne l analyse de VIST par rapport a Vinfom trie discipline dont l objet d tude est pr cis ment I information 1 2 L infom trie discipline carrefour pour l analyse de PIST L analyse de l information scientifique et technique telle qu elle est signal e dans les bases de donn es fait l objet de recherches dans le cadre d une discipline carrefour dans ce type d activit l infom trie Le terme infom trie d signe l ensemble des activit s m triques ayant comme objet Chapitre 1 2 l information couvrant aussi bien la scientom trie que la bibliom trie On trouvera dans POLANCO 1995 une description de la gen se de ces techniques et notamment de la th orie du d veloppement de la science due Derek de Sola Price dans les ann es 60 Les deux grands champs d application de l infom trie sont d une part l valuation de la recherche travers sa production scientifique COURTIAL 1990 ZITT 1996 et d autre part la veille scientifique et technique QUONIAM 1988 1992 KISTER et al 1993 DOU 1995 d finie comme l observation et l analyse de l environnement scientifique technique technologique et des impacts conomiques pr sents et futurs pour en d duire les menaces et les opportunit s de d veloppement Dans les
236. ion de Brookes CIS AI CIS AS selon laquelle la structure de connaissance C S se transforme dans la structure C S AS par l apport d information AI AS indique l effet de la modification Voir B C Brookes The Foundations of Information Science 1980 81 Journal of Information Science vol 2 1980 p 131 L quation a une forme pseudo math matique mais sous cette forme elle sert a souligner le peu que nous savons sur les modes selon lesquels notre connaissance croit Si les termes de l quation taient mesurables ils devraient l tre selon la m me mesure autrement dit l information et la connaissance appartiennent la m me classe ou esp ce mais il convient de ne pas substituer AI par AC dans l quation pour la simple raison qu un m me apport d information AI peut avoir des effets diff rents sur des structures de connaissance diff rentes L information diff re des donn es de la sensibilit sense data par le fait que ces derni res doivent tre interpr t es subjectivement par une structure de connaissance afin de devenir de l information Plus important encore l quation de Brookes suppose que la croissance de la connaissance n est pas simplement additive L absorption d information dans la structure de connaissance peut provoquer non pas simplement une addition mais un certain r ajustement de la structure tel qu un changement dans les liens entre deux ou plu
237. ions multinationales telles que l Union Europ enne et l Am rique latine France L OST effectue des regroupements g ographiques a divers niveaux d agr gation monde continent zones du monde pays r gions fran aises et europ ennes en utilisant les adresses postales L OST ne constitue pas de fichiers d autorit concernant les laboratoires de recherche consid rant que cet acte n est pas de sa responsabilit Hollande Pour r soudre le probl me de variation des noms des instituts de recherche hollandais le CWTS constitue un fichier d autorit rassemblant pour chaque institution les diff rentes variations sous une d nomination commune Cette op ration est particuli rement lourde car pour viter toute controverse le CWTS compare les adresses apparaissant dans le SCI et celles figurant dans diff rents r pertoires r pertoire des universit s r pertoire des organisations de recherche etc et enfin consulte les sp cialistes dans les diff rents domaines de recherche pour valider les r sultats obtenus Le CWTS a galement constitu un syst me de classification des organismes de recherche n erlandais en trois secteurs e public universit s instituts de recherche etc e priv entreprises etc e interm diaire pharmacies etc Facteur d impact du p riodique Le Journal Citation Reports JCR propose le classement d un ensemble de p riodiques scientifiques selon plusieur
238. ique et technique travers la litt rature scientifique est abord de Cf d finitions compl tes relatives l infom trie la bibliom trie et la scientom trie en annexe 1 Francois JAKOBIAK Exemples comment s de veille technologique Paris Les Editions d Organisation 1992 p 27 Chapitre 1 3 mani re tr s fouill e dans MOED 1996 GLANZEL 1996 Veille et valuation de la recherche se distinguent galement au niveau du degr de r activit attendu La veille privil gie la r activit au prix ventuellement d une information bruit e tandis que dans le cas de l valuation de la recherche le rythme de production de rapports est le plus souvent annuel Le temps pass a nettoyer les donn es peut tre plus long constitution et utilisation de tables de nomenclatures GRIVEL 1999 chapitre 7 car les r sultats attendus doivent tre les plus robustes possibles au sens statistique du terme L valuation de la recherche et la veille scientifique et technique d finissent le contexte social dans lequel se situe l analyse de L IST tandis que l infom trie d finit son champ disciplinaire Il reste maintenant a d finir l analyse de l information sur le plan op rationnel 1 3 Une d finition op rationnelle de l analyse de PIST L IST telle qu elle est signal e dans les bases bibliographiques se pr sente sous forme textuelle et structur e La s mantique est exprim e par les t
239. iquettes d crivant les champs titres auteurs affiliations date de publication etc et ventuellement par l ordre des donn es La phase de traitement de l information a pour objectif de rendre exploitables les informations trait es D un point de vue infom trique l analyse de PIST a pour objectif de caract riser un ensemble documentaire sur le plan cognitif et factuel qui fait quoi o collabore avec qui quand La sortie attendue est une pr sentation de l information non pas sous sa forme brute mais sous une forme labor e class e structur e de fa on ce que l usager puisse en d gager le sens ou les aspects strat giques Il existe essentiellement deux approches LEBART 1988 e classer les documents en les affectant des classes pr existantes Par exemple en utilisant l analyse discriminante e classifier les documents c est dire les regrouper d couvrir les classes partir de mesures de similarit La classification hi rarchique la m thode des nu es dynamiques font partie des techniques de classification couramment utilis es L analyse de l information pr sente un fort caract re exploratoire Si l on se fixe comme objectif de faire merger d couvrir automatiquement la structure cognitive et factuelle d un grand ensemble de documents sans passer par un plan de classement pr tabli les technologies de classification automatique et de repr sentation graphique cartes
240. irects de bases infom triques mais des bases constitu es partir de donn es fournies par les producteurs de bases de donn es bibliographiques Ce chapitre aborde les probl mes de la couverture et de l organisation de bases infom triques hybrides en analysant dans un premier temps les pratiques de trois observatoires des sciences et technologies Apr s avoir mis en vidence les difficult s li es l h t rog n it des donn es dans un tel contexte nous proposons une approche d velopp e dans le cadre de la veille scientifique Nous en montrons les avantages et les limites pour la constitution de bases infom triques hybrides adapt es au calcul d indicateurs Cette approche est bas e sur une repr sentation des documents par une structure d arbre tiquet couramment employ e pour d crire des documents SGML La m thode propos e permet de sp cifier de mani re d clarative les relations entre les l ments de donn es et leur repr sentation dans le syst me de gestion de base de donn es SGBD Cette technique s int gre parfaitement avec le choix des observatoires de s appuyer sur les SGBD pour l exploitation de leurs donn es Plus g n ralement nous montrons que l emploi de SGML en association avec un syst me de gestion de base de donn es si possible orient objet am liore significativement les possibilit s d exploitation des donn es Les autres avantages sont non seulement de permettre l int gration
241. is DUCLOY J CHARPENTIER P FRANCOIS C GRIVEL L 1991 Une boite a outils pour le traitement de l information scientifique et technique G nie logiciel et syst mes experts n 25 pp 80 90 Paris DUCLOY J POLANCO X 1992 D une boite outils la description du domaine des cognisciences Journ es d tude ADEST Prendre la mesure des sciences et techniques la scientom trie en action Paris 1 11 juin 1992 GRIVEL L LAMIREL J C 1993 An analysis tool for scientometric studies integrated in an hypermedia environment ICO93 4th International Conference on Cognitive and Computer Sciences for Organizations Montreal Quebec Canada pp146 154 4 7 mai 1993 GRIVEL L MUTSCHKE P POLANCO X Thematic mapping on bibliographic databases by cluster analysis a description of SDOC environment with SOLIS a paraitre LEBART L SALEM A 1988 Analyse statistique des donn es textuelles DUNOD Paris 1988 207 pages LELU A 1990 Mode les neuronaux pour donn es textuelles Vers I analyse dynamique des donn es Journ es ASU de statistiques Tours France LELU A 1990 Mod les neuronaux de projection associative at analyse des donn es Approches symboliques et num riques pour l apprentissage de connaissances partir des donn es sous la direction dE DIDAY et Y KODRATOFF pp 283 305 CEPADUES Toulouse LELU A 1993 Mod les neuronaux pour l analyse de donn es
242. isant la norme SGML Voici un exemple de liste inverse lt idx gt lt kw gt computer lt kw gt lt f gt 3 lt f gt lt 1 gt 001245 015254 025487 lt I gt lt idx gt ou kw est le libell du mot cl f la fr quence d indexation et la liste de r f rences de documents index s 3 2 4 Niveau base ou ensemble de donn es A ce niveau sont d finis les ensembles de donn es de type divers rencontr s dans une application bases de donn es bases documentaires fichiers s quentiels hi rarchis s Par exemple nous avons d fini une organisation des fichiers par acc s direct facilement manipulables par l utilisateur et par programme Les enregistrements y sont regroup s en fichiers et r pertoires de 100 l ments de fa on hi rarchique Par exemple l enregistrement 014825 est le 26 me enregistrement du fichier 48 file qui se trouve dans le r pertoire 01 dir Ce type d organisation convient en particulier aux applications non transactionnelles dans lesquelles il n y a pas de mise jour 3 3 Principales fonctions de la biblioth que La structure d un fichier SGML ayant de nombreux points communs avec un programme structur la bo te outils standard d Unix s applique donc a SGML Ainsi beaucoup de fonctions sont inspir es de ces outils D autre part les g n rateurs d analyseurs lexicaux ou syntaxiques Lex et Yacc se comportent comme de Annexe 2 195 v ritables outils de g nie logiciel pour compo
243. issance des termes Nous mettons Pemphase sur la variation syntaxique qui est tr s productive Les ph nom nes de morphologie d rivationnelle sont cit s titre d exemple et ne sont pas trait s en tant que tels Ils feront l objet d une tude ult rieure 3 3 1 Variation flexionnelle Elle permet d identifier pour chaque terme les formes singulier pluriel des noms deficiency deficiencies et les formes infinitives participe pass es et g rondives des noms verbes acoustic test acoustic testing Dans les traitements que nous effectuons chaque mot est d compos en son lemme ou racine et sa terminaison A chaque classe de mots correspond donc un lemme et ses diff rentes terminaisons 3 3 2 Variation syntaxique La variation syntaxique est avec la variation flexionnelle au centre des traitements que nous op rons En effet dans cette exp rimentation nous traitons trois sortes de variations syntaxiques a la variation d insertion concerne tout mot l int rieur du groupe nominal a Pexception de la plupart des mots grammaticaux Par exemple X ray absorption spectroscopy est associ au terme X ray spectroscopy b la variation de coordination concerne toute forme coordonn esde mots adjectifs ou noms l int rieur du groupe nominal Par exemple differential and integrated cross sections est associ au terme Differential cross section c la variation de permutation implique tous les mots ou l
244. istique ces observations 5 1 Ensuite nous voulons en donner une mesure 5 2 afin de pouvoir les utiliser comme indicateurs et les appliquer dans notre approche infom trique 5 3 Enfin nous tentons de r analyser les clusters du point de vue de la variation et du figement 5 4 5 5 5 1 Variation et figement Si l on consid re les termes d un sous domaine quelconque comme un sous ensemble particulier des noms compos s carte bleue ceinture noire homme grenouille pour la langue courante champ magn tique magnetic field niveau de Fermi Fermi level potentiel lectrique electric potential pour les termes de physique nous sommes alors confront s la probl matique du figement Il s agit d une notion importante d un point de vue s mantique car elle conf re au terme une valeur r f rentielle relativement stabilis e par rapport au concept valeur qui est partag e par une communaut professionnelle ici les physiciens Il faut pr ciser qu en cas de figement le sens du terme n est pas directement d ductible de la composition du sens des mots qui le forme Remarquons que le crit re du figement ne fait pas l unanimit dans la communaut linguistique voir le panorama sur la question dans 6 et le num ro sp cial de TAL 14 consacr ce sujet Nous en donnerons une d finition simple qui sans tre compl te du Chapitre 3 47 point de vue linguistique a surtout le m rite d tre
245. itt rature la m thode des mots associ s impl ment e par le logiciel SDOC et une m thode associant les K means axiales une Analyse en Composantes Principales ACP impl ment e par le logiciel NEURODOC Pour des raisons historiques ces m thodes sont bien connues de notre programme de recherche Nous b n ficions de l exp rience acquise par le SERPIA d partement de R amp D du CDST avant la fondation de l INIST En effet la m thode des mots associ s est le fruit d une collaboration entre le Centre de Sociologie de l Innovation de l Ecole des Mines de Paris et le CDST CALLON et al 1983 Le logiciel d velopp l poque s appelle LEXIMAPPE Quant la m thode bas e sur les K means axiales et ACP elle a t mise au point par A LELU alors qu il tait membre du SERPIA LELU 1990 Ces deux m thodes utilisent les mots cl s qui indexent les r f rences bibliographiques pour construire les structures th matiques enfouies dans les bases de donn es Pour sch matiser elles trouvent les th mes abord s et classent les documents selon ces th mes Ceux ci sont ensuite dispos s sur un espace 2 dimensions carte th matique Les mots associ s CALLON et al 1983 1986 1993 COURTIAL 1990 Cette m thode consid re les mots cl s comme des indicateurs de connaissance contenu des documents index s et se base sur leur cooccurrences pour mettre en vidence la structure de leurs relations
246. ity criteria 1 forbid any new aggregation for these two clusters 2 forbid any new aggregation of the larger of these two clusters 3 do nothing Chapitre 4 62 The following example see Figure 2 1 illustrates the building of the clusters German Question and Foreign Policy including their relationships the links are valued by the Equivalence index of the respective keywords association At a given time German Question is composed of the links Berlin lt gt cold war Berlin lt gt reunification cold war lt gt german question Berlin lt gt german question reunification lt gt german question german question lt gt policy of detente policy of detente lt gt security policy policy of detente lt gt international relations reunification lt gt SED and GDR lt gt SED the cluster Foreign Policy is only defined by german policy lt gt foreign policy and there is no link between these clusters When the algorithm examines the associations security policy lt gt foreign policy and security policy lt gt german policy the two clusters can not be merged because of the size criteria Therefore these links are stored as external associations Each further association between keywords of German Question and Foreign Policy such as german question lt gt german policy is represented as external link German Question Foreign Policy Berlin 0 44 44 sA e war reunification 0 30 German p
247. ivot unique il est plus facile de concevoir des outils g n riques utilisant les propri t s du balisage SGML Voir C Francois Analyse de r f rences bibliographiques conformes a la norme ISO 2709 et conversion vers la norme SGML Rapport de stage DESS Informatique INIST CNRS ISIAL Universit de Nancy 1 1990 N Dusoulier et J Ducloy Processing of data and exchange of records in scientific and technical information center Formats what for Communication CCF UNIMARC Workshop Florence 5 6 juin 1991 Annexe 1 177 2 Indexation Les programmes NEURODOC et SDOC ont comme input des mots cl s qui sont des indicateurs du contenu des articles scientifiques Ces mots cl s peuvent tre fournis par les notices elles m mes ce qui pose le probl me de leur ad quation aux besoins de Is scientom trie Ceci implique de nous doter d un outil d indexation assist e par ordinateur Voir ce sujet J Royaut L Schmitt et E Olivetan Les exp riences d indexation PINIST Actes du 15e Colloque International en Linguistique Informatique COLING 92 Nantes 23 28 ao t 1992 vol I p 1058 1063 NB Nous travaillons ce sujet en collaboration troite avec le programme de recherche INDEXATION qui a pour mission sous la responsabilit de L Schmitt de doter INIST d outils d aide l indexation 3 Bibliom trie Cette tape correspond l application d outils statistiques pour analy
248. journals We cannot use these data to compare countries productivity The inequality existing in the productivity of the four countries is not a problem for the goals we have fixed in our introduction 4 RESULTS AND COMMENTARY The obtained results are presented in two parts The first one is dedicated to the presentation of the lists of clusters and the second one to the mapping of the clusters on scatter diagrams It corresponds to two phases of the method In the first phase it is a question of structuring information and identifying the emerging research subjects cluster analysis The second phase is the graphic representation of these subjects in a two dimensional space network analysis SDOC Analytical Action Object Study Automatic gt Clusters Classification Research Subjects Cluster Analysis or Themes Graphic Representation on Re ea ional Network Analysis Global amp Local space y x 3 gt Maps Networks Figure 2 Human Machine Information Processing Chapitre 2 26 39 Figure 2 allows us to distinguish two other phases concerning the information processing 1 a first machine based phase the SDOC application and 2 the phase where there is the action of an expert or knowiledgeable person Our information processing is based on cluster and network analysis techniques in consequence the expert s goal is to study the themes and networks In this second phase hypertext represents an analytica
249. k October 11 13 p 34 47 JACOBIAK 1996 Jacobiak F L information scientifique et technique Que Sais je 1996 JACOBIAK 1992 JAKOBIAK F Exemples comment s de veille technologique Paris Les Editions d Organisation 1992 p 27 KISTER et al 1993 KISTER J RUAU O QUONIAM L DOU H Application des outils bibliom triques en chimie analytique 4 me Journ es sur l information labor e Ile Rousse Revue Fran aise de bibliom trie 12 p 437 456 KOHONEN et al 1995 Kohonen T Kaski S Lagus K Honkela T Very large two level SOM for the browing of newsgroups 5 International WWW Conference Paris 1995 KOPCSA et SCHIEBEL 1998 Kopcsa A et Schiebel E Science and technology mapping a new iteration model for representing relationships Jasis 49 1 7 17 1998 Chapitre 1 17 KRUSKAL 1964 Kruskal J B Multidimensonal scaling by optimizing goodness of fit to a nonmetric hypothesis Psychometrika 29 1 28 1964 LAFOUGE 1998 Math matiques du document et de l information Bibliom trie distributionnelle Habilitation a diriger des recherches RECODOC Univ Lyon 1 Oct 1998 LEBART et SALEM 1988 Lebart L Salem A Analyse statistique des donn es textuelles DUNOD Paris 1988 207 pages LECOADIC 1994 Lecoadic Y La science de l information Que Sais je PUF Paris 1994 LELU 1993 Lelu A Mod les neuronaux pour l analyse de donn es documentaires et textuelles Th se de do
250. keywords Each keyword has a weight indicating its centrality in the cluster For a given cluster C N being the number of internal and external associations and Fi the number of occurrences of term i in the associations the weight W i of term i of cluster C is defined by W i Fi N The internal keyword with the highest value is chosen to name the cluster automatically In the following the keywords defining the cluster German Question are shown Weight Frequency Keyword 0 47 10 German question 0 18 gt Socialist Unity Party of Germany SED 0 18 3 security policy 0 18 3 policy of detente 0 18 3 reunification 0 18 3 Berlin 0 12 9 German Democratic Republic GDR 0 12 4 international relations 0 12 3 cold war 0 18 5 foreign policy 0 12 5 Germany policy The Equivalence indices of the internal associations describe the strength of the keyword associations defining the internal structure of a cluster In order to have an indicator of its degree of cohesiveness Density the mean value of the internal associations is used density of German Question 0 34 The external associations are the associations existing between the keywords of this cluster internal keywords and keywords belonging to other clusters external keywords The mean value of the external associations of a cluster Centrality is an indicator of its degree of dependance with regard to other clusters centrality of German Question 0 22 The saturation thresh
251. l information et de la communication Universit Aix Marseille II 1998 GLANZEL 96 GLANZEL W The Need for Standards in Bibliometric Research and Technology Scientometrics vol 35 N 2 1996 167 176 GOLDFARB 90 GOLDFARB C The SGML Handbook Oxford Oxford University Press 1990 GOMEZ 96 GOMEZ I BORDONS M FERNANDEZ M T MENDEZ A Copying with the problem of Subject Classification Diversity Scientometrics vol 35 N 2 1996 223 236 GRIVEL 95 GRIVEL L FRANCOIS C Conception et d veloppement d un syst me d information d di a la veille scientifique bas sur les sorties des outils de classification th matique SDOC et NEURODOC In BALPE J P LELU A SALEH I Eds Hypertexte et hypermedia r alisations outils et m thodes Paris Editions Herm s 109 118 GRIVEL 95b GRIVEL L FRANCOIS C Une station de travail pour classer cartographier et analyser l information bibliographique dans une perspective de veille scientifique et Chapitre 7 136 technique SOLARIS n 2 Presses Universitaires de Rennes p 81 112 1995 et dans http www info unicaen bnum jelec Solaris GRIVEL 97 GRIVEL L POLANCO X KAPLAN A A computer system for big scientometrics at the age of the World Wide Web Scientometrics vol 40 N 3 1997 493 506 GRIVEL 99 GRIVEL L HENOCH un outil d analyse de corpus d information scientifique et technique Le Micro Bulletin Th matique n 3 L
252. l Il s agit d analyser le contenu de la connaissance produite afin de pouvoir fournir une repr sentation de sa structure un moment donn de son d veloppement Il est important de ne pas n gliger la r troaction des produits de la recherche sur le comportement des producteurs chercheurs L autonomie de l IST et sa r troaction sur le monde de la recherche de l enseignement ou de l industrie sont un fait important du d veloppement de la connaissance scientifique et technique Au sujet de la notion de connaissance objective voir l article de G Frege Sens et d notation 1892 dans ses Ecrits logiques et philosophiques Paris Editions du Seuil 1971 pp 102 126 voir surtout l essai de K Popper Une pist mologie sans Annexe 1 182 sujet connaissant 1967 dans La connaissance objective Paris Aubier 1991 ch 3 pp 177 242 quant son application dans le domaine des sciences de l information voir B C Brookes The Foundations of Information Science 1980 81 in Journal of Information Science vol 2 1980 pp 125 133 Part I pp 209 221 Part II et pp 269 275 Part III vol 3 1981 pp 3 12 Part IV Selon Brookes Part I p 127 What information science needs at its roots it seem to me is an objective rather a subjective theory of knowledge 9 Information et Connaissance La relation entre information et connaissance est exprim e par l quat
253. l de sociologie assist e par ordinateur Th se de doctorat du Centre de Sociologie et Innovation Ecole des Mines de Paris 1991 113 TURNER et al 1998 W TURNER G CHARTON F LAVILLE B MICHELET Packinging Information for Peer review New Co word Analysis Techniques in A F J van Raan ed Handbook of Quantitative Studies of Science and Technology Amsterdam Elsevier Science Publisher 1988 p 291 323 114 TURNET 1994 TURNER W Penser l entrelacement de l Humain et du Technique les r seaux hybrides d intelligence Solaris n 1 Pour une nouvelle conomie du savoir Presses universitaires de Rennes p 21 50 1994 115 VINKLER 96 VINKLER P Standardization of Scientometric Indicators vol 35 N 2 1996 237 245 116 WINSTON 1977 P H WINSTON Artificial Intelligence London Addison Wesley Publishing Co 1977 117 WOLFRAM 1996 WOLFRAM D Inter Record linkage structure in a hypertext bibliographic retrieval system Jasis 46 10 765 774 1996 118 ZIPF 1949 ZIPF G K Human Behavior and the Principle of Least Effort Addison Wesley 1949 119 ZITT et BASSECOULARD 1994 ZITT M BASSECOULARD E Development of a method for detection and trend analysis of research fronts built lexical or cocitation analysis Scientometrics Vol 30 1 333 351 1994 120 ZITT et BASSECOULARD 1996 ZITT M BASSECOULARD E Reassessment of co citation methods for science indicators effects
254. l tool which allows navigation through the information space of clusters and networks 4 1 Cluster analysis Cluster analysis is as we know the generic name for a wide variety of procedures that can be used to create a classification The procedure empirically forms clusters or groups of key words The clustering method is a multivariate statistical procedure that starts with a bibliographical data set containing information about a subject and attempts to reorganize the bibliographical information into relatively homogeneous groups As we have already noted in section 2 the coword clustering method implemented by SDOC programmes is designed to create groups or clusters of associated keywords co words as a means to indicate some numbers of research themes In this particular application on sociology data file we have applied the Equivalence Index If we call Cy the cooccurrence number of two keywords i and j Ci and Cj their occurrence numbers the Equivalence Index Eij is given by the following equation Eij Cij2 Ci x Cj The clustering algorithm which groups the associated keywords into clusters is an adaptation of the single link clustering algorithm All the elements which are to be initially clustered constitute a large flat association network 1 e a system of relationships where the keywords are related to each other The separation of the association network into clusters is done according to a readability criteria the clus
255. la force des associations des mots qui d finissent la structure interne des clusters Par exemple l association Analyse s mantique Analyse syntaxique du cluster Recherche documentaire a un poids de 0 27 Plus la valeur de l association est forte plus les mots sont fortement associ s La liste d associations externes d crit les associations existants entre les mots d un cluster et les mots d autres clusters Dans l exemple de la figure 5 l association Recherche documentaire Interface relie les clusters Recherche documentaire et Langage naturel Le nombre d associations externes peut tre limit aux N plus fortes Dans ce cas les associations externes ne sont pas n cessairement bi directionnelles Dans le cas pr sent nous l avons limit aux 10 plus fortes Etiquetage des clusters le choix d un terme repr sentatif pour nommer le cluster est bas sur une heuristique Nous choisissons le terme de la liste des mots cl s internes qui appara t le plus grand nombre de fois dans les associations internes et externes Par exemple le programme SDOC proposera le mot cl Recherche documentaire pour d signer le cluster de la figure 5 Le nom propos est satisfaisant dans plus de 90 des cas La liste des documents affect s un cluster elle est obtenue apr s ex cution de la classification C est la liste des documents qui ont contribu la formation de ce cluster par la pr sence dans leur indexation de couple
256. la norme SGML et tablir une interface WWW SGBD 4 L interface utilisateur L interface utilisateur propose deux types de navigations compl mentaires une exploration intuitive bas e sur la m taphore de la carte et un mode de recherche bas sur la m taphore Qui fait Quoi O avec Qui Quand dans quelles sources revue congr s Dans les deux cas la navigation est assur e par l ex cution de requ tes SQL sur la base de donn es infom triques Grivel L Polanco X Kaplan A A computer System for Big Scientometrics at the Age of the World Wide Web Scientometrics vol 40 N 3 1997 493 506 1997 et in proceedings of the 6th International Conference on Scientometrics and Informetrics Jerusalem 131 142 1997 1 INTRODUCTION This paper stresses the computerized framework that informetrics need to develop their industrial dimension If we consider the two last international conferences on informetrics Berlin 1993 and Chicago 1995 the computer point of view has been relatively neglected by the informetric community which seems to be a community of users which is not concerned with the creation of computer means At least that is what appears if we compare last conferences on Information Retrieval SIGIR with Informetrics conferences We argue that an informetric method should not only be characterized in terms of its mathematical representational adequacy but also in terms of its computational archit
257. labor e par ces outils d analyse En partant d une m taphore la navigation dans un oc an d informations il est tabli la n cessit de construire automatiquement des hypertextes partir des donn es analyser en leur incorporant une carte de navigation et des indicateurs de positionnement th matique L exploration de cette voie d bouche sur la conception et le d veloppement d un syst me informatique bas sur SGML Standard Generalized MarkUp Language HENOCH qui permet de rassembler et d organiser dans un SGBD Syst me de Gestion de Bases de Donn es des donn es bibliographiques normalis es et trait es par diverses techniques linguistiques classificatoires cartographiques puis de distribuer ces informations sur INTERNET via une interface de navigation g n r e automatiquement et adapt e l analyse de l information Il est montr exp rimentalement que le couplage d un hypertexte et d un SGBD permet de mod liser et de mettre en place concr tement des m canismes d exploration de diff rentes repr sentations de l information qui assistent l utilisateur dans son interpr tation des r sultats des m thodes d analyse Les hypertextes g n r s par ce syst me sont valu positivement par les utilisateurs de l INIST CNRS o s est effectu cette recherche Ils en ont appr ci notamment l ergonomie de navigation Ses points faibles se situent au niveau du suivi des volutions th matiques d
258. lectronic Publications Office for Official Publication in the European Communities Luxembourg 1985 EWG90 European Workgroup on SGML MAJOUR Modular Application for Journal STM Scientific Technical and Medical Publishers 1990 FRA90 FRANCOIS C Analyse de r f rences bibliographiques conformes a la norme ISO 2709 et conversion vers la norme SGML Rapport de stage DESS Informatique INIST CNRS ISIAL Universit de Nancy 1 Nancy 1990 GRI91 GRIVEL L LAMIREL J C SDOC a generation of hypertext structures Proceedings of Multimedia Information Conference Cambridge UK 15 18 juillet 1991 GUI90 GUITTET J Combining CCF and SGML to exchange scientific and technical information Proceedings of the first CCF Users Meeting Unesco IBE Geneva April 1989 PGI 90 WS 4 HER88 HERWIJNEN E Practical SGML Kluwer Academic Publishers 1990 IFL80 IFLA UNIMARC Universal MARC Format 2nd rev ed London IFLA International Office for UBC 1980 ISO 2709 1981 Format for Bibliographic Information Interchange on Magnetic Tape In Recueil de normes ISO 1 Documentation et information 1988 ISO Organisation internationale de normalisation Gen ve pp 519 523 ISO 8879 1986 Information processing Text and office systems Standard Generalised Markup Language SGML 155 pages LEL90 LELU A Mod les neuronaux pour donn es textuelles Journ es ASU de statistiques Tours FR 28 mai l
259. les secteurs d activit industrielle Ces fichiers jouent galement un r le utile dans la n cessaire phase de normalisation des donn es bibliographiques avant leur stockage dans la base Les m mes donn es se pr sentant souvent sous diff rentes formes lexicographiques les fichiers d autorit permettent l tablissement de listes de correspondance par exemple pour les noms de pays La technique g n ralement utilis e pour tablir des quivalences et uniformiser les champs de donn es pr sentant des variations essentiellement typographiques majuscule minuscule etc ou flexionnelles pluriels singuliers est d aboutir une convergence par rapport une forme appauvrie analogue une cl laquelle est associ e sa forme attest e Chapitre 7 125 Quelques exemples de fichiers d autorit ou tables de nomenclatures Disciplines domaines scientifiques La plupart des indicateurs publi s dans les rapports des trois organismes s appuient sur la classification en discipline de PISI Cette classification d finit des cat gories journal categories o sont regroup s des p riodiques qui suivent une sp cialit en anglais subfeld par exemple optique botanique etc qui peuvent former ensuite des disciplines field physique sciences de lunivers sciences pour l ing nieur etc L inconv nient majeur de cette approche est que le groupe de p riodiques appartenant une cat gorie particuli
260. lgebraic and relational operations Cartesian product union projection selection in SQL Structured Query Language a normalized language to interrogate a RDBMS The main concept of the object oriented approach is encapsulation Data and treatments are integrated in a same entity the object A class describes a family of objects of same structure and behaviour The notion of generalization specialization permits to describe inheritance relations between classes Other mechanisms not directly linked to the object model may exist For instance the composition an object can be composed of objects The object model is an answer to some drawbacks of the relational model in particular its unability to completely describe the semantic of complex structures by relationships between entities The name of our functions or of our programs often begin by I to mean Inist ICGI means Inist Common Gateway Interface ILIB means Inist LIBrary Java is an object oriented programming language and environment developed by Sun Microsystems Java programs called applets can be included in HTML pages and be run on a Web browser The Java platform is continuously enriched by various APIs For instance JDBC API Java Database Connectivity provides the means to connect to any RDBMS and to embed SQL statements into Java applets htpp java sun com In the frame of a common project with Michel Zitt Zitt amp Bassecoulard 1994 1996 we are currently
261. ls sur le march A titre d exemple une notice bibliographique provenant d un serveur ou d un CD ROM se pr sente g n ralement comme suit NO 90 0128293 TI Construction automatique de liens hypertextes AU FLUHR C ED 28 Representation connaissances Lien Hypertexte 8 SGML Standard Generalized Mark up Language Chapitre 5 83 La structure logique d une telle information est tr s simple une suite de champs rep r s par un identifieur Il est alors facile de d finir les r gles lexicales qui permettent d identifier le d but la fin d une notice le d but ou la fin d un champ l int rieur de la notice de mani re la transformer en document SGML En SGML chaque l ment structurel est rep r par une balise de d but lt identifieur de l l ment gt et une balise de fin lt identifieur de l l ment gt La notice ci dessus peut d crire en format SGML lt record gt lt NO gt 90 0128293 lt NO gt lt TI gt Construction automatique de liens hypertextes lt TI gt lt AU gt FLUHR C lt AU gt lt FD gt Representation connaissances Lien Hypertexte lt FD gt lt record gt Une fois que toutes les donn es sont d crites dans ce format pivot il est plus facile de concevoir des outils g n riques utilisant les propri t s du balisage SGML La plupart des traitements sur de tels documents se r duisent associer des actions un l ment de la
262. ltats du programme pr c dent dans un SGBD a permis aux quipes BVD et INIST de r aliser l analyse de l information collect e partir de son interface WWW dont nous illustrons ici les fonctionnalit s Apr s s tre connect HENOCH et avoir choisi son corpus de travail l utilisateur se trouve face une page contenant une barre de menu principal et la liste de th mes qui ont t constitu s automatiquement Chapitre 8 148 3 Sommaire Microsoft Internet Explorer _ ol x Ele Edit View Go Favorites Help Address fA http yoda inistfr 9001 cgi bin main cgi demo_henoch frame_sommaire template ea BHE amp E cee sommaire carte th mes revues congr s organismes auteurs mots cl s Aide e processus de classification regroupe dans une meme classe des documents proches d un point de vue contenu Les documents non class s sont atypiques dans le sens o leur contenu ne permet pas de les situer dans les classes construites automatiquement 30 th mes o se r partissent 1280 documents sur un total de 1339 documents 39 documents n ont pas t class s Themes Topics Documents P riodiques Congr s Th ses laccumulation 70 68 26 0 0 2 antibody 24 23 19 af o farabidopsis 64 57 15 0 0 7 breeding 18 17 14 0 0 1 food industry 40 40 28 0 0 ol glucuronidase 176 174 28 0 0 2 improvement 19 19 15 0 0 0
263. ltats quantitatifs ou qualitatifs de application de diff rentes m thodes d analyse sur des donn es relatives a une probl matique particuli re Le d veloppement d un tel environnement d analyse section 2 4 est l un des buts de l unit de recherche de l INIST URI Unit Recherche et Innovation but que nous partageons avec un certain nombre d quipes en France et l tranger 2 3 Contexte scientifique Un certain nombre d quipes en France et l tranger partagent ce point de vue savoir qu il est n cessaire notamment dans notre domaine d application de g n rer automatiquement les hypertextes avec leur carte de navigation Dans le cadre de mon travail j ai effectu un suivi des quipes travaillant sur le sujet Ces quipes l instar de PURI m lent le plus souvent des chercheurs en analyse de donn es analyse linguistique et informatique Ni exhaustif ni comparatif le tableau des quipes ci dessous d crit le nom du ou des logiciels d velopp s le th me de recherche et fournit quelques r f rences Pour une tude comparative de diff rents logiciels de veille int grant certaines des techniques d crites plus haut voir ROUSSEAU 98 D partement Hypermedia UFR 6 Universit Paris VII NEURONAV hypertexte dynamique et http hypermedia univ extraction terminologique paris8 fr classification neuronale et Lelu et al 1997 et 1998 cartographie D partement Informati
264. lucosidase from a color variant strain of Aureobasidium pullulans 95 0103533 Lysozyme as a potential silage additive m E K D selectionner Amano Pharmaceutical Co Ltd Amano Pharmaceutical Co Ltd res development di Ambion sci communication Anna univ Alagappa coll technology dep chemic Anna univ cent biotechnology Aristotle univ Thessaloniki dep chemical eng 95 0146156 Degradation of three watm season grasses in a prepared cellulase solution el Compositional changes in sin inhibitors phytic aci saponins and isoflavones related to soybean processing Expression of cho and melC operons by a Streptococcs Aaaa thermophilus synthetic promoter in Escherichia coli Permeabilized Streptococcus thermophilus in the preparation of low lactose milk Degradatiopn by ficin of protein from alfalfa ha conserved as conventional and laboratory scale bales 95 0230598 95 0469026 95 0521216 Acc s aux documents par th matique x D selectionner Microorganism culture 2 Physicochemical properties 2 Plant leaf 2 Asahi CI dustry C i Attila Jozsef univ dep biochemistry Ausimont SpA Belarus acad sci inst microbiology Berhampur univ dep botany genetic toxicologyla Bhabha atomic res cent radiation biology amp Aiz amp bgr Fructofuranosidase 1 xl zla Document Done a aal Document Done PZ
265. lyse de l information scientifique et technique IST Cette section est une r actualisation de l article fondateur du Programme de Recherche en Infom trie figurant en annexe 1 Elle pose la probl matique de l analyse de VIST la situe au sein d une discipline l infom trie et enfin propose une d finition op rationnelle de l analyse de IST 1 1 La probl matique de l analyse de PIST et son int r t pour un institut tel que PINIST L accroissement de l activit scientifique jointe l closion des nouvelles technologies de l information se traduisent par une croissance remarquable de l information scientifique et technique IST disponible sous forme lectronique L information scientifique et technique est produite en abondance archiv e quasi syst matiquement banques de donn es documentaires documentation technique signal e bases de donn es bibliographiques bases de donn es brevets et diffus e CDROM Internet serveurs en ligne sous forme lectronique Ainsi en France L Institut de l Information Scientifique et technique INIST au sein du Centre National de la Recherche Scientifique CNRS a pour mission de collecter traiter et diffuser les r sultats de la recherche scientifique et technique internationale en France et l tranger Le fonds documentaire de l INIST couvre la plus grande partie de la recherche scientifique et technique mondiale les publications en s rie 27 OOO titres d
266. m jelec Solaris GRIVEL et FRANCOIS 1995b GRIVEL L FRANCOIS C Conception et d veloppement d un syst me d information d di la veille scientifique bas sur les sorties des outils de classification th matique SDOC et NEURODOC In BALPE J P LELU A SALEH I Eds Hypertexte et hypermedia r alisations outils et m thodes Paris Editions Herm s 109 118 GRIVEL et al 1997 GRIVEL L POLANCO X KAPLAN A A computer system for big scientometrics at the age of the World Wide Web Scientometrics vol 40 N 3 1997 493 506 GRIVEL 1999 GRIVEL L HENOCH un outil d analyse de corpus d information scientifique et technique Le Micro Bulletin Th matique n 3 L information scientifique et technique et l outil Internet Editeur CNRS DSI 1999 p 27 44 HERWIJNEN 1990 HERWIJNEN E Practical SGML Kluwer Academic Publishers 1990 HUOT 1992 Huot C Analyse relationnelle pour la veille technologique vers l analyse automatique des bases de donn es th se de doctorat en Sciences de l Information et Communication Universit Aix Marseille III 1992 ISO 8879 1986 Information processing Text and office systems Standard Generalised Markup Language SGML 155 pages JACQUEMIN 1994 Jacquemin C FASTR A Unification based Front end to Automatic Indexing RIAO 94 Conference Proceedings Intelligent Multimedia Information Retrieval Systems and Management Rockfeller University New Yor
267. mation scientifique et technique Colloque INRA 21 23 octobre 1996 Tours P Volland Neil coord L information scientifique et technique Nouveaux enjeux documentaires et ditoriaux Paris INRA 1997 pp 165 172 91 POLANCO et al 1998 POLANCO X FRANCOIS C OULD LOULY A For Visualization Based Analysis Tools in Knowledge Discovery Process A Multilayer Perceptron versus Principal Components Analysis A Comparative Study J M Zytkow and M Quafafou eds Principles of Data Mining and Knowledge Discovery Second European Symposium PKDD 98 Nantes France 23 26 September 1998 Lecture Note in Artificial Intelligence 1510 Subseries of Lecture Notes in Computer Science Berlin Springer pp 28 37 1998 92 POLANCO et al 1998b POLANCO X FRANCOIS C ROYAUTE J GRIVEL L BESAGNI D DEJEAN M OTTO C Organisation et gestion des connaissances en veille scientifique et technologique VSST 98 Veille Strat gique Scientifique et Technologique Toulouse 19 23 octobre Actes dit es par l Universit Paul Sabatier p 328 337 1998 93 POPPER 1979 K P POPPER Objective Knowledge Oxford The Clarendon Press 1979 94 PRICE 1965 D de S PRICE Network of Scientific Papers Science vol 149 n 3683 1965 p 510 515 95 PRICE 1986 D de S PRICE The Citation Cycle p 269 in Little Science Big Science and Beyond New York Columbia University Press 1986 170 96 PRICE 1984 D
268. mentation transfert des connaissances Paris France Pp 258 263 1995 72 MEINKE et ATHERTON 1976 P MEINCKE AND P ATHERTON 168 Knowledge Space A Conceptual Basis for the Organization of Knowledge Journal of the American Society for Information Science vol 27 p 18 24 1976 73 MICHARD 1998 MICHARD A XML Langage et application Editions Eyrolles 361 p 1998 74 MICHELET 1988 MICHELET B L analyse des associations Th se de doctorat en Sciences de l information Universit de Paris VII 1988 75 MOED 88 MOED H F The use of On line databases for bibliometric analysis In L Egghe and R Rousseau editors Informetrics 87 88 Elsevier Science Publishers Amsterdam 145 158 1998 76 MOED 95 MOED H F DE BRUIN R E Van LEEUWEN TH New bibliometric tools for the assessment of National Research Performance Database description overview of indicators and first applications Scientometrics Vol 33 n 3 381 422 1995 77 MOED 95b MOED H F Van LEEUWEN TH Improving th accuracy of the ISPs journal impact factor Journal of the American Society for Information Science 46 381 422 1995 78 MOED 1996 MOED H F Differences in the construction of SCI Based Bibliometric Indicators among Various Producer A first Overview Scientometrics vol 35 N 2 177 192 1996 79 NEDERHOF et al 1989 A J NEDERHOF R A ZWAAN R E DE BRUIN P J DEKKER Assessing the Usefulness of
269. mes exceptionnels ou des sous groupes de th mes Compl mentarit des m thodes A Lelu a d montr que les 2 m thodes sont sym triques l une de l autre page 93 Lelu 93 Chapitre 5 81 Les K Means Axiales effectuent une classification des documents en utilisant comme indice de similarit entre documents et classes le produit scalaire entre les vecteurs documents norm s et les vecteurs classes norm s page 72 Lelu 93 L algorithme de classification utilis par les Mots Associ s travaille dans l espace dual de celui pr sent dans la m thode des KMeans axiales Dans cet espace la cooccurrence entre 2 vecteurs mot cl s I et J correspond au produit scalaire entre I et J L indice de similarit utilis Ejj Cy Ci Cj Cy ACC Cj correspond au carr pr s une normalisation de la cooccurrence c est dire au produit scalaire de I et J norm s page 93 Lelu 93 En r sum les K Means Axiales effectuent une classification des lignes dans un tableau documents x descripteurs tandis que les Mots Associ s effectuent une classification des colonnes de ce m me tableau en utilisant le m me indice de similarit Or dans nos applications les tableaux de donn es sont tr s creux et peuvent se segmenter le plus souvent en blocs de lignes et de colonnes quasi ind pendants les uns des autres Dans ce cas limite la classification sur les lignes et la classification sur les colonn
270. mes actuels une impl mentation correcte du m canisme de pipe communication par buffers et non simul e par fichiers s av re rapidement indispensable pour viter une trop forte expansion du volume de donn es de d part dans l exemple pr c dent en dehors des fichiers de travail du tri on atteint un facteur 4 ou une multiplication comparable du nombre d acc s disque m me type de rapport 2 3 3 Utilisation d outils lexicaux et syntaxiques La d composition en programmes conduit pour chaque commande traiter l analyse des entr es et le formatage des sorties Ici encore tout le b n fice de la d composition peut tre perdu si l on n utilise pas de techniques adapt es Les g n rateurs d analyseur lexical Lex et d analyseur syntaxique Yacc m me s ils ont t con us pour d autres objectifs s av rent particuli rement efficaces pour l analyse des entr es Par exemple si les textes sont simples et en consid rant que l on ne fait pas de traitement lexicographique complexe le programme d extraction des termes du texte initial de la figure 5 se r duit deux r gles Lex o n t printf n remplacer toute cha ne de s parateurs par un saut de ligne A Z printf c tolower yytext conversion des majuscules en minuscules o Remarquons la simplicit de ce module d extraction qui se r sume de simples r gles de transformation de caract res Le regroupement des termes en vue
271. mi Ur Ur O Un ON I ON LA pah Chapitre 2 38 REFERENCES R R Braam H F Moed A F J van Raan Comparison and Combination of Co Citation and Co Word Clustering in Select Proceeding of the First International Workshop on Science and Technology Indicators Leiden 14 16 November 1988 p 307 337 B C Brookes Information Space The Canadian Journal of Information Science vol 5 1980 p 199 211 B C Brookes The Foundations of Information Science Part IV Information Science The Changing Paradigm Journal of Information Science vol 3 1981 p 3 12 M Callon J P Courtial W A Turner S Bauin From translations to problematic networks An introduction to co words analysis Social Science Information vol 22 n 2 1983 p 191 235 M Callon J Law and A Rip eds Mapping the Dynamics of Science and Technology London Macmillan Press 1986 M Callon J P Courtial F Laville Co word analysis as a tool for describing the network of interactions between basic and technological research The case of polymer chemistry Scientometrics vol 22 n 1 1991 p 155 205 J Ducloy P Charpentier C Fran ois L Grivel Une bo te outils pour le traitement de I Information Scientifique et Technique G nie logiciel n 25 1991 p 80 90 L Grivel et J Ch Lamirel An analysis tool for scientometric studies integrated in an hypermedia e
272. mplexe mais demande un bon niveau gestion de listes ou de m moire insertion En utilisant une approche par d composition en programmes le probl me s organise alors en 5 tapes fig 5 Annexe 2 187 Le chat mange la souris Texte Initial la souris mange la galette extraction ie chat mange Liste de termes la souris la chat galette Liste de termes tri e la la la le 1 chat 1 galette 3 la 1 le 2 mange 2 souris Liste de couples par fr quence S 2 mange 1 chat 1 galette 1 le Couples fr quence terme fig 5 Deux tapes utilisent le programme de tri standard les autres ne pr sentent aucune difficult particuli re 2 2 Quelques qualit s de la d composition en programmes ind pendants Si l on essaie d valuer le r sultat obtenu dans le paragraphe pr c dent en utilisant par exemple les crit res de modularit propos s par B MEYER MEY90 on peut v rifier que l exemple de la figure 5 respecte globalement les 5 crit res propos s d composabilit modulaire un probl me peut tre d compos en sous probl mes dont la solution peut tre recherch e s par ment Les communications entre programmes par d autres m dia que les fichiers sont tr s peu commodes et cette technique oblige donc d couper un probl me en sous probl mes qui se r duisent passer d un fichier x un fichier y 2 re i z g x en toute rigueur ces crit res s appliq
273. n rateur d analyseur lexical la notice ci dessus est transform e en format SGML comme suit lt record gt lt NO gt 90 0128293 lt NO gt lt TI gt Density dependent interactions between seedlings of Dactylorhiza majalis Orchidaceae in symbiotic in vitro culture lt TI gt lt AU gt RASMUSSEN H JOHANSEN B ANDERSEN T F lt AU gt lt record gt Cette forme obtenue la plupart des traitements sur de tels documents se r duisent a associer des actions un l ment de la grammaire et dans bien des cas travailler au 3 CALS Computer aided Acquisition and Logistics Support Annexe 2 191 niveau lexicographique suffit Par exemple la phase extraction des termes de l exemple de la figure 5 se r crit comme suit START SAUT ECLATEMENT o lt TI gt BEGIN ECLATEMENT lt TI gt BEGIN SAUT lt ECLATEMENT gt n t printf n lt ECLATEMENT gt A Z printf c tolower yytext lt SAUT gt P main BEGIN SAUT yylex L utilisation de Lex permet d associer facilement des actions IMPRESSION ou des tats SAUT et ECLATEMENT lorsque l on rencontre une balise L usage simultan de syst mes d exploitation int grant correctement le pipe l utilisation d outils lexicaux ou syntaxiques sur des structures balis es offre donc une base technique a une d composition modulaire bas e sur la communication par tube Pour aller plus loin nous d veloppons actuellement une biblio
274. n s selon un ordre de 299 typicit d croissant par rapport au type id al de la classe La pond ration utilis e pour calculer la valeur de typicit permet de faire ressortir les mots cl s sp cifiques ou typiques de la classe c est dire fr quents dans cette classe et rares dans l ensemble des documents Cet algorithme param tr par le nombre maximal de classes d sir et le seuil des coordonn es des documents et des mots cl s sur les axes permet donc de construire des classes d un type particulier ces classes sont recouvrantes car un document ou un mot cl peut appartenir plusieurs classes la fois les l ments documents et mots cl s de chaque classe sont ordonn s selon un degr de ressemblance au type id al de la classe Cartographie par Analyse en Composantes Principales Une classe de documents correspond un th me sous ensemble homog ne de Vinformation contenue dans le corpus documentaire tudi Une Analyse en Composantes Principales de l ensemble des classes dans l espace g om trique permet de d terminer un plan d formant le moins possible le nuage de points de ces classes Tous les points de ce nuage sont ensuite projet s sur ce plan constituant ainsi la carte globale des th mes Sur cette carte deux th mes loign s repr sentent des classes dissemblables quant aux mots cl s les d finissant Sur de telles cartes on peut rep rer en particulier des th
275. n hi rarchiques usuelles repr sentent les K classes recherch es par leur centre de gravit les K means axiales d finissent les K classes recherch es par K demi axes passant par l origine de l espace g om trique ou K vecteurs unitaires pointant dans la direction de ces demi axes La position des K demi axes est initialis e au hasard ou par les K premiers documents Nous calculons ensuite les projections orthogonales y k de chaque document i norm sur les K demi axes ainsi d finis figure 3 en effectuant les produits scalaires entre le document i norm et les vecteurs unitaires des K demi axes Chaque document est affect la classe k o sa projection y k sur laxe OAk est maximale et la position de l axe est mise jour pour prendre en compte cette affectation Par it rations successives les axes se positionnent puis se stabilisent dans les zones de forte densit du nuage de documents effectuant ainsi une classification stricte des documents Pour obtenir des classes recouvrantes nous d finissons ensuite un seuil de typicit un document appartient la classe si sa valeur de projection sur l axe repr sentant la classe est sup rieure au seuil Un document peut donc appartenir a plusieurs classes si ses valeurs de projection sur les axes correspondants sont sup rieures au seuil 4 Mot cl x j Documenti Axe repr sentant une classe yi k Projection du document i sur l axe Ak KL Seuil de projec
276. naviguer dans un ensemble de r f rences bibliographiques a partir d une carte globale des themes 2 fournir un instrument de travail pour l analyse scientom trique Voir J Ducloy L Grivel J Ch Lamirel X Polanco L Schmitt INIST s Experience in Hyper Document Building from Bibliographic Data Bases Communication a la Conf rence RIAO 91 Barcelone Spain 2 5 Avril 1991 J Ducloy et A Lelu NEURODOC construction d hyperdocuments l aide de proc d s neuronaux Communication a G nie Linguistique 91 Versailles 16 17 janvier 1991 L Grivel et J Ch Lamirel SDOC A Generator of Hypertext Structures Communication 2th Coference Multimedia Information Cambridge UK 15 18 july 1991 7 Edition Deux voies sont possibles pour l dition sur support papier 1 utiliser des compooseur tels que Troff ou LATEX sous UNIX et 2 travailler dans des environnement plus sophistiqu s tels que celui du logiciel INTERLEAF qui permet de cr er et d diter des documents structur s 7 Fiche technique des programmes 1 Technique statistique 2 Repr sentation des donn es documentaire 3 M thode de classification 4 Anatomie d une classe 5 Nom du theme 6 Documents associ s aux th mes 7 Les param tres fixer 8 Position des th mes sur un plan cartes A Programme NEURODOC 1 Technique statistique K means axiales 2 Repr sentation des donn es docum
277. ndicateurs de coop ration ou de collaboration 6 Des indicateurs de type de publication 7 Des indicateurs de couverture en p riodiques revues scientifiques 141 Annexe 3 Le couplage SGML SGBD pour la fusion de donn es multi sources 1 Description d HENOCH Le syst me HENOCH comprend 1 un g n rateur de bases de donn es relationnelles partir de documents au format SGML Ce g n rateur utilise la notion d arbre SGML comme structure pivot pour la description des donn es alimentant la base infom trique Ces documents sont a les donn es initiales qui sont de diff rents typeset qui peuvent provenir de diff rentes sources articles de p riodiques congr s th ses brevets mises au format SGML et compl t es ventuellement d un certain nombre d informations obtenues par traitements linguistiques mot cl s b les r sultats de classification des donn es initiales regroupement de documents ou de mots cl s par les outils SDOC et NEURODOC GRIVEL 95b c les tables de nomenclatures n cessaires pour la production de certains indicateurs 2 un g n rateur des syst mes hypertextes sous WWW pour l analyse la valorisation et la diffusion des r sultats de classification Ce programme tablit une interface WWW SGBD par une passerelle qui permet de se connecter au SGBD soumettre des requ tes SQL partir d un mod le de page HTML incluant des requ tes SQL r cup rer le r sultat et le mettre a
278. ndis que l apport d information au sens cognitif du terme se fait selon une progression arithm tique La formule simple de la loi de Bradford propos e par Brookes est R n k log n s R n est le nombre cumulatif de r f rences n le rang du p riodique selon sa fr quence k est une constant qui d termine l inclinaison de la courbe s est lV intersection sur l abscisse log rang Voir ce sujet S C Bradford Sources of information on specific subjects 1934 Journal of Information Science vol 10 1985 p 176 180 B C Brookes Bradford s law and the bibliography of science Nature vol 224 6 December 1969 p 953 956 M C Drott et B C Griffith An empirical examination of Bradford s Law and the scattering of scientific literature Journal of the American Society for Information Science vol 29 n 5 sept 1978 p 238 246 Rappelons que les documents et l information ne sont pas des entit s de m me nature Lorsque l on se pose la question de l analyse de l information et de sa repr sentation nous essayons de rendre visible les structures de connaissance de cette information dans le monde anglophone on parle de mapping knowledge structures et non pas simplement de compter de documents Qu un lecteur trouve l information qu il cherche en consultant un document c est la preuve que celle ci est ins r e dans la structure de connaissances du document en question Bien que
279. ne the journals which produce 50 of the references We focused on the four country nuclear zone Table 3 in order to map the most important publications of course according to FRANCIS database coverage on sociology Table 3 S R Publishing Country Journals References France 31 11 1568 50 Germany 7 15 462 53 United Kingdom 8 16 676 52 United States 17 12 1287 51 So the target bibliographical data that we used for the mapping process is not only a set of sources S and a set of references R but also the application of a function expressing the source reference relationships it is the Bradford s ranking analysis From the point of view of the date of publication the nuclear zone is a sociological literature published during 1987 1990 France is over represented comparatively to other publishing countries It may be an expression of the wish of exhaustivity to cover national literature A certain eclecticism is expressed by a two level literature one is more strictly scientific or academic the other one corresponds more to an enlightenment literature The category of enlightenment publications includes popularizing articles and reviews in magazines We take the distinction between scholarly and enlightenment publications from Nederhof and alii 1989 p 427 428 This is not the case for the other countries where the journals selection appears much stricter These facts only express a policy of coverage of
280. ne mani re plus restrictive la science est ce qui est publi dans les articles scientifiques Price 1969 94 c est une mani re de dire que la science est de la connaissance crite On appelle scientifique une personne qui a publi un article scientifique Price 1965 556 nous d finirons un scientifique comme quelqu un qui quelquefois dans sa vie a aid l criture d un article Price 1969 95 L id e est que le produit final majeur du travail d un scientifique est l article qu il publie Price 1969 94 Cette r duction que nous appelons r ductionnisme bibliom trique a permis d appliquer l analyse quantitative l tude de la science car la litt rature scientifique se pr te au d nombrement la classification et la repr sentation sous la forme de s ries temporelles comme explique Price dans Little Science Big Science Le mod le de la science qui sert ici de paradigme est sa repr sentation comme une population de publications o chaque document crit est consid r une sorte d atome de connaissance Price 1969 92 chaque article repr sente au moins un quantum d information scientifique Price 1972 p 70 Pourtant et l encontre de ce r ductionnisme il faut souligner que document et connaissance ne sont pas des entit s identiques comme le rappelle Brookes 1980 p 127 But document and knowledge are not identical entitie
281. nformation United States Mental Illness 15 Professions Regions 10 City Religious Attitudes Employment Ethnic Groups Map 4 Mapping knowledge structures this discussion about knowledge and information spaces provides a perspective the production of cognitive maps of any developing knowledge field stored in the database at any time Furthermore SDOC programmes rely on the hypertext paradigm to represent the thematic maps and allow the user to navigate Chapitre 2 35 through a hyperspace composed of clusters relationships between clusters documents related to these clusters and so on Such a hypertext map would become of strategic interest to those with competence in the field Watching science activity the coword maps visualize the structure of relationships between subjects of research and the way in which this network evolves with time Thus this method may be useful to identify subject research areas and to investigate the distribution of publications institutions countries in these areas of research The goal is to indicate who is doing what where and when 4W with respect to the topics and centres of interest identified on the maps 6 EPILOGUE Today the informetric techniques and the databases may be considered in our opinion as the contemporary instruments for representing and visualizing the state of scientific knowledge natural and social sciences the way
282. nformatique cela s est traduit par le d veloppement d une plate forme logicielle d veloppement auquel j ai largement particip SDOC et HENOCH II reste que si le processus d analyse de l information est un m lange d exploration informelle intuitive et d exploitation m thodique de l information labor e par diff rents outils d analyse il est n cessaire d expliciter pr cis ment comment peut s effectuer cette exploitation pour pouvoir traduire cette d marche sur le plan technologique Les chapitres 2 3 et 4 illustrent divers aspects techniques et m thodologiques d une d marche g n rale d analyse et d interpr tation des r sultats qui s est affin e progressivement dans le cadre d tudes men es dans diff rents domaines sciences sociales sociologie physique Dans les trois tudes d crites la m thode infom trique utilis e est la m thode des mot associ s J ai tudi cette m thode de mani re approfondie sur le plan de la d marche sur le plan de son param trage ce qui sur le plan informatique s est traduit par l outil SDOC et sur le plan de l exploitation de ses r sultats Le chapitre 2 met l accent sur la n cessit et l int r t d utiliser les statistiques bibliom triques en amont de cette m thode Le chapitre 3 montre comment Pemploi de certaines techniques linguistiques permet d am liorer et d enrichir substantiellement les r sultats obtenus par cette m thode L
283. nn es bibliographiques SCI SSCI ICYT Physic Brief INSPEC Chemical Abstract Biosis MEDLINE Exerpta Medica Des donn es factuelles rapports officiels annuels et donn es de ressources humaines du monde scientifique et universitaire espagnol Macroindicateurs d impact Espagne en comparaison internationale e IF Facteur d impact moyen pour une sp cialit au niveau national e RIF Relative Impact Factor comparaison internationale Microindicateurs d impact comparaison des diff rents centres de recherches dans la m me discipline Indicateurs de production scientifique par sp cialit Indicateurs de production scientifique par lieu Copublications par sp cialit Copublications par lieu Une base de donn es bibliom trique essentiellement constitu e de publications scientifiques de chercheurs des Pays bas dans les revues trait es pour SCI Science Citation Index SSCI Social Science Citation Index A amp HCI Arts amp Humanities Citation Index et publi es par PISI Institute for Science Information S ajoutent ces publications n erlandaises des donn es provenant des publications citant ces chercheurs pendant la m me p riode Sept types d indicateurs 1 Des indicateurs de production scientifique 2 Des indicateurs d impact 3 Des indicateurs de positionnement sur les diff rentes revues scientifiques 4 Des indicateurs d orientation intellectuelle 5 Des i
284. nologique vers Panalyse automatique des bases de donn es th se de doctorat en Sciences de l Information et Communication Universit Aix Marseille III 1992 48 ISO 8879 Information processing Text and office systems Standard Generalised Markup Language SGML 155 pages 1986 49 JACQUEMIN 1994 JACQUEMIN C FASTR A Unification based Front end to Automatic Indexing RIAO 94 Conference Proceedings Intelligent Multimedia Information Retrieval Systems and Management Rockfeller University New York October 11 13 p 34 47 1994 50 JJACQUEMIN et ROYAUTE 1994 JACQUEMIN C ROYAUTE J Retrieving Terms and their Variants in a Lexicalised Unification Based Framework Proceedings 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval 3 6 July 1994 Dublin 51 JACOBIAK 1992 JAKOBIAK F Exemples comment s de veille technologique Paris Les Editions d Organisation 1992 p 27 52 JACOBIAK 1996 JACOBIAK F L information scientifique et technique Que Sais je 1996 53 JOUVE 1998 JOUVE 0 Sampler manuel utilisateur N 5 22 98 02 01 Compagnie des signaux 1998 54 KISTER et al 1993 KISTER J RUAU O QUONIAM L DOU H Application des outils bibliom triques en chimie analytique 4 me Journ es sur l information labor e Ile Rousse Revue Fran aise de bibliom trie 12 p 437 456 1993 55 KOHONEN et al 1995 KOHONEN T KASKI S LAGUS K HONKELA T
285. ns varient fortement et d autres remarquables par leur stabilit non variationnelle C est ce r seau qui l avenir devra tre interrog partir de ces indicateurs en nous permettant de signaler et de mesurer des ph nom nes de stabilit ou d instabilit au niveau des termes employ s dans les textes scientifiques ou techniques Chapitre 3 56 2 Le fait est que nous disposons d sormais d un instrument linguistico infom trique permettant la visualisation des informations pr sentes dans les titres les r sum s voire dans le texte et qui comporte si l on peut ainsi s exprimer trois niveaux successifs de r solution le niveau macro c est dire la carte de clusters le niveau meso qui est repr sent par les clusters eux m mes et enfin le niveau micro autrement dit le r seau de termes avec leurs variations et leurs absences de variation syntaxique Quant l hypoth se que les ph nom nes linguistiques de la variation et du figement peuvent tre des indicateurs de connaissances c est a dire de la connaissance crite v hicul e par les textes scientifiques et techniques l exp rience r alis e soul ve trois remarques a En raison des param tres la classification a rejet un nombre non n gligeable des termes variants cause justement de leur cooccurrence faible dans ce cas concret inf rieure trois il nous faut donc tenir compte de ce ph nom ne et trouver le moyen de le corriger
286. nstruit partir des donn es bibliographiques elles m mes Dans un fichier comportant des donn es bibliographiques chaque article scientifique apparait comme une unit qui se juxtapose a d autres Or la connaissance scientifique n est pas faite d une juxtaposition d l ments mais constitue une r seau d associations multiples entre concepts techniques appareillages th ories domaines d application m thodes etc On sait par exemple qu il existe des th mes de recherche autour desquels se mobilisent les int r ts des chercheurs d un domaine particulier Dans la mesure o chacun de ces th mes est indiqu par des mots cl s on peut supposer que l association entre les termes d indexation rende visible la trame d un domaine de recherche Annexe 1 175 L avantage de l utilisation de ces m thodes scientom triques est que l on ne passe pas par un code de classement pr alablement tabli et fig On suit le d veloppement de la recherche et ses agencements tels qu ils se pr sentent au niveau de la litt rature scientifique tout en sachant qu il existe toujours le probl me de l indexation savoir la relation de pertinence entre les mots cl s utilis s vocabulaire d indexation et le contenu objectif du texte scientifique On a observ que l information est produite en abondance et stock e syst matiquement mais qu elle n est pas utilis e efficacement Les atomes d information so
287. nt des fragments inutilisables moins qu ils ne soient convenablement adapt s aux structures de connaissance de ceux qui les demandent ou les cherchent De l cette id e qu il faut pr senter l information que l on offre dans le contexte d une structure cognitive pertinente ou appropri e de fa on ce que l usager puisse ainsi percevoir sa pertinence ou sa garantie informationnelle 5 Sch ma infom trique Interrogation de Bases de donn es Fichier de d part Conversion SGML Fichier SGML w Statistiques descriptives D ee Cartes graphiques de th mes Donn es statistiques G n ration d hypertextes yo ss Analyse scientom trique Production d informa tion labor e Mots associ s SDOC K means axiales NEURODOC Annexe 1 176 Ce sch ma synth tise la d marche que nous avons mis en place cette chaine infom trique ob it au principe de la modularit c est a dire que chaque op ration constitue un module informatique l ensemble de ces modules est la disposition de Vutilisateur dans une biblioth que d nomm e ILIb Cette biblioth que constitue une v ritable bo te outils pour le traitement de l IST dans ce cas pr cis pour I analyse scientom trique et la production d une information labor e int ressant au premier chef l analyse strat gique ainsi que la veille scientifique et l aide la d cision aussi bien dans la gestion de IST que dans la politique scie
288. ntenue dans le corpus tudi mais perdue dans la partition obtenue dans notre exemple nous avons conserv 250 documents dans les classes 80 des documents trait s et 248 mots cl s 26 des mots cl s totaux Ce chiffre faible s explique par le fait que la classification n est effectu e qu avec les mots cl s de fr quence gt 1 soit 30 des mots cl s totaux le nombre d occurrences de documents ou mots cl s obtenus dans l ensemble des classes compl t par les distributions des documents ou mots cl s dans les classes permet de mesurer le taux de recouvrement des classes Dans notre exemple nous obtenons 321 occurrences de documents Sur 250 documents class s 70 sont sp cifiques d une classe les 30 restants figurant dans leur quasi totalit dans deux classes De m me sur 248 mots cl s environ 60 sont sp cifiques d une classe les 40 restants figurant dans leur quasi totalit dans deux classes Ces indicateurs montrent que la r duction des donn es est du m me ordre de grandeur que celle obtenue avec SDOC Pour l outil NEURODOC le taux de recouvrement est d pendant des param tres de la classification nombre de classes demand s et seuil des documents et mots cl s Il est donc maitrisable par l utilisateur Dans cet exemple le taux de recouvrement est suffisamment faible pour consid rer les documents et mots cl s conserv s dans les classes comme pertinents Caract ristiques des classes
289. ntifique 6 Les l ments de la chaine infom trique 1 Fichiers et Formats 2 Indexation 3 Bibliom trie 4 Outils scientom triques 5 Infographie 6 Hypertexte 7 Edition En signalant ces diff rents l ments nous voulons mettre en valeur notre approche informatique fond e sur la modularit par d composition en programmes qui s changent des flux d information telle qu elle est expos e en J Ducloy P Charpentier C Fran ois L Grivel Une bo te outils pour le traitement de l Information Scientifique et Technique Actes des 4es Journ es Internationales Le G nie logiciel et ses applications Toulouse 9 13 D cembre 1991 p 239 254 Ces programmes sont d velopp s sous UNIX un syst me multi utilisateur et multi t che d exploitation et de d veloppement qui grace a son m canisme de pipe permet de combiner diff rents outils 1 Fichiers et Formats La premi re tape est I laboration des fichiers partir desquels une analyse se fera Ce qui implique un travail sur les formats des notices bibliographiques afin de les rendre exploitables tout au long de la chaine C est donc la d finition d un format pivot unique L id e fondamentale est l utilisation du balisage de la norme SGML Standard Generalized Markup Language pour d crire toutes les donn es quelle que soit leur organisation Une fois que toutes les donn es sont homog n is es dans un format p
290. nts du th me issus de cet organisme ou soci t On trouve gauche le nombre de documents correspondant Organismes ou soci t s Department of Biological Sciences and Center for Molecular Genetics University at Albany State University of New York 1 Department of Botany University of Leicester Department of Entomology and Nematology PO Box 110620 University of Florida 1 Department of Genetics University of Georgia 1 DLO cent plant breeding reproduction res dep developmental Figure 6 2 3 3 Comment se faire une id e des acteurs principaux du th me Le lien Auteur renvoie la liste des auteurs des documents du th me tri s selon leur fr quence dans le th me Fig 7 Chapitre 8 153 Chaque auteur est pr c d de sa fr quence dans le th me sa productivit dans le th me et donne acc s la liste des titres des documents du th me crits par l auteur SHSEE 5 EH sommaire carte th mes revues congr s organismes auteurs mots cl s Aide Description 11 titres 13 affiliations 35 auteurs 9 sources Documents partag s avec d autres th mes Auteurs du th me risk e Cliquer sur un auteur donne la liste des titres des documents du th me crits par l auteur On trouve gauche le nombre de documents correspondant auteurs TWELL D LINDSEY ALLEN G AN 0 BATE m BEARD C E hlcoopre
291. nts ot il est sous une forme variante et N n est le nombre de documents o un terme donn appara t sous sa forme de base Cela donne la formule suivante FIG A N n N T A N n N T 2 FIG est significatif seulement pour A gt 0 FIG tend vers 1 pour tout terme apparaissant au moins une fois dans chaque document sous une forme non variante pour n 0 et N T En donnant ces ph nom nes linguistiques une expression quantitative nous produisons une nouveau type d indicateurs En effet nous sommes partis de l hypoth se que la variation mais aussi l absence de variation pouvaient tre utilis es a des fins de veille scientifique Nous disposons maintenant d indices permettant de les mesurer afin de les interpr ter 5 3 Application Les tableaux 2 et 3 pr sentent ci dessous une liste de termes parmi les plus significatifs class s a l aide de ces deux indicateurs VAR et FIG multipli s par 1000 pour une meilleure lisibilit Ainsi nous pouvons observer quel r le jouent ces termes dans les clusters et quels types de clusters ils privil gient Les termes les plus fig s termes complexes de plus de deux mots ont la particularit de se r partir dans des clusters diff rents 10 termes sur les 13 du tableau 2 plut t que de se regrouper dans un ou deux clusters significatifs Quand on regarde l ensemble des clusters il y a toujours au moins un terme fortement fig Les termes les plus fig
292. nvironment in Proceedings of ICO93 4th International Conference on Cognitive and Computer Sciences for Organizations Montreal Quebec Canada 4 7 mai 1993 p 146 154 P Healey H Rothman P Hoch An Experiment in Science Mapping for Research Planning Research Policy vol 15 1986 p 233 251 P Meincke and P Atherton Knowledge Space A Conveptual Basis for the Organization of Knowledge Journal of the American Society for Information Science vol 27 1976 p 18 24 B Michelet L analyse des associations Paris Th se de doctorat 1998 A J Nederhof R A Zwaan R E de Bruin P J Dekker Assessing the Usefulness of Bibliometric Indicator for the Humanities and the Social and Behavioural Sciences A Comparative Study Scientometrics vol 15 n 5 6 1989 p 423 433 X Polanco Analyse strat gique de l information scientifique et technique Construction de clusters de mots cl s Sciences de la soci t n 28 1993 p 111 126 K P Popper Objective Knowledge Oxford The Clarendon Press 1979 D de S Price Network of Scientific Papers Science vol 149 n 3683 1965 p 510 515 D de S Price The Citation Cycle p 269 in Little Science Big Science and Beyond New York Columbia University Press 1986 D de S Price The Science Technology Relationship the Craft of Experimental Science and Policy for the improvement of High Technology Innovation Research Policy
293. odernization in France during the interwar period 0 03 On the appearance of the first volume of the History of the SED 0 02 The German Japanese relations during the Third Reich 0 02 The Socialist Unity Party of Germany SED and German history Additional information such as a list of authors a list of sources journals books etc or institutional affiliations can also be assigned to the clusters if this information is in the bibliographical reference The weight assigned to each item is the sum of the weights of the documents where the item appears 2 4 Constructing Thematic Maps The measures of Density and Centrality allow the visualization of themes and their relationships in a two dimensional space map where the x axis corresponds to Centrality and the y axis to Density In order to support a consultation of the clustering results SDOC integrates this map in a graphical hypertext based user interface s Fig 2 2 7 To avoid recovering clusters having similar coordinates on the map the software also makes it possible to plot the clusters by rank along these two axes Chapitre 4 65 list of clusters global map external relations of a cluster a cluster pp an associated cluster list of related documents E an associated cluster an related document Figure 2 2 Browsing the organization of a topic the key figures and the sources of information The starting point for the navigation is the list of clusters
294. of methods improving recall rates Scientometrics Vol 37 2 223 244 1996 121 ZITT 1996 ZITT M TEIXEIRA N Science Macro Indicators some aspects of OST Experience Scientometrics vol 35 2 209 222 1996 172 Annexe 1 L INFOMETRIE UN PROGRAMME DE RECHERCHE Cet article est l article fondateur du Programme de Recherche Infom trie anc tre de l Unit Recherche et Innovation o j ai effectu cette th se Il d veloppe en particulier les objectifs et les r alisations principales de ce programme de recherche en 1993 1 POLANCO X GRIVEL L FRANCOIS C BESAGNI D L infom trie un programme de recherche Journ es d tudes sur les syst mes d information labor e de la SFBA Ile Rousse Corse Document n 3 des Actes 9p 1993 1 Introduction La mission de ce programme est le d veloppement d une recherche appliqu e dont le but principal est de fournir l INIST des outils d analyse de l information scientifique et technique IST Les techniques infom triques et les bases de donn es dont elles sont issues doivent tre consid r es comme un dispositif de repr sentation ou de visualisation de l tat de la connaissance scientifique et de la pratique de ses acteurs Nos travaux doivent permettre de r pondre une demande sans cesse croissante en information labor e de la part de chercheurs mais aussi des responsables de l industrie et de la recherche
295. old of a cluster is the Equivalence index of the last internal association added before the cluster becomes saturated the saturation threshold of German Question is 0 27 This value characterizes the relationship between density and centrality of a theme The centrality index of German Question for instance is below its saturation threshold showing that this theme can be extended to Foreign Policy The saturation threshold is therefore an important information for interpreting interrelations between clusters see Section 3 4 Analysing Cluster Relationships The number of external associations displayed for a given cluster may be limited This is one parameter of the application Thus the external associations are not necessarily bidirectional We introduce the idea of thematic reference to indicate the number of 5 indicated by a star in the example This is only a label suggested by our program It may be changed if it is not felt to be appropriate to the cluster Chapitre 4 64 times that keywords of one cluster appear in the external associations of other clusters When a cluster refers to another one by its external associations the latter is said to be referenced by the former as a related item of information Here German Question is referenced 13 times by other clusters indicating that its influence goes beyond the topic described by the keywords of the cluster Section 3 3 illustrates these relationships Considered as a clas
296. olicy antifascism ds 0 27 3 Le second world wa 0 16 foreign policy 0 30 German Questior SED 0 1 0 30 644 security policy 0 56 0 18 GDR policy of detente 0 33 0 20 international relations Figure 2 1 The building of clusters German Question and Foreign Policy The user can modify the parameters used to compute the associations and construct the clusters The goal here is to find a compromise between good readability of the results not too many clusters and what we accept to lose in terms of information The parameters for this particular study are put in parenthesis Indexing vocabulary Minimum frequency of keywords 2 Suppression of very frequent keywords Germany Associations Selection of a statistical index Equivalence index Minimum keyword cooccurrence 2 Clustering Saturation strategy i e to saturate the largest cluster Min and max size of clusters 4 and 10 keywords Max number of internal and external associations 20 Max number of external associations 10 Chapitre 4 63 2 3 The Structure of a Cluster A cluster represents a special theme or centre of interest found in a set of documents The keywords appearing in its internal associations are called internal keywords The number of internal keywords defines the size of the cluster Those keywords rejected during the clustering because they do not meet the maximum cluster size criteria are recorded as external
297. ollandaises pendant la m me p riode La base est ensuite mise a jour tous les deux ans L OST utilise une version simplifi e de l Integrated Citation File qui signale pour chaque publication les l ments catalographiques journal date de publication et surtout les pays d origine de l article tels qu ils sont rep r es dans les adresses d auteur compl t es pour les adresses europ ennes par les codes postaux le nombre de citations recues sur les 2 et 5 ann es suivantes par pays citant Chaque l ment tudier est soumis une mesure selon une dimension choisie d nombrement calcul de ratio Chapitre 7 123 Pourquoi les observatoires proc dent ils de cette mani re Se pla ant sur le plan de la production d indicateurs les observatoires cherchent d velopper des bases infom triques r pondant a deux crit res principaux du point de vue de leur couverture e une couverture tr s s lective au niveau des p riodiques revues c ur et stable dans le temps e une couverture multidisciplinaire pour pouvoir comparer les disciplines ou domaines et couvrir des th matiques pointues Une telle couverture permet des comparaisons dans le temps en garantissant que le choix de revues r pond a des crit res qualitatifs clairs et contr lables facteur d impact comit s d experts etc Actuellement le SCI est la seule base multidisciplinaire r pondant globalement ces crit res Le Scien
298. on reprise dans le projet CALS du DOD Department of Defense USA est en r alit d un usage beaucoup plus g n ral BOR90 EWG90 NEW90 En effet SGML donne des r gles de balisage pour d crire des structures arborescentes o chaque noeud est identifi par une tiquette Baliser un document consiste ins rer dans le texte des cha nes de caract res qui donnent de l information sur le contenu du document A titre d exemple une notice bibliographique provenant d un serveur ou d un CD ROM se pr sente g n ralement comme suit NO 90 0128293 TI Density dependent interactions between seedlings of Dactylorhiza majalis Orchidaceae in symbiotic in vitro culture AU RASMUSSEN H JOHANSEN B ANDERSEN T F La structure logique d une telle information est tr s simple une suite de champs rep r s par un identifieur et en suivant la norme SGML on peut lui associer une DTD l mentaire telle que lt ELEMENT record NO TI AU gt Il est relativement facile de d finir les r gles lexicales qui permettent d identifier le d but ou la fin d une notice le d but ou la fin d un champ l int rieur de la notice de mani re la transformer en document SGML en forme normale En forme normale SGML chaque champ est rep r par une balise de d but lt generic_identifier gt et une balise de fin lt generic_identifier gt En utilisant un parser normalizer ou en crivant un programme Lex g
299. on est organis e sous la forme d un hypertexte bas e sur une m taphore cartographique Ainsi l utilisateur dispose d outils de navigation qui permettent d viter le ph nom ne de d sorientation commun aux hypertextes Pour naviguer l utilisateur dispose d une carte d une boussole pour orienter sa carte sa connaissance du domaine et de m thodes pour faire le point conna tre son positionnement et celui des autres Deux types de navigation compl mentaires sont propos s e une exploration intuitive bas e sur la carte th matique permettant d acc der rapidement des listes pond r es de mots cl s auteurs affiliations sources pour chaque th me puis de naviguer vers les documents associ s chaque l ment de ces listes e des fonctions de recherche bas es sur ces indicateurs permettent par exemple de savoir dans quelles th mes un organisme est positionn le nombre de documents qui est l origine de ce positionnement dans le corpus pour chaque th me puis de naviguer vers ces documents L usager dispose donc de plusieurs modes de navigation conviviaux lui permettant de satisfaire ses multiples besoins e avoir une vue d ensemble e suivre et analyser l volution th matique identifier des relations inter th mes non explicites e rep rer l mergence de nouveaux th mes de recherche e identifier et regrouper les acteurs les institutions leurs vecteurs de communication th ses rapports
300. on the Internet organized as a client server architecture WWW clients are available for virtually any hardware platform WWW can be easily extended by means of plug ins java classes ActiveX CGI programs to implement both exploration and interrogation facilities or cooperative work Consequently we decided to develop a RDBMS WWW gateway which lets the user access informetric databases from his favorite WEB browser So that the information analyst will be insured to get up to date information with a user friendly interface on a basic PC or Macintosh Web designers will notice that a RDBMS WWW gateway greatly facilitates the administration of a WWW server by avoiding the tree structure of links usually maintained on most sites Considering security a simple database export is sufficient to preserve the whole site A high degree of confidentiality can be obtained because access authorizations can be managed both within the WWW server and the database server All of these features are important when many customers are expected to access informetric analyses Being designed to easily store any SGML document into a relational database and to make these data accessible via WWW HENOCH meets all these underlying requirements 3 HENOCH SOFTWARE CHARACTERISTICS A GENERIC ENVIRONMENT HENOCH is made of three C programs Skelettor Convertor and ICGI 7 Overall Skelettor and Convertor feed in data into the RDBMS figure 1 and ICGI is the WWW
301. on the basis of the selected bibliometric indicators as criteria of construction of the final target datafile The main steps of this funnel shaped process are 1 the extraction of a datafile from the FRANCIS database 2 from this source datafile a first raw datafile is constructed by means of the document type bibliometric indicator application 3 a second datafile is extracted from the former by the application of the country of publication as criteria of selection 4 and finally the input datafile to SDOC programmes results from the application of Bradford s law The first step in a informetric analysis is to extract the target literature from an information retrieval database Turner and alii 1988 In the present case we simply start from the literature collected and processed from 1989 to 1991 by the FRANCIS database on sociology The size of this datafile is of 13 942 records there are different types of documents journal articles books reports proceedings and Ph D This is our starting raw datafile from which we shall build a second datafile The decision here was to focus on the journal articles There are predominantly journal articles in our source datafile they represent 84 of the sociological information stored in the FRANCIS database from 1989 to 1991 There are Chapitre 2 24 720 journals from which 11 661 articles originate The other sources are books reports proceedings and theses at 16 of the raw da
302. onn es bibliographiques Une base infom trique rassemble donc des informations scientifiques et techniques normalis es et codifi es Sa structure doit tre con ue pour faciliter le calcul des indicateurs infom triques ou bibliom triques Il n existe pas l heure actuelle de producteurs directs de bases infom triques ni de bases infom triques en ligne Le besoin croissant d indicateurs europ ens nationaux r gionaux institutionnels que nous avons pu observer la 5 me conf rence internationale des indicateurs scientifiques et techniques Hinxton 1998 demande pour tre satisfait la mise en place de nouvelles bases de donn es hybrides multi sources adapt es au calcul d indicateurs Comment les concevoir Comment les alimenter L objectif de l article est double Mettre en vidence quelques points cl s et les difficult s pour construire ce type de base et tirer les le ons sur le plan informatique d exp riences offrant une certaine similarit avec cette probl matique C est pourquoi cet article comporte deux parties Par exemple en 1998 une analyse infom trique de donn es multi sources a t mise en uvre dans le cadre d une collaboration avec le Bureau Van Dijk BVD pour r aliser un rapport de tendance dans le domaine des plantes transg niques L tude a t r alis e sur un corpus de brevets et trois corpus de r f rences bibliographiques issus de PASCAL et d autres bases de
303. ont l interpr tation est fond e sur les lois bibliom triques Lotka Zipf et Bradford Les r sultats peuvent tre fournis en format HTML par FTP ou sur une disquette et sont donc visualisables l aide d un outil de navigation WWW MIRIAD comprend aussi un serveur interne l INIST dont le but est de r aliser des statistiques la demande sur les notices issues des bases PASCAL et FRANCIS Par le biais d un outil de navigation WWW les utilisateurs peuvent constituer un corpus de notices partir de requ tes bool ennes d finir et lancer une analyse statistique La recherche se fait sur l ensemble de la base PASCAL depuis 1992 avec une mise jour hebdomadaire MIRTAD fournit aux utilisateurs un compte rendu d taill du r sultat de leur recherche et permet la visualisation des notices obtenues donnant en cela la possibilit de v rifier la pertinence de leurs requ tes et de les modifier si besoin est 2 4 3 La plate forme d ing nierie linguistique ILC La plate forme ILC permet d indexer une collection de documents corpus par la reconnaissance de termes pr sents la fois dans un lexique terminologique ou un 13 SGML Standard Generalized Mark up Language Chapitre 1 10 th saurus et dans le corpus Les traitements terminologiques r alis s s appuient sur l int gration de deux principaux outils linguistiques l analyseur FASTR JACQUEMIN 1994 un outil linguistique de traitement du groupe nominal et l
304. ordonn es de mots adjectifs ou noms l int rieur du groupe nominal Par exemple differential and integrated cross sections est associ au terme Differential cross section c la variation de permutation implique tous les mots ou les groupes de mots pouvant permuter autour d un l ment pivot pr positions ou s quences verbales Par exemple range of power modulation frequency est associ au terme Frequency range Leur emploi dans un contexte d analyse de l information est d crit dans le chapitre 3 2 4 4 Les outils de classification et cartographie SDOC et NEURODOC Ces deux outils utilisent les mots cl s qui indexent les r f rences bibliographiques pour mettre en vidence des structures th matiques indicateurs de centres d int r t ou th mes Ceux ci sont ensuite dispos s sur un espace a 2 dimensions appel carte th matique a SDOC SDOC est un ensemble de modules impl mentant la m thode des mots associ s CALLON et al 1983 1986 MICHELET 1988 Initialement orient e au service d une analyse des sciences et techniques dans un cadre sociologique cette m thode est ici utilis e dans un cadre Science de I Information au service de l analyse de I information scientifique et technique La m thode est bas e sur la cooccurrence des mots cl s pour mettre en vidence la structure de leurs relations r seaux lexicaux La notion de cooccurrence est essentielle En effet si on consid
305. ordre de pr f rence d pendant de la base d origine NAUER 99 les doublons sont ici consid r s comme sources de richesses pour construire des super notices via des requ tes SQL en prenant par exemple tel champ d une source et tel autre d une autre source ou en combinant deux champs sur la base de la pr sence ou de l absence de telle ou telle information Il est en effet possible de mettre en place une proc dure de rep rage du m me article dans les diff rentes sources d doublonnage puis de s appuyer sur le mod le relationnel pour combiner les informations provenant des diff rentes sources en vue de constituer des descriptions d unit s documentaires les plus compl tes possibles en retenant le meilleur des diff rentes bases Pour cela chaque document est identifi par une cl unique construite partir de diff rents l ments de donn es auteurs ann e de publication etc Avant de cr er un nouvel enregistrement dans la table des documents la proc dure d insertion r cup re chacun des l ments de donn es n cessaire la construction de la cl et v rifie l absence de cette cl dans la table Si c est le cas un num ro unique Num roDocument est attribu au document Les documents ayant la m me cl ont le m me num ro de document Puis chaque l ment d information titre de p riodique auteur etc du document alimente la table lui correspondant table des p riodique
306. ormation labor e Ile Rousse 9 11 juin 1993 POLANCO X FRANCOIS C BESAGNI D MULLER C GRIVEL L 1993b Un exemple de traitement de l information par une approche infom trique le cas de l conomie de l information 3 me conf rence internationale sur la recherche en informations Nouvelles technologies de l information les d fis pour la recherche en conomie de l information Poigny la For t France 11 13 juillet 1993 TURNER W 1994 Penser l entrelacement de Humain et du Technique les r seaux hybrides d intelligence Solaris n 1 Pour une nouvelle conomie du savoir Presses universitaires de Rennes p 21 50 Chapitre 5 103 Chapitre 6 Assister l analyse de PIST par la g n ration automatique d hypertextes dynamiques l re d internet et du World Wide Web Ce chapitre d crit les choix de conception d un g n rateur d applications hypertextes adapt s a la d marche d analyse pr cis e dans le chapitre pr c dent 1 S appuyer sur un Syst me de Gestion de Bases de Donn es SGBD et sur une mod lisation relationnelle des donn es infom triques Ce syst me g re plusieurs types de documents les clusters et les donn es structur es analyser qui peuvent d ailleurs tre de diff rents types L id e est de mod liser les donn es structur es et les clusters obtenus partir de ces donn es de tel fa on que la plupart des op rations d analyse puissen
307. ouverture doit tre valu e p riodiquement facteur d impact comit d experts indicateurs infom triques etc 2 la constitution et l utilisation de tables de nomenclatures pour r aliser divers indicateurs selon des crit res g ographiques pays r gions ou th matiques disciplines scientifiques domaines technologiques ou selon les secteurs d activit industrielle 3 la structuration et la normalisation de diff rents champs de donn es journaux adresse d affiliation des auteurs noms des auteurs en s appuyant sur des fichiers d autorit et ou des r gles de normalisation 4 une mod lisation des donn es adapt e au calcul d indicateurs Dans le contexte des observatoires les volumes de donn es stock s sont de l ordre de plusieurs millions de documents Les trois observatoires stockent leurs donn es dans une base relationnelle afin de r aliser par des requ tes SQL les croisements a effectuer pour calculer les indicateurs A notre connaissance si on en juge par les tudes effectu es il n y a pas r ellement int gration de donn es h t rog nes dans un mod le de donn es commun Les donn es proviennent g n ralement d une m me source PISI Si une tude requiert exceptionnellement des donn es provenant d autres sources elles sont trait es et stock es s par ment des donn es de PISI Pourtant les observatoires tudi s reconnaissent implicitement qu un largissement des
308. ow combination of bibliographic data elements Since relational databases 5 are designed explicitly to relate data elements to one another they would seem a natural choice for bibliometric analyses The idea is to model bibliographic data and clusters so that most operations Who does What and Where When are undertaken with SQL statements RDBMSs considerably facilitate data and user administration because these solutions are now mature and reliable Although the relational model 5 has its drawbacks compared to object oriented models 6 one may notice that RDBMSs tend to become hybrid systems by merging relational and object features thereby becoming more adapted to the management of structured textual data 2 2 Hypertext system Classical hypertext systems such as Winhelp or Hypercard essentially allow static navigation possibly enhanced by some keyword interrogation facilities Winhelp or script language capabilities Hypercard We have tested these two systems This kind of hypertext systems are adequate to publish low cost documentary products on CD ROMs Chapitre 6 107 or floppy disks but they cannot be used for cooperative work or easily extended They do not provide the navigation mechanisms dynamically computed nodes and links needed within a dynamic information system They are not available on every hardware platform The World Wide Web WWW is much more open and extensible WWW is a distributed hypermedia system
309. permet de structurer Pinformation en distinguant dans un premier temps leurs possibilit s de regroupements au sein d une entit de niveau sup rieur une classe d entit s similaires du point de vue des caract ristiques extraites et dans un deuxi me temps SGML Standard Generalized MarkUp Language meta langage permettant de construire des langages de balisage de documents pour rendre compte de leur structure logique 5 XML eXtensible Markup Language est une version modernis e et simplifi e de SGML issue des travaux du W3C XML retient les caract ristiques essentielles de SGML en Il purant de ses caract ristiques les plus complexes mettre en uvre et en apportant de puissants de m canismes de liens tendant ceux pr sents dans HTML Il existe une traduction en fran ais de la norme XML http babel alis com web_ml xml Chapitre 1 6 la cr ation de cartographies de l ensemble de ces classes en les situant les unes par rapport aux autres TEIL 1991 LELU 1993 SMALL 1997 1999 Sur la base de ces principes un environnement d analyse de IST devrait comporter non seulement un ensemble d outils d analyse disponibles au sein d une plate forme mais galement un observatoire v ritable systeme d information que nous appelons base infom trique o l utilisateur peut stocker explorer et exploiter m thodiquement selon la m taphore navigationnelle d crite en section 2 1 les r su
310. peuvent tre utilis s pour de l investigation en Information Scientifique et Technique observation ou valuation de fonds documentaires recherche d mergence de concepts en veille scientifique construction a posteriori de th saurus Dans ces exemples il s agit g n ralement de prendre un ensemble de r f rences bibliographiques ou de brevets et de leur appliquer une s rie d analyses DUC 91 1 D autre part nous utilisons SDOC et NEURODOC pour construire de nouveaux produits documentaires Actuellement l INIST fournit ses clients des profils documentaires qui correspondent aux listes des r f rences bibliographiques les plus r centes concernant le domaine choisi Nous nous proposons de fournir l utilisateur Annexe 2 199 un document hypertexte dans lequel l ensemble de ces r f rences est compl t par un outil de navigation dont le noyau est une carte globale des th mes DUC91 2 En pratique la cible prioritaire est la cr ation de piles Hypercard pour Macintosh La constitution d un hyperdocument peut tre d coup e en quatre tapes fig 8 extraction des documents reformatage des documents traitements statistiques enfin dition affichage mise jour et impression Extraction des documents bruts Interrogation des bases PASCAL ou Flux de donn es FRANCIS par gt le Construction d un ensemble documentaire 7 bas sur SGML Conversion des documents vers SGML Cr ation des fichi
311. posons donc une d marche d analyse bas e sur l observation d indicateurs permettant d appr cier la qualit des r sultats produits par notre station de travail Pour illustrer cette d marche nous utilisons les r sultats du traitement d un petit corpus de r f rences bibliographiques quelques centaines de documents En conclusion nous effectuons un bilan comparatif des deux m thodes et d crivons les volutions futures de la station de travail 2 Choix m thodologiques et technologiques 2 1 M thodes mises en oeuvre Tl est entendu que nous l appliquons galement pour le traitement de gros corpus Chapitre 5 76 Si les m thodes mettre en oeuvre pour obtenir les distributions bibliom triques sont relativement bien standardis es et banalis es POLANCO 95 il n en est pas de m me pour la repr sentation de IST C est pourquoi nous nous contenterons de d velopper ce deuxi me aspect Les indicateurs que nous utilisons pour repr senter le contenu de l information sont les cartes th matiques D une mani re g n rale nous d finissons une carte th matique comme tant une repr sentation de la topologie des relations entre des disciplines ou des th mes de recherche telle qu elles sont mat rialis es sous la forme de donn es bibliographiques Pour construire ces cartes notre choix s est port en priorit sur deux m thodes d analyse de corpus documentaire d j d crites dans la l
312. presentation of the sociological literature published in journals edited in the United States also highlights a dimension of social deviance This is again the same phenomenon that is to say the important weight of the sources of information specialized in these subjects Chapitre 2 32 Woman s Work Fertility Application Employment olitical Attitudes Modernity Social Policy Social Movements Structures Research Attitude towards Social Change Communication Relations Factors Feminism Work Representation Evolution map 2 In the case of the European maps maps 1 2 and 3 our choice has been to show here the maps that highlight the associations of clusters as Technology or Innovation or Technological Innovation with the other clusters This is in order to show how a cluster that we consider as a graph or in other words a micro network can be situated inside a larger network macro network or context We can compare the position of the subject Technology amp Innovation or Technological innovation in the three contexts In the case of France this subject appears at an average position along the two axes and is linked new communication technologies with Information a subject whose position on the map indicates that it is cohesive but without centralness At the same time the other associations refer to significative clusters from the centrality point of view but lowly integrated as unit of information All these cl
313. productives en termes d articles recueillis dans le corpus ainsi que la loi de Zipf pour d terminer le vocabulaire d indexation pertinent pour l analyse Cette loi nous permet de s parer le vocabulaire d indexation en trois groupes un ensemble restreint de mots cl s de fr quence lev e mais trop g n raux information triviale un ensemble de mots cl s de fr quence plus faible mais riches en information un ensemble tr s important de mots cl s de fr quence tr s faible 1 ou 2 difficile a exploiter d un point de vue statistique et g n rateur de bruit information marginale C est donc le second ensemble de mots cl s qui fournit l information la plus int ressante et qui est trait par les m thodes d analyse de donn es 3 2 Exploitation des r sultats des m thodes d analyse de donn es Pour chaque m thode nous d crirons la structure des classes obtenues puis le protocole d interpr tation des classes et cartes Celui ci est bas sur l observation d indicateurs g n r s automatiquement permettant d appr cier la qualit de la classification obtenue d un point de vue global puis local chaque classe Nous suivrons un plan rigoureusement parall le pour permettre une comparaison entre les deux m thodes Nous utiliserons les r sultats du traitement d un corpus de r f rences extraites de la base PASCAL au d but de l ann e 1990 dans le domaine des Sciences de l ing nieur
314. puisque les documents les plus pertinents d un point de vue statistique pour le theme sont class s en t te A partir de ces indicateurs l utilisateur peut faire des hypoth ses sur les th mes en vogue nombre important de documents date r cente pour l essentiel des documents en perte de vitesse faible nombre de documents date ancienne en mergence faible nombre de documents date r cente Bien entendu c est l expertise du lecteur ses recoupements avec d autres informations qui lui permettront d affirmer ou d infirmer la validit de ses hypoth ses Chapitre 8 152 t Sommaire Netscape ol x File Edit View Go Communicator Help sommaire carte th mes revues congr s organismes auteurs mots cl s Documents partag s avec d autres th mes Titres du th me risk Les titres sont class s par ordre d croissant du poids des documents dans le th me entre parenth ses droite du titre Cliquer sur un titre donne la description bibliographique du document correspondant 1996 A method to determine the mean pollen dispersal of individual plants growing within a large pollen source 7 1995 Pollen viability and transgene expression following storage in honey 69 1996 Adaptability and efficacy of transgenic and wild type Metaseiulus occidentalis Acari Phytoseiidae compared as part of a risk assessment 62 1996 Maturation specific translational enhancement mediated by the 5 UTR o
315. qualifier ce ph nom ne d indicateur d activit scientifique il faudrait le relier avec les indicateurs d activit utilis s usuellement par les observatoires des sciences et technologie l Polanco X Royaut J Grivel L Courgey A Infom trie et linguistique informatique une approche linguistico infom trique au service de la veille scientifique et technologique Les syst mes d information labor e Ile Rousse Corse 1995 Cet article est une version longue en fran ais de l article How to do things with terms in informetrics terminological variation and stabilization as science watch indicators pr sent la 5 conf rence internationale en infom trie bibliom trie scientom trie River Forest USA 1995 1 Introduction Les travaux en informatique linguistique n ont pas encore attir beaucoup l attention des chercheurs en infom trie Ce texte fait part de nos r cents travaux sur le couplage et l application d outils et de techniques en informatique linguistique et infom trie 12 Par informatique linguistique nous entendons tout traitement informatique du langage naturel qui permet de fournir des donn es linguistiques aux outils infom triques d analyse de l information scientifique et technique IST Notre but est de construire un dispositif d analyse de IST capable d op rer partir du texte int gral ici les titres et r sum s d auteurs des notices bibliographiques c
316. que CALLON et al 1993 p86 Ils Putilisent pour valuer l int ret strat gique des th mes Leur objectif est avant tout sociologique tude des dimensions sociales et organisationnelles de la science COURTIAL 90 TURNER 94 Nous utilisons la m me m thode de construction de cartes avec un autre objectif permettre a un utilisateur d appr hender globalement et localement le contenu d un corpus bibliographique Ainsi la figure 6 pr sent e dans la deuxi me partie est un exemple de carte affichant les relations qu un th me entretient avec d autres th mes dans le domaine des syst mes experts et intelligence artificielle La m thode bas e sur les K means axiales et 1 ACP LELU 1990 1993 Cette m thode consid re l ensemble des r f rences bibliographiques comme un nuage de points plong dans un espace g om trique o chaque dimension correspond un mot cl Elle est caract ris e par une repr sentation des classes par des vecteurs pointant vers les zones de forte densit du nuage La figure 2 montre l exemple d un corpus de documents index s par les 3 mots cl s x1 x et x3 Ces mots cl s d finissent l espace R3 un document i index par les mots cl s X 1 et x9 aura les coordonn es suivantes 1 1 0 A mot cl Xj document i Chapitre 5 79 Figure 2 Repr sentation d un corpus documentaire dans un espace g om trique R3 Tandis que les techniques de classification no
317. que des Images des Sons et des Textes IRIT Institut de Recherche en Informatique de Toulouse TETRALOGIE Exploration dans les bases http atlas irit fr d informations et d couverte http www irit fr SS ACT de connaissances extraction IVITES EQ_SIG themes d terminologique m thodes atamining exploration html factorielles Dkaki et al 1997 et 1998 ECAM European Centre for Applied Mathematics IBM Paris TKS Text Knowledge fouille de donn es textuelles http www fr 1bm com fran Server veille technologique ce ecam soluttm htm Technology Watch extraction terminologique et MARCOTORCHINO analyse relationnelle 1991 HUOT 1992 CRRM Centre de Recherche R trospective de Marseille Universit d Aix Marseille II DATAVIEW infom trie appliqu e a la http crrm univ mrs fr Chapitre 1 7 MATRISME Internet et analyse r seau LEVEILLE et al 1998 CWTS Centre for Science and Technology Studies Leiden University Hollande infom trie valuation de la __ http sahara fsw leidenuniv recherche et systemes nl cwts noframes cwtshom d informations et analyse e html mots associ s Noyons AFJ Van Raan 1998 ISI Institute for Scientific Information USA SCI VIZ prototype infom trie et syst mes http www isinet com d informations et SMALL 1997 et 1999 cartographie de la science Austrian Research Center Seibersdorf Department Technology Studies Autriche infom trie et cartographie KOPCSA
318. r sentent donc des mots cl s de typicit lev e Th me Hypertexte 13 documents Mots cl s Sources Auteurs Documents 5 56 Hypertexte 0 85 Composition of hypertext nodes 4 48 Lien 0 79 Writing and reading hypertext an 4 06 Logiciel overview 3 91 Conception 0 68 Hypertext and the end user 3 54 Document 0 67 Structuring diverse types of multim dia 3 24 Pr sentation information 3 18 Acc s information 2 62 HyperCard 2 56 Informatique documentaire 2 47 Informatique information in hypertext the case of biblical information 0 63 Is hypertext a new model of information retrieval 0 62 Supporting collaboration in hypermedia issues and experiences 0 61 The hermeneutics of hypertext 0 60 Hypertext behind the hype 1 99 Syst me 0 55 gIBlS a4 tool for all reasons documentaire 0 49 Construction automatique de liens 1 64 Architecture hypertextes Nom du th me Autres th mes a o gt Carte des themes Figure 7 Exemple de th me obtenu avec NEURODOC Un document est repr sent par son titre et sa valeur de typicit par rapport au theme les documents les plus pertinents du th me sont en g n ral les plus sp cifiques au th me Les documents de pertinence moindre se retrouvent dans d autres th mes o ils sont d ailleurs souvent mieux situ s Dans le dispositif hypertexte chaque titre de document donne acc s la r f rence compl te A partir des documents associ s au th me sont extr
319. r Id play a key role Once the bibliographic data is broken down into a set of interrelated tables the document Id is used to relate the Chapitre 6 111 tables back together and so does the cluster Id To relate clusters and bibliographic data the document Id and the cluster Id are used together 4 2 Hypertext interface The interface is derived from our previous work Grivel amp Fran ois 1995 a 1995 b 10 and takes advantage of the relational model and of user comments It is clear that the definition of a user interface requires compliance with some principles or guidelines which will not be described here as it is not within the scope of the paper The informetric database interface provides two types of navigation which are complementary to analyze information a an intuitive exploration mode based on the map metaphor and b an assisted searching mode based on the Who does What and Where with Whom metaphor The screenshots come from a study on industrial enzymes by Harry Rothman Director Centre for Science amp Technology Policy University of the West of England Bristol based on data extracted from PASCAL INIST s database The clustering and mapping application is NEURODOC 4 2 1 Exploration mode The information analyst can use navigation possibilities which correspond to predefined requests on the database containing the informetric data By simple clicking on a link the user can build a cluster map Figure 3 for
320. raitement de l Information Scientifique et Technique 4es Journ es Internationales Le G nie logiciel et ses applications Toulouse 9 13 D cembre 1991 p 239 254 et dans G nie logiciel n 25 p 80 90 1991 19 Ducloy J Grivel L Lamirel J Ch Polanco X Schmitt L INIST s Experience in Hyper Document Building from Bibliographic Data Bases Proceedings of RIAO 91 Conference Barcelone Spain vol 1 1991 20 Polanco X Schmitt L Besagni D Grivel L A la recherche de la diversit perdue est il possible de mettre en vidence les l ments h t rog nes d un front de recherche les syst mes d information labor e Ile Rousse Corse p 273 292 1991 Chapitre 1 De l analyse de l information scientifique l hypertexte Ce chapitre d finit ma probl matique de recherche l hypertexte comme mode d exploitation des r sultats d outils et m thodes d analyse de l Information Scientifique et Technique IST positionne mes d veloppements dans un contexte scientifique interne l Unit Recherche et Innovation l INIST et externe en France et l tranger Il introduit galement les chapitres suivants La premi re partie situe l analyse de PIST au sein d une discipline l infom trie et en propose une d finition op rationnelle L analyse de l information pr sente un fort caract re exploratoire Si l on se fixe comme objectif de faire merger d couvrir
321. re d associations externes avec d autres clusters 8 Nombre de citations du cluster par d autres clusters 9 Nombre de documents d finissant le cluster 10 Nombre de documents propres au cluster Le seuil de saturation d un cluster 1 est la valeur de la derni re association interne ajout e avant sa saturation c est dire lorsqu il ne peut plus grandir en taille Trier le tableau selon cette valeur permet de conna tre l ordre dans lequel les clusters se sont fig s Ainsi le cluster Langage naturel s est stabilis apr s le cluster Recherche documentaire La densit 2 d un cluster est la moyenne des associations internes du cluster C est un indicateur de sa coh sion son homog n it L examen de sa taille 4 et de son nombre d associations internes 6 permet d avoir une id e plus pr cise de cette coh sion La densit de Recherche documentaire est presque similaire celle de Langage naturel mais le rapport nombre de mots qui le constituent sur le nombre de connections entre ces mots est plus faible indiquant une connectivit plus importante On peut dire que Recherche documentaire a une coh sion plus forte que Langage naturel La somme des valeurs de 4 donne le nombre de mots cl s gard s dans les clusters Chapitre 5 91 La centralit d un cluster 3 est la valeur moyenne des associations externes Le nombre de citation 8 d un cluster indique le nombre de fois qu un clust
322. re 2 ICGI a WWW RDBMS gateway Chapitre 6 110 3 3 About HENOCH software components Convertor uses a SGML toolkit called ILIB 4 which is able to work both on character streams and on trees Another possibility about the conversion of SGML documents into database tables is to use a public SGML parser tool kit 2 integrating an API Consequently a program using this API is able to trigger actions in regard of a context in order to generate an input file for a data loading product such as SQL Loader Oracle WWW RDBMS gateways were at their very beginning in 1995 The unique way to trigger or run an external application such as a RDBMS from a Web server was to write a CGI program Unfortunatly the CGI based on HTTP protocol is not a very efficient mechanism and does not integrate the notion of transaction Consequently it generates a great number of request and overloads the network Next version of HENOCH 9 will use Java applets based on JDBC 8 to solve this kind problem HENOCH integrated in our SGML based informetric chain is an effective rapid prototyping environment which allows to test and validate new functionalities very quickly in real size at a very low cost The next section illustrates an information analysis environment generated by HENOCH from SGML informetric data format 4 AN EXAMPLE OF INFORMATION ANALYSIS ENVIRONMENT 4 1 Relational modeling of informetric data We call informetric data the results of clustering
323. re Economie et Statistique France and Journal of Marriage and the Family Etats Unis The clustering of the 249 articles of Journal of Marriage and the Family Etats Unis provided 21 clusters and we obtained 11 clusters from the 138 articles of the journal Economie et Statistique France This case underlines that if the number of references is statistically significant one can proceed to a content analysis of these references using SDOC as the one we discuss in section 4 of this paper We shall not present here the results obtained from these two journals So our target literature becomes at last France 269 journals as a source of 3 107 references United States 142 journals as a source of 2 538 references Germany and United Kingdom remains unchanged 3 2 Application of the Bradford Law To select the target literature we applied Bradford s law of rank distribution The four country sociological journals were ranked by decreasing productivity of articles Then for each country we defined 4 groups see Table 2 composed of the most productive journals so that their cumulative number of references reach respectively 25 50 75 and 100 of the corpus Table 2 Publishing country Number of references Number of journals with of references 25 50 75 100 Chapitre 2 25 France 3107 12 31 68 269 Germany 860 3 6 15 United Kingdom 1310 3 8 15 49 United States 2538 7 17 32 142 We defined as nuclear zo
324. re diff rents themes risk les risques encourus par les consommateurs et l environnement food industry l agro alimentaire Le lecteur peut ensuite lister les documents th mes par th mes 3 Conclusion et perspectives Dans sa version prochainement accessible sur Internet HENOCH offrira l acc s un ensemble de corpus bibliographiques constitu s partir des bases PASCAL O Chapitre 8 159 FRANCIS sur quelques sujets s lectionn s par l INIST comme repr sentatifs de pr occupations de recherche actuelles De l observation des r actions des utilisateurs d pendront les orientations que prendra VINIST concernant I exploitation d un syst me tel qu HENOCH Par ailleurs depuis plusieurs ann es l Unit Recherche et Innovation de l INIST est sollicit par divers organismes publics et priv s qui souhaitent que leurs donn es scientifiques et techniques pour la plupart soient trait es par des outils linguistiques et Statistiques Ils souhaitent galement que ces donn es et ces r sultats soient rendus accessibles via le r seau la communaut de leurs membres travers une interface conviviale comme celle d HENOCH Parall lement on voit se mettre en place ici ou l la notion d observatoire th matique produisant de l information labor e partag e par un cercle d utilisateurs souscripteurs les th mes r pondant aux besoins exprim s par un groupe d utilisateurs les mem
325. re que deux documents sont proches Chapitre 1 11 parce qu ils sont index s par des mots cl s similaires alors deux mots cl s figurant ensemble dans un grand nombre de documents seront consid r s comme proches L emploi d un indice statistique permet de normaliser la mesure de l association entre deux mots cl s L indice utilis est l indice d quivalence la cooccurrence au carr des mots cl s i et j divis e par le produit de leurs fr quences respectives Les valeurs varient entre 0 et 1 Cet indice est analogue aux indices bien connus de Dice de Jaccard et de Salton Ensuite SDOC applique un algorithme de classification ascendante hi rarchique CAH dit du simple lien single link clustering afin de construire des classes ou clusters de mots proches les uns des autres n exc dant pas une taille maximale Un cluster est donc constitu de mots associ s les uns aux autres associations internes ou associations intra cluster Les clusters peuvent avoir des relations entre eux associations externes ou associations inter cluster Apr s le processus de classification des mots cl s les documents sont affect s aux clusters en fonction de leur indexation Les clusters sont ensuite positionn s sur un plan bidimensionnel Y X selon leur densit et centralit constituant ainsi une carte e la densit Y d un cluster est exprim e par la valeur moyenne des associations entre mots cl s formant le cluster ou associa
326. ription bibliographique d un document Chapitre 8 155 La figure 10 montre un exemple de r f rence s lectionn a partir de la liste des documents d un th me Les fl ches de navigation donnent la possibilit de naviguer transversalement vers des documents voisins d un poids imm diatement sup rieur ou inf rieur dans le th me et la possibilit d acc der aux mots cl s d crivant le th me ainsi que de revenir la liste des documents du th me Un document peut en effet se trouver dans plusieurs th mes comme dans le cas ci dessous 3 Sommaire Microsoft Internet Explorer _ OI x File Edit View Go Favorites Help Fal Address E http yoda inistfr 9001 cgi bin main cgi demo_henoch frame_sommaire template where upper t_setnom 20like 20 2 7 NDOC 2 sommaire carte th mes revues congr s organismes mots cl s Aide order to track rare long distance dispersal events Conversely studies using large plots as a pollen source provide a pollen distribution that depends on the shape of the source plot We report here on a method based on the use of Fourier transforms by which the pollen dispersal ofa single average individual can be obtained from data using large plots as pollen sources thus allowing the estimation of the probability of long distance dispersal for single plants This method is subsequently implemented on simulated data to test its susceptibility to random noise and edge effects Its conditions of
327. ronnement travers les pollens ZJ Sommaire Microsoft Internet Explorer _ ol x Eile Edit View Go Favorites Help Kai Address http yoda inistfr 9001 cgi bin main cgi demo_henoch frame_sommaire te x TRE n ray EU mu sommaire carte th mes revues congr s organismes auteurs mots cl s Aide Titres des documents du th me risk ayant pour mot cl risk Les titres sont class s par ordre d croissant du poids des documents dans le th me Un lien sur un titre donne la description bibliographique du document correspondant A method to determine the mean pollen dispersal of individual plants growing within a large pollen source 7 Adaptability and efficacy of transgenic and wild type Metaseiulus occidentalis Acari Phytoseiidae compared as part of a risk assessment G62 Ecological risk of growing transgenic potatoes in the United States and Canada 49 Tracking variable environments there is more than one kind of memory 43 Figure 4 2 3 1 2 La liste tri e des titres de document Fig 5 Le lien titres renvoie a la liste de titres documents qui est ordonn e selon la pertinence le poids du document pour le theme La date de publication et le poids de chaque document encadrent le titre en donnant acc s a la description bibliographique du document correspondant Ces deux l ments date et poids permettent au lecteur de se faire une id e de l ge moyen d un theme
328. rs France forthcoming POLANCO X FRANCOIS C KEIM J P 1997 Artificial Neural Network Technology for the classification and Cartography of Scientific and Technical Information to be published in Proceedings 6th International Conference of the International Society for Scientometrics and Informetrics Jerusalem June 16 19 SALTON G 1989 Automatic Text Processing The transformation Analysis and Retrieval of Information by Computer Reading MA Addison Wesley SMALL H 1995 Relational bibliometrics In Michael E D Koenig Abraham Bookstein Eds Sth International Conference of the International Society for Scientometrics and Informetrics Learned Information Inc Medford NJ 525 530 ZITT M BASSECOULARD E 1994 Development of a method for detection and trend analysis of research fronts built lexical or cocitation analysis Scientometrics Vol 30 1 333 351 ZITT M BASSECOULARD E 1996 Reassessment of co citation methods for science indicators effects of methods improving recall rates Scientometrics Vol 37 2 223 244 7 NOTES 1 We have found in this book the definition of a general computer framework to generate hypertexts Although our informetric platform had been designed for another purpose information analysis many ideas about hypertext generation expressed in this book are implemented in our global informetric system 2 Dr Charles F Goldfarb IBM is the inventor of the SGML language http
329. rst three columns 1 2 3 in the tables below are obtained by the Equivalence index those of the columns 4 5 6 are the size parameters of clusters which results from parameters fixed a priori for building clusters The values of the last two columns 8 9 concern documents classification by clusters These are the indicators which allow us to characterize the clusters In the tables 5 to 8 in the appendix each cluster is a row and each statistical parameter a column Then we can choose a parameter and rank the clusters according to their quantitative values in the selected column Here the clusters have been sorted by 2 density value the mean of the internal associations which characterizes the strength of the links between the words making up the cluster intra cluster associations The stronger these associations are the more the subject corresponding to the cluster constitutes a integrated unit of information or knowledge Centrality 3 measures for a given cluster the intensity of its external associations with other clusters inter clusters associations The more of these associations there are and the stronger there are the more this cluster designates a subject that is considered important in the knowledge network The word citation 7 is used to indicate the fact that one cluster has been Chapitre 2 28 cited in the external associations of another cluster When one cluster by its external associations refers to
330. rt aux repr sentations fournies par les m thodes d analyse et celui des autres L hypertexte en tant que principe d organisation de l information semble le moyen le plus ad quat pour mod liser cette organisation et en tant que technologie mettre en place concr tement les m canismes d exploration et les interactions n cessaires Pinterpr tation des r sultats d analyse 2 2 La g n ration automatique d hypertexte et les techniques d analyse Il n est pas de mon propos de faire un historique SERRES 95 sur l hypertexte dont Pusage avec lessor d internet s est largement popularis mais plut t d introduire l hypertexte sur le plan conceptuel et technique La d finition ci dessous pour le terme hypertexte est suffisamment g n rale pour s appliquer tout type de document et pas seulement aux documents textuels Un hypertexte est un ensemble d unit s d information noeuds qu un utilisateur peut parcourir de fa on informelle libre et exploratoire au moyen de liens propos s par le syst me Les hypertextes ont pour vocation d articuler et d organiser des entit s plus au moins atomiques d informations l aide de relations existant entre ces granules de connaissance Les tudes effectu es dans les chapitres 2 3 et 4 ainsi que le chapitre 8 corroborent cet avis Voir galement dans LEVY 1990 la m taphore de l hypertexte chapitre 1 pour une analyse des
331. s Bibliographie concernant les citations de Derek J de Solla Price Science et Suprascience Paris Fayard 1972 Is Technology Historically Independent of Science A Statistical Historiography Technology and Culture vol 6 1965 pp 553 568 The Structure of Publication in Science and Technology in W H Gruber et D G Marquis ds Factors in the Transfer of Technology Cambridge Mass The MIT Press 1969 pp 91 104 12 Conclusion Annexe 1 185 Notre but est donc de passer d un traitement statistique des documents bibliom trie traditionnelle une repr sentation des connaissances mat rialis es dans le langage crit des donn es bibliographiques Actuellement nous utilisons les mots cl s comme une premi re g n ration d indicateurs de connaissance En somme notre intention est le d veloppement d une scientom trie qualitative selon l expression de M Callon J Law et A Rip voir ch 7 de Mapping the Dynamics of Science and Technology London Macmillan 1986 ou d une scientom trie cognitive selon l expression de J P Courtial et A Rip dans leur article Co word Maps of Biotechnology An Example of Cognitive Scientometrics Scientometrics vol 6 1984 p 381 400 Dans la mesure o le but de cette analyse de l IST est la repr sentation de la connaissance mat rialis e ou objectiv e sous la forme de donn es bibliographiques des auteurs la consid rent a ce titr
332. s partir du corpus tudi et de son vocabulaire d indexation sans faire d interpr tation sur Pint ret strat gique des th mes type d interpr tation qui n est pas de notre comp tence Puis nous montrerons que la visualisation des noms des clusters et la mise en vidence graphique des relations existants entre clusters peut permettre un utilisateur de focaliser son attention sur un th me particulier et d examiner des sous r seaux du r seau global Dans l exemple de la figure 6 on peut relever que les cluster Rev tement m tallique et Industrie b timent sont a priori isol s par rapport au corpus forte densit faible centralit ce qui est confirm par le nombre et l examen des documents associ s Les Chapitre 5 93 th mes forte densit se situent dans la partie haute de la carte Ce sont ici des applications de l intelligence artificielle rev tement m tallique industrie b timent syst mes experts pour la r solution d quation d riv es partielles domaine documentaire Les documents en question ont une indexation tr s sp cifique pour d crire le domaine d application Les th mes situ s au bas de la carte ont une coh sion plus l che Ils correspondent ici en g n ral des th mes plus th oriques de l intelligence artificielle raisonnement mod lisation apprentissage etc Ils sont constitu s de mots fr quence lev e et regroupent des ensembles de documents plus
333. s 2 secr taires Netherlands une base de donn es bibliom trique Publications articles des chercheurs rapports Ex rapport CWTS 98 01 f vrier 98 command par le minist re de l ducation de la culture et des sciences sur la production et l impact des Pays bas dans les sciences humaines et sociales participe au rapport du NWOT publi tous les deux ans 140 Ressources Types d indicateurs Chapitre 7 Pour calculer les bibliom triques standards en sciences et techniques e les donn es du Science Citation Index SCD apr s extraction de certains Journaux de psychologie et d conomie enrichissement avec Compumath produite elle aussi par PISI les bases EPAT et USPAT brevets europ ens et am ricains enqu tes minist rielles R D recherche industrielle et innovation MENDEP tudiants et dipl m s OCDE UNESCO EUROSTAT statistiques europ ennes bases de donn es bibliographiques PASCAL INSPEC CHEMICAL ABSTRACT SCI MACROINDICATEURS niveau d observation un niveau agr g pays r gion en comparaison internationale mesure de niveau d activit indicateurs de sp cialisation indicateurs d impacts profils d activit copublications cocitations cod p t de brevet matrices inventeurs d posants de brevets MICROINDICATEURS cibl s sur le plan g ographique institutionnel produits la demande indicateurs e Des bases de do
334. s les tapes de l analyse sont similaires valuer d abord la qualit de la partition des mots cl s et des documents en sachant qu il s agit toujours de trouver un compromis entre une bonne lisibilit un nombre de clusters pas trop lev et une moindre perte d information tudier le tableau r sumant les caract ristiques des clusters th mes rep rer les clusters th mes dominants principaux et les clusters th mes secondaires tudier la ou les cartes des clusters th mes puis le contenu des clusters th mes afin d appr hender l organisation th matique du corpus documentaire Cette esquisse de m thodologie a pour unique ambition d aider l exploration de r sultats et ne devrait constituer en aucun cas un obstacle l intuition C est un moyen de disposer des premiers l ments constitutifs d un dossier d analyse sur lequel on peut s appuyer pour tayer ses r flexions 4 Bilan et volutions de la station de travail Notre station de travail permet de caract riser et d analyser par deux m thodes diff rentes un ensemble de r f rences bibliographiques Il nous semble important d insister encore une fois sur la possibilit de mesurer les accords entre les r sultats des deux m thodes d analyse par des indicateurs globaux r duction de donn e taux de recouvrement nombre de th mes identiques ou voisins taille des classes de documents Il reste cependant que les m thodes of
335. s table des auteurs etc en lui associant le num ro de document correspondant La reconstitution du document sous forme de super notice est effectu e par jointure sur le num ro identifiant le document entre toutes les tables auteur pays titre de journal etc Le r sultat de cette requ te peut alors tre export par le g n rateur d hypertexte sous forme de donn es XML pour des traitements ult rieurs ou pour tre accessible par un browser L int r t de cette architecture est la simplicit avec laquelle il est possible de fusionner des donn es provenant de plusieurs base h t rog nes et de d finir un formatage global coh rent pour le r sultat form par l ensemble des donn es fusionn es Chapitre 7 144 Chapitre 8 L analyse de PIST sous HENOCH une illustration dans le domaine des plantes transg niques Le processus d analyse de l information est un m lange d exploration informelle intuitive et d exploitation m thodique de l information labor e par diff rents outils d analyse Ce chapitre montre par un jeu de questions r ponses comment un hypertexte g n r par le syst me pr sent au chapitre 6 permet ses usagers par exemple un chercheur de d couvrir les th matiques la fronti re de son domaine de recherche les quipes qui travaillent sur le m me sujet que lui des revues dans lesquelles publier des congr s dans lesquels publier et auxquels assister L informati
336. s A B C D E d une part F G H I d autre part Un cluster est donc constitu de mots associ s les uns aux autres associations internes Les clusters peuvent avoir des relations entre eux Ceci se produit lorsqu il existe une association entre 2 mots cl s appartenant 2 clusters diff rents association externe et que la taille du nouveau cluster qui aurait r sult de la r union de ces 2 clusters d passe la taille maximum d finie par l utilisateur Ainsi C1 et C2 sont reli s par une association externe entre C et F car la taille des clusters ne peut exc der un maximum de cing mots dans l exemple pr sent Cl C2 Figure 1 deux clusters C1 et C2 de 5 mots maximum Apr s le processus de classification des mots cl s les documents sont affect s aux clusters de la mani re suivante un document est associ a un cluster si dans sa liste de mots cl s il existe au moins un couple de mots cl s qui pourrait constituer une association interne ou externe du cluster La classification est principalement param tr e par le nombre maximal de mots pouvant constituer un cluster C est une variante de la proc dure statistique habituelle qui consisterait utiliser un seuil fixe une distance limite partir de laquelle aucune agr gation n est plus effectu e C est un moyen pratique pour moduler la coupure dans l arbre de classification dendrogramme En cons quence du crit re de taille maximale les cla
337. s are close to one another does not mean that they are closely linked to each other On the other hand we arrange the clusters by rank on the Y and X axis The number of ranks is equal to the number of clusters So the maps can be interpretated as rows on the Y axis and columns on the X axis Now we are going to show how the maps can be used to help the analysis of research themes such as those linked with other themes forming a network in this way Certainly the analysis may descend to the level of the authors sources and articles each time Chapitre 2 31 France Judicial Organization en Public Administration Population tude towards Identity Professions Social Class Youth Religions DITIUIIIEIIIIIIIII 5 15 10 Map 1 The map 1 shows a set of three clusters together in a position of high density and high centrality They are the themes about Public Administration Criminality and Judicial Organization This centrality is specially explained because they are closely connected but at the same time each one represents an integrated internal unit of information on this subject or high density In reality they represent an information area that is the result of the weight of certain specialized journals in security criminology and laws in the sources of the data file This area is open to Politics and Professions by means of the external associations of the Judicial Organization cluster The map 4 which gives a re
338. s crit res e par domaines d sign s par l ISI e par fr quence de citations nombre de fois o sont cit s les articles publi s par un p riodique e par facteur d impact nombre moyen de citations dont les publications d une revue font l objet Le JCR est de moins en moins utilis Les trois organismes recalculent le plus souvent leur propres indicateurs d impact partir de l ICF Integrated Citation File SMALL 95 certaines Chapitre 7 127 tudes ayant montr que les facteurs d impacts publi s par le JCR ne sont pas exacts pour certains p riodiques MOED 95b En outre il existe diff rentes m thodes pour calculer le taux de citation attendu d une unit d analyse au sens d fini plus haut en anglais expected citation rate selon qu il est pond r ou non par le nombre d articles publi s par cette unit dans chaque p riodique Exemple extrait de MOED 96 supposons que l unit A ait publi 5 articles dans deux p riodiques P1 et P2 1 dans Pl 4 dans P2 et que le taux moyen de citation le facteur d impact soit respectivement de 4 00 pour P1 et de 9 00 pour P2 Alors le taux de citation attendu pour l unit A sera de 8 00 s il est pond r par le nombre d articles et de 6 5 s il ne l est pas 2 3 Mod lisation et stockage des donn es infom triques Les observatoires d sirent analyser tout l ment de donn es ou combinaison d l ments auteur titre source affiliation
339. s d exploration et les interactions n cessaires entre les sch mas mentaux de l utilisateur sa repr sentation du domaine couvert par la litt rature scientifique et diff rentes repr sentations fournies par les m thodes d analyse employ es Enfin et surtout il y a le retour positif des utilisateurs concernant l utilisation des hypertextes g n r s par HENOCH notamment sur le plan de l adaptabilit et l ergonomie section 1 Mais quelques points doivent tre mieux pris en compte pour que cet outil r ponde pleinement aux besoins de veille scientifique section 2 L analyse de ces manques ou faiblesses permet d envisager quelques pistes d am liorations qui constituent autant de perspectives de recherche section 3 1 Les points forts adaptabilit et ergonomie Un groupe de personnes l INIST de diff rents profils informaticien sp cialiste du Web ing nieurs documentalistes veilleur concurrentiel a effectu une valuation des fonctionnalit s propos es et de l interface Cette derni re a t jug e agr able d utilisation et facile appr hender Elle permet de travailler sans n cessiter l apprentissage fastidieux de proc dures et de commandes Sur le plan des fonctionnalit s une valuation sur le fond leurs besoins versus les fonctions r alisables met en vidence une liste de points forts points faibles Chapitre 9 162 En r sum les points forts sont une vue d ensemble du corp
340. s de mots cl s qui pourraient constituer une association interne ou externe du cluster Un document peut donc figurer dans plusieurs clusters Un document ne figurant que dans un seul cluster est appel document propre au cluster Les documents sont tri s selon l importance de leur contribution l laboration du cluster A partir des documents sont extraits le titre les auteurs et la source pour compl ter la description du cluster b Interpr tation de la partition obtenue Qualit de la partition Des indicateurs globaux permettent d appr cier la validit du param trage et caract risent la partition le nombre de documents et de mots cl s class s permet de mesurer la r duction des donn es c est dire la part d information contenue dans le corpus tudi mais perdue dans la partition obtenue dans notre exemple nous avons conserv 199 documents dans les classes environ 2 3 de l information bibliographique initiale et 149 mots cl s 15 du vocabulaire d indexation initial Ce r sultat plut t faible concernant le pourcentage d information bibliographique pr sent de la partition s explique par le fait que le seuil de cooccurrence choisi 2 limine 88 documents Chapitre 5 90 sur 316 et 757 mots cl s sur 955 La classification elle m me a peu d influence concernant la perte d informations En g n ral on cherche obtenir 80 des documents avec environ 20 des mots cl s Le nombre
341. s en taille colonnes 2 et 3 ils regroupent les th mes essentiels du corpus tudi Pour un nombre de documents gal plus l inertie d une classe est importante plus les documents constituants sont regroup s de fa on pertinente Par exemple le th me Processus acquisition 1 7 30 2 19 regroupe des documents plus homog nes que le th me Informatique biomedicale 1 5 95 2 19 Pour appr cier la qualit de la r partition des documents dans les classes un premier crit re est le nombre de documents ayant construit la classe 2 Si quelques classes regroupent l essentiel des documents et si elles correspondent des mots cl s de tr s forte fr quence elles risquent de masquer une information plus pertinente Aussi il peut tre int ressant d liminer ces mots cl s de l indexation Dans l exemple du tableau 2 les deux premi res classes regroupent chacune 33 et 30 documents ce qui est peine sup rieur aux classes suivantes nous pouvons consid rer que les documents sont quitablement r partis Une comparaison entre le nombre de documents ayant construit la classe 2 et le nombre de documents affect s cette classe 3 permet d estimer la pertinence du seuil des documents si 2 lt 3 la classe regroupe des documents ayant construits d autres classes et galement bien repr sent s dans cette classe exemple th me Processus acquisition si 2 gt
342. s ne permettent pas de diff rencier les clusters mais en tant que signal fort entre 12 42 occurrences pour le tableau 2 ils participent activement au processus de classification Chapitre 3 49 Quand on examine les termes les plus variants tableau 3 on remarque qu un nombre important parmi eux 21 termes sur les 35 les plus sujets 4 variation n appartiennent a aucun cluster La classification n a pas permis de capter tous les termes significatifs de ce ph nom ne de langue Cela est d en partie au seuil de cooccurrence fix dans ce cas a 3 cooccurrences en vue d obtenir un nombre r duit de classe mais qui a le d savantage de rejeter certains de ces termes Dans nos prochaines exp rimentations nous donnerons un poids plus grand aux termes variants afin qu aucun de ces termes ne puissent tre rejet s du processus de classification QUANTUM WELLS MAGNETIC FIELDS GROUND STATES CROSS SECTIONS ELECTRICAL FIELDS FERMI LEVEL ELECTRIC POTENTIAL THIN FILMS MOLECULAR BEAMS EFFECTIVE MASS ENERGY LEVEL DENSITY BANS STRUCTURE MOLECULAR BEAM EPITAXY 1 1 0 0 1 0 0 0 0 0 1 1 0 Tableau 2 Les termes les plus fig s chantillon Les 35 termes les plus variants se regroupent dans 6 clusters IRRADIATION ELECTRIC FIELD ELECTRONIC DENSITY PHOTONS SURFACES et VISIBLES RADIATION Ces termes les plus variants dans les clusters sont surtout li s aux aspects des champs lectriques dans la mat
343. s notre projet d une scientom trie cognitive 9 Enfin l objectif pragmatique est de r pondre des questions strat giques concernant beaucoup plus la connaissance que les documents eux m mes informatique documentaire Les traitements linguistiques que nous mettons en uvre reposent sur l identification en corpus des termes d une nomenclature terminologique th saurus lexique d indexation glossaire etc sous leurs formes de base ou sous des formes variantes Nous consid rons que pour un corpus donn le fait qu un terme varie atteste que ce terme est actif puisqu il est exprim sous des formes traduisant des sous aspects particuliers A contrario l absence de variation peut tre consid r e comme un signe de stabilisation du concept d not par ce terme Nous faisons l hypoth se que les ph nom nes linguistiques de la variation et du figement des termes sont des indicateurs que l on peut utiliser dans l analyse des informations pr sentes dans le titre dans le r sum voire dans le texte m me des documents scientifiques ou techniques Chapitre 3 42 3 Donn es instruments et techniques Nous pr sentons dans cette section les instruments et les techniques de nature linguistique et infom trique que nous avons mis en place Nous voulons dans un premier temps combiner ces deux types d instruments afin d obtenir pour l analyse infom trique des indicateurs linguistiques capables de repr senter le contenu
344. s relationnels les plus couramment utilis s sont les co publications et cocitations en se limitant du d nombrement Les indicateurs les plus sophistiqu s classification cartographie ne sont employ s que dans le cadre d tudes la demande voir annexe IT 2 2 1 Donn es Le plus souvent les tudes infom triques qui sont men es par ces observatoires utilisent une source de r f rence unique les bases de PISI L ISI fournit aux observatoires un fichier l Integrated Citation File ICF qui est une compilation structur e de ses diff rentes bases SCI SSCI A amp HCI voir en annexe I un exemple de fiche bibliographique extraite du SCI La caract ristique de l ICF est de constituer une base o documents citants et documents cit s sont appari s formant un r seau de documents se citant les uns les autres Pour donner un exemple sur la mani re de proc der voici comment est constitu e la base infom trique de la Hollande L ISI a fourni toutes les publications du SCI SSCI A amp HCI partir de l ann e 1980 a 1993 comportant des adresses d auteurs originaires de Hollande Dans chaque publication figurent tous les auteurs de la publication leurs adresses les donn es sur la source titre du p riodique ann e num ro de volume pagination type de document le titre de la publication les r f rences cit es Sont fournies galement toutes les publications issues des m mes bases citant ces publications h
345. s the problem of an end user who is searching for information in a database Usually he needs to get an idea of the state of the art in his special domain of interest In order to support the intellectual work of analysing retrieved documents in this respect a coword analysis method has been developed which discovers the thematical structure of a database and presents it as a map of themes on a graphical user interface The SDOC system from INIST Institut de l Information Scientifique et Technique is an implementation of this method and aims at mapping scientific research fields in large databases Our goal is to demonstrate the thematic mapping facilities of SDOC with a German bibliographical database here the SOLIS database of the Informationszentrum Sozialwissenschaften SOLIS provides information mainly about German language scientific literature journal articles contributions in compilations monographs and grey literature Document based retrieval systems normally use an indexing vocabulary to describe the content of its documents and an online system to access these documents The output of such a system in response to the user s query is a set of individual references In this study we imagine a French user who is searching for information in SOLIS concerning the field of social history in Germany He selects all the literature processed over a three year period 1989 90 91 in the SOLIS database having social history as pr
346. search for the problem he has to solve He may discover relations between themes he would not have thought of and on this basis he can adjust his query The second method is to use such Thematic Maps as a means of analysing information Besides the traditional way of analysing a coword map as a strategic diagram which reflects only two parameters characterizing the clusters centrality and density we have introduced the clusters relationships analysis taking into account further important parameters of the clustering the saturation threshold the size of the clusters and the number of associations Since this approach avoids some interpretation problems due to the criteria of cluster size it provides a more adequate interpretation of links between themes Our objective was to implement an environment which offers the user a contextual view of the informational space contained in a set of bibliographical references so that he can locate his demand of information more precisely Since we are working at a level of indicators we are not concerned with exactness A specialist in the field will always have the final say concerning the results of an automatic information analysis Our intention is to provide him with a working tool to support his own information discovering process with the possibility of going beyond his special subject in order to explore neighbouring domains We believe that such an environment best arms the user to face the growing
347. ser des programmes travaillant sur des donn es SGML 3 3 1 Des modules de conversion Une des premi res tapes de toute application est de convertir les documents de provenance quelconque dans le formalisme d crit dans le mod le ci dessus Il existe donc un ensemble de fonctions de conversion des divers formats vers SGML On trouve des modules de conversion adapt s aux trois couches les plus basses du mod le repr sent sur la figure 6 Dans la premi re couche sont simplement trait es les conversions de types ascii lt gt ebcdic dans le deuxi me on trouve une collection de conversions de jeux de caract res latins grecs cyrilliques vers SGML enfin dans la troisi me la structure des enregistrements est convertie 3 3 2 La construction d ensembles documentaires Lorsque les donn es sont uniformis es nous pouvons cr er des fichiers directs avec l organisation d crite dans le paragraphe 3 2 4 ce qui nous permet d avoir un acc s direct aux enregistrements Ensuite nous pouvons construire des fichiers inverses partir d un champ choisi dans le fichier direct mot cl auteur Il est possible d appliquer des filtres linguistiques pour une indexation automatique Les cha nes qui permettent de construire un tel ensemble documentaire partir de r f rences quelconques utilisent en fait des modules de la biblioth que et des commandes de base Il est tr s facile d y ins rer un filtre sp cifique crit en
348. ser notamment la distribution et la fr quence des donn es bibliographiques L objectif est de caract riser l aide de tableaux et de graphes la litt rature scientifique dans un domaine d termin On peut ainsi quantifier sa magnitude nombre d articles nombre de revues son actualit selon la date de publication sa localisation selon le pays d dition des revues scientifiques importance des p riodiques scientifiques selon le nombre d articles dont ils sont la source au cours d une p riode d termin e et la localisation des auteurs selon leur appartenance institutionnelle Le traitement statistique se fait en trois tapes utilisant un ensemble de programmes d analyse statistique descriptive permettant de cr er un fichier r sultat directement exploitable en sortie papier ou sous un tableur de type EXCEL par exemple Premi re tape cr ation de fichiers inverses Seconde tape analyse statistique des notices 1 comptage de r f rences 2 distribution par langue 3 distribution par pays d affiliation des auteurs 4 distribution par type de document 5 distribution par date de publication 6 distribution par titres de p riodiques 7 distribution par pays d dition de ces titres Troisi me tape analyse statistique des mots cl s 1 nombre de mots cl s 2 moyenne par notices 3 distribution des mots cl s par notices 4 distribution des mots cl s par fr quence Dans c
349. sieurs concepts admis 10 Documents et Information A l aide de deux indicateurs le p riodique et l article scientifique on a mesur la science et l on a pu d gager une loi de croissance exponentielle Mais aucune croissance ne peut rester exponentielle ind finiment Il a donc fallu envisager l hypoth se de la nature logistique ultime de la croissance scientifique qui s exprime par une courbe en S ou courbe logistique Voir D de S Price Science et Suprascience Paris Fayard 1972 Version originale Little Science Big Science Columbia University Press 1963 Annexe 1 133 En r alit le ph nom ne que l on peut observer en fonction de l analyse quantitative de la litt rature scientifique comptage de revues d articles de r sum s du nombre d auteurs est celui des phases de croissance exponentielle qui sont suivies de phases de croissance lin aire Le point qu il nous int resse de souligner propos de la mesure du savoir et de sa croissance par le nombre de publications scientifiques revues articles citations est qu il y a d une part un probl me physique qui concerne directement ceux qui doivent assurer la gestion et le stockage physique des p riodiques et des articles et d autre part un probl me cognitif qui touche directement a l analyse de I information Selon la loi de Bradford nous savons que les sources d information augmentent selon une progression g om trique ta
350. sification unit a cluster gathers together not only keywords but also a set of documents A document is assigned to a cluster if it is indexed by a couple of two internal keywords or a couple of one internal and one external keyword of the cluster A document may therefore belong to several clusters A relevance weight is computed for each document This is the sum of the weights of keywords in the cluster indexing the document divided by the number of keywords belonging to it In the following the documents dealing with the German Question topic are shown Weight Title 0 14 The social democratic intra party discussion on security detente and German unity 0 11 Between the Cold War and detente security and Germany policy within the system of the allied powers in the years 1953 1956 0 11 From civil war to the responsible community 0 10 The four sector city of Berlin in the German press 1945 1949 0 10 Attitude of the SED and the GDR towards German unity 1949 1987 0 08 The German policy of the government of the U S A in preparation and during the course of the Potsdam Conference 0 07 The Socialist Unity Party of Germany SED and the national issue 0 07 Neither a hammer nor an anvil observations on the present day situation in Germany 1973 0 06 Contributions on the history of the Berlin democracy 1919 1933 1945 1985 0 05 The Socialist Unity Party of Germany SED in history and the present age 0 05 The political obstruction to m
351. son of Co Citation and Co Word Clustering see 7 and 4 for an introduction to scientometrics and scientific watch Chapitre 4 60 Density gender role tructural change 25 culture German question occupational prestige socialism 20 ay domination chronology by century town national identity 15 fareign policy handicraft trade cas reformation emigration Pi antisemitism 10 national state political attitude bourgeoisie peasant labor movement 5 lib Sr i istoriogra family uig worker income modernization bee ean V PAIE ES Eo Centrality 1D 15 20 25 Figure 1 1 A General Map of Social History Themes Like LEXIMAPPE SDOC produces a classification of themes i e clusters of closely tied keywords characterizing the domain studied which can be the complete database or a subset of it referring to a special query Such clusters are structured internally by means of relationships between the keywords of a cluster and externally by interrelations between different clusters The topics are visualized in a two dimensional space or Thematic Map according to the semantic strength of their internal Density Y axis and external associations Centrality X axis Figure 1 1 shows an example of such a map of themes obtained from the 285 retrieved documents saying for instance that German Question was a central and intensively discussed theme of Social History research 1989 92 In this way the user obtains an aggregation of th
352. ssance des forme la recherche documentaire vers le bas les th mes th oriques raisonnement apprentissage m thodologie Cette carte permet de voir comment s organisent d un point de vue th matique les r f rences de ce corpus portant sur l intelligence artificielle Chapitre 5 98 CARTE DES THEMES Hu aaa production Assistance ovine 1 Fypextonta Interface utilise tens Prise didar Th orie d risi Lisanti Base donn Mod lisation Conception assist ase Lonnie Intomratigue ti ari dbeutrentaize Froes acquisition F PROLOG Mithodoligi y er pese donn e relationnelle Esisomenent Figure 8 Exemple de carte des th mes obtenue avec NEURODOC 3 2 3 Comparaison des cartes obtenues avec SDOC ou NEURODOC dans l exemple propos Dans les deux cartes on trouve 80 de th mes communs qui peuvent avoir des intitul s diff rents 40 de noms identiques les th mes applicatifs tant situ s vers le haut les th mes th oriques tant plut t situ s vers le bas Le fait que l opposition th mes applicatifs th mes th oriques soit mise en vidence et rendue de la m me mani re sur les 2 cartes est fortuit Dans le cas de NEURODOC cette position s explique par le contenu des th mes Dans le cas de SDOC la position des th mes est expliqu e par leur structure Ainsi la position des th mes applicatifs est due la pr sence d une indexation plus sp cifique des documents a
353. sses r sultantes sont tr s h t rog nes en densit La premi re classe obtenue sera constitu e des mots cl s les plus fortement li s alors que la derni re sera tr s lache restituant en cela la structure du r seau d associations On peut galement limiter le nombre d associations intra ou inter clusters dans un souci de lisibilit Les autres param tres de la m thode se situent en amont de la classification filtrages au niveau du vocabulaire d indexation fr quence des mots cl s cooccurrence ou en aval filtrage des clusters par le nombre de mots ou de documents qu ils comportent Cartographie Chapitre 5 78 Des indicateurs structurels sont ensuite calcul s Ce sont la densit valeur moyenne des associations entre mots cl s formant un cluster ou associations internes et la centralit valeur moyenne des associations entre les mots qui le constituent et les mots d autres clusters ou associations externes Ces valeurs sont ensuite utilis es pour positionner les clusters sur une carte On peut ainsi rep rer les th mes ou clusters les mieux structur s du point de vue de leur densit ou coh sion les mieux rattach s au r seau centralit Sur une telle carte la proximit entre deux themes indique qu il sont structurellement proches mais leur contenu s mantique ne sont g n ralement pas voisins Les auteurs de la m thode des mots associ s appellent ce type de carte diagramme strat gi
354. ssoci s Ceci induit une forte coh sion au niveau des th mes applicatifs Les th mes th oriques sont constitu s de mots aux fr quences plus lev es Leur coh sion est plus l che ce qui explique leur position vers le bas sur la carte SDOC Deux courts exemples pour illustrer les diff rences qui existent au niveau des cartes Prenons le th me Apprentissage obtenu avec NEURODOC II recouvre les th mes Apprentissage et Parall lisme obtenus par SDOC Sur la carte SDOC ces deux th mes sont tr s loign s mais reli s par une liaison externe rendant compte d une liaison structurelle entre un th me sp cifique Parall lisme regroupant 7 documents et un th me g n rique Apprentissage qui regroupe 19 documents dont 4 appartenant au th me parall lisme A l inverse prenons le th me syst me production obtenu avec SDOC Il recouvre les th mes automatisation et syst me production obtenus par NEURODOC La carte Chapitre 5 99 NEURODOC montre que les th mes automatisation et syst me production ont un contenu voisin et constituent un groupe de documents tr s sp cifiques par rapport aux autres th mes 3 2 4 Conduite d une analyse avec SDOC ou NEURODOC Bien que l hypertexte facilite une d marche d investigation par association d id es nous pensons que l analyse de l information peut tre pilot e en usant d indicateurs tels que ceux cit s plus haut Pour les deux m thode
355. sters 4 Classifying references into clusters 5 Building scatter diagrams or maps In the process SGML is the specification language of data transmitted from one step to another The modules are parameterized by the input and the output filename and its specific parameters Statistics tools and visualization tools are available to assess the results Finally the hypertext technique provides the analysts with an interactive working tool Grivel and Lamirel 1993 The clustering algorithm which groups the associated keywords into clusters is an adaptation of the single link clustering algorithm After the clustering process the documents are assigned to the clusters In order to permit an easier consultation and interpretation of the clustering and mapping results SDOC converts the knowledge network represented by the clusters into hypertext nodes and links The goal of this conversion is to allow the user to visualize very quickly the knowledge organization of a topic the key figures the organisations 3 DATA amp BIBLIOMETRIC ANALYSIS We use the bibliometric analysis in order to build the datafile that will be the input of the automatic clustering and mapping process SDOC programmes This bibliometric analysis is based on some bibliometric indicators as for instance the document type the date of publication and the country of publication 3 1 Construction of the data file A funnel shaped step by step process is applied
356. sualize what is hidden under this subject because of the number of records aggregated in this cluster 128 records Work is a cluster in which we find sociological studies on skill and deskilling problems because of the technological changes and the Work cluster is associated by its external associations to the theme gender differences This is the context in which the social studies of technological innovation are situated in our information space United Kingdom Technological Innovations tate Inequality Sanction Ideologies Careers Gender Differences Professions Organisation Family Regions Occupational Mobility Enterprises Females Map 3 As in the case of the literature published in journals edited in France and the United States the United Kingdom map shows that the subjects Sanction and Crime stand out This is an indicator of the relative importance of the sociological research dedicated to social deviance problems The United States map is a representation of the important weight of the specialized publications in social deviance and anomy The network is a graphical representation of the information essentially published by the journals Criminology Crime and Delinquency followed by Social Forces and Social Problems The information on technological innovation is not visualized on the map this information is inside the Regions cluster because the studies concern the agriculture and their source is the Rural Sociolog
357. t tre ex cut es par des requ tes SQL Structured Query Langage Ainsi un couplage des technologies Base de Donn es et Hypertextes donne la possibilit de mettre en relation tout l ment constitutif d une information structur e r f rence bibliographique brevet avec les th mes clusters obtenus par classification automatique Dans cet article nous avons pris comme exemple les r sultats du programme NEURODOC sur des donn es bibliographiques 2 Le choix du syst me hypertexte Celui ci doit pouvoir communiquer avec le SGBD Le World Wide Web WWW r pond ce besoin Ce syst me hypertexte distribu peut facilement tre tendu pour communiquer avec les SGBD Les avantages d une passerelle WWW SGBD sont normes par rapport une structure arborescente de documents hypertextes textuels m me construite automatiquement L administration du site des donn es et des utilisateurs est facilit e car les liens entre documents sont calcul s dynamiquement et n ont pas tre maintenus De plus un simple export de la base suffit pr server le site Un bon niveau de confidentialit peut tre garanti car les autorisations d acc s peuvent tre g r es au niveau du serveur WWW et du SGBD 3 Le choix de SGML En exploitant la dualit existant entre structure d arbre SGML et sch ma E A Entit Association HENOCH assure deux fonctions principales alimenter le SGBD a partir de tout type de document structur conforme
358. t un parser SGML ou un g n rateur d analyseur syntaxique comme Yacc sont inutiles ou m me inutilisables ce niveau En revanche ils sont utiles voire parfois indispensables pour convertir des documents complexes en structures normalis es balisage maximum ou pour crire des traitements sp cifiques s appliquant un type pr cis de documents 3 4 2 La documentation En plus de la documentation du style manuel utilisateur nous nous sommes inspir s d Unix pour faire une documentation pour chaque fonction dont la forme est typiquement celle des man sous Unix 4 EXEMPLES D APPLICATIONS DE LA BIBLIOTHEQUE Annexe 2 197 4 1 Infom trie et hypertextes L infom trie est un terme utilis pour couvrir les techniques utilis es pour maitriser la complexit d ensembles de donn es en mettant en vidence des concepts ou des th mes dominants Plus pr cis ment on peut citer la bibliom trie qui sert valuer des fonds bibliographiques la scientom trie qui a pour vocation de fournir des indicateurs pour l valuation de la R amp D les outils d aide la veille scientifique Les tudes infom triques sont essentiellement bas es sur des analyses statistiques ou plus pr cis ment d analyse de donn es classification L hypertexte a pour vocation d articuler et d organiser des composants l mentaires d information sous forme de r seaux de connaissance l aide de noeuds contenant de l information
359. t labor movement Ce istariograph sta 4 famil grapny worker income DIIIL ty titi a titted ty Centrality hj 1D 15 20 Figure 3 1 Cluster German Question Density gender role 25 culture occupational prestige socialism party 15 J handicrafttrade 10 national state political sttitude bourgeaisle peasant agra family grapay worker modemization ata eb Pe LAB Pol Ee easy Centrality 1 0 25 Figure 3 2 Cluster Foreign Policy Suppose the user is now interested in the position of National Identity Figure 3 3 shows that this topic is associated with the initial theme German Question and refers to a new topic Socialism National Identity contains the keywords national identity national consciousness historical awareness conception of history German Nazism Hitler Third Reich nationalism It has external associations with German Question by conception of history Socialist Unity Party of Germany SED and with Socialism by Nazism socialist party Chapitre 4 70 Density gender role 25 culture 0 party national identity 15 foreign policy handicraft trade reformation emigration antisemitism 10 national state political attitude bourgeoisie peasant _ labor movement LIT ee OS DE eee A ARTE EE ET Centrality 5 10 15 a 25 Figure 3 3 Cluster National Identity The Socialism cluster refers back to Labor Movement and National Identity and opens the network towards two other themes
360. t 10 ans m a amen publier r guli rement Je me permet de fournir page x la liste compl te de mes publications ce jour dont voici la distribution selon le type de communication e 8 articles dans des revues scientifiques avec comit de lecture en sciences de l information et en informatique Scientometrics 1997 Journal of Knowledge Organization 1995 International Journal of Scientometrics and Informetrics 1995 Solaris 1995 Hypertextes et hypermedia 1995 1997 G nie logiciel 1991 e 2 articles invit s dans le Micro Bulletin th matique du CNRS 1997 1999 e 15 communications dans des congr s dont 9 articles dans des congr s internationaux avec comit de lecture et actes International Conference of Bibliometrics Informetrics and Scientometrics 1993 1995 1997 Conf rence Internationale Hypertextes et Hypermedias r alisation outils m thodes 1995 1997 International Conference on Cognitive and Computer Sciences for Organizations 1993 Conf rence Internationale Le G nie logiciel et ses Applications 1991 Conf rence RIAO Recherche d Informations Assist e par Ordinateur 1991 Multimedia Information Conference 1991 Les syst mes d information labor e 1991 1993 1995 1997 1999 Veille Scientifique et Strat gique VSST 1998 e intervention orale en tant qu invit lors d un s minaire de l ADEST Association pour la mesure des Sciences et Techniques le 9 12 1997
361. t d un syst me d information pour rassembler organiser et exploiter sur INTERNET les r sultats de m thodes d analyse appliqu es des donn es bibliographiques Publi en 1997 Titre original A Computer System for Big Scientometrics at the Age of the World Wide Web 1 Introduction HENOCH system 2 1 Database system 2 2 Hypertexte system 3 HENOCH SOFTWARE CHARACTERISTICS A GENERIC ENVIRONMENT 3 1 Conversion of SGML documents into database tables 3 2 A generic and extensible WWW RDBMS gateway 3 3 About HENOCH software components 4 AN EXAMPLE OF INFORMATION ANALYSIS ENVIRONMENT 4 1 Relational modeling of informetric data 4 2 Hypertext interface 5 Conclusion 6 R f rences 7 Notes 75 76 76 76 83 86 88 88 88 101 103 105 106 107 107 107 108 109 110 111 111 111 112 114 115 116 Chapitre 7 La conception de bases infom triques Titre original La conception de bases de donn es infom triques hybrides analyse de la pratique de trois observatoires europ ens et proposition d une m thode d int gration de donn es h t rog nes Publi en 1999 1 4 5 6 Introduction Bases de donn es infom triques 2 1 Pr sentation des organismes et de leurs objectifs 2 2 Donn es et structure de donn es dans les bases infom triques 2 3 Mod lisation et stockage des donn es infom triques 2 4 Conclusion Int gration de donn es h t rog nes 3 1 Introduction 3 2 Structure de donn
362. tafile The reports and theses essentially concern French sociology The date of publication of this literature corresponds mainly to the last years of the 1980 s sociology 13 735 records 98 between 1986 and 1991 The authors institutional affiliation does not appear in the FRANCIS references so we have used the publishing country of journals for the definition of our target literature As we can see in Table 1 the journals of the four publishing countries selected and the articles issued from these sources represent 70 of the total The remaining 30 is distributed over 44 publishing countries in the world This is a long tailed distribution and as we know this type of distribution appears to be characteristic of bibliometrics We decided to focus our analysis on this literature of the four publishing countries In this set France is overrepresented Germany and United Kingdom are approximately equal and the United States are well represented Table 1 Publishing country Number of journals Number of references France 270 37 55 3245 27 83 Germany 39 5 42 860 7 38 United Kingdom 49 6 82 1310 11 23 United States 143 19 89 2787 23 90 Total 501 69 68 8202 70 33 All publishing Countries 48 719 100 00 11661 100 00 Considering the excessive impact of two journals in the set of 501 journals selected and their specialized nature we decided to treat them separately and to remove them from the target literature They a
363. tal amp applied acarology Journal of chemical ecology Plant ccionca T imoricl gt Figure 8 2 3 5 Comment se faire une id e des relations qu un theme entretient avec les autres th mes Le lien Documents partag s permet d acc der en premier lieu la distribution des documents dans les autres th mes puis pour chaque th me la liste des titres des documents communs Fig 9 Le titre renvoie la description bibliographique du document correspondant TJ Sommaire Microsoft Internet Explorer _ Oo x File Edit View Go Favorites Help Boe wl sommaire carte th mes revues congr s organismes auteurs mots cl s Aide 11 titres 13 affiliations 35 auteurs 9 sources Description Liens inter th mes partition des documents du th me risk dans les autres mes e methods 2 e tobacco 1 e arabidopsis 1 nom du titre theme The Arabidopsis thaliana ACT4 ACT12 actin gene arabidopsis subclass is strongly expressed throughout pollen development Development of a pollen mediated transformation method for Nicotiana glutinosa methods A method to determine the mean pollen dispersal of individual plants growing within a large pollen source methods Development of a pollen mediated transformation TT Fe re re en Figure 9 tobacco 2 4 Comment utiliser la desc
364. ter size minimum and maximum number of components and the number of associations in the cluster If a pair of terms belongs to the same cluster the association between the terms is an internal association If they belong to two different clusters the algorithm tries to aggregate the clusters into one by merging them The merger is authorized if the size of the resulting new cluster respects the readability criteria If not the association is considered as an external association In this application the parameters for each datafile were minimal size of the clusters 4 keywords maximal size of the clusters 10 keywords maximal number of external associations 10 maximal total number of associations 20 After the clustering process the documents are associated to the clusters A document is related to a cluster if within its indexing terms there is at least one pair of terms which can constitute either an internal association or an external association We associate a list of authors and a list of document sources to each cluster as this information is available in the studied datafile Number of lines Definition of the statistical parameters 1 Minimal cooccurrence of keywords cooccurrence threshold 2 Initial number of documents Number of documents with at least a couple of keywords satisfying 1 4 Number of clusters Number of documents in the clusters Chapitre 2 27 6 Number of documents appearing only
365. th me risk Fr quence relative Fr quence globale 4 21 risk 8 43 pollen 3 9 toxin Mot cl s 1 7 maturation 1 2 herbivore 1 4 heat shock protein 2 11 mammalian 2 35 sensitivity 1 17 enhancement Figure 3 La colonne Fr quence globale donne le nombre total de documents index s par chaque mot du th me dans le corpus Il ne s agit pas de la fr quence du mot dans les documents relatifs au th me fr quence dite locale Leur rapport donne le pourcentage relatif de documents index par le mot dans le th me L utilisateur peut donc visualiser rapidement les mots cl s li s ce th me tri s par degr de pertinence par rapport au th me et utiliser chacun des mots pour effectuer des recherches locales au th me risk En effet chaque mot cl donne acc s la liste des titres des documents du th me qui sont index s par ce mot dans le th me Fig 4 Ce qui peut lui donner des id es sur des termes li s risk et l aider formuler de nouvelles hypoth ses Exemple Pollen et heat shock protein Sur 21 documents index s par risk 4 seulement figurent dans le th me alors que le th me ne comporte en tout que 11 documents correspondant globalement ce profil th matique Chapitre 8 151 Ainsi donc le mot risk a t employ dans diff rents contextes Pour les 4 documents en question il s agit plut t des risques pour l envi
366. th que bas e sur ce concept 3 ILIB UNE BIBLIOTHEQUE DE MODULES ET DE FONCTIONS AUTOUR DE LA NORME SGML 3 1 Le domaine d application de la ILIB Le domaine d application prioritaire de cette biblioth que est la fabrication d informations labor es partir des bases de donn es documentaires ou factuelles d origine diverse internes l INIST bases PASCAL FRANCIS WTI ou ext rieures Ces informations labor es de nature tr s diverse depuis de simples documents papier jusqu aux hypertextes sont obtenues par des traitements linguistiques et Statistiques sur des sous ensembles de documents extraits de ces bases Une des premi res difficult s de ce type d application provient de la multitude de formats et de structures de donn es qu il faut manipuler analyser croiser ou diter En revanche on peut constater que ce type d application n a pratiquement aucune contrainte transactionnelle C est donc un domaine privil gi de la d composition en programmes ind pendants 3 2 Mod le de donn es et utilisation de la norme SGML Pour faciliter les sp cifications des l ments de la biblioth que il s est av r int ressant d utiliser un mod le de donn es en couche Les couches doivent tre ind pendantes les unes des autres et un outil de la biblioth que ne doit travailler que sur une couche la fois Annexe 2 192 De la plus basse a la plus haute les diff rentes couches sont d crites dans la figure 6
367. th retrieval techniques coming from documentary systems or from DBMSs address this need Balpe amp al 1996 1 We will now explain the interest of extending our informetric processing chain with a database system coupled with an hypertext system 2 1 Database system Information analysis operates here in an informetric processing chain relying on SGML Standard Generalized markup Language Goldfard 1990 2 Herwijnen 1990 3 An example of bibliographic data description with a tagging based on SGML is given in section 3 1 The markups or tags only describe the logical structure of the documents Thus it is very easy to associate procedures or treatments to tags for a given application This association mechanism enables several applications formatting linguistic clustering hypertext generation tools to work on the same document description SGML is particularly convenient for automatic information processing In our informetric chain all intermediary results are stored in a hierarchical SGML files system Ducloy amp al 1991 4 With this technology combining clusters data on topics and bibliographic data requires customized programs to compute all necessary combinations before being able to generate the corresponding hypertexts Even if this programming step may be facilitated by the use of SGML based tools this is a repetitive task According to Small 1995 Existing bibliographic search software simply does not all
368. tica Zagreb Advances in virus research Agriculture ecosystems amp environment Agriculture et d veloppement Montpellier Agroforestry systems Agronomie Paris Allergie et immunologie Paris American potato journal Annales de recherches sylvicoles Annals of applied biology Ann e biologique Annual review of ecology and systematics Annual review nf nhwtanathalony Figure 11 Quand le nombre d l ments est important les lister comme dans la figure 11 peut prendre du temps C est pourquoi dans le cas d une liste de plus de 1000 l ments HENOCH n affiche pas directement tous les l ments de la liste A la place est propos la possibilit de filtrer par une expression entr e dans une zone de saisie Par exemple en entrant les premi res lettres de l l ment en utilisant la troncature droite le caract re Les minuscules et les majuscules ne sont pas diff renci s Par exemple Genetics signifie tout l ment contenant genetics a donnera tous les l ments de la liste commen ant par a Si le lecteur veut malgr tout afficher toute la liste il doit taper dans la zone de saisie puis cliquer sur le bouton filtrer Ensuite il faut s lectionner le ou les l ments int ressants dans la liste propos e titre de p riodique congr s auteur affiliation mot cl et valider en cliquant sur le bouton OK Le r sultat est une distribution des documents relatifs ce ou ces
369. tically and adapted to the analysis of information It is shown in experiments that the coupling of hypertext and database techniques is an appropriate way of organising such information when it is question of interpreting the results of some analysis methods It makes it possible to model and to implement concretely the proper mechanisms of exploration of different representations The hypertexts generated by this system are assessed positively by the users of the INIST CNRS where was carried out this search They especially enjoy its ergonomics for navigating while they feel some lacks for managing the comparison of different representations over time As a conclusion some tracks for improvements are outlined Dicipline sciences de l information et de la communication Mots cl s Veille scientifique bibliom trie infom trie analyse de l information analyse de donn es m thode des mots associ s classification cartographie hypertexte internet syst me de gestion de base de donn es Unit Recherche et Innovation INIST CNRS 2 all e du Parc de Brabois 54 514 Vandoeuvre l s Nancy Cedex et Centre de Recherche R trospective de Marseille CRRM Universit Aix Marseille III 13 397 Marseille Cedex 20
370. tion n est constat e pour le terme t que celui ci est fig Les tests linguistiques de figement imagin s par G Gross 5 pourraient donner une indication fiable mais ils ont l inconv nient de ne pas tre automatisables et de n cessiter une double expertise celle du linguiste et celle du sp cialiste du domaine analys Pour ces raisons il nous a sembl utile d en donner une approximation partir des donn es du traitement automatis Nous consid rerons comme un indice du figement d un terme le nombre r duit de formes variantes de ce terme ou leur absence par rapport aux formes de base observ es Autrement dit nous interpr tons le faible emploi de formes variantes d un terme donn comme le signe manifeste du figement de ce terme dans l usage Ces r flexions nous ont permis de formuler l hypoth se que la variation et le figement peuvent tre des indicateurs de connaissance que l on peut mesurer par l affectation d un poids Nous avons donc cr deux indicateurs VAR pour la variation et FIG qui refl te les potentialit s d un terme tre fig 5 2 Indicateurs de variation et de figement L observation des donn es montre que variation et figement ne sont pas des ph nom nes sym triques La variation d un terme est toujours associ e un nombre important d occurrences de ce terme sous sa forme de base On appelle forme de base celle qui est enregistr e dans la nomenclature du domain
371. tion sur les axes Figure 3 Partition d finitive des documents dans les classes imm diatement dans la forme adaptative de l algorithme et apr s passage de tous les documents dans sa forme non adaptative Chapitre 5 80 Sur la figure 3 le document 1 pr sente une projection sur l axe Ak y k sup rieure au seuil tandis que sa projection sur laxe Ak y k est inf rieure au seuil Le document 1 appartient donc la seule classe k le document ii pr sente des projections sur les axes Ak et Ak sup rieures au seuil le document ii appartient donc aux deux classes k et K Sur la figure 3 nous observons galement que la projection du document ii sur l axe Ak y j k est sup rieure celle du document i y k Nous pouvons donc ordonner les documents appartenant a une classe selon la valeur de leur projection sur l axe repr sentant la classe Cet ordre correspond un ordre de typicit d croissant des documents par rapport au type id al de la classe qui est un document fictif positionn exactement sur l axe de la classe dans l espace g om trique En utilisant les valeurs des composantes du vecteur unitaire des classes nous pouvons d finir de la m me fa on une partition des mots cl s du corpus documentaire Comme pour les documents la partition ainsi tablie admet des classes recouvrantes un mot cl peut appartenir plusieurs classes et les mots cl s sont ordon
372. tions internes e la centralit X d un cluster est exprim e par la valeur moyenne des associations entre les mots qui le constituent et les mots d autres clusters ou associations externes Sur une telle carte la proximit entre deux clusters indique qu ils sont structurellement proches mais ne pr sage pas de leur proximit s mantique Les cartes ne sont pas seulement un moyen de visualisation elles repr sentent aussi une m thode d analyse dans la mesure o elles permettent d valuer la position des th mes entre eux dans un espace g om trique de repr sentation SDOC est compl tement param trable c est dire qu il est possible de d finir le nombre maximal de mots cl s composant un cluster de limiter le nombre d associations inter et intra clusters de faire des filtrages sur la fr quence des mots cl s sur le nombre de cooccurrences sur le nombre de documents composant le cluster etc L int r t de ces possibilit s de param trage est d crit plus sp cialement dans les chapitres 4 et 5 b NEURODOC NEURODOC est un ensemble de modules impl mentant la m thode de K means axiales LELU 1993 un algorithme de classification non hi rarchique et une analyse en composantes principales ACP pour une repr sentation des classes obtenues sur une carte 14 NEURODOC s int gre aujourdh ui dans une famille d outils bas s sur des r seaux neuronaux d velopp es a PURI POLANCO et al 1997 1998
373. tique d un corpus de documents et de ses auteurs identifier des relations inter th mes non explicites identifier et regrouper les acteurs les institutions leurs vecteurs de communication th ses rapports monographies p riodiques par th mes valuer le positionnement th matique d un acteur d une institution d un pays d un mode de communication p riodique congr s etc Par un jeu de questions r ponses ce chapitre explicite le mode d emploi de l outil dans le cadre d une tude sur les plantes transg niques Pour conclure le dernier chapitre Bilan critique et perspectives permet partir d une valuation critique des fonctions du syst me par des utilisateurs de d gager diverses voies de recherches possibles notamment la visualisation et la comparaison dans le temps de repr sentations cognitives de donn es la classification incr mentale qui constituent de nouveaux enjeux pour la recherche sur la g n ration automatique d hypertextes ergonomiques Chapitre 1 15 Bibliographie BALPE et al 1996 Balpe J P Lelu A Saleh I et Papy F Techniques avanc es pour l hypertexte ditions Herm s 1996 BOUTIN et al 1998 E Boutin B Mannina H Rostaing L Quoniam Construction automatique de r seaux un outil pour mieux appr hender l information provenant d Internet Actes JADT 98 Coord S Mellet UPRESA Bases Corpus et Langages Universit de Nice 1998 BRADFORD 1934 Brad
374. tures Convertor uses a matching file between SGML data elements and the tables used The main idea is to handle the SGML documents as trees The tree model allows random access to any node in the tree at any moment so that solves forward references Below is a model of a matching file We call SGMLpath a method of designating a particular node in the tree A data contained in a node SGMLpath 1 is stored in a variable V 1 which is a parameter of the insertion procedure Proc 1 TABLE_NAME V 1 SGMLpath l query begin the insertion procedure to execute Proc 1 V 1 end The following is an example of a bibliographic data description in SGML lt record gt lt NO gt 90 0128293 lt NO gt lt TI gt Density dependent interactions between seedlings of Dactyloriza majalis Orchidaceae in symbiotic in vitro culture lt TI gt lt AU gt RASMUSSEN H JOHANSEN B ANDERSEN T F lt AU gt lt AF gt lt NA gt Univ Copenhagen botanical lab lt NA gt lt TO gt Copenhagen 1123 lt TO gt lt CO gt DNK lt CO gt lt AF gt lt DT gt Publication en serie lt DT gt lt record gt This is the matching file corresponding to this type of document TABLE AFFILIATION Chapitre 6 109 Name record AF NA Town record AF TO Country record AF CO query begin the insertion procedure to execute INS_AFFILIATION NAME TOWN COUNTRY end This matching file is used by Convertor to identify the SGM
375. u format HTML conform ment au mod le et enfin se d connecter Le g n rateur de base relationnelle proc de en deux tapes 1 Cr ation du squelette de la base selon un mod le de donn es suffisamment g n rique pour prendre en compte la diversit des types de documents Le squelette de la base correspond la d finition de l ensemble des tables utilis es nom de la table attributs type de chaque attribut 2 Analyse des documents SGML et chargement des donn es dans la base Pour chaque type de document au format SGML un fichier de configuration bas sur un mod le de description de document Document Type Definition DTD permet d associer un traitement par exemple tous les tests effectuer avant d ins rer des valeurs dans la table un ou plusieurs l ments de donn es pour chaque table pour assurer la coh rence des donn es dans la base Ces proc dures crites en PL SQL sont stock es dans la base L appel aux proc dures d insertion s effectue donc lors de l analyse du document SGML par un parser analyseur syntaxique qui a partir d un fichier de configuration associe le contenu de chaque balise avec chaque attribut de chaque table 2 La fusion de donn es multi sources L id e est de prendre le meilleur de chacune des sources dans son format initial Au lieu d liminer les doublons en ne gardant qu un exemplaire de notice pour chaque cl en privil giant par exemple un
376. ucarella amp al eds ACM Press New York 64 LELU 1993 LELU A Mod les neuronaux pour l analyse de donn es documentaires et textuelles Th se de doctorat de l universit de Paris VI 4 mars 1993 238 pages 65 LELU et al 1997 LELU A Tisseau Pirot A G Adnani A Cartographie de corpus textuels volutifs un outi pour l analyse et la navigation Hypertextes et Hypermedia Voll N 1 ditions Herm s Paris 1997 66 LELU et al 1998 LELU A HALLEB M DELPRAT B Recherche d information et cartographie dans des corpus textuels partir des fr quences de N Grammes Actes des 4 journ es internationales d analyse statistique des donn es textuelles Nice 1998 67 LEVEILLE 1998 LEVEILLE V ROSTAING H QUONIAM L Cr ation d hypertextes automatiques appliqu s la veille VSST 98 Veille Strat gique Scientifique amp Technologique Toulouse Octobre 1998 68 LEVY 1990 LEVY P Les technologies de l intelligence Collection Points Sciences Edition La d couverte 234p 1990 69 LOTKA 1927 LOTKA A J The frequency distribution of scientific productivity Journal of the Washington academy of sciences 16 2 317 323 Juin 1927 70 MARCOTORCHINO 1991 MARCOTORCHINO J F seriation problems an overview Applied stochastics Models and Data Analysis Vol 7 N 2 1991 71 MARTEAU 1995 MARTEAU P F KRUMEICH C Analyse s mantique pour le veille technologique IDT Information docu
377. ucture de type relationnelle adapt e au calcul d indicateurs quantitatifs et qualitatifs permettant d valuer et de comparer le positionnement th matique des acteurs de la recherche e G n rer une interface WWW SGBD pour l analyse de l information Cette interface doit favoriser les interactions entre les sch mas mentaux de l usager et diff rentes repr sentations de l information Pour atteindre cet objectif un hypertexte g n r par HENOCH propose deux types de navigation compl mentaires sur le Web Chapitre 1 13 e Une exploration intuitive bas e sur l utilisation d une carte e Un mode de recherche orient par la question qui fait quoi o avec qui quand dans quelles sources revue congr s Dans les deux cas la navigation est assur e par l ex cution de requ tes SQL sur la base de donn es infom triques Le syst me HENOCH de sa conception a son utilisation est d crit en d tail dans les chapitre 6 a 8 3 Conclusion et articulation des chapitres suivants Ce chapitre a d fini la probl matique de l analyse de l IST en la situant dans un contexte social l valuation de la recherche et la veille scientifique Il a montr en premier lieu que sur le plan op rationnel l analyse de VIST s appuyait sur diff rentes techniques linguistiques classificatoires cartographiques et des m thodes issues de l infom trie comme par exemple la m thode des mots associ s Sur le plan i
378. uent une m thode et non un outil Annexe 2 188 composabilit modulaire la m thode favorise la production d l ments qui peuvent tre combin s les uns avec les autres pour produire de nouveaux syst mes Les modules comptage ou extraction de l exemple pr c dent peuvent tre r utilis s dans n importe quelle application compr hensibilit modulaire la m thode aide produire des modules dont chacun peut tre compris s par ment par un lecteur humain continuit modulaire une petite modification de la sp cification du syst me n am ne modifier qu un seul module protection modulaire l effet d une condition anormale se produisant l ex cution reste localis ce module Une condition anormale ne peut se propager d un programme au suivant que si n ayant pas t d tect e elle induit une s quence non conforme aux sp cifications dans le flot de donn es Hormis ce cas le crit re de protection modulaire est respect en particulier tous les incidents d s aux effets de bord allocation de m moire ou d bordements de tableaux sont purement localis s un programme 2 3 Les conditions d application de la d composition en programmes ind pendants 2 3 1 Probl mes ou sous probl mes avec peu de contraintes transactionnelles Cette technique de d composition tait bien connue en informatique de gestion dans les ann es 60 elle a montr ses limites d s qu une application
379. unit a pour mission d assurer l INIST une capacit d innovation dans les technologies de l intelligence en d veloppant une recherche dans des domaines comme les techniques symboliques et num riques de l intelligence artificielle appliqu es Panalyse de l information le traitement informatique du langage naturel en gros corpus SERPIA Service d Etude et de R alisation de Produits d Information Avanc s D velopp e par Michel Callon Jean Pierre Courtial William Turner et Serge bauin cf chapitre 2 DRPN D partement Recherche et Produits Nouveaux Cf section 2 4 de ce chapitre 7 Les possibilit s de param trage que j ai introduites lorsque j ai d velopp ce logiciel permettent d affiner l interpr tation des r sultats Elles sont d crites in extenso chapitre 5 8 Les chapitres 2 3 et 4 sont bas s sur des tudes viii l information sociologie sciences sociales physique etc Ce logiciel est galement utilis dans le cadre de recherches sur le traitement automatique de la langue naturelle men es en collaboration avec l INRIA Lorraine Institut National de Recherche en Informatique et Automatisme Cette tude approfondie de la m thode des mots associ s m a permis de pr ciser la probl matique de l analyse de IST Comment caract riser un ensemble documentaire Comment naviguer dans un oc an d information Mes travaux ont d bouch sur un syst me permettant de
380. ure SGML utilisent l option m pour mark associ e un identificateur de balise ou un chemin de balises suite de balises s par es par des caract res par analogie avec le m canisme d adressage d Unix De plus le motif d crivant ce chemin peut tre exprim l aide de m tacaract res Par exemple signifie Z ro ou n occurrences de n importe quel caract re signifie une occurrence de n importe quel caract re les crochets et permettent d exprimer une liste de caract res a z d signe donc une lettre de l alphabet en minuscule et 0 9 un chiffre Ainsi la s quence inspir e de la commande grep d Unix Sgmlgrep e apple m kw sur le fichier lt record gt lt kw gt apple orange lemon lt kw gt lt title gt fruit lt title gt lt record gt lt record gt lt kw gt plane tree poplar oak beech lt kw gt lt title gt tree lt title gt lt record gt permet de s lectionner les enregistrements comportant le mot apple sous la balise kw lt record gt lt kw gt apple orange lemon lt kw gt lt title gt fruit lt title gt lt record gt En pratique il existe dans la biblioth que un ensemble de fonctions qui analysent l effet d une option m sur un fichier SGML On remarquera que la plupart de ces outils qui sont souvent des op rateurs l mentaires n utilisent qu un niveau lexicographique et ne demandent donc pas un param trage par une grammaire compl te Autrement dit un g n rateur comme Lex suffi
381. us et de son organisation th matique niveau corpus une vision d un domaine par le biais des mots cl s la connaissance des acteurs li s un theme la recherche des sources pertinentes la possibilit de savoir o publient les auteurs significatifs Nn nr A N e une valuation quantitative des forces engag es derri re chaque th me nombre d auteurs nombre d organismes Pour un ing nieur documentaliste cela signifie la possibilit de d finir un vocabulaire pertinent pouvant am liorer les vocabulaires d indexation ou de recherche ou l aider la construction d un plan de classement un th saurus Pour un chercheur ces points forts se traduisent en la possibilit de d couvrir les th matiques la fronti re de son domaine de recherche le nombre et le nom des quipes qui travaillent sur le m me sujet que lui des revues dans lesquelles publier des congr s dans lesquels publier et auxquels assister etc Si on projette ces fonctionnalit s l chelle d un laboratoire ou d un d partement scientifique de telles bases de donn es structur es par th mes constituent une mine d informations partag es par les membres du laboratoire pour effectuer une r flexion strat gique sur les axes de recherche du laboratoire ses forces et faiblesses le positionnement de ses concurrents 2 Les points faibles la d tection et l analyse des volutions th matiques dans le temps Les
382. usters constitute an economic area of sociological research There we also have the example of indexer effect a same concept is expressed in the singular and the pluriel form Region and Regions whenever they constitute a single and same concept On the map 2 concerning the German journals of sociology the cluster Technology Innovation or Technological innovation is plot at a high value along the two centrality and density axes By means of its internal associations it exhibits three sectors 1 computerisation 2 enterprise and industrial enterprise and 3 human genetic engineering the external associations refer to clusters Politics and Risk more specifically the nuclear risk In the cluster Politics we have a junction concerning mass media and public opinion Chapitre 2 33 On the France map the technological innovation theme is linked to economic development and work organisation changes also visible on the United Kingdom map Whereas on the map 2 Germany this theme is associated to the risks and social impacts of the computerisation and the genetic technologies applied to human reproduction Now if we look at the map 3 United Kingdom map the Technological Innovation or Innovation is a high density and high centrality cluster associated with Work and Relations Again we find the ambiguous word Relations as a descriptor and then as a label of a cluster But the russian doll procedure is handy to vi
383. uteurs En l tat les bases de l INIST offrent donc d j un certain nombre de caract ristiques int ressantes pour l analyse bibliom trique notamment pour les observatoires europ ens multi disciplinarit indexation par des mots cl s compl tude des adresses des auteurs couverture plus europ enne que le SCI mais souffrent de l absence des citations et surtout du manque de clart concernant la d finition de sa politique de couverture Sur le plan de la litt rature c ur le recouvrement entre les deux bases n est pas encore tout fait satisfaisant et des progr s restent faire Concernant le dernier point les citations sont bien s r indispensables pour le calcul d indicateurs d impact et notamment le facteur d impact nombre moyen de citations dont les publications d une revue font l objet Mais dans la pratique les indicateurs de productivit des chercheurs des quipes des institutions ou pays sont les plus simples mais aussi les plus importants des indicateurs VINKLER 96 2 2 2 Tables de nomenclatures fichiers d autorit Role des fichier d autorit agr ger et normaliser Les fichiers d autorit ou tables de nomenclatures sont indispensables pour d finir les niveaux d agr gation pour les comptages donn es num riques permettant de construire les indicateurs selon des crit res g ographiques pays r gions th matiques disciplines scientifiques SCI domaines technologiques ou selon
384. vincial sont galement de plus en plus amen es produire des indicateurs de r sultats http www ost qc ca En Europe les instances r gionales ont besoin d outils d aide a la d cision pour d terminer et valuer leur politique en mati re d innovation financement de la recherche etc Elles jouent en effet un r le grandissant aupr s des acteurs conomiques et des acteurs de la recherche par des incitations par exemple sous forme de contrats plans Au niveau institutionnel certains organismes essentiellement des grandes entreprises ou des organismes publics collectent des donn es qu ils souhaitent pouvoir traiter selon des crit res infom triques Les m thodes employ es pour le calcul d indicateurs de politique scientifique sont fond es sur les lois bibliom triques loi de Zipf pour les mots cl s loi de Lotka pour les auteurs loi de Bradford pour les p riodiques Le calcul d indicateurs partir de la litt rature scientifique n cessite une normalisation des champs de donn es bibliographiques sur lesquels s appliquent les m thodes infom triques Constatant l inad quation des bases de donn es en ligne pour r pondre a ce type de besoins manque de normalisation manque d outils pour les calculs bibliom triques MOED 1988 certains observatoires des sciences et technologies ont donc constitu leurs propres bases dites infom triques 4 partir de donn es fournies par les producteurs de bases de d
385. volume of information Acknowledgments We are grateful to our INIST and IZ colleagues and particularly to M Herfurth head of the IZ research department for their valuable comments Chapitre 4 13 5 References 1 R R Braam H F Moed A F J van Raan Comparison and Combination of Co Citation and Co Word Clustering in Select Proceeding of the First International Workshop on Science and Technology Indicators Leiden 14 16 November 1988 p 307 337 2 B C Brookes The foundations of information science Part IV Information science The changing paradigm Journal of Information Science 3 1981 p 3 12 3 M Callon J P Courtial W A Turner S Bauin From translation to problematic networks an introduction to co word analysis Social Science Information 22 1983 pp 191 235 4 M Callon J P Courtial H Penan La scientom trie Presses Universitaires de France collection Que sais je Paris 1993 5 M Callon J Law A Rip eds Mapping the dynamics of science and technology London The Macmillan Press Ltd 1986 6 M Callon J P Courtial F Laville Co word Analysis as a tool for describing the network of interactions between basics and technological Research the case of polymer chemistry Scientometrics 22 1991 Nol pp 155 206 7 H Desvals H Dou La veille technologique DUNOD Paris 1992 8 J Ducloy P Charpentier C Francois L Grivel
386. y journal On the contrary the sociological studies on technological innovation published by European journals appear in an industrial context Chapitre 2 34 of change and innovation France Germany United Kingdom also in the context of communication technologies France German and human genetic engineering German This brief overview of four cases of network analysis underlines the important emergence of the structural properties of the information In addition we can note the problems induced by the extreme sensibility of the co word analysis to the quality of indexing Beforehand an important effort of normalization is needed A second problem is always to consider explicitly the type of journals which are at the origin of the information that we analyse and represent especially when it is a question of representing the results of a given field of research Finally it is interesting to underline that maps allow a user to visualize the knowledge structure of the document data file The idea is to present information within a cognitive structure so that the experts can assess its validity On the other hand as Brookes says 1981 p 10 As a map grows it will reach a stage at which it could be used as a database 5 CONCLUSION We would like to stress two main purposes concerning our approach The first is to map knowledge structures and the second is to watch science activity by means of its bibliographic output as items of i
387. ypes que nous avons d velopp s permettent un utilisateur de visualiser la carte des th mes acc der la description du th me liste de mots cl s puis d acc der la liste des titres ou des auteurs ou des sources des documents associ s puis d acc der un document donn A l heure actuelle l utilisateur ne peut pas r ellement poser de questions il ne peut que naviguer par des chemins pr tablis Pourtant un responsable d industrie d sireux de conna tre les soci t s ou les quipes de recherches qui travaillent sur les m mes th mes que son quipe ou de suivre les th mes sur lesquels travaille une soci t concurrente aura envie d interroger la carte des th mes par frappe au clavier d une quation bool enne de mots cl s par s lection d un groupe de documents repr sentatifs du probl me qu il se pose une liste d auteurs une date de publication un ensemble de revues des organismes d affiliation L utilisateur devrait pouvoir exprimer des requ tes complexes sur les th mes mis en vidence par nos outils infom triques effectuer des annotations et stocker les requ tes effectu es pour reprendre une analyse 1a o il l avait laiss e Fournir ces fonctionnalit s a fait partie d s le d but de nos objectifs Ainsi dans son interface Hypercard actuelle NEURODOC permet de s lectionner un mot cl et de le situer sur la carte des th mes par mise en gras des th mes o figure ce mot
388. yse des associations Th se de doctorat en Sciences de l information Universit de Paris VII 1988 MOED 1996 MOED H F Differences in the construction of SCI Based Bibliometric Indicators among Various Producer A first Overview Scientometrics vol 35 N 2 1996 177 192 NOYONS et VAN RAAN 1998 Noyons E Van Raan A Monitoring scientific developments from a dynamic perspective Jasis 49 1 68 81 1998 POLANCO 1995 Polanco X Aux sources de la scientom trie SOLARIS Vol 2 Les sciences de l information bibliom trie scientom trie infom trie sous la direction de Jean Max Noyer Edition Presses Universitaires de Rennes 1995 pp 13 78 Chapitre 1 18 POLANCO 1997 Polanco X La notion d analyse de l information dans le domaine de l information scientifique et technique Colloque INRA 21 23 octobre 1996 Tours P Volland Neil coord L information scientifique et technique Nouveaux enjeux documentaires et ditoriaux Paris INRA 1997 pp 165 172 POLANCO et al 1997 POLANCO X FRANCOIS C KEIM J P Artificial Neural Network Technology for the classification and Cartography of Scientific and Technical Information to be published in Proceedings 6th International Conference of the International Society for Scientometrics and Informetrics Jerusalem June 16 19 1997 POLANCO et al 1998 POLANCO X FRANCOIS C OULD LOULY A For Visualization Based Analysis Tools in Knowledge
Download Pdf Manuals
Related Search
Related Contents
Service Manual METAZA MPX-80 AND MPX-70 電子音目覚まし時計(メロディ) 取扱説明書 Samsung BQ1S4T003 Užívateľská príručka 10型ワイドSVGAモニター ディスポーザー排水処理システム 販売及び設置に関する承認申請書 Land Pride RCR1872 User's Manual EVM 13 / 213 - BEST4CARS Copyright © All rights reserved.
Failed to retrieve file