Home

Systeme d`analyse de contenu assistee par ordinateur

image

Contents

1. Marandin J M 1988 A propos de la notion de th me de discours l ments d analyse dans le r cit Langue Fran aise paraltre 1988 Chaire de Recherche du Canada en Mondialisation Citoyennet et D mocratie http www chaire mcd ca Melchuk Igor Aleksandrovich Arbatchewsky Jumarie Nadia 1984 Recherches lexico s mantiques Montr al Presses de l Universit de Montr al 1984 172 pages Paquin Louis Claude D redec EXPERT Version 2 0 Universit du Qu bec Montr al Centre d Analyse de Textes par Ordinateur 1987 119 pages P cheux Michel 1969 Analyse Automatique du Discours Paris Dunod Plante P Manuel de programmation D redec Centre d ATO Plante P 1975 Proposition d algorithme pour le d pistage de relations de d pendance contextuelle dans un texte Montr al Universit du Qu bec a Montr al 111 pages Rastier Fran ois et al 1987 S mantique et intelligence artificielle Paris Librairie Larousse 1987 Langage 87 Septembre 128 pages Sowa J F 1984 Conceptual Structures Information Processing in Mind and Machine Addison Wesley Publishing Company Inc 481 p Waterman D A A Guide to Expert System Reading Mass Addison Wesley 1985
2. cis ment laisser le choix des modules offrir la possibilit de les modifier en fonction d hypoth ses particuli res et favoriser la structuration globale de la d marche de recherche Le syst me adoptant une approche utilitaire ne vise pas une compr hension strictement automatique du texte mais propose des aides la lecture et l analyse de textes Il met la disposition de l utilisateur des outils prouv s dans l tat actuel de leur d veloppement Il ne s agit donc pas de proposer une m thode ind pendante du contexte de recherche de l utilisateur et qui garantirait des r sultats g n r s par l application aveugle de proc dures SACAO offre plut t des outils de manipulation des donn es dont les a priori th oriques sont identifi s Ces outils seront sciemment employ s dans des strat gies de recherche d finies Le syst me favorise en effet le maximum d interactivit entre les besoins de l usager et les dispositifs de lecture et d analyse qui lui sont fournis L utilisateur doit pouvoir tester la valeur des r sultats g n r s par toute proc dure afin de d cider de la retenir ou pas Il doit pouvoir galement ordonner dans sa propre d marche le recours aux divers moyens qui sont mis sa disposition Dans la mesure o c est possible il doit galement choisir les param tres qui seront activ s dans chaque proc dure Cela signifie que la conception des proc dures laisse place une red finition des
3. Paul Truong Ngoc Jean Michel Systemes experts vers la maltrise technique Paris InterEditions 1986 Borel Marie Jeanne Grize Jean Blaise Mi ville Denis 1983 Essai de logique naturelle Berne Editions Peter Lang SA 1983 Sciences pour la communication N 4 241 pages Colloque International CNRS 1986 M thodes quantitatives et informatiques dans l tude des textes Gen ve Paris Slatkine Champion 947 pages Chaire de Recherche du Canada en Mondialisation Citoyennet et D mocratie http www chaire mcd ca Coulon Daniel Kayser Daniel 1986 Informatique et langage naturel Pr sentation g n rale des m thodes d interpr tation des textes crits Technique et Science Informatiques F vrier 1986 pp 103 126 Cruse D A 1986 Lexical Semantics Great Britain Cambridge University Press 1986 Cambridge textbooks in linguistics 310 pages Davies R Lenat D Knowledge based systems in artificial intelligence McGraw Hill 1982 Dubois D Prade H Th orie des possibilit s Paris Masson 1985 Ducrot Oswald 1972 Dire et ne pas dire Principes de s mantique linguistique Paris Hermann 1980 Collection Savoir 311 pages Danlos Laurence 1987 The linguistic basis Generation automatique de textes en langues naturelles Angleterre Cambridge University Press 222 pages Daoust Fran ois 1987 SATO Syst me d Analyse de Textes par Ordinateur version 3 4 Montr al Ce
4. analyse Donnant priorit l analyse de contenu par rapport la connaissance purement formelle de la langue nous avons privil gi une approche interdisciplinaire Notre point de vue pragmatique encourage donc une attitude heuristique dans le processus de la recherche et met de l avant la plus grande autonomie des chercheurs en regard des moyens mis leur disposition La philosophie hybride faisant appel autant des proc dures automatiques qu assist es favorise la participation active de l analyste de texte Les moyens que nous nous donnons sont donc orient s en fonction de ces besoins et de cette approche La mise sur pied d une m thodologie pour l usage int gr de proc dures d aide la lecture se traduit dans une environnement qui permet la gestion strat gique de ces moyens L usager doit pouvoir choisir librement les proc dures qu il retiendra choisir galement les param tres qui seront activ s dans ces derni res Il doit pouvoir articuler diversement en Chaire de Recherche du Canada en Mondialisation Citoyennet et D mocratie http www chaire mcd ca fonction de ses propres besoins les multiples proc dures les unes par rapport aux autres et ainsi structurer globalement sa d marche de recherche Les sp cifications du syst me pour r pondre cela favorisent l interactivit entre les chercheurs et les outils demeurent ouvertes la possibilit de varier les param tres et comprennent le plus grand suppor
5. ces axes le mod le philosophique dont le but est d accro tre la connaissance de la langue et le mod le ergonomique qui est orient vers la production et l utilisation d outils Dans un cas il s agit du projet de programmer une machine pour la compr hension automatique des ph nom nes langagiers dans l autre 1l s agit plut t de proposer des outils pour faciliter par tape cette compr hension L histoire de ce domaine de recherche est travers e de part en part par ces deux optiques mais elle est galement caract ris e par une succession d approches th oriques diff rentes qui ont domin le champ durant des p riodes donn es En effet chaque p riode est d finie par la pr valence de l une ou l autre de ces approches bien que chacune d entre elles se soit superpos e aux autres et continue encore aujourd hui de se d velopper simultan ment Une premi re p riode 1945 1955 relativement tanche a t caract ris e par l approche statistico morphologique Elle fut suivie d une dominance de la syntaxe de 1955 1970 Mais d s 1963 la recherche s affairait la programmation de mod les logico s mantiques Enfin depuis 1974 le souci majeur est la repr sentation et l organisation de la connaissance en faisant appel des mod les cognitifs Ces tapes renvoient comme on peut le constater aux divers niveaux classiques de la compr hension des ph nom nes de langage On trouve aussi bien du c t philosophique qu
6. de compl tude des syst mes Ce point de vue n est pas uniquement pratique en ce qu il serait motiv uniquement par l imp ratif d une couverture large du monde r el Il r pond une conception extensive du probl me de la compr hension des ph nom nes de langue et de discours Il est fond galement sur la conviction du caract re cr atif qui revient l usager dans le processus d analyse Les syst mes automatiques aussi puissants soient ils proposent avant tout une bo te noire aux utilisateurs SACAO propose une m thode interactive o le chercheur investit ses hypoth ses et construit progressivement son analyse l aide d outils performants Le projet SACAO s est donc d fini une posture pist mologique de nature empirico constructiviste De mani re succinte cette approche con oit la connaissance des ph nom nes langagiers comme le produit d un processus non univoque de construction des objets Cela implique d abord la coexistence de plusieurs proc s de construction compl mentaires par exemple multiplication des niveaux d analyse et potentiellement contradictoires par exemple la coexistence d approches non exclusivemement compatibles ensuite la n cessit d une d marche d aller retour entre la constitution des mod les et leur validation empirique Cette d marche favorise la m thode inductive et le caract re interactif du syst me Par exemple nous vitons la projection du mod le aux donn es et de mani re plu
7. nous obligent faire le point sur des questions th oriques et m thodologiques fort vari es Nous abordons ainsi des questions comme les probl mes de la cat gorisation s mantique les diverses strat gies d analyse du discours les diverses approches de l analyse th matique la th orie du parsage etc La formation s effectue quant elle travers la mise sur pied de cours sp cialis s en ATO En somme SACAO n est pas un projet ferm mais plut t un programme de travail ouvert Il correspond l identification de besoins pr cis et ouvre un espace de travail interdisciplinaire qui doit tre investi pour lui m me M me s il b n ficie abondamment de la recherche fondamentale en linguistique informatique et en sciences cognitives il ne doit jamais perdre de vue que ce qui l int resse c est l analyse de textes assist e par ordinateur Bibliographie Actes du colloque Repr sentation du r el et nformatisation 26 et 27 mai 1988 Saint Etienne France Allen Sture 1982 Text processing text analysis and generation text typology and attribution Stockholm Almqvist amp Wiksell International 1982 653 pages Arriv Michel Gadet Fran oise Galmiche Michel 1986 La grammaire d aujourd hui Guide alphab tique de la langue fran aise Paris Librairie Flammarion 720 pages Berwick Robert C 1985 The acquisition of syntactic knowledge Cambridge Mass MIT Press 368 pages Bonnet Alain Haton Jean
8. param tres Chaire de Recherche du Canada en Mondialisation Citoyennet et D mocratie http www chaire mcd ca C est donc en fonction des caract ristiques nonc es ci haut que nous proc dons la mise en place du syst me Nous pr senterons maintenant les principaux l ments de cette mise en place D abord la faisabilit du projet n est possible que gr ce la disponibilit de modules informatiques sp cialis s d analyse de textes et de l expertise que nous r unissons dans le domaine Mentionnons les logiciels SATO Syst me de base de donn es textuelles destin l analyse de contenu D redec Environnement g n ral base d automates pour l analyse et la construction de syst mes cognitifs FX progiciel de programmation de faisceaux D_expert Environnement pour la g n ration de syst mes experts et les progiciels de description linguistique Cat gorisation de base syntaxique du fran ais Lemmatisation et caract risation morphologique du fran ais Grammaire de surface du fran ais Analyseur lexico syntaxique du fran ais Tous ces syst mes ont t d velopp s au Centre d ATO par les membres du Centre ou en collaboration avec des chercheurs du Centre Nos travaux ou bien s appuient sur des applications d j developp es ou en voie de d veloppement voir progiciels ou bien donnent lieu de nouveaux d veloppements Dans le premier cas les modules sont soumis une valuation dans des situations de p
9. recherche Par choix de m thode la linguistique g n rale et la linguistique informatique ont souvent mis de l avant le caract re prioritaire du fonctionnement proprement linguistique des ph nom nes de language et de discours SACAO consid re les divers niveaux de description comme la Chaire de Recherche du Canada en Mondialisation Citoyennet et D mocratie http www chaire mcd ca r sultante d un d coupage et d une construction diff rentielles de cet objet et non comme les tapes ordonn es d un parcours oblig qui m nerait de la description lexico syntaxique la compr hension globale de la langue naturelle Aussi lorsque nous pr conisons une analyse des morphologies du discours nous nous d placons d un int r t pour la langue vers un int r t pour le discours Les descriptions linguistiques du texte serviront de support l analyse d un syst me s miotique par ailleurs beaucoup plus complexe Nous faisons l hypoth se que le texte est un espace diversement structur qui se d ploie selon un processus de s quentialisations multiples par ex le point de vue de la narration le point de vue de l argumentation et dans lequel des objets se sch matisent pour former des noyaux de sens Il nous int resse donc de rep rer les modes de segmentation qui caract risent l organisation d un texte et les condensations de sens qui se produisent en certains lieux privil gi s Nous nous appuyons pour ce faire sur la con
10. Chaire de Recherche du Canada en Mondialisation Citoyennet et D mocratie http www chaire mcd ca DUCHASTEL J DAOUST F DUPUY L 1989 Syst me d analyse de contenu assist e par ordinateur SACAO In Actes du colloque La description des langues naturelles en vue d applications linguistiques Qu bec Centre international de recherche sur le bilinguisme 1989 197 210 SYSTEME D ANALYSE DE CONTENU ASSISTEE PAR ORDINATEUR SACAO Par Jules Duchastel Luc Dupuy Louis Claude Paquin Jacques Beauchemin et Fran ois Daoust Centre d Analyse de Textes par Ordinateur Universit du Qu bec Montr al 1 Le projet Le projet SACAO Syst me d Analyse de Contenu Assist e par Ordinateur vise l int gration syst matique de proc dures existantes ou nouvelles de lecture assist e de donn es textuelles Il s agit d offrir des utilisateurs dans un environnement logiciel relativement int gr divers modules de description d exploration et d analyse de donn es textuelles tout en leur laissant le soin de param trer ces proc dures en fonction de leurs propres hypoth ses de lecture Ces proc dures ne comportent qu un minimum de pr construction th orique et facilitent un maximum d it rativit entre leur application et l analyse du texte L int gration est assur e par l tablissement de liens informatiques entre fichiers comportant des structures de donn es communes Cet environnement convivial r pond ainsi aux beso
11. annotation r sum s automatiques indexation construction de th saurus D un autre c t les probl mes d acc s et de valorisation des banques de donn es textuelles suscitent galement des espoirs envers les syst mes d aide la lecture En gros ces syst mes s int ressent aux descriptions morphologique syntaxique s mantique logique ou pragmatique des textes leur exploration pour en extraire l information pertinente ou pour y faire surgir un sens quelconque et enfin l analyse des donn es ainsi extraites D un c t on trouve des usages en traitement informatique de la langue et une quantit croissante de donn es textuelles d j disponibles de l autre des proc dures diversifi es d criture et de lecture assist es Par contre il existe peu de m thodologie pour l usage int gr de ces proc dures selon des protocoles d finis Ces proc dures sont partielles peu standardis es et souvent difficilement accessibles Leur utilisation quand elle a lieu est peu strat gique faute de mod les d utilisation susceptibles de guider les usagers 1 2 L tat de la question Depuis leur origine les recherches reli es la mod lisation informatique des langues naturelles se profilent suivant deux axes l adaptation des mod les linguistiques et logiques des contextes informatiques et la mise au point des techniques d ing nierie du langage Coulon et Kayser d finissent deux optiques possibles correspondant
12. e du c t ergonomique de tr s nombreux exemples de ces travaux Dans le premier cas on donnera en exemples le d veloppement important des approches lexicologiques des techniques de parsage appliqu es des langages restreints grammaires LL n et LR n auxquelles s ajoutent des syntaxes formelles comme les grammaires en cha nes transformationnelles ou encore s mantiques grammaires de cas et grammaires lexicales fonctionnelles etc Dans le second cas l ing nierie logicielle a entre autres contribu au d veloppement de traitements morphologiques de la gestion des lexiques des analyseurs syntaxico s mantiques ATN des analyseurs d terministes des grammaires de m tamorphoses et des Definite Clause Grammars DCG et enfin des modules d inf rence Il ne s agit pas l d un inventaire mais d une indication de l abondance des recherches fondamentales ou appliqu es tous ces niveaux Chaire de Recherche du Canada en Mondialisation Citoyennet et D mocratie http www chaire mcd ca Ces recherches ont permis des avanc es notables mais elles ont mis en vidence un tr s grand nombre de probl mes La pr valence pisodique de l une ou l autre approche souligne loisir les espoirs maintes fois d us d avoir trouv l angle d attaque privil gi pour atteindre la compr hension automatique des langues Les d veloppements disciplinaires ou d coles ont favoris des avanc es significatives mais les contradictions e
13. emandes de d veloppement de syst mes destin s aux organisations Cette quipe dont chaque membre poursuit par ailleurs une activit relativement ind pendante dans son champ de sp cialisation a d con evoir un projet commun qui refl te l aspect polymorphique des besoins de l approche et des moyens pr conis s Elle a donc d fini quatre domaines d activit s et mis en place des m canismes pour leur r alisation Ces activit s sont le d veloppement informatique l adaptation et le d veloppement d unit s de traitement l exp rimentation et la documentation et enfin les activit s de r flexion et de formation Les m canismes de r alisation consiste en un s minaire hebdomadaire d change et de planification et en un partage des t ches selon les diverses comp tences Nous illustrerons tr s rapidement le type d activit s qui rel vent de chacun de ces domaines Le d veloppement informatique renvoie l aspect informatique li la mise au point et la gestion des proc dures d aide la lecture Il peut s agir de l entretien des environnements logiciels dans les diverses implantations de la mise au point d interfaces et de la portabilit Ce sont galement les divers d veloppements informatiques li s aux d veloppements des proc dures nouvelles structures de repr sentation nouveaux automatismes etc C est encore le d veloppement des proc dures de gestion des fichiers L adaptation d unit s de traitement peu
14. ins diff rents de diverses cat gories d usagers confront s aux probl mes d analyse de donn es textuelles 1 1 Le probl me L volution r cente de l informatique et le d veloppement d un domaine aux contours encore impr cis le Traitement Automatique des Langues TAL n interpellent pas seulement la communaut des chercheurs de diverses disciplines mais aussi celle beaucoup plus large des usagers de la langue crite documentalistes gestionnaires d cideurs etc La micro informatique a p n tr aussi bien les lieux de savoirs que les organisations favorisant de nouvelles habitudes de travail et g n rant de facto une quantit croissante d information textuelle sur support magn tique Celle ci se retrouve dans des banques de donn es ou des r pertoires de textes qui demeurent pour l instant sous exploit s Cette situation a cr des attentes de la part des usagers quant l am lioration des diverses proc dures d aide l criture ou la lecture Du c t de la production de texte et de leur gestion ces attentes vont bien au del des traitements de texte D j des syst mes op rationnels ou l tat de prototypes proposent une aide la r daction support lexical dictionnaires conjugueurs terminologie synonymie la r vision correcteurs Chaire de Recherche du Canada en Mondialisation Citoyennet et D mocratie http www chaire mcd ca orthographiques stylistiques ou encore l
15. naissance lexicale du texte largie aux expressions terminologiques et sur une description morpho syntaxique non exhaustive de ses unit s Nous privil gions deux axes principaux l axe nominal et l axe verbal Le premier renvoie l organisation s mantique du texte L analyse des proximit s ou des relations de d pendance contextuelles d termination th me propos permettent de reconstruire des r seaux de signification L axe verbal renvoie davantage la structure d action du texte L analyse des caract ristiques et de l environnement des verbes permet de reconstruire l articulation des textes ainsi que le fil de l argument 3 La m thodologie Les quelques remarques qui pr c dent auront plut t indiqu une direction de recherche ou un espace de travail que d fini un cadre conceptuel pr cis SACAO vise le minimum de pr construction th orique justement parce qu il propose non pas un mod le d analyse mais un environnement offrant une panoplie de moyens de lecture diversifi s et minimalement contraints C est en ce sens que l on parle d une m thodologie pour l usage int gr et strat gique d outils d analyse de donn es textuelles Le caract re int gr de l usage est autoris par l architecture du syst me qui offre la possibilit de retenir une ou plusieurs proc dures de description d exploration ou d analyse des donn es textuelles et de les faires interagir dans un plan d ensemble Son aspect strat gique consiste pr
16. ntion de re structuration qui transforme les unit s d information en unit s d analyse Le module de description des donn es textuelles est le moment o s accomplit la structuration initiale des donn es Dans le cadre du projet SACAO trois niveaux de description sont pr vus les niveaux lexical morphologique et syntagmatique Ces niveaux sont relativement autonomes les uns par rapport aux autres mais ils peuvent tre conjugu s de mani re diff rente eu gard aux besoins sp cifiques d une probl matique de recherche ou d analyse Au niveau lexical la description des donn es vise mettre en forme les diff rents aspects du vocabulaire lexique d un texte On pense ici plus particuli rement la structuration du vocabulaire partir de dictionnaires de locutions ou encore de th saurus sp cialis s Dans un cas comme dans l autre il s agit de proc dures pour dresser l inventaire des l ments d un corpus de donn es textuelles Au vocabulaire de base du fran ais s ajoutent des expressions qui marquent les traits idiomatiques d une communaut linguistique donn e Les formes lexicales se r alisent souvent comme des groupes de mots qui fonctionnent de la m me fa on que les mots uniques Afin de faciliter l inventaire de ces unit s le module de description des donn es textuelles offre la possibilit de proc der au regroupement des diff rentes formes synaptiques locutions Il est ainsi possible d indexer dans le lexique des te
17. ntre d Analyse de Textes par Ordinateur 1987 81 pages Farreny H 1987 Les syst mes experts Principes et exemples Cepadues ditions Gross Maurice 1975 M thodes en syntaxe R gime des constructions compl tives Paris Hermann 1975 414 pages Grosz Barbara J Jones Karen Sparck Webber Bonnie Lynn 1986 Readings in Natural Language Processing California Morgan Kaufmann Publishers Inc 1986 664 pages Guiraud Pierre 1961 Les locutions fran aises Paris Presses Universitaires de France 126 pages Halliday M A K 1985 An introduction to functional grammar London E Arnold 1985 387 pages Krippendorff Klaus 1980 Content Analysis An Introduction to its Methodology Sage Publications 189 pages Hayes Roth F Waterman D A Lenat D Building Expert Systems Reading Mass Addison Wesley 1983 Num ro sp cial Knowledge Acquisition for Knowledge based Systems International Journal of Man Machine Studies 1987 26 Lecomte A 1988 Le marmot et la mamelle critique des repr sentations du raisonnement Centre de Coordination pour la Recherche et l Enseignement en Informatique et Soci t CREIS Repr sentation du r el et informatisation Saint tienne LU T de Saint tienne 1988 21 pages Lecomte A Marandin J M Analyse de discours et morphologie discursive Montr al Centre d Analyse de Textes par Ordinateur Universit du Qu bec Montr al 1984 67 pages
18. ntre diverses approches th oriques ainsi que l opacit de certains mod les ont peu favoris l int gration des connaissances ainsi produites La relative courte dur e des projets indique l existence fr quente d impasses th oriques La projection tr s probl matique des avanc es th oriques dans les applications pratiques a mis en vidence l incompl tude des syst mes A travers ce cheminement complexe pourtant les limites de couverture linguistique conceptuelle ou inter disciplinaire qui se sont r v l es au grand jour ont permis de r valuer les difficult s li es la compr hension des ph nom nes de langue et de discours et certains probl mes sont ainsi apparus comme prioritaires On pense la contextualisation n cessaire des ph nom nes de discours la repr sentation des connaissances la n cessit d incorporer une quantit consid rable de donn es extra linguistiques dans les mod les de TAL la prise en compte de la logique dite naturelle 2 L approche privil gi e Pr cisons d abord que nous avons r duit le domaine de notre recherche en choisissant la langue crite y compris les retranscriptions de l oral par opposition la langue parl e et les aides la lecture par opposition aux aides l criture Ceci dit l approche privil gi e par SACAO se d finit selon deux axes premi rement plut t qu une approche de compr hension en profondeur des ph nom nes langagiers elle propose une orien
19. omportant une complexit et une couverture plus grande 3 Encourager l accessibilit au syst me en fournissant une documentation d taill e et exhaustive de toutes les proc dures appuy e sur leur exp rimentation syst matique sur des corpus t moins Nous d crivons ci apr s la dimension fonctionnelle de l architecture de SACAO Il faut pr ciser d entr e de jeu que le terme architecture suppose plusieurs dimensions La dimension fonctionnelle privil gi e ici d crit les caract ristiques des diff rents modules regroupant des unit s de traitement Nous n aborderons pas les dimensions organique et algorithmique 4 2 L interface personne machine l heure actuelle l environnement informatique le mieux int gr est celui du VAX On y retrouve les langages utilis s pour d velopper l ensemble des applications Pascal C et Le_Lisp on y trouve galement les applications utilis es dans le contexte du projet telles que mentionn es la section m thodologie SATO Syst me d Analyse de Textes par Ordinateur D redec et FX langage de programmation des faisceaux D_expert progiciel pour la g n ration de syst mes experts ainsi que divers utilitaires programme de conversion des formats ASCH courrier lectronique etc Du c t de l environnement IBM et compatibles nous retrouvons SATO une version r duite de D redec et FX ainsi que des utilitaires pour la conversion des formats ASCII Dans le cas de l environnemen
20. permet de comparer deux deux des textes ou des parties de textes de mani re faire appara tre quels l ments lexicaux sont responsables des carts de surface entre deux textes ou parties de texte L analyse de la distance peut tre bas e sur diff rentes distributions de fr quences correspondant diverses segmentations du lexique et tre pond r e par un lexique de r f rence identifi par le chercheur C Indices de lisibilit Les indices de lisibilit sont des mesures empiriques permettant d appr cier la difficult ou la facilit de lecture de compr hension et de m morisation d un texte ou des parties d un texte Ces mesures sont calcul es partir de param tres comme la longueur des mots la longueur des phrases etc 5 Le fonctionnement du projet SACAO Revenons rapidement sur les principales conclusions qui ressortent de l expos pr c dent avant d en montrer les cons quences sur la d finition de l quipe SACAO et sur l organisation de ses activit s Nous avons tabli d s le d part le besoin av r d une aide la lecture de donn es textuelles Ce besoin se manifeste aussi bien dans les nombreuses disciplines universitaires dont une des sources de connaissance est le mat riau textuel que dans les multiples usages du texte au sein des organisations Nous avons opt pour une approche ergonomique de la question pr conisant l usage int gr d outils diversifi s dans une perspective de support l
21. permettent la programmation de grammaires du genre des Augmented Transition Networks automatiques ou assist es 4 5 L exploration des donn es textuelles Le module d exploration permet un travail compl mentaire celui effectu par les unit s de traitement du module de description Une fois les donn es constitu es il faut pouvoir disposer de m canismes regroupement d op rations sp cifiques pour la s lection le regroupement et la classification des donn es Dans le module d extraction on retrouve des unit s de traitement pour la constitution d inventaires ou pour le regroupement cat goriel des informations Pour les unit s qui sont structur es de mani re lin aire s quences lexicales il est possible d obtenir des lexiques fr quentiels des concordances ou KWIC Key Word In Context bas es sur la recherche de mots cl s ou sur des tiquettes symboliques ou num riques associ es ces mots cl s des co occurrences mot cl et lexique des mots troitement associ s au mot cl etc Pour le d pistage de ces expressions nous disposons d op rations permettant de d terminer la forme et le nombre des cha nes de caract res qui seront employ es comme param tres des proc dures d extraction Dans le cas des unit s structur es partir de contraintes morphologiques bien d finies configurations syntaxiques donn es structur es de mani re arborescente ou floues unit s th matiques nonc s axiologique
22. ragmatique Ceci dit il ne peut y avoir d application qui ne soit fond e sur certains choix th oriques mettant en jeu non seulement la langue mais aussi le discours et la connaissance In vitablement les choix pratiques qui sont effectu s dans SACAO ne peuvent obvier cette r alit Il nous faut donc nous questionner minimalement sur les cons quences pist mologiques de notre option avant d en revenir aux orientations th oriques qui guident notre entreprise Chaire de Recherche du Canada en Mondialisation Citoyennet et D mocratie http www chaire mcd ca Il serait abusif aujourd hui d associer trop strictement d un c t d marche fondamentale et syst mes automatiques appliqu s des micro mondes et d un autre c t d marche pragmatique et syst mes assist s appliqu s des macro mondes Certaines recherches en intelligence artificielle ont pourtant privil gi le caract re automatique des proc dures et vis la compl tude des syst mes du fait m me qu elles recherchaient la simulation plus ou moins isomorphique de ph nom nes r els SACAO a renonc m thodologiquement aux pr misses pist mologiques propres cette orientation L automatisation n est recherch e que sur une base pragmatique et ne constitue pas une condition premi re Nous mettons de l avant une approche hybride alliant proc dures automatiques et assist es et une substitution de l id e d int gration maximale des outils l objectif
23. roduction sur de larges corpus et donnent lieu l optimisation des proc dures ou encore l identification de sous modules op rationnels dont l utilit pour l analyse de textes est prioritaire par exemple la cat gorisation la description th matique ou argumentative Dans le second cas nous introduisons des d veloppements originaux qui s av rent n cessaires dans l conomie g n rale du syst me Les modules locutions et foncteurs s mantiques sont des exemples de ces d veloppements en cours SACAO met de l avant une philosophie d int gration des divers modules fond e sur la cr ation de liens informatiques dans un m me environnement machine et sur la portabilit des modules d une machine l autre Chaque adaptation des modules existants ainsi que les nouveaux d veloppements devraient tre int gr s et impl ment s dans ces environnements Mais de fa on r aliste l objectif prioritaire est de r aliser l int gration de l ensemble des modules sur le VAX alors que plusieurs modules particuliers seront disponibles sur micro ordinateurs Nous exp rimentons sur une base syst matique les divers modules de SACAO sur de grands corpus Nous poss dons une banque de donn es textuelles tr s importante contitu e des corpus provenant de diff rents projets de recherche Pour l essentiel l exp rimentation se fait partir de donn es textuelles provenant de la sph re publique Sans restreindre son utilisation d autres
24. s etc le module d extraction permet le d pistage des donn es partir de patrons d finis par le chercheur ou l analyste Chaire de Recherche du Canada en Mondialisation Citoyennet et D mocratie http www chaire mcd ca En plus des inventaires et des classifications le module d exploration permet la d finition et la circonscription de partitions du corpus analys Ainsi une personne analysant un corpus quelconque pourra volont appliquer des sous ensembles arbitrairement d finis les op rations de fouille mentionn es au paragraphe pr c dent Autrement dit il est possible de g n rer partir du corpus une diversit de sous textes Il faut pr ciser que la g n ration de ces textes peut s effectuer de mani re r pondre aux exigences des traitements statistiques techniques d chantillonnage ou de fa on permettre la v rification d hypoth ses sur un sous ensemble relativement restreint principe de la maquette avant de poursuivre les op rations sur l ensemble du texte 4 6 L analyse des donn es textuelles Le module d analyse de donn es textuelles offre actuellement les traitements suivants A Un module de statistiques lexicales qui permet d obtenir pour un lexique donn les statistiques suivantes moyenne cart type variance fr quences minimum et maximum score Z et distribution procentuelle des classes de fr quences et d occurrences B Des mesures de distance inter textuelle La distance
25. s ou moins d terministe de mod les th oriques pr construits sur le r el Nous favorisons au contraire l ajout de descriptions successives du texte en alternance avec l exploration de r sultats provisoires Revenons en aux orientations th oriques de SACAO Deux arguments nous incitent expliciter nos pr misses th oriques D une part la production ou la s lection d outils doivent n cessairement trouver leur coh rence dans des cadres th oriques de r f rence D autre part du point de vue des int r ts imm diats des chercheurs impliqu s dans le projet SACAO une orientation plus th orique doit guider et faire converger les d veloppements qui seront favoris s ult rieurement Le deuxi me axe de notre approche renvoie un pr suppos th orique favorable une analyse des morphologies du discours Un premier choix th orique place donc SACAO r solument du c t de l analyse de contenu par opposition la description linguistique Bien que ces deux options ne soient nullement antagonistes cette priorisation donn e la saisie du sens d limite l espace de travail qui sera le n tre en fonction d objectifs de connaissance des textes L tagement des niveaux morpho lexical syntaxique s mantique logique et pragmatique caract risant les ph nom nes socio linguistiques ne fait pas seulement num rer les diverses dimensions de la langue et du discours mais semble proposer un ordre souhaitable dans les tapes de la
26. t Macintosh nous y retrouvons principalement les applications r alis es en LISP soit D redec FX et le D_expert Une telle vari t d environnements de travail pourrait entra ner des difficult s importantes du point de vue de l utilisation des ressources SACAO Afin de pr venir les inconv nients li s cette situation nous avons choisi deux options ergonomiques qui pourront pallier ces difficult s la transparence et la portabilit La transparence doit tre assur e de mani re offrir l utilisateur une interface qui soit relativement ind pendante de l environnement mat riel utilis En g n ral l ensemble des d cisions s effectue de mani re interactive partir de choix offerts dans des menus hi rarchis s Cette gestion par menus favorise le dialogue utilisateur unit de traitement qui doit tre sensible au contexte Au principe de transparence s ajoute le principe de portabilit Ce principe stipule que les options de d veloppement doivent faciliter le transfert du savoir faire contenu dans les modules de gestion et les unit s de traitements La portabilit d une implantation mat rielle l autre PC vers VAX VAX vers Macintosh etc assure la possibilit du traitement coop ratif par ex d velopper une maquette d analyse sur PC et poursuivre le traitement des donn es sur VAX les transferts des donn es entre les diff rentes unit s de traitement etc Chaire de Recherche du Canada en Mondialisa
27. t documentaire L architecture de SACAO a ainsi t con ue pour favoriser cette orientation Elle d finit diverses strates qui correspondent en quelque sorte la d marche concr te de l utilisateur Fournissant l utilisateur des m thodes standardis es de fonctionnement et des facilit s de gestion elle d finit les trois principaux champs d activit autour de la description des donn es textuelles de leur exploration et de leur analyse Le projet SACAO a t pens et d velopp dans un contexte qui refl te bien les pr occupations r sum es ici D abord inscrit de mani re diffuse dans le cadre des activit s de recherche du Centre d ATO le projet s est progressivement sp cifi dans un processus de diff renciation par rapport d autres domaines de recherche en compr hension des langues naturelles A c t du d veloppement n cessaire de modules de description linguistiques ou cognitives le besoin sp cifique d outils pour l analyse de texte s est fait urgemment sentir L quipe SACAO regroupe ainsi des chercheurs dont la formation disciplinaire et les domaines de sp cialisation sont diff rents mais qui ont pour objectif ultime l analyse de textes Cette quipe comporte galement la caract ristique de correspondre des demandes h t rog nes en termes de d veloppement Certaines de nos activit s s inscrivent dans la structure de la recherche universitaire alors que d autres sont imm diatement associ es aux d
28. t s illustrer par l exemple d un travail d valuation que nous avons effectu des descritions GDSF de la structure th matique des textes d un corpus de discours politiques Sur la base de cette validation certains sous ensembles de prod dures enrichis de nouveaux d veloppements sont utilis s pour tablir une description arborescentes des propositions du point de vue de leur hi rarchie th matique dans la tradition de la grammaire fonctionnelle Le d veloppement de nouvelles unit s de traitement peut s illustrer par les nouvelles proc dures de rep rage de blocage et de th saurisation des locutions Ce syst me utilise les propri t s de nos logiciels et progiciels dans le but de fournir un instrument nouveau aux utilisateurs Chaire de Recherche du Canada en Mondialisation Citoyennet et D mocratie http www chaire mcd ca L exp rimentation renvoie au travail syst matique de validation des proc dures sur des corpus de r f rence Ce travail permet de varier les contextes d application et de tester la robustesse des syst mes face la red finition des param tres En plus de la validation cette exp rimentation permet de produire des fiches techniques destin s documenter le syst me et des fiches d utilisation r serv s aux usagers Enfin les activit s d change et de formation nous sont apparues comme tant primordiales L interdisciplinarit la base du projet et la multiplicit des voies qui y sont explor es
29. tation pragmatique de valorisation des donn es textuelles deuxi mement face une approche trop stictement syntaxique ou s mantique elle favorise une analyse des morphologies du discours En ce qui concerne le premier axe SACAO vise avant tout l application de modules fonctionnels de grands ensembles textuels En somme nous choisissons une approche pragmatique plut t que fondamentale ou dans les termes de Coulon et Kayser une optique ergonomique plut t qu une optique philosophique La logique de la d marche fondamente favorise d abord l approfondissement des connaissances et ne recherche que secondairement des applications robustes et g n ralisables aux donn es du monde r el Une d marche pragmatique s int resse au contraire au d veloppement d outils ou d applications qui nous permettent d ores et d j d accro tre notre capacit de lecture de plusieurs mani res acc s rapide et syst matique au contenu de grands ensembles textuels rigueur et r gularit de la lecture production d informations nouvelles par rapport aux formes traditionnelles de la lecture introduction de la mesure et de proc dures de validation etc Ils ont donc valeur pratique pour qui s int resse la connaissance des textes Bien que les recherches fondamentale ou appliqu e nous semblent indissociables il est certain que notre objectif d accro tre le potentiel d analyse du contenu des textes plaide in vitablement en faveur d une approche p
30. tion Citoyennet et D mocratie http www chaire mcd ca 4 3 La gestion des donn es textuelles Dans la perspective de rendre accessibles au plus grand nombre d utilisteurs les outils et les donn es textuelles rassembl s dans SACAO nous nous sommes int ress s d s le d part au probl me de la gestion des donn es Notre objectif tait de structurer des programmath ques ayant un caract re public Celles ci contiennent la panoplie des modules utilis s dans le cadre du traitement des donn es textuelles et les proc dures pour les traitements en lot batch processing Elles int grent galement les corpus que diff rents chercheurs ont choisi de rendre publics L ensemble de ces dispositifs assure le caract re cumulatif de la production d outils pour l analyse des donn es textuelles Aux utilitaires d archivage s ajoute un utilitaire pour la conversion des formats ASCII propres aux trois implantations mat rielles Gr ce cet utilitaire les usagers francophones sont assur s de pouvoir maintenir l int grit des textes sources et de proc der l analyse et au traitement des donn es de la m me mani re dans les diff rentes implantations mat rielles 4 4 La description des donn es textuelles Tout mode d investigation suppose une intervention technique sur les donn es analyser En effet la notion de donn e implique n cessairement un processus de construction des unit s de l analyse et par l m me une interve
31. types d application cela implique que les utilitaires par ex dictionnaire de locutions terminologiques dictionnaires s mantiques de domaines sont d abord enrichis m me des donn es relevant du domaine public Il s en trouve alors que l environnement semblera plus familier l analyste du discours qu au critique litt raire Il faut mentionner en terminant que cette exp rimentation donne lieu l criture syst matique de fiches techniques qui permettent de documenter en profondeur les diverses proc dures et qui serviront de base la r daction d un manuel d utilisation de SAC AO 4 L architecture du syst me 4 1 Les objectifs Le projet SACAO poursuit sur le plan informatique les objectifs suivants Chaire de Recherche du Canada en Mondialisation Citoyennet et D mocratie http www chaire mcd ca 1 Favoriser l accroissement de la robustesse du syst me en assurant une plus grande int gration des modules entre eux Assurer la portabilit d une machine l autre PC Macintosh et VAX afin de permettre l usager d accomplir certaines t ches dans des environnements familiers tout en lui donnant acc s une capacit augment e de traitement sur VAX 2 valuer syst matiquement les modules existants afin soit de les enrichir soit d en extraire des proc dures particuli res comportant une utilit plus imm diate Enrichir galement le syst me de proc dures de description d extraction et d analyse c
32. ur toute propositon le th me et le propos des indications sur des compl ments verbaux et plusieurs types de d termination nominale Le second ALSF pr sentement en d veloppement a une port e linguistique plus grande Con u comme un environnement global de traitement des nonc s en fran ais il pr voit des modules d information syntaxique d analyse syntaxique et d interpr tation des structures syntaxiques Dans l tat actuel certaines unit s sont d j accessibles par exemple la description du groupe nominal A un second niveau il existe quelques exemples d analyseurs textuels qui prennent appui soit sur une premi re description morpho syntaxique des phrases du texte soit sur l organisation s mantique des textes Un exemple du premier cas se retrouve dans SAADI qui fonctionnant sur la base du groupe nominal et de la structure des propositions concessives restrictives conclusives permet de d crire la structure argumentative du texte Il existe par ailleurs des grammaires de repr sentation s mantique de divers objets textuels d velopp es par diff rents chercheurs Donc dans le cas o ce qui nous int resse rel ve des niveaux de structuration du texte autres que morpho syntaxiques par exemple les analyses th matiques la classification d expressions ou d nonc s etc nous disposons d unit s de traitement permettant de programmer sur mesure des algorithmes de description Deux langages D redec et FX
33. xtes d un corpus les locutions canoniques pr positionnelles adverbiales etc les locutions usuelles propres un locuteur ou une famille de locuteurs les locutions techniques les termes institutionnels les locutions onomastiques noms propres etc Au niveau morphologique 1l faut faire en sorte que les dimensions grammaticales morph mes lexicaux et grammaticaux puissent tre bien identifi es Nous disposons l heure actuelle d une unit de traitement pour la caract risation morpho syntaxique du fran ais contemporain Cette unit permet d effectuer l indexation des l ments d un vocabulaire ou d un lexique en adjoignant aux formes lexicales des tiquettes syntaxiques tiquettes pour la classification des noms des verbes des adjectifs etc Une seconde unit Chaire de Recherche du Canada en Mondialisation Citoyennet et D mocratie http www chaire mcd ca de traitement rend possible le marquage de traits relatifs la dimension lexicale des mots morph me lexical ou radical Finalement nous disposons d unit s de traitement pour d crire les dimensions syntagmatiques des donn es textuelles un premier niveau nous pouvons faire appel deux analyseurs du fran ais aptes produire de mani re automatique ou semi automatique une description syntaxique des phrases expressions bien form es du fran ais crit contemporain Le premier GDSF de nature avant tout heuristique parvient d pister po

Download Pdf Manuals

image

Related Search

Related Contents

1 User Manual - Energenie MiHome eTRV  Teledyne 730 Bubbler Automobile Parts User Manual  TraTores agrícolas  Phontage User Guide  User Manual - Cyagen Biosciences  WL559E Wireless-N Repeater User Manual v1.0  angler accessories - MAVER CARP Romania  Reglement de Consultation + CCTP - Croix  AEI TAG PROGRAMMING SOFTWARE FOR WINDOWS  manuel d`utilisation du f!re profi  

Copyright © All rights reserved.
Failed to retrieve file