Home

Sistema de recuperación de información semántico

image

Contents

1. La AMPLN es una organizaci n profesional no lucrativa cuya misi n es fomentar la interacci n e intercambio de ideas entre especialistas mexicanos en el procesamiento de lenguaje natural PLN as como difundir los logros y la importancia del PLN entre la sociedad nacional gt Association for Computational Linguistics ACL 6 La Asociaci n de Ling stica Computacional es la sociedad cient fica internacional y profesional para las personas que trabajan en problemas relacionados con el lenguaje natural y la computaci n Su revista ACL Ling stica Computacional sigue siendo el principal foro para la investigaci n en ling stica computacional y procesamiento del lenguaje natural Desde 1988 la revista se ha publicado para la ACL por MIT Press para ofrecer una base m s amplia de distribuci n Adem s organiza una reuni n anual que se celebra cada verano en los lugares donde se realiza la investigaci n significativa sobre la ling stica computacional Descripci n t cnica Se pretende desarrollar sistema de recuperaci n de informaci n mediante t cnicas de NLP A continuaci n se muestra el diagrama del sistema en la figura 1 0 y m s adelante la descripci n de cada modulo o A E Base de publicaciones Interfaz m gt de Analizador usuario sem ntico PARSER Analizador 1 2 aci sint ctico PASA Informaci n Interfaz de l recuperada gt ii L Integraci n i
2. Ne CN j 1 2 Figura 1 0 Este proyecto s lo desarrollar el analizador sem ntico sin embargo para implementarlo es necesario contar con un parser y un analizador sint ctico Es importante aclarar que estos m dulos no se programar n si no que se utilizaran herramientas de terceros para este prop sito gt Base de datos de publicaciones La base de datos de publicaciones es el almac n de la colecci n de publicaciones que servir n como datos de entrada del sistema junto con los par metros introducidos por el usuario gt Interfaz de Integraci n La funci n de este modulo es permitir la integraci n entre el analizador sint ctico y sem ntico es decir hace que los datos arrojados por el analizador sem ntico sean comprensibles para el analizador sem ntico gt Analizador sem ntico Este m dulo est subdivido en 3 fases seg n su flujo de funcionamiento Representaci n del significado En este periodo el texto se acomoda en graficas que representan el significado de las oraciones mediante las relaciones sem nticas entre las palabras que componen dichas oraciones Extracci n de la informaci n En esta etapa se trabajan las representaciones del significado obtenidas en la etapa anterior para descubrir y extraer la informaci n que se busca Generaci n de resultados Finalmente la informaci n obtenida se convierte en datos organizados que el usuario pueda entender y manejar f cilmente
3. grandes CIC ed M xico Instituto Polit cnico Nacional 2006 10
4. gt Interfaz de usuario Este m dulo se encarga de la comunicaci n entre el usuario y el sistema Se encarga de presentar las funcionalidades al sistema recuperar los datos de entrada y devolver los resultados al usuario Especificaci n t cnica El dominio de los documentos que procesar el sistema estar limitado a las publicaciones de los profesores del departamento de sistemas y s lo soportar documentos en formato pdf El sistema recibir como par metros de entrada la base de datos de publicaciones los procesar mediante t cnicas NLP y m nimamente regresar la informaci n extra da de dicho an lisis de forma organizada y comprensible Los entregables para este proyecto son e C digo fuente documentado de la aplicaci n e Esquema de la base de datos e Diagramas UML de casos de uso clases y navegaci n e Diccionario de datos e Manual de instalaci n y configuraci n e Manual de usuario e Protocolo de pruebas El proyecto se dar por concluido cuando se entregue la documentaci n se alada Calendario de Trabajo Enseguida se describe el calendario de trabajo para este proyecto dividido en 2 trimestres correspondientes a los 9 cr ditos 99 horas 9 por semana del Proyecto Terminal de Ingenier a en Computaci n I y el otro correspondiente a los 18 cr ditos 198 horas 18 por semana Trimestre 12 1 Recopilaci n de publicaciones Instalaci n y configuraci n de herrami
5. miles de documentos con un s lo clic Sin embargo cantidad no significa calidad aunque contemos con potentes buscadores que pueden arrojar millones de resultados relacionados para la m s simple consulta eso s lo significa que no se encontr una respuesta exacta Este inconveniente obedece a un problema de comunicaci n Las maquinas y su poderosa capacidad de procesamiento est construida sobre un lenguaje formal muy distinto al nuestro mientras que la mayor parte de la informaci n a procesar se encuentra representada en lenguaje humano Evidentemente son hombres que poco o nada debieran saber sobre lenguaje m quina los que hacen las consultas y las hacen en su lenguaje Es as como surge la necesidad de m quinas que entiendan nuestro idioma en un mundo donde la informaci n oportuna marca la diferencia y la cantidad de datos a procesar es tan grande que necesita ser automatizada 2 Como una respuesta entre varias a esta necesidad surge entre las ramas de la inteligencia artificial y la ling stica computacional el Procesamiento del lenguaje natural NLP del idioma ingl s Natural Language Processing que se define como una serie de t cnicas enfocadas a que las maquinas sean capaces de manejar lenguajes no formales 1 Su objetivo es automatizar la comprensi n del lenguaje natural Las reas de aplicaci n m s importantes del NLP son la traducci n autom tica la recuperaci n y extracci n de informaci n y las interf
6. noci n de que no m s de seis grados de separaci n conectan a cualesquiera dos personas en el mundo Aunque Arnetminer utiliza entre otras t cnicas de minado y no NLP para extraer informaci n de documentos es semejante es su prop sito de determinaci n de perfiles acad micos y aunque persigue objetivos distintos como lo es el an lisis de redes sociales si brinda una perspectiva interesante sobe el inter s la importancia y la utilidad de la extracci n de informaci n y la definici n de perfiles as como una manera de abordar estas problem ticas y algunas aplicaciones de su soluci n gt Wordnet 4 WordNet es una enorme base de datos l xica del idioma ingl s Agrupa las palabras en conjuntos de sin nimos llamados synsets que proporcionan definiciones cortas y generales y almacenan las relaciones sem nticas entre estos conjuntos de sin nimos El prop sito de este proyecto es doble por un lado producir una combinaci n de diccionario y tesauro cuyo uso es m s intuitivo y ayudar al an lisis autom tico de textos y a las aplicaciones de inteligencia artificial La base de datos y las herramientas se han liberado bajo una licencia BSD y pueden ser descargadas y usadas libremente Adem s la base de datos puede consultarse online Fue creada y es mantenida por el Cognitive Science Laboratory de la Universidad de Princeton bajo la direcci n del profesor de psicolog a George A Miller El desarrollo comenz en 19
7. 85 Durante los a os el proyecto ha recibido alrededor de tres millones de d lares principalmente a trav s de agencias gubernamentales interesadas en traducci n autom tica gt Sophia Semantic Engine 5 El motor de Sophia Sem ntica es un software comercial de origen Italiano que analiza y comprende el lenguaje natural creando una capa de interpretaci n en las aplicaciones que interact an con los usuarios de una forma ling stica y las aplicaciones que se ocupan de la informaci n no estructurada Sus capacidades incluyen e extracci n de informaci n y anotaci n de textos no estructurados identificaci n de los eventos personas nombres lugares marcas e Clasificaci n autom tica y etiquetar los documentos e Extracci n autom tica y la construcci n de un dominio espec fico de terminolog a l xicos El motor Sophia tiene mucha relaci n con esta propuesta pues uno de sus principales objetivos es la recuperaci n de la informaci n Pero esta propuesta se diferencia por integrar todo el proceso de an lisis sem ntico en una sola unidad as los resultados que devuelva depender de los textos que analiza La salida del motor de Sophia en cambio depender de las aplicaciones que se encargan de manejar tanto los documentos y la comunicaci n con el usuario porque esta herramienta funciona s lo como n intermediario entre ellas E EN gt Asociaci n Mexicana de Procesamiento del Lenguaje Natural AMPLN 2
8. Universidad Aut noma Metropolitana Unidad Azcapotzalco Divisi n de Ciencias B sicas e Ingenier a Licenciatura en Ingenier a en Computaci n Propuesta de proyecto terminal Sistema de recuperaci n de informaci n sem ntico Selene Mar a de Jes s Ugalde Ch vez Matr cula 205304493 Trimestre 110 11 de noviembre de 2011 Versi n 1 0 Asesores Dra Maricela Claudia Bravo Contreras Profesor del departamento de sistemas M Hugo Pablo Leyva Profesor del departamento de sistemas Objetivo general Dise ar un sistema de recuperaci n de informaci n sem ntico para recopilar minar y descubrir informaci n relevante sobre un conjunto de documentos Objetivos espec ficos e Aplicar t cnicas de Procesamiento del Lenguaje Natural para analizar textos por su contenido sem ntico e Construir un sistema que permita generar graficas que representen el significado de una oraci n e Convertir la grafica del significado de una oraci n en informaci n organizada y comprensible para el usuario e Dise ar una interfaz de consulta que permita al usuario visualizar la informaci n generada por el sistema Introducci n La computaci n ha revolucionado la forma en que el hombre accede y almacena la informaci n la digitalizaci n ha hecho posible las bibliotecas virtuales y en tan s lo dos d cadas la Internet ha crecido considerablemente y se ha convertido en una herramienta cotidiana con la que podemos tener acceso a
9. aces en lenguaje natural Con estos antecedentes en mente este proyecto pretende utilizar t cnicas del NLP para analizar el significado del contenido de una serie publicaciones Justificaci n Uno de los objetivos importantes que se persigue hoy en la vanguardia de la tecnolog a inform tica es hacer de la gran magnitud de documentos a nuestra disposici n una ventaja y no una desventaja 2 Si adem s de tener una colecci n de documentos pertinentes cont ramos con una herramienta que procesara el contenido de dichos documentos la posibilidad de extraer informaci n til crecer a significativamente Esta propuesta sigue al quehacer computacional en esa direcci n en el sentido de aplicar t cnicas innovadoras para la extracci n automatizada de informaci n Ni m s ni menos que la tarea de un ingeniero Aplicar los conocimientos y t cnicas cient ficas disponibles para la resoluci n de problemas que afectan a la sociedad en su actividad cotidiana El resultado inmediato del proyecto ser una herramienta que recupere informaci n relevante sobre las publicaciones de los profesores de la UAM Azcapotzalco La informaci n generada puede ser til para delinear de manera autom tica los perfiles de investigaci n de nuestros profesores Dentro de sus aplicaciones a futuro puede funcionar desde un medio para lograr el acercamiento y colaboraci n con otras instituciones hasta un mapa de la investigaci n desarrollada por la Un
10. entas a utilizar Dise o de Base de Datos Desarrollo de Interfaz entre modulo sint ctico y sem ntico Desarrollo del modulo generador de representaciones del significado Primera revisi n Trimestre 12 O 112134415 6 7 8 9 10 11 Horas Recuperaci n de la informaci n Discriminaci n y Transformaci n de 54 Representaciones del significado Automatizaci n de la organizaci n y a de la informaci n recuperada Desarrollo de Interfaz de usuario 36 Segunda revisi n y pruebas 36 Redacci n del manual de usuario y ig configuraci n Recursos Y Software Los programas que se utilizar n en la implementaci n del proyecto gestor de base de datos Entorno de desarrollo etc ser n de car cter libre Se cuenta con el acceso a internet para su descarga Y Hardware No se requiere de equipo especializado para el desarrollo del proyecto Se cuenta con una computadora personal con caracter sticas suficientes para el desarrollo del mismo Bibliografia 1 B Coppin Understanding Language in Artificial intelligence illuminated Canada Jones and Bartlett Publishers 2004 2 AMPLN 2009 noviembre 18 Qu es Procesamiento del Lenguaje Natural Online Available http www ampln org pmwiki php n Main PLN 3 Arnetminer 2010 March 10 In
11. iversidad Tambi n representar a la incursi n de nuestra instituci n en el campo de NLP a nivel licenciatura Antecedentes En la Universidad no existen proyectos registrados con relaci n directa a este proyecto 3 En instituciones externas p blicas y privadas los proyectos m s relevantes con relaci n a esta propuesta se exponen a continuaci n gt Arnetminer 3 Arnetminer es una herramienta dise ada para realizar operaciones de b squeda y minado sobre publicaciones en internet Usa el an lisis de redes sociales para identificar conexiones entre investigadores conferencias y publicaciones Esto le permite proveer servicios como b squeda por asociaci n hallazgo de expertos b squeda por recorrido evaluaci n acad mica y modelado por t pico Fue creada como un proyecto de investigaci n en el an lisis sobre influencia social clasificaci n y extracci n de redes sociales Ha estado en operaci n por m s de tres a os durante los cuales ha indexado setecientos mil investigadores y m s de tres millones de publicaciones La Investigaci n fe fundada por el programa nacional de alta tecnolog a R amp D de China La fundaci n nacional de China y el laboratorio de investigaci n IBM China junto con otros patrocinadores Es com nmente usada por academias para identificar relaciones y dibujar correlaciones estad sticas sobre sus investigadores El producto es usado en el estudio encaminado a verificar la popular
12. troduction Online Available http arnetminer org introduction 4 Princeton University 2011 June 21 What is WordNet Online Available http wordnet princeton edu 5 CELI 2011 Sophia Semantic Engine Online Available http www celi it en sophia semantic engine shtml 6 ACL 2011 About the ACL Online Available http www aclweb ore index php option com_content task view id 38Itemid 35 7 D Jurafsky and J H Martin Representing meaning in Speech and Language Processing An Introduction to Natural Language Processing Computational Linguistics and Speech Recognition Marcia Horton ed New Jersey Prentice Hall 2000 S F Verdejo et al 1999 June 2 Information retrieval with NLP techniques Online Available http nlp uned es ircourse 9 R Johansson Dependency based Semantic Analysis of Natural language Text Ph D dissertation Dept Comp Science Lund Univ Sweden 2008 10 T Moure y J Llisterri 2010 Octuber 10 Lenguaje y nuevas tecnolog as el campo de la ling stica computacional Online Available http liceu uab es joaquim publicacions llisterri_moure_96 html 11 A Moreno 2000 Dise o e implementaci n de un lexic n computacional para lexicograf a y traducci n autom tica Online Available http elies rediris es elies9 index htm 12 A Gelbukh y G Sidorov Procesamiento autom tico del espa ol con enfoque en recursos l xicos

Download Pdf Manuals

image

Related Search

Related Contents

Uniden D1785-3T telephone    取扱説明書 - エフ・アール・シー  Skil 4290 Saw User Manual      KUDA 096720 holder  dbx  Philips SC468 User's Manual  

Copyright © All rights reserved.
Failed to retrieve file