Home

Análisis de voz, aplicaciones en sistemas de

image

Contents

1. la zona de an lisis y representaci n Los sonidos de las representaciones de las ventanas superiores e inferiores pueden ser escuchados con la ayuda del men de Reproducci n y botones que se insertan en la pantalla principal 3 Conclusiones El trabajo realizado hasta el momento para el procesamiento de voz en aplicaciones m dicas y educativas ha reflejado la indiscutible necesidad de vincular el conocimiento de la Fon tica Ac stica y su vinculaci n con la fisiolog a de los sistemas productores de la voz y auditivos Los m todos utilizados para el estudio y an lisis de la producci n de voz as como de la percepci n e interpretaci n de la misma son el resultado de la evoluci n del sistema nervioso central y las relaciones sociales entre los hombres Es imposible hoy en d a no tener en cuenta el empleo de la t cnica de computaci n para resolver los problemas de diagn stico rehabilitaci n reconocimiento de voz traducci n autom tica y todo aquello que est ligado a ambos sistemas Se requiere del desarrollo de sistemas de c mputo que incorporen la experiencia m dica y el an lisis de se ales en perfecta armon a para que de una manera multidisciplinaria y eficiente se vayan resolviendo las hip tesis problemas y necesidades que cada d a surgen alrededor del tema Referencias Barr n Ricardo Reconocimiento de palabras aisladas usando cuantizaci n vectorial Tesis de Maestro en Ingenier a de C mputo CIC I
2. An lisis de voz aplicaciones en sistemas de entrenamiento y rehabilitaci n I Dr Sergio Su rez Guerra Investigador Titular ICIMAF Cuba Profesor Investigador CIC IPN M xico e mail ssuarez Ocic ipn mx Telf 5729 6000 ext 56588 e mail sergio Acidet icmf inf cu Telf 32 4085 TI Lic Liseth Garc a Robles Estudiante Maestr a CIC IPN M xico VII Congreso Internacional de Inform tica en la Educaci n Resumen Las aplicaciones computacionales al procesamiento de voz fueron dirigidas en primera instancia a la soluci n del problema de comunicaci n directa entre la computadora y el usuario desarroll ndose sistemas para el reconocimiento de voz interprete de comandos conversi n texto voz y por ltimo en fase de desarrollo la traducci n autom tica De forma sostenida la computaci n ha sido introducida en diversos aspectos de la medicina mediante la creaci n de equipos de diagn stico computarizados que disminuyen considerablemente los errores humanos en an lisis de laboratorio creaci n de medicamentos y an lisis de se ales y sistemas fisiol gicos Se presentan los resultados de un proyecto en ejecuci n que ha ganado muchos adeptos en el an lisis de las caracter sticas m todos y formas de enfocar el an lisis y presentaci n del procesamiento de la voz as como los resultados alcanzados en este caso Palabras Claves Procesamiento de voz Par metros de voz voz y habla Antecedentes Las
3. Estos transmiten la vibraci n hacia los l quidos del o do interno lo que provoca la estimulaci n del rgano de Corti porci n auditiva del o do interno all se genera una actividad el ctrica que toma las caracter sticas del sonido que lo ha producido Neurofisiolog a 1998 Tinnitus La cuesti n m s importante y dif cil de resolver es la naturaleza multi e interdisciplinaria del problema captaci n de se ales preprocesamiento estad stica matem tica redes neuronales l gica difusa reconocimiento de patrones ling stica fisiolog a ciencias de la computaci n etc Esto obliga a concebir los trabajos de procesamiento de voz desde varios puntos de vista teniendo en cuenta la aplicaci n de los resultados compresi n de voz reducir el n mero de bits para almacenar o transmitir voz incrementando la raz n de calidad compresi n para robustecer la codificaci n en canales no ideales de transmisi n reconocimientos de voz dependiente e independiente del locutor reconocimiento del locutor identificaci n o certificaci n del locutor Reddy 1966 Furui 1997 dentro de esto tenemos algo muy de moda como es la traducci n autom tica de idiomas Wahlster 1996 s ntesis de texto voz y por ltimo an lisis de voz forma de onda par metros caracter sticos La tarea de an lisis de voz constituye la base para el desarrollo y entendimiento de la producci n y s ntesis de voz as como de los algoritmos para la iden
4. PN D F M xico octubre de 1998 Barr n Ricardo Sergio Su rez Claudia Montezuma Reconocimiento de comandos verbales utilizando cuantizaci n vectorial y redes neuronales CIC IPN M xico Informe t cnico Serie roja No 40 ISBN 970 18 2673 6 1999 Charles Sterling Williams Designing Digital Filters Englewood Cliff New Jersey Prentice Hall c 1986 CVRecVoz Sistema para el Reconocimiento de Palabras Aisladas utilizando Cuantizaci n Vectorial y T cnica Multisecci n Manual de Usuario Laboratorio de Tiempo Real CIC IPN D F M xico Junio 1999 EXPARAM V 1 2 Su rez Sergio Sistema para la extracci n y an lisis de par metros de la voz Manual de Usuario Instituto de Cibern tica Matem tica y F sica ICIMAF Cuba 1996 Est disponible en el Laboratorio de Tiempo Real del CIC IPN Furui Sadaoki Recent Advances in Speaker Recognition Lectures Notes in Computer Science 1206 Springer 1997 Hayawaka Shoji Speaker Identification Using Harmonic Structure of LP Residual Spectrum Lecture Notes in Computer Science 1206 Springer 1997 Kay Elemetrics Corp DSP Sona Graph Mod 5500 1 Workstation Computer Speech Lab 1998 Mansfred R Schooeder Relation between Cepstrum and Predictor Coefficients Vol ASSP 29 No 2 april 1981 Neurofisiolog a Otooftalmol gica BUENOS AIRES ARGENTINA 1998 http vertigo dizziness com html quienes html Rabiner L A tutorial on Hidden Markov Models and Selected Application
5. d del o do mediante t cnicas de audiometr a Los resultados de estas mediciones se depositan en los datos de la historia cl nica de los pacientes que contiene el sistema Una aplicaci n independiente es la de aplicaciones para la Educaci n Especial el cual se alimenta de varios de los m dulos del sistema Con esta aplicaci n se pretende dotar a las escuelas especiales y a los alumnos y pacientes de un sistema aut nomo para el entrenamiento y la rehabilitaci n de problemas de voz sin necesidad de estar asistiendo a consultas o clases Hay un m dulo que no est enmarcado dentro de las tesis pero del cual hacen uso todos y es el m dulo de representaci n de im genes GIF con el cual y como una ayuda adicional se presenta una realimentaci n visual del objeto que representa la palabra en proceso de an lisis 4 Gesti n y an lisis ac sticos en consultas de foniatr a El objetivo principal del trabajo realizado es disponer de un sistema para le gesti n de pacientes en consulta de foniatr a y realizar el an lisis de voz por m todos computarizados Con respecto a esto ltimo es posible realizar la captura y almacenamiento de las se ales de voz de los pacientes y representar los perfiles de los par metros de palabras y frases de las mismas as como comparar los perfiles obtenidos en la consulta con los resultados del procesamiento de un corpus de voces de personas normales al cual el sistema tiene acceso Sistemas que realice
6. n tanto la gesti n de consulta como el an lisis ac stico de la se al voz y realizados en el pa s no existen de ah la importancia de este trabajo Las ventanas principales de este trabajo se muestran a continuaci n M dulos componentes de la aplicaci n Formulario para el llenado de los datos del paciente En la primera ventana se escoge el tipo de tarea a realizar con el paciente y la segunda es para el caso de llenado del expediente m dico Una vez llenado el expediente m dico existe la posibilidad de obtener y guardar en archivos la voces del paciente as como realizar el an lisis ac stico de la se al de voz recibida En la siguiente figura podemos ver una de estas representaciones Par metro de energ a de la palabra l mpara Las condiciones de tiempo de presentaci n y la selecci n del perfil param trico a observar lo decide el usuario del sistema con el men de la barra superior Es posible o r el sonido que est representado en pantalla lo cual proporciona una doble realimentaci n al especialista y paciente 5 Aplicaci n educativa Un sistema con nuevas caracter sticas est en v as de aplicaci n Donde la presentaci n de perfiles ac sticos se realiza a partir de ambientes en programaci n visual y en tiempo real adem s de combinar las caracter sticas de ser un sistema orientado al registro de pacientes ofrecer men es de rehabilitaci n y entrenamiento En esta pantalla se observa la visuali
7. o como antecedente los trabajos realizados en EXPARAM V 1 2 se trabaja en un proyecto de investigaci n Sistema de procesamiento de voz para aplicaciones m dico foni tricas que abarca diferentes objetivos En la siguiente figura se pueden apreciar claramente los m dulos que conforman el proyecto los cuales a su vez est n enmarcados en diferentes secciones constituyendo cada una de ellas una aplicaci n u objetivo La tesis 1 es un sistema para la Gesti n y an lisis ac stico en consultas de foniatr a el cual servir para darle seguimiento y tratamiento de rehabilitaci n a pacientes con trastornos del habla El proceso de extracci n y representaci n de perfiles ac sticos a partir de par metros de la voz se considera un an lisis cualitativo ya que lo que se busca es retroalimentar al paciente y al m dico especialista con gr ficas que reflejen la variaci n de los par metros seleccionados a lo largo del tiempo de producci n de la voz as como su comparaci n morfol gica y en ning n momento se realizan c lculos num ricos en la desviaci n de las representaciones gr ficas La tesis 2 es una extensi n de la tesis 1 donde se pretende realizar el an lisis cuantitativo de la extracci n de los par metros ac sticos de la se al voz lo cual servir para realizar la clasificaci n diagn stica de algunos pacientes a partir de estas mediciones La tesis 3 tiene como objetivo realizar una medici n de la funcionalida
8. patolog as de Voz Habla y Auditivas se consideran los principales problemas en la comunicaci n humana Una cifra proporcionada por especialista en esta disciplina sit a el problema con un ndice de incidencia global del 10 de la poblaci n Las clasificaciones son diversas atendiendo al grado de severidad de la dolencia 1 Introducci n El procesamiento de la voz con el prop sito de realizar la comunicaci n entre dispositivos autom ticos y el ser humano utilizando el lenguaje oral ha sido motivo de gran expectativa y el sue o de muchos investigadores durante las ltimas tres d cadas Rabiner 1989 Rabiner y Juang 1993 Reyes 1994 Savage 1995 Barr n 1998 Barr n y otros 1999 CVRecVoz 1999 Lo que parec a ser un problema sencillo con el tiempo se ha ido convirtiendo en una tarea cada vez m s complicada La audici n no est delimitada solamente al rgano sensorial perif rico u o do sino que es una funci n mucho m s compleja de elaboraci n neurol gica El o do cumple la funci n de micr fono capaz de captar el sonido pero la elaboraci n y reconocimiento del mismo es una funci n puramente cerebral El o do humano es capaz de percibir las vibraciones sonoras en frecuencias comprendidas entre los 16 y 18 000 Hz Estas vibraciones son captadas por el pabell n de la oreja y transmitidas por el conducto auditivo externo al t mpano el cual al vibrar pone en movimiento a la cadena de huesecillos del o do medio
9. s in Speech Recognition Proceedings of the TEEE Vol 77 No 2 feb 1989 Rabiner L amp Juang B H Fundamentals of Speech Recognition Prentice Hall 1993 Reddy D R An approach to Computer Speech Recognition by Direct Analysis of Speech Wave Tech Report No C549 Computer Science Dept Stanford Univ Sept 1966 Reyes Carlos A On the Design of a Fuzzy Relational Neural Network for Automatic Speech Recognition Universidad del Estado de Florida Colegio de Artes y Ciencias Tesis Doctoral 1994 Savage Jes s A Hybrid System with Symbolic Al and Statistical Method for Speech Recognition Tesis Doctoral Universidad de Washington 1995 Speech Wiever IBM 1996 Su rez Sergio Procesamiento de voz para aplicaciones m dico foni tricas Proyecto de investigaci n CIC IPN M xico D F Junio 2000 Tinnitus International Journal Instituto de Investigaciones Neurootol gicas 4G F Bad Kissingen Alemania y Centro de Investigaciones del Tinnitus de la SUNY y de la Fundaci n Martha Entermann New York USA Wahlster W Prof Verbmovil Approximation Techniques for Spoken Dialog Understanding and Translation IX International Symposium on Artificial Intelligence Cancun 13 nov 1996
10. tificaci n clasificaci n y rehabilitaci n de patolog as en la producci n de la Voz Habla y Lenguaje articulado Dentro de la tem tica de an lisis de voz se han desarrollado los sistemas para el entrenamiento y aprendizaje del habla los cuales se basan en la representaci n de los perfiles ac sticos espectrales correspondientes a frases o palabras Charles 1986 EXPARAM 1996 Oppenheim 1996 Kay 1998 Voice o la animaci n de im genes Speech Viewer 1996 seg n sea la modalidad elegida El idioma tiene una fuerte influencia en la selecci n de par metros b sicos en cuanto a reconocimiento de voz se refiere pero para problemas de articulaci n pueden no ser tan dependientes Las herramientas utilizadas para el reconocimiento de voz e identificaci n de locutor son similares lo que diferencia su alcance es la aplicaci n Mansfred 1981 Havawaka 1997 Furui 1997 Su rez 2000 2 M todos de an lisis ac stico 2 1 An lisis oscilogr fico El oscilograma nos permite hacer la representaci n de las variaciones de amplitud en el habla a lo largo del tiempo como el an lisis de la sonoridad la duraci n las pausas el acento y el ritmo 2 2 An lisis espectral Para ello se utiliza la FFT Fast Fourier Transform Transformada R pida de Fourier con lo que obtenemos un Espectro representaci n de la frecuencia y la amplitud de los arm nicos en un instante de la se al sonora del habla An lisis de la sonoridad y de la estr
11. uctura form ntica timbre Oscilograma del enunciado esto es una demostraci n Espectro de la vocal e 2 3 LPC Linear Predictive Coding Codificaci n por predicci n lineal Es representaci n de la frecuencia y la amplitud de los picos espectrales que representan resonancias del tracto vocal en un instante de la se al sonora del habla An lisis de la estructura form ntica timbre de http www sci fi pitchsys index html 2 4 An lisis espectrogr fico Espectrograma representaci n de las variaciones de la frecuencia y la intensidad en el habla a lo largo del tiempo nos ayuda en el an lisis de la sonoridad la duraci n la estructura form ntica timbre la intensidad las pausas el acento y el ritmo Espectrograma del enunciado esto es una demostraci n Espectro LPC de una vocal 2 5 An lisis mel dico Curva mel dica representaci n de la variaci n de la frecuencia fundamental del habla a lo largo del tiempo An lisis de la melod a el acento y la entonaci n 2 6 An lisis de intensidad Curva de intensidad representaci n de la variaci n de la intensidad del habla a lo largo del tiempo An lisis de la intensidad el acento el ritmo y las pausas Curva de intensidad del enunciado signalyze de http agoralang com signalyze html Curva mel dica del enunciado te espero en la calle de Estruch Garrido Llisterri y Riera 1996 3 L nea de investigaci n en desarrollo Tomand
12. zaci n de una se al de voz de la palabra espada la misma puede ser reproducida de forma auditiva para ser escuchada o ser sometida al procesamiento digital para que los perfiles ac sticos de los diferentes par metros sean presentados analizados y comparados por el usuario del sistema En la siguiente pantalla es posible observar la extracci n de dos perfiles ac sticos de la se al voz en color rojo vemos el par metro de intensidad A0 y en color amarillo el de las frecuencias mayores de 4000 Hz RO Con esta representaci n es posible observar la ocurrencia del fonema s en la parte inferior y determinar si el fonema ha sido adecuadamente producido de forma inequ voca En pantalla inferior siguiente vemos la representaci n param trica de la palabra campana donde es posible observar la ausencia del par metro F2 segundo formante para los fonemas m y n Tambi n es posible presentar en cada una de las ventanas el resultado de la extracci n del mismo par metro para dos sonidos diferente con el fin de comparar visualmente la diferencia del mismo para los dos sonidos Esta presentaci n es muy utilizada para la rehabilitaci n y el entrenamiento de pacientes Los perfiles de par metros ac sticos que se dise aron para su extracci n y representaci n con este sistema incluyen adem s de los mostrados formante F1 cruce de ceros tono fundamental y sus variaciones espectro de frecuencia y acotaci n por cursores de

Download Pdf Manuals

image

Related Search

Related Contents

Bedienungsanleitung  CECH-ZRC1U - PlayStation  Documentation - AGG Software  EDGE® 200  DCS MO-24SS User's Manual  Istruzioni d`uso VEGAPULS 65  Greenheck Fan Greenheck 474750 User's Manual  PrimoSol® 130 - Sonnett GmbH & Co. KG  Bedienungsanleitung User Manual  

Copyright © All rights reserved.
Failed to retrieve file