Home

universidade federal do ceará centro de tecnologia departamento

1. Fonte MACHADO 1997 Cada idioma possui suas especificidades com rela o sua estrutura sonora A unidade de fala b sica da l ngua chinesa por exemplo a s laba as s labas s o compostas por vogais ou por uma vogal em conjunto com uma consoante H 414 s labas em chin s totalizando 1716 s labas se incluir tamb m tons A l ngua eslovaca apresenta apenas 1550 d fonos frequentes KANG et Al 2009 TALAFOV et al 2007 A l ngua japonesa apresenta maior dificuldade no tocante an lise morfol gica e l xica de palavras quando comparada com l nguas europeias A maioria dos caracteres japoneses apresentam diversas pron ncias diferentes dependendo de seu significado e contexto A l ngua japonesa cont m 38 fonemas b sicos entretanto no tocante s ntese de voz a qualidade da voz usando apenas esse limitado conjunto bastante sofr vel KOBAYASHI et al 1998 2 6 Caracter sticas da voz A voz humana pode ser caracterizada pelos seguintes atributos tom timbre dura o e intensidade O tom define a altura musical da voz e pode ser classificado em agudos e graves Vozes masculinas podem ainda ser classificadas em tenor bar tono e baixo Para fins de acessibilidade considera se mais agrad vel o tom bar tono J o timbre o matiz pessoal da voz que um par metro complexo determinado pelo tom fundamental e seus harm nicos podendo ser caracterizado como agrad vel rouco chiado etc
2. fags o JTE BO lt config default gt Figura 5 1 interface gr fica do IDE NetBeans Projetos Arquivos Servi os El P gina Inicial se WordTest java E ConnectDialog java s EHE worarestjava Propriedades x a g vco Ce sro GEOM u Ars GB Pacotes de C digos fonte 20 assertEquals w getSyllables get 3 getSyllable lo a Nome WordTest 5 58 veo 81 assertEquals w getSyllables get 0 getTonicity Tonicity ATONA Eronia A 8 ComectDialog java 82 assertEquals w getSyllables get 1 getTonicity Tonicity TONICA rotons Ares DownloadingDialog java 83 assertEquals w getSyllables get 2 getTonicity Tonicity ATONA Tamanho de Arquivo E Editor java es assertEquals w getSyllables get 3 getTonicity Tonicity ATONA Hora da Modifica o BB Emaiiclient java es E Ciasspaths B Lupa gif 86 w new Word quina Compilar Classpath Hb Lupa java 87 assertEquals w getNumSyllables 2 Classpath de Runtime E MessageDialog java lz es assertEquals w getSyllables get 0 getSyllable qui Classpath de Inicializa o E MessagesTableModel java es assertEquals w getSyllables get 1 getSyllable na l Ei Minibrowser java 90 assertEquals w getSyllables get 0 getTonicity Tonicity TONICA B SimpleChatClient java 91 assertEquals w getSyllables get 1 getTonicity Tonicity ATONA B S
3. Time Time Figura 3 8 fen meno de coarticula o para s labas separadas esq e juntas dir Fonte KANG et Al 2009 KANG et Al 2009 prop e o seguinte algoritmo mostrado na Figura 3 9 para resolver problemas de coarticula o Aplica se uma transformada de Fourier sobre o sinal a fim de calcular a energia desse espectro Assim o espectro de energia de um fonema transita suavemente para o pr ximo fonema por meio da modifica o dos coeficientes de energia Ent o o resultado modificado sofre uma transformada inversa de Fourier passando novamente para o dom nio de tempo e ent o os sinais das formas de onda s o concatenados por meio do algoritmo PSOLA Ou seja a coarticula o sintetizada pela modifica o do espectro de energia na banda transit ria da fala Tal modifica o concatenada com a regi o est vel seguindo ent o com o processo normal de concatena o de forma de onda 67 Entrada de Voz Ha oarticulacao Concatenacao direta da forma de onda Sim Segmentacao da Fala salculo da energia do espectro da slaba de transicao Sintese do segmento de voz de transicao Concantena o com segmento de voz est vel Figura 3 9 solu o proposta por KANG et Al 2009 para resolver problemas de coarticula o Fonte KANG et Al 2009 Traduzido No modelo coarticulat rio mais b sico cada fonema tem um nico alvo articulat rio
4. Processamento Transcri o Fon tica Figura 3 2 diagrama de blocos do bloco de processamento lingu stico pros dico Fonte AZUIRSON 2009 3 2 1 1 Pr Processamento Um texto pode conter diversos s mbolos e caracteres sendo necess rio converter tais s mbolos em caracteres para que seja poss vel ser processado pelos m dulos seguintes Assim caracteres especiais como operadores aritm ticos sinais e outros s mbolos como etc siglas abreviaturas e d gitos s o pr processados em uma etapa denominada normaliza o na qual caracteres s o substitu dos por sua forma por extenso Em um texto gen rico a primeira tarefa consiste em tentar isolar as palavras para que possam ser corretamente processadas nas etapas posteriores principalmente as woe woe woe io AU yn s seguidas por sinais de pontua o como aspas e par nteses A diferen a entre senten as exclamativas interrogativas e declarativas fundamental para a entona o Embora possa parecer uma tarefa simples de substitui o supress o e expans o de s mbolos pode ser extremamente complexa quando certas entradas s o dependentes de contexto AZUIRSON 2009 3 2 1 2 An lise Lingu stica e Morfossint tica A an lise morfossint tica til para resolver ambiguidades com rela o transcri o fon tica Por exemplo a palavra piloto pode ser pronunciada com som aberto ou fechado dependendo de sua fun o morfol
5. o na Internet possibilitando novas formas de navega o o reconhecimento de voz pode ser usado para controlar navegadores applets preencher formul rios etc SUN MICROSYSTEMS 1998 Ademais o reconhecimento de voz pode ser usado para refor ar a seguran a de um sistema admitindo que altera es sejam feitas apenas ap s ser realizada a identifica o do interlocutor por meio de voz SUN MICROSYSTEMS 1998 A s ntese de voz pode auxiliar na redu o de espa o armazenado em disco em aplica es que fa am uso de sa das de voz pr gravadas em um fator de at 1000 vezes menor no tamanho de espa o de armazenamento exigido al m de remover as limita es impostas por senten as pr definidas SUN MICROSYSTEMS 1998 Por fim os comandos por voz s o naturais e mais f ceis de lembrar que a localiza o de fun es em menus e caixas de di logo SUN MICROSYSTEMS 1998 3 2 Vis o geral de um sistema TTS O diagrama de blocos de um sistema TTS convencional mostrado na Figura 3 1 Um sistema TTS composto por duas partes um front end e um back end O front end por vezes chamado de bloco de Processamento Lingu stico Pros dico composto por m dulos NLP Natural Language Processing que correspondem aos blocos de An lise do Texto e inclui as etapas de Pr processamento e An lise Lngu stica e Morfossint tica An lise Fon tica e An lise Pros dica J o back end tamb m chamado 44 de Bloco de Proces
6. rg os respons veis pela fona o Figura A 6 esquema de produ o da voz humana Figura A 7 localiza o das pregas vocais Figura A 8 laringoscopia direta pregas vocais na respira o profunda Posi o respirat ria Figura A 9 laringoscopia direta pregas vocais fechadas Posi o de fona o Figura A 10 laringoscopia direta Parte intercartilag nea da glote aberta na posi o de cochicho Figura A 11 a Movimenta o das pregas vocais durante a fona o b xi 107 112 112 112 113 114 114 119 120 122 128 128 129 130 131 132 134 134 134 135 135 Imagem real de uma prega vocal durante a fona o Figura A 12 ciclo fonat rio Figura A 13 fluxo do processo de leitura e fala como um processo retroalimentado Figura A 14 diagrama de blocos de um sintetizador de voz gen rico Figura A 15 varia o espectral do pitch da vogal A Figura A 16 modelo de uma linha de transmiss o Figura A 17 modelo de linha de transmiss o aplicado ao trato vocal Figura A 18 diagramas esquem ticos de blocos e de fluxo de sinal integrados para a modelagem do trato vocal Figura A 19 modelagem do trato vocal Figura A 20 modelo geom trico gen rico do trato vocal Figura A 21 curva Frequ ncia Hz x Intensidade dB Figura A 22 modelo do trato vocal baseado em tubos de dimens es diversas Figura A 23 diagrama de fluxo de sinais para o modelo
7. Com o aumento da press o nos pulm es o ar flui para fora destes e atravessa as pregas vocais glote De acordo com a lei de Bernoulli quando um fluido se desloca por um orif cio a press o menor na constri o do que nas reas adjacentes Se a tens o nas pregas vocais for adequada a press o reduzida permite que as pregas vocais se toquem bloqueando completamente o fluxo de ar Como resultado deste bloqueio no fluxo de ar a press o sob as pregas vocais aumenta at finalmente atingir um n vel suficiente para for ar abertura das pregas vocais e assim permitir o fluxo de ar atrav s da glote A press o na glote cai novamente e o ciclo se repete LOPEZ 2009 Desta forma durante a fona o as pregas vocais entram em uma condi o de oscila o sustentada A taxa com que a glote abre e fecha controlada pela press o de ar nos pulm es pela tens o nas pregas vocais e pela rigidez das mesmas al m da rea de abertura da glote na condi o de repouso Estes s o os par metros de controle de um modelo para o comportamento das pregas vocais Tais modelos devem tamb m conter a influ ncia do trato vocal uma vez que as varia es de press o no trato vocal interferem nas varia es de press o na glote LOPEZ 2009 133 Tais ciclos vibrat rios se repetem muitas vezes por segundo dependendo da pessoa e da tens o aplicada nas pregas vocais formando o sinal glotal Tal frequ ncia corresponde frequ ncia fundament
8. Desambigua o Hom grafa Convers o Grafema Fonema Fonema com Marca es An lise Pros dica Dura o e Pach Controles Sintese de Voz Voz Sintetizada gt Renderiza o da Voz Figura 3 1 diagrama de blocos de um sintetizador de voz Fonte SCHROETER 2005 Adaptado O front end possui um conjunto de algoritmos que devem normalizar o texto aplicar regras para convers o grafema fonema divis o sil bica e marca o de s laba 45 t nica Estas informa es s o utilizadas para determinar as caracter sticas pros dicas da fala No HTS HMM Based Speech Synthesis System por exemplo as informa es pros dicas s o agrupadas em um arquivo chamado de r tulo de contexto e cont m informa es de diversos n veis como fonemas s labas palavras frases etc COSTA e MONTE 2012 A pontua o n o infal vel Em ingl s por exemplo o ponto pode tanto representar separador decimal como fim de frase Mapeamento de abrevia es e siglas tamb m podem ter resultados amb guos Por exemplo DC pode significar Distrito de Columbia mas tamb m Corrente Cont nua em ingl s Assim a normaliza o de um texto e o m dulo de normaliza o afetam fortemente a taxa de precis o de um sistema TTS bem como a an lise lingu stica que respons vel por determinar sentido de palavras nfase estilo de fala emo es SCHROETER 2005 A convers o grafema para fonema envolve a pron ncia de uma palav
9. UNIVERSIDADE FEDERAL DO CEAR CENTRO DE TECNOLOGIA DEPARTAMENTO DE ENGENHARIA DE TELEINFORM TICA PROGRAMA DE P S GRADUA O EM ENGENHARIA DE TELEINFORM TICA N COLAS DE ARA JO MOREIRA Proposta de um Front End em Java para Sintetizador de Voz Baseado no MBROLA FORTALEZA 2015 ii N COLAS DE ARA JO MOREIRA Proposta de um Front End em Java para Sintetizador de Voz Baseado no MBROLA Disserta o apresentada ao PPGETI Programa de P s Gradua o em Engenharia de Teleinform tica da Universidade Federal do Cear como requisito parcial obten o do t tulo de Mestre em Engenharia de Teleinform tica rea de concentra o Sinais e Sistemas Prof Paulo Cesar Orientador Dr Cortez FORTALEZA 2015 ili Dados Internacionais de Cataloga o na Publica o Universidade Federal do Ceara Biblioteca de P s Gradua o em Engenharia BPGE M838p Moreira Nicolas de Ara jo Proposta de um Front end em Java para sintetizador de voz baseado no MBROLA Nicolas de Aratijo Moreira 2015 205 f il color enc 30 cm Disserta o mestrado Universidade Federal do Cear Centro de Tecnologia Departamento de Engenharia de Teleinform tica Programa de P s Gradua o em Engenharia de Teleinform tica Fortaleza 2015 rea de concentra o Sinais e Sistemas Orienta o Prof Dr Paulo C sar Cortez 1 Teleinform tica 2 Inclus o digital 3 Acessibilidade 4 Voz
10. o 20 t Acoswt Bsenwt 20 LIMA 2010 A Equa o de Movimento de Euler para o movimento de um fluido ideal sob a exist ncia de uma for a externa F em um meio fluido de densidade p dada pela Equa o 21 v vV v 0P 21 T ae LIMA 2010 A 3 Modelagem matem tica do trato vocal Para intervalos curtos de tempo de 3 a 40ms pode se modelar a voz por meio de tr s par metros a a sele o de excita o por sequ ncia de impulsos peri dica ou por ru do gaussiano b a frequ ncia fundamental pitch da excita o peri dica quando utilizada e c os coeficientes de um filtro recursivo linear simulando o trato vocal cujo esquema representado pelo diagrama de blocos ilustrado na Figura A 14 Pode se ent o sintetizar voz atualizando se continuamente estes par metros cerca de 40 vezes por segundo Embora a qualidade sonora desta aproxima o seja baixa soando mec nico em vez de humano requer baixa taxa de atualiza o de dados LOPEZ e FANGANIELLO 2007 Voz sintetizada Greta Gerador de Ruido gt Sons n o voc licos LN 3 o Gaussian Switch Filtro Digital HE Resposta do Trato Vocal Gerador de Impub os Sons voc licos Figura A 14 diagrama de blocos de um sintetizador de voz gen rico Um modelo detalhado do sistema vocal deve envolver pulm es br nquios traqueia glote e o trato vocal O primeiro trabalho abrangente em busca de um modelo f sico detalhado pa
11. o de fonemas e amplitudes A etapa seguinte monta as unidades de acordo com uma lista de alvos fornecidos pelo front end Tais unidades s o selecionadas dentro do invent rio de unidades sonoras dispon veis SCHROETER 2005 3 3 1 Desvantagens Se por um lado a s ntese concatenativa se destaca por gerar resultados com alta qualidade e com baixo custo computacional por outro sua desvantagem reside no fato de por utilizar peda os de fala pode gerar descontinuidade espectral resultando em voz met lica Entretanto tal efeito pode ser minimizado com a sele o e constru o mais rigorosa do invent rio AZUIRSON 2009 Outra desvantagem reside no fato da falta de flexibilidade Os segmentos de forma de onda existentes no invent rio s o constru dos a partir de um falante em particular Caso se deseje uma nova voz deve se construir um novo invent rio de formas de onda com um novo falante MAEDA 1995 Al m disso devido ao fato do banco de dados ser de tamanho finito imposs vel alcan ar todas as poss veis variantes existentes na fala natural Para que seja poss vel 54 tem se de lan ar m o de t cnicas que modifiquem a voz gravada em termos de din mica articulat ria timbre ritmo e entona o T cnicas no dom nio do tempo s o utilizadas para modificar o pitch e a dura o mas poucas t cnicas concatenativas realizam alguma modifica o espectral nas unidades sonoras Uma destas poucas modifica es consiste
12. o dos mesmos com base nos deslocamentos observados Assim poss vel obter imagens nas quais os pixels representam a elasticidade em cada ponto dos tecidos BRAND O 2011 Certas partes do sistema de produ o de voz podem ser melhor modeladas ao considerarmos o aspecto estoc stico atrav s da modelagem de incerteza das presentes nessas partes Isto pode ser feito atrav s da associa o de vari veis aleat rias a par metros do sistema e construindo para cada vari vel aleat ria uma fun o densidade de probabilidade de acordo com uma certa estrat gia Em determinados artigos as fun es de densidade de probabilidade foram constru das com base no Princ pio da M xima Entropia construindo um sistema din mico n o linear estoc stico visando a gera o de sons vozeados BRAND O 2011 A tarefa da modelagem 3D das pregas vocais envolve detalhes com a colis o das pregas vocais movimenta o do fluxo de ar varia o dos carregamentos para as diferentes posi es e pontos das pregas vocais estima o medi o dos valores iniciais e de contorno BRAND O 2011 A depend ncia da rea de se o transversal ao longo do trato vocal chamada Fun o rea do trato vocal A fun o rea para uma vogal por exemplo determinada principalmente pela posi o da l ngua mas as posi es do maxilar l bios e em menor propor o a do v u palatino tamb m influenciam no som resultante BRAND O 2011 A fun o
13. Assistive Technology Service Provider Interface CDC Context Dependent Culstering CSS Concatenative Speech Syntehsis DAM Diagnostic Acceptrability Measure DRT Diagnostic Rhyme Test ECI Eloquence Command Interface FFT Fast Fourier Transform HMM Hidden Markov Models HMMSS Hidden Markov Model based Speech System HNM Harmonic plus Noise Model JSAPI Java Speech API JSML Java Speech Markup Language JVM Java Virtual Machine LPC Linear Predictive Coding MBROLA Multi Band Resynthesis OverLap Add MECC Mel Frequency Cepstral Coefficients MLLT Maximum Likelihood Linear Transformation MOS Mean Opinion Score MRTD Modified Restricted Second Order TD NLP Natural Language Processor OMS Organiza o Mundial de Sa de PSOLA Pitch Synchronous Overlap and Add SAPI Microsoft Speech Application Programming Interface SMG Stochastic Markov Graphs SPR Symbolic Phonetic Representation SSML Speech Syntehsis Markup Language STFT Short Time Fourier Transform STM Spectral Transition Measure TD Temporal Decomposition TD PSOLA Time Domain Pitch Synchronous Overlap Add TE Tree Expansion TTS Text to Speech WAR Word Accuracy Rate WER Word Error Rate xvi SUM RIO 1 INTRODU O 1 1 Impactos da falta de acessibilidade na vida di ria do deficiente visual 1 2 Solu es existentes para a integra o social dos deficientes visuais no Brasil 1 3 Objetivos 1 4 Trab
14. Esta abordagem prop e estrutura em cascata para um f cil controle dos sons vozeados e em paralelo para os sons fricativos A estrutura em cascata melhor para sons vozeados aproximando seu envelope espectral e permitindo um nico controle de amplitude Ressonadores digitais de segunda ordem s o usados em s ntese de formantes porque filtros de ordem superior requerem bits adicionais nos seus coeficientes multiplicadores para atingir a mesma precis o espectral Os fonemas vozeados que dominam a fala tanto em tempo como energia s o excitados na glote assim o filtro modela todo o trato vocal As obstrutivas excitam apenas uma pequena por o do trato vocal gerando ru dos obstrutores Assim para os obstrutores o trato vocal fornece resson ncias de frequ ncia maior e bem menos energia nas baixas frequ ncias Usar ressonadores em cascata inadequado em tais circunst ncias uma vez que os par metros devem mudar abruptamente ao se mudar de sons vozeados para obstrutores sendo mais conveniente usar filtros de segunda ordem em paralelo com os mesmos par metros dos filtros em cascata excetuando o controle de amplitude Enquanto que para os sistemas em s rie apresentam um nico controle de amplitude na estrutura em paralela variada separadamente Um banco de filtros paralelos pode ser usado para sons vozeados mas cada amplitude formante deve ser especificada individualmente Tal controle de amplitude essencial para os obst
15. Ol professor gerada por locutor humano Um espectrograma ou sonograma a representa o da varia o tempo frequ ncia em que o valor em um dado ponto isto a pot ncia de uma dada frequ ncia num dado instante de tempo representado por um n vel de uma cor em uma dada escala crom tica Por fim utilizando o comando specgram do Matlab v 2013a foi gerado o espectrograma gr fico Frequ ncia x Tempo mostrado na Figura 6 3a por meio dos seguintes comando Ly fs wavread Teste wav l o arquivo de udio left y 1 fy fft left transforma forma de onda do dominio do tempo para o dominio da frequ ncia usando FFT figure specgram fy exibe espectrograma Sendo o mesmo resultado comparado com o espectrograma da voz natural mostrado Figura 6 3b 114 Frequency 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000 Time Figura 6 3a espectrograma obtido para a frase Ol professor gerada pelo sintetizador Frequency Figura 6 3b espectrograma obtido para a frase Ol professor gerada por locutor humano 115 O que se pode observar nestes resultados a aus ncia dos pontos de concatena o na voz natural Fato facilmente observado no espectrograma mais suave da voz natural que mostra a varia o gradual de pot ncia representado pela varia o mais cont nua da cor em compara o com o resultado descont nuo gerado pelo sintetizador Pe
16. On gt K em que P o instante do valor de pico e K o instante em que ocorre a oclus o completa O c digo desenvolvido em Matlab mostrado abaixo gera sinais glotais cujas respostas s o mostradas nas Figuras A 31 e A 32 P 35 K 40 for n 1 P 1 g n 0 5 1 cos pi n 1 P end for n P 1 K 1 g n cos pi n 1 P 2 K P end plot 0 K g fs 8000 t 0 04 f0 100 TO fs fO N floor fs t K x zeros 1 N for i 1 TO N x i 1 end y conv x g figure 2 plot 0 N K 1 y na Fa 0 8 0 7 0 6 0 5 0 47 0 3 F 0 2 0 17 Figura A 31 resposta obtida para o c digo MATLAB para obten o de sinais glotais 151 152 ogh E 0 8 b oep 1 osk o4t l l l 0 24 o py 014 0 L T L E E L 0 50 100 150 200 250 300 350 Figura A 32 resposta obtida para o c digo MATLAB para obten o de sinais glotais 4 3 4 Modelo do Trato Vocal com Perdas O grau de resist ncia que o meio oferece ao movimento se traduz nos conceitos de imped ncia ac stica definida como o quociente entre as transformadas de Laplace da press o e a velocidade e no conceito dual de admit ncia ac stica que por sua vez o quociente entre as transformadas da velocidade a press o A admit ncia pontual dada por Va o x S VOS i 3 Ppareae 0 x s 50 em coordenadas cil ndricas 0 x sendo Pparede 0 x S
17. Time mS Frequency KHz Figura 2 1 espectro de sons vozeados e sons n o vozeados Fonte SPANIAS 1994 Para efeitos de an lise o sinal considerado nulo fora da janela de observa o o intervalo de 5 a 20 ms em que o sinal considerado estacion rio ou seja seja s n sinal de voz o sinal observado x n dado por x n s n w n em que n 0 O lt n lt N 1 VU lo n lt 00un gt N 1 A transformada localizada de Fourier X n 6 chamada tamb m de STFT Short 2 Time Fourier Transform do sinal x n a transformada de Fourier do sinal x m w n m em que w n uma janela de pondera o x n 0 x m w n m esJ g9 2nfT 3 m e para um sinal amostrado N 1 X n k 2 x m w n m e IPMN 4 m 0 Fd A transformada localizada de Fourier uma fun o da frequ ncia f ou k e do instante central de observa o 38 Devido natureza n o estacion ria do sinal de voz a transformada localizada de Fourier uma das principais ferramentas de an lise na frequ ncia O resultado que se obt m e a convolu o da transformada do sinal com a transformada da janela Para an lise de um segmento longo n o estacion rio de sinal usa se uma janela deslizante no tempo e para cada posi o da janela determina se a transformada localizada 2 6 2 Frequ ncia Fundamental Pitch frequ ncia fundamental de vibra o das cordas vocais que produzem sons vozeados que a caracter stica mai
18. como a equa o de ordem p temos ent o p ra zes caracter sticas z Geralmente para voz masculina temos p 10 e as ra zes formam pares complexos conjugados de forma que todos os coeficientes assumem valores reais LOPEZ e FANGANIELLO 2007 A s ntese de voz utilizando o modelo de equa es de diferen as requer que primeiramente um segmento de voz real seja analisado para que se possa determinar quais coeficientes s o mais apropriados para cada segmento de 10ms Para cada um destes segmentos deve se calcular um conjunto de coeficientes j O processo de extra o de um bloco de 10ms do sinal original chamado janelamento A fun o de janelamento mais comum a Janela de Hamming que apresenta transi o mais suave evitando problemas de an lise LOPEZ e FANGANIELLO 2007 Ap s o janelamento uma an lise estat stica dos dados que determina o grau de correla o entre as amostras adjacentes utilizada para se calcular os coeficientes que 140 forne a a melhor predi o do sinal isto que minimize o erro de predi o Uma vez encontrados estes coeficientes pode se sintetizar voz aplicando se um sinal apropriado de entrada ao modelo No caso de sons vozeados um bom modelo da fonte para o sinal de entrada um trem de impulsos ideais a uma dada frequ ncia sendo que a frequ ncia determina o pitch J no caso de sons n o vozeados um bom modelo de fonte para o sinal de entrada um ru do branco gaus
19. de grande utilidade para o processamento pros dico O resultado da transcri o fon tica dependente da l ngua para o qual o sistema projetado pois o conjunto de fonemas e o mapeamento entre letras e fonemas varia bastante de uma l ngua para outra Algumas l nguas s o bastante fon micas ou seja a escrita muito pr xima da express o oral como o russo italiano e espanhol quando comparadas a outras mais irregulares como ingl s e franc s e nesse caso a dificuldade de realizar a transcri o bem menor A l ngua portuguesa razoavelmente fon mica entretanto ainda assim a transcri o n o uma tarefa trivial AZUIRSON 2009 A transcri o fon tica realizada com base em um conjunto de regras sendo que algumas palavras fogem totalmente s regras de transcri o algumas por serem estrangeiras Este problema entretanto pode ser facilmente contornado por meio de um dicion rio de exce es contendo a palavra com sua respectiva transcri o fon tica A busca pela palavra no dicion rio de exce es a primeira tarefa realizada quando iniciado o m dulo de transcri o fon tica Quando a palavra n o encontrada no dicion rio ent o se segue a divis o sil bica identifica o da s laba t nica e aplica o das regras de transcri o Para o portugu s a aplica o direta das regras de transcri o adequada para boa parte dos casos AZUIRSON 2009 A determina o de s labas t nicas
20. entender e naturalidade o quanto a voz se parece com a humana A clareza e a compreens o est o relacionadas com todas as etapas descritas no processo de s ntese uma vez que qualquer erro em uma delas poder afetar a compreens o de modo a n o se fazer entender ou ser entendido erroneamente A naturalidade est ligada mais pelos est gios finais do processo mais especificamente 73 pelo processo de m trica e gera o da forma de onda PITT 1996 SCHUMACHER 1995 YANKELOVICH 1995 poss vel se ter uma voz completamente artificial e completamente compreens vel bem como ter uma voz natural mas que nem sempre seja poss vel entender embora isso seja menos comum SUN MICROSYSTEMS 1998 Abaixo s o descritos algumas situa es nas quais os sintetizadores podem gerar resultados insatisfat rios 3 4 1 Erros quanto normaliza o do texto Mudan a de pron ncia de uma mesma palavra em diferentes contextos Para este caso a solu o proposta o uso de heur sticas estat sticas de frequ ncia de ocorr ncia examinando os vizinhos a fim de realizar a desambigua o de hom grafos Recentemente tem sido usados t cnicas com HMM cuja taxa de erro tem sido inferior a 5 Converter n meros um problema tamb m frequente pois a forma como s o lidas dependente de contextos podendo ser lidos um a um ou como um n mero nico Por exemplo 123 pode ser lido como um dois tr s ou cento e vinte e tr s Algarismos romano
21. estar pr ximo ao dispositivo Al m disso o uso de sistemas baseados em voz admite a intera o atrav s do telefone e garante acessibilidade aos deficientes visuais Outras aplica es poss veis s o ensino de l nguas estrangeiras livros e brinquedos falantes AZUIRSON 2009 43 Em salas de cirurgia onde cirurgi es mant m suas m os ocupadas e o eventual contato com teclados representam um risco higiene comandos de equipamentos m dicos por voz podem facilitar o andamento de um procedimento cir rgico Adicionalmente os sistemas de voz t m sido amplamente utilizados em call centers de empresas por oferecerem um meio de intera o mais natural e substancialmente mais eficiente e r pido do que interfaces baseadas em digita o Aplica es em empresas de telefonia com hardware dedicado capazes de suportar um grande n mero de conex es simult neas por exemplo usando cart es DSP com capacidades para reconhecimento e s ntese de voz podem ser substitu das em parte por tais aplica es Tecnologias de voz t m sido integradas em um grande n mero de sistemas embarcados de pequena escala como forma de reduzir mais ainda o tamanho como PDAs Personal Digital Assistant brinquedos e controles de dispositivos em geral Intera es via voz podem ser uma alternativa mais atraente como interface em smartphones ao inv s da tecnologia touch screen Al m disso podem permitir tamb m que seja melhorada a experi ncia de navega
22. fonos uma vez que semi fonemas permitem que o algoritmo de busca criem d fonos que n o foram gravados a partir dos semi fonemas A busca tima pelas unidades dependente de fatores como a similaridade espectral nos contornos das unidades e r tulos pros dicos configurados pelo front end SCHROETER 2005 Durante o treinamento as unidades s o escolhidas para o banco de dados em fun o de dois custos a serem minimizados o da escolha apropriada da unidade durante a execu o para um dado contexto fon tico e a jun o bem sucedida das unidades Caso as unidades armazenadas sejam de baixa qualidade ou redundantes o resultado ser ruim Caso as unidades sejam boas mas as transi es ruins a s ntese apresentar muitas descontinuidades O algoritmo deve examinar muitas frequ ncias diferentes dentre as unidades eleg veis existentes no banco de dados calculando os custos propostos para cada unidade em termos de custo calculado para cada caracter stica desejada da unidade e o custo de concatena o Caso a distor o seja excessiva o banco de dados atualizado adicionando novas unidades ou atualizando o banco de dados reduzindo a distor o m dia Tal solu o pode ser aplicada tamb m a distor es intersegmentais e a falhas ac sticas causadas pela suaviza o requerida pelas unidades na fun o de quadros temporais adjacentes Embora se deseje minimizar todos os custos ainda n o h resultados claros sobre qual deve predo
23. interaritendidea Figura A 9 laringoscopia direta pregas vocais fechadas Posi o de fona o Fonte PUTZ 2001 135 Epiglote Rima da glote Prega vocal Parte intermembran cea Rima da glote Prega vestibular Parte intercartilaginea Figura A 10 laringoscopia direta Parte intercartilaginea da glote aberta na posi o de cochicho Fonte PUTZ 2001 b Figura A 11 a Movimenta o das pregas vocais durante a fona o b Imagem real de uma prega vocal durante a fona o Fonte BRAND O 2011 136 Cada prega ou corda vocal uma dobra de tecidos que se comportam como um conjunto mec nico composto por m sculo e ligamentos r gidos e pesados revestidos por um conjunto composto por tecido conjuntivo e epitelial flex vel O fluxo de ar modulado medida em que as pregas vocais abrem e fecham ciclicamente A vibra o gotal ocorre de forma aproximadamente peri dica mas com velocidade de fechamento maior que a de abertura em cada ciclo que permite o aparecimento de uma componente harm nica al m da fundamental LIMA 2010 A din mica das pregas vocais mostrada na Figura A 12 na qual est mostrado um ciclo completo LIMA 2010 Ajustes fechada abertura fechamento fechada Pr rapido A fonat rios Figura A 12 ciclo fonat rio Fonte LIMA 2010 Dependendo da frequ ncia e intensidade do som que se deseja produzir podem ser realiza
24. isto chamado de mapeamento texto para fonema ou ainda mapeamento letra para som e geralmente feito por meio de Lookup Tables Um dicion rio tamb m pode ser usado incluindo todas as palavras sua pron ncia com marca o de s laba t nica categoria e informa es sint ticas e sem nticas Alguns sistemas tamb m possuem regras para prever a pron ncia por exemplo na l ngua inglesa o som p pronunciado como p exceto quando sucedido por h Em certas l nguas como o coreano e espanhol tal mapeamento simples j que a h uma rela o direta de um para um entre letras e fonemas Outras l nguas s o descritas por um pequeno conjunto de regras como o italiano e o alem o J outras s o mais complexas como o ingl s e o chin s Nos sistemas TTS mais sofisticados os erros se limitam a nomes pr prios e palavras estrangeiras n o existentes no dicion rio SHAUGHNESSY 2003 3 2 1 m dulo de processamento lingu stico pros dico O objetivo da etapa de processamento lingu stico pros dico obter uma sequ ncia de unidades sonoras correspondentes ao texto de entrada em conjunto com os par metros referentes pros dia 47 Os sub processos envolvidos nesta etapa est o mostrados na Figura 3 4 que s o Pr Processamento An lise Lingu stica e Morfossint tica Transcri o Fon tica e Processamento Pros dico Processamento Pros dico An lise Lingu stica e Morfossint tica Pr
25. m apresenta baixo ndice de sucesso As barreiras encontradas pelos portadores de defici ncia visual s o em larga escala resultado direto de produtos e servi os que n o foram projetados com o intuito de serem acess veis A fim de reduzir essas barreiras necess rio adicionar suporte s tecnologias assistivas Aplica es gr ficas n o s o transformadas adequadamente em aplica es de fala por diversas raz es Primeiro aplica es gr ficas nem sempre refletem o vocabul rio ou at mesmo conceitos b sicos que duas ou mais pessoas usam enquanto est o falando Por exemplo ao se referir a um calend rio as pessoas costumam usar datas 33 66 relativas como daqui a uma semana amanh depois de amanh etc A organiza o da informa o outro ponto importante a ser considerado Apresenta es que costumam funcionar bem em ambientes gr ficos costumam fracassar completamente em ambientes falados Ler exatamente o que est escrito na tela raramente efetivo podendo soar at mesmo estranho ao usu rio Como em um cliente de e mail em que por exemplo s o mostradas informa es de remetente assunto data e hora e tamanho Al m de tomar tempo falar todas essas informa es nem todas s o necess rias como o tamanho e soam pouco natural Ap s se ler dez mensagens por exemplo o usu rio j esqueceu informa es relevantes sobre o primeiro Primeiramente mais til organizar os e mails p
26. nasal h produ o de sons nasais como m ou n A cavidade oral embora constrita permanece acusticamente acoplada faringe e dessa forma a boca atua como cavidade ressonante ou seja sons nasais como por exemplo o n se devem devido ao acoplamento ac stico do trato nasal com o trato vocal LOPEZ 2009 SPANIAS 1994 Sons pulsantes como o p por exemplo s o produzidos ao soltar a press o do ar produzido atr s do fechamento do trato vocal abruptamente SPANIAS 1994 Com o intuito de uma vis o global da complexidade da l ngua portuguesa seus fonemas est o mostrados na Tabela 2 5 Tabela 2 5 fonemas da l ngua portuguesa S mbolo Exemplo Transcri o Fonol gica p Paca paka b Bula bula t Tara tara d Data data k Cara quero kara k ro g Gola guerra g la g Ra f Faca faka TAZ Vala vala s Sola assa mo a sola asa mosa a Asa zero aza z ro Ixl Mecha x m xa xa j Jaca gela jaka jela m Mola m la n Nata nata my Ninho nino MV Lata lata IAI Calha kaha Irl Para para R Rota carro a Ir ta KaRosa Jal C ka Mel m l lel Seda seda fil Rica frica 6 Mola mola 35 Tabela 2 5 fonemas da l ngua portuguesa continua o S mbolo Exemplo Transcri o Fonol gica o Tola tola u Gula gula
27. o Formantes Hrnacr 08 Fator de Amplitude g1 Digital e Digits Filter Filtro 2 Fator de Amplitude g2 Figura B 2 diagrama de blocos explicando a sintese baseada em formantes Fonte SCHROETER 2005 Adaptado e Traduzido B 3 S ntese baseada em sele o autom tica de unidades Na s ntese concatenativa os d fonos devem ser modificados por meio de t cnicas de processamento de sinais a fim de produzir a pros dia desejada Tal modifica o pode resultar em sons n o naturais A s ntese de sele o de unidades resolve este problema armazenando no invent rio m ltiplas inst ncias de cada unidade sonora com diversas pros dias A unidade se se adequa mais pros dia ent o selecionada por um 171 algoritmo de sele o baseado na minimiza o de fun es custo chamadas de fun o alvo e fun o de concatena o e concatenada de tal forma que as modifica es nas unidades sejam m nimas ou simplesmente n o sejam necess rias TABET 2011 A s ntese por sele o unidades fornece grande naturalidade pois h pouca necessidade de grandes altera es na unidade gravada por meio de t cnicas de processamento digital de sinal que tornam a voz menos natural exceto eventualmente em alguns pontos de concatena o al m de minimizar a descontinuidade espectral e pros dica Assim a sele o autom tica de unidades requer muito menos modifica o das unidades sonoras o que leva a uma qualida
28. o do MBROLA os fonemas podem ser sintetizados com uma dura o m xima que depende da frequ ncia fundamental em que foram produzidas Maior a frequ ncia menor a dura o Para uma frequ ncia de 133 Hz a dura o m xima de 7 5 s Para a frequ ncia de 66 5 Hz a dura o de 15 s e para a frequ ncia de 266 Hz esse valor de 3 75 s Assim o conjunto composto pelo front end e o MBROLA forma um sistema TTS completo capaz de converter texto em sinal de voz importante frisar que embora o foco desta Disserta o seja a l ngua portuguesa o uso do MBROLA permite que o sistema possa ser modificado para todas as l nguas dispon veis para o mesmo desde que se atente para as devidas modifica es das regras de transcri o fon tica e de pros dia O sistema n o exige equipamentos robustos muito menos hardware adicional 5 3 4 O pacote de softwares desenvolvido O projeto composto por um sintetizador de voz editor de texto cliente de e mails chat navegador web e lente de aumento cujas respectivas interfaces s o mostradas na Figura 5 5 A escolha a respeito das ferramentas presentes no pacote de software proposto deve se ao fato de serem as aplica es mais comuns e teis para usu rios de computador em geral e embora j existam algumas solu es acess veis para aplica es como lente de aumento e sintetizador de voz n o h atualmente um pacote que integre todas essas aplica es seja nativamente multiplatafor
29. o dos par metros amostrais da voz que ser a entrada para um filtro MLSA respons vel por gerar aproxima es de voz baseado em par metros amostrais criando assim voz sintetizada COSTA e MONTE 2012 A etapa de treinamento semelhante quela existente em sistemas de reconhecimento de voz A principal diferen a reside no espectro coeficientes mel cepstrais e sua din mica e par metros de excita o Log fo que s o extra dos a partir de um banco de dados e modelado por HMMs dependentes de contexto contextos fon ticos lingu sticos e pros dicos s o levados em considera o A modelagem dos par metros envolvem distribui es de probabilidade multi espa o Log fo e densidades de dura es de estado para modelar estruturas temporais da fala Assim o sistema modela espectro excita o e dura o 178 Os par metros alterados na etapa de treinamento s o os seguintes fator alfa ordem de an lise mel cepstral e frame shift O fator alfa relacionado distor o da fala e diretamente dependente da frequ ncia de amostragem e tamb m do locutor J a Ordem de an lise mel cepstral define a quantidade de padr es que ser o analisador por quadro Assim maior a ordem melhor o resultado da an lise Por m importante observar que para baixas taxas de amostragem pode ser at prejudicial uma an lise muito grande pois aumentando a an lise n o estar aumentando q quantidade de informa o nos padr es
30. o subnormal aquele que l tipos impressos ampliados ou com aux lio de recursos pticos mais poderosos INSTITUTO BENJAMIN CONSTANT 2015 De acordo com o Instituto Benjamin Constant uma pessoa considerada cega se corresponde a um dos crit rios seguintes a vis o corrigida do melhor dos seus olhos de 20 200 ou menos isto se ela pode ver a 20 p s 6 metros o que uma pessoa de vis o normal pode ver a 200 p s 60 metros ou se o di metro mais largo do seu campo visual subentende um arco n o maior de 20 graus ainda que sua acuidade visual nesse estreito campo possa ser superior a 20 200 INSTITUTO BENJAMIN CONSTANT 2015 Nesse contexto caracteriza se como portador de vis o subnormal aquele que possui acuidade visual de 6 60 e 18 60 em escala m trica e ou um campo visual entre 20 e 50 INSTITUTO BENJAMIN CONSTANT 2015 29 2 2 Inclus o digital Por inclus o digital entende se como a permanente busca por igualdade de condi es e oportunidades a fim de evitar situa es de priva o Na pr tica isso significa favorecer o acesso do cidad o ao mundo virtual reduzir o analfabetismo digital por meio do fornecimento de conhecimento b sico sobre inform tica e melhorar e adaptar a interface para o seu p blico alvo Em outras palavras para pessoas com necessidades especiais a inclus o digital envolve quebrar barreiras arquitet nicas de comunica o e de acesso f sico a equipamentos e softwares adequados e
31. rios gerais afirmou que n o usaria de forma alguma o sistema baseado no FreeTTS proposta B ficando com as propostas A e C informando ainda que as op es A e C apresentam s ntese quase humanas n o deixando a desejar de jeito nenhum sic quando comparado com todas as ferramentas as quais teve acesso como por exemplo DOSVOX e NVDA e disse que o projeto se encontrava no rumo certo sic O sistema foi testado tanto em ambientes GNU Linux como em Microsoft Windows apresentando em ambos a mesma qualidade Al m de servir de front end para o MBROLA o sistema pode ser modificado facilmente para prover suporte ao Java Speech API e API do Google Translator fornecendo suporte para diversas l nguas estrangeiras al m do portugu s 6 4 Testes em campo an lise quantitativa Por se tratar de um crit rio subjetivo do ouvinte avaliar vozes e falar humanas uma tarefa dif cil de ser realizada COSTA e MONTE 2012 Neste trabalho foram usadas como principais m tricas o MOS e o WER WAR O MOS Mean Opinion Score uma m trica se baseia na m dia de conceitos que v o de 1 a 5 obedecendo a seguinte escala 1 Muito ruim 2 Ruim 3 Razo vel 4 Bom 5 Excelente Assim o MOS utilizado para verificar a naturalidade e a inteligibilidade da fala No que diz respeito naturalidade da fala o ouvinte convidado a identificar se uma determinada fala que ouviu natural e tentar distinguir se foi pro
32. sculo A o Principal Cricotireoideo Estica e tensiona a prega vocal Cricoariten ideo posterior Abduz a prega vocal Cricoariten ideo lateral Abduz a prega vocal por o interligamentosa Tireoariten ideo Relaxa a prega vocal Ariten ideos obl quo e transverso Fecha a por o intercartilag nea da rima da glote Relaxa a parte posterior do ligamento vocal enquanto mantendo Vocal ou aumentando a tens o da parte anterior Fonte MOORE e DALLEY 2001 O trato vocal funciona como um guia de onda ou filtro ac stico que deixa passar o sinal sonoro produzido pela vibra o das pregas vocais em determinadas frequ ncias enquanto atenua outras Tal vibra o das pregas vocais resulta na produ o de voz e resultante do fluxo de ar proveniente dos pulm es ocasionando o chamado Efeito Bernoulli mostrado na Figura A 4 BRAND O 2011 Fluxo de ar dos pulm es L bios A Trato Vocal Figura A 4 efeito de Bernoulli nas pregas vocais No processo de emiss o de voz h cinco fen menos relacionados a respira o a fona o a resson ncia a articula o e a pros dia Na respira o o f lego e o controle respirat rio s o importantes para que n o ocorra interrup o durante a fala O fen meno da fona o se refere qualidade e s caracter sticas da voz produzida pela laringe enquanto que a resson ncia a modifica o seletiva da inflex o na voz quando a corren
33. seja f sica sensorial cognitiva ou outra n o somente a habilidade reduzida que afetada necess rio come ar a atuar em um mundo em que muitos aspectos da vida di ria mudam radicalmente 1 2 Solu es existentes para a integra o social dos deficientes visuais no Brasil Diversas medidas t m sido adotadas por governos e pela sociedade a fim de assegurar a integra o social de pessoas com defici ncia Deficientes auditivos podem por exemplo acompanhar programa o televisionada por meio de fun es como Closed Caption legendas que transcrevem o que est sendo falado Institui es de ensino tem procurado difundir a Linguagem Brasileira de Sinais LIBRAS a fim de melhor capacitar ouvintes e deficientes auditivos permitindo que ambos possam se comunicar por meio de uma linguagem padr o Nos setores da constru o civil arquitetura e transporte tem se difundido os conceitos de acessibilidade por meio da constru o de rampas e elevadores para garantir uma melhor mobilidade daqueles que apresentam dificuldade de locomo o No caso de deficientes visuais bibliotecas p blicas t m procurado disponibilizar parte de seu acervo em Braille Al m disso medidas de acessibilidade para deficientes visuais t m sido preocupa es n o s a n vel nacional como tamb m internacional Organismos respons veis por estabelecer padr es na internet teceram recomenda es e normas a fim de assegurar o acesso para aqueles que en
34. tornam se imprescind veis Um outro problema que aparece nesse tipo de processamento o serrilhado aliasing no momento seguinte amplia o da imagem A solu o desse problema por m cr tica Seu custo computacional alto e a aplica o em quest o dependente de respostas em tempo real Assim a pesquisa e ou desenvolvimento de um algoritmo de anti aliasing eficiente torna se igualmente necess rio N o basta aos ampliadores um tratamento baseado apenas no tamanho da letra na cor de fundo e ou no contraste da tela H mais par metros em jogo nesse processo profundidade luminosidade contorno tanto da letra quanto do desenho exibido Seguindo a necessidade de desenvolver facilmente uma interface gr fica simples o que implica programa o gr fica em um sistema que tem por objetivo ser port vel a lente de aumento virtual foi desenvolvida tamb m usando a linguagem Java e fazendo 109 uso da replica o do vizinho mais pr ximo por uma quest o de simplicidade e velocidade 5 3 4 2 Editor de Texto O editor de texto desenvolvido apresenta uma interface simples e com poucas funcionalidades como abrir salvar sair copiar recortar e colar semelhante ao Gedit do Gnome ou Notepad do Microsoft Windows trabalhando com textos simples sem imagens ou itens de formata o como cor estilo do texto etc Ao salvar o arquivo o sistema l o texto que foi digitado 5 3 4 3 Aplica es de Chat Foi desenvolvido ta
35. vel por influenciar a dura o do fone Baseado na l ngua inglesa estabeleceu se o seguinte conjunto de regras cada segmento possui uma dura o intr nseca correspondente a um valor m dio da distribui o dos valores que aquele segmento pode assumir e cada regra tenta prever a varia o percentual a fim de efetuar um aumento ou diminui o na dura o do segmento Al m disso os segmentos n o podem assumir valores menores que uma certa dura o m nima AZUIRSON 2009 A equa o b sica desse modelo pode ser expressa por AZUIRSON 2009 N D Drin kj Di Din 5 j 1 Em que D a dura o calculada para o segmento D a dura o intr nseca para o segmento Dmin a dura o m nima para o segmento k um fator de ajuste da dura o associada regra j en n mero de regras aplic veis ao contexto Esta equa o expressa a contribui o ponderada da diferen a entre as dura es intr nseca e m nima para a dura o de cada segmento Este c lculo fundamental pois uma dura o correta faz com que o resultado se aproxime o m ximo poss vel de um falante natural 51 As regras se aplicam a fonemas s labas palavras constituintes pros dicos e senten as salientando que essas regras espec ficas para cada l ngua sendo no caso do modelo de Klatt a l ngua inglesa AZUIRSON 2009 Nas regras definidas por Klatt n o foram determinados os valores dos par metros associados a cada reg
36. vogais s o mais intensas que consoantes e obviamente s labas t nicas mais intensas que as tonas A dura o est fortemente ligada com fonemas sendo que as vogais s o mais longas do que as consoantes bem como s labas t nicas em rela o s tonas A frequ ncia fundamental ou pitch Fo o par metro mais complexo apresentando grandes mudan as em Fonas s labas enfatizadas Especificar uma entona o natural dif cil H poucos indicadores confi veis que ajudam a especificar efeitos entonacionais Sistemas de s ntese de voz inserem pausas ap s pontos finais de interroga o de exclama o dois pontos e ponto e v rgula Em muitas l nguas uma pausa entonacional ocorre ap s uma palavra de conte do aquelas que cont m informa o como substantivos verbos adjetivos e adv rbios e antes de palavras de fun o como preposi es artigos pronomes etc Em geral locutores destacam a palavra final em uma sequ ncia de palavras de entona o Tradicionalmente a entona o especificada por meio de regras baseadas em informa es sem nticas fornecidas por um bloco de processamento denominado NLP Natural Language Processor a ser detalhado mais adiante entretanto obter entona o direta e automaticamente por meio de treinamento mais vi vel n o sendo necess rio que especialistas interpretem dados manualmente SHAUGHNESSY 2003 41 3 VIS O GERAL E PROJETO DE UM SISTEMA DE S NTESE DE VOZ V
37. 2 N o usar sinaliza o ou textos brilhantes objetos ou outros objetos tendo brilho com frequ ncia superior a 2HZ e inferior a 55Hz Observa o N o contempla aplica es Web Fonte SANTOS 2010 204 ANEXO B QUESTION RIO DE TESTE DE QUALIDADE UNIVERSIDADE FEDERAL DO CEAR CENTRO DE TECNOLOGIA PROGRAMA DE P S GRADUA O EM ENGENHARIA DE TELEINFORM TICA QUESTION RIO DE TESTE DE QUALIDADE Aluno Eng N colas de Ara jo Moreira Orientador Prof Dr Paulo Cesar Cortez O presente question rio visa coletar resultados qualitativos a respeito do projeto desenvolvido a partir de opini es depoimentos e sugest es emitidos por volunt rios deficientes visuais para fins de teste e valida o 1 NATURALIDADE DA FALA A produzido por voz humana pr gravada ou sintetizada por computador Voz humana pr gravada Sintetizada por computador B Qualidade da Voz 1 Muito Ruim 2 Ruim 3 Razo vel 4 Bom 5 Excelente 2 TESTE DE INTELIGIBILIDADE A respeito das frases a serem sintetizadas Ol seja bem vinda ao projeto LESC Vox Obrigada por usar o nosso sistema Seja bem vindo ao projeto de acessibilidade Ver com os ouvidos O que voc gostaria de fazer Quantas palavras n o foram entendidas ou foram entendidas de forma errada 205 3 TESTE DE USABILIDADE 1 Abrir aplica o de chat e interagir com outro usu rio 2 Abrir editor de texto digitar mensagem
38. Isto um teste do editor de texto salvar fechar a aplica o e abrir o arquivo salvo 4 CONSIDERA ES GERAIS 5 SUGEST ES DE MELHORIAS
39. MLLT visa minimizar a perda na verossimilhan a entre a fun o de distribui o de 182 probabilidade gaussiana covari ncia completa e as diagonais Na fase de treinamento MLLT estima a matriz de covari ncia completa a fim de garantir que cada caracter stica independente Na fase de s ntese geram se caracter sticas para os par metros de s ntese de voz em cada estado usando vetor m dio e a matriz de correla o das fun es de distribui o de probabilidade dos estados CHEN et al 2013 B 4 3 Modelagem de matrizes de precis o por Transforma o Linear de M xima Verossimilhan a Correla es entre todas as caracter sticas n o podem ser obtidas atrav s de matriz de covari ncia diagonal Entretanto a fim de realizar uma aproxima o adequada os modelos de covari ncia completa MLLT introduzido no est gio de treinamento do HMM Cada matriz de precis o da distribui o Gaussiana para as fun es de distribui o de probabilidades das sa das de estado igual ao inverso da matriz de covari ncia da j sima distribui o gaussiana CHEN et al 2013 P ATA A 76 em que P a distribui o de probabilidades dos estados de sa da A representa a matriz de transforma o global 4 representa a matriz diagonal de distribui o espec fica cujos elementos da diagonal principal s o os inversos das vari ncias no espa o transformado Aji 1 07 B 4 4 Gera o de par metros de fala com gera o de
40. O trato vocal A 2 Modelagem matem tica das ondas sonoras A 3 Modelagem matem tica do trato vocal A 4 O sinal de voz do ponto de vista do processamento homom rfico de sinais AP NDICE B ALGORITMOS DE S NTESE DE VOZ B 1 S ntese articulat ria B 2 S ntese de formantes ou s ntese baseada em regras B 3 S ntese baseada em sele o autom tica de unidades B 4 S ntese baseada em modelos de Markov ocultos B 5 S ntese baseada em grafos de Markov B 6 S ntese HNM B 7 S ntese LPC B 8 Outras abordagens xviii 95 95 96 98 110 111 111 115 117 121 122 123 138 128 137 138 159 162 165 166 170 175 183 184 186 187 AP NDICE C APIs PARA DESENVOLVIMENTO DE SOFTWARES BASEADOS EM VOZ C 1 GNOME C 2 IBM ViaVoice TTS SDK C 3 Java Accessibility API C 4 Java Speech API APENDICE D ALGUMAS FERRAMENTAS NATIVAMENTE ACESSIVEIS VOLTADAS PARA DEFICIENTES VISUAIS D 1 APL D 2 Orca D 3 Speech Synthesis Markup Language D 4 VoiceProxy e projeto NatalNet D 5 XLupa ANEXO A CHEKLIST DE ACESSIBILIDADE PARA SOFTWARE IBM VERSAO 3 6 ANEXO B QUESTIONARIO DE TESTE DE QUALIDADE XIX 192 192 193 194 196 198 198 199 200 200 201 202 204 20 1 INTRODU O Segundo a Organiza o Mundial de Sa de OMS em 2013 existiam aproximadamente 39 milh es de pessoas com defici ncia visual outros 246 milh es sofrendo de perda moderada ou severa de vis o nas quais 90 des
41. Por outro lado a dura o o som a propriedade que permite que seja classificado em curtos longos e toda gama de intermedi rios como semi longos semi curtos etc Por fim a intensidade a propriedade que se refere maior ou menor for a com que se produz voz podendo ser classificado como voz forte ou fraca Para uma adequada s ntese de voz necess rio equil brio entre tipo de voz intensidade velocidade frequ ncia pron ncia resson ncia e articula o Quando tais fatores n o est o em equil brio a voz resultante pode apresentar efeitos como rouquid o aspereza tens o hipersensibilidade entre outros MATUCK 2005 36 2 6 1 Propriedades Matem ticas da Voz A voz um sinal essencialmente n o estacion rio ou seja se todas as caracter sticas de seu comportamento s o alteradas no tempo Entretanto pode se aproximar a condi o de estacionaridade ao se observar localmente o sinal de voz em janelas temporais de curta dura o tipicamente de 5 a 20ms assim as propriedades estat sticas e espectrais s o definidos dentro destes segmentos SPANIAS 1994 A voz humana pode produzir sons vozeados como por exemplo a e i e n o vozeados como o sh por exemplo que s o quasi peri dicos no dom nio do tempo e harmonicamente estruturados no dom nio da frequ ncia enquanto que sons n o vozeados s o aleat rios Al m disso a energia de sons vozeados geralmente maior que a energia dos segment
42. Trabalho de Conclus o de Curso em Engenharia de Computa o 64p Universidade Federal de Pernambuco Recife 2009 BIDARRA Jorge DI GENES Carlos Eduardo Rodrigues XLUPA Uma lente de aumento digital inteligente para pessoas com baixa vis o In III Semin rio e II Oficina Acessibilidade TI e Inclus o Digital S o Paulo 2005 BLACK Alan W ZEN Heiga TOKUDA Keiichi Statistical parametric speech synthesis In ICASSP 2007 2007 BORGES Jos Ant nio Manual do Sistema Operacional Dosvox Vers o 3 2 N cleo de Computa o Eletr nica Universidade Federal do Rio de Janeiro Rio de Janeiro 2005 BRAND O Alexandre de Souza Modelagem ac stica da produ o da voz utilizando t cnicas de visualiza o de imagens m dicas associadas a m todos num ricos Tese de doutorado em Engenharia Mec nica 172p Universidade Federal Fluminense Niter i 2011 BRASIL CONSTITUI O FEDERAL Dispon vel em lt http www planalto gov br ccivil_03 constituicao constituicaocompilado htm gt Acesso Janeiro 2015 CHEN Yan You KUAN Ta Wen TSAI Chun Yu WANG Jhing Fa CHANG Chia Hao Speech variability compensation for expressive speech synthesis COSTA Ericson Sarmento MONTE Anderson de Oliveira NETO Nelson KLAUTAU Aldebaro Um sintetizador de voz baseado em HMMs livre dando novas vozes para aplica es livres no portugu s do Brasil In Workshop de Software Livre 2012 COSTA Rodrigo Carvalho Souza
43. a 10 horas e contempla v rias ocorr ncias de cada unidade sonora capturada em v rios contextos como fonemas vizinhos diferentes pitch dura o posi o na s laba etc TABET 2011 A disponibilidade de boas ferramentas de rotula o autom tica de voz e a disponibilidade de diversas inst ncias de um tipo de unidade espec fico com diferen as de pitch dura o contexto lingu stico permitiu que a s ntese por sele o de unidade se 172 tornasse uma solu o vi vel Tal m todo permite que se use grandes bancos de dados de voz gravados usando estilos de fala espec ficos e cuidadosamente controlados como felicidade alegria etc Al m de evidentemente poder ser usado com banco de dados pequenos para aplica es espec ficas Para aplica es gerais como ler e mails e not cias exigido em geral 10h de grava es a fim de se atingir uma qualidade desej vel e v rias d zias para se obter uma grava o natural Ao contr rio da s ntese concatenativa a sele o autom tica de unidades seleciona as unidades de s ntese timas a partir de um invent rio que pode conter uma diversidade de tokens de uma unidade espec fica a fim de concatenar para produzir a s ntese Tal t cnica tem se mostrado bem sucedida O processo de sele o da sequ ncia tima automatizada por meio de search queries nas strings das tags do fonemas SCHROETER 2005 Alguns trabalhos tem preferido o uso de semi fonemas ao inv s de d
44. a de press o entre dois pontos equivale corrente el trica que surge quando h diferen a de potencial el trico entre dois pontos Assim nos primeiros trabalhos era 141 definido um sistema de equa es de malha de circuitos el tricos para representar o conjunto de sess es cil ndricas atrav s do qual o trato vocal foi modelado As se es cil ndricas s o representadas por linhas de transmiss o BRAND O 2011 R1 L1 L1 R1 ANAN a TVA KAA Ci ji luF Figura A 16 modelo de uma linha de transmiss o Fonte BRAND O 2011 Adaptado A irradia o do som pela boca modelada como uma imped ncia de radia o de forma similar modelagem de uma antena em sistemas el tricos formada por uma resist ncia R e por uma indut ncia L em paralelo O som sintetizado corresponde diferen a de press o entre os terminais dessa imped ncia Modelando matematicamente as fun es dos quatro grupos do sistema fonador humano chegou se ao circuito equivalente ac stico mostrado nas Figuras A 17 e A 18 BRAND O 2011 A solu o num rica das equa es correspondentes ao circuito para cada instante da amostragem gera uma sequ ncia de valores que representa a voz sintetizada Mojhatari construiu um modelo de trato vocal em linhas de transmiss o quer permite a inclus o de um n mero indefinido de ramifica es para representar reentr ncias do trato vocal e do trato nasal BRAND O 2011 Pulm
45. a partir das m ltiplas unidades selecionadas s o usadas nos segmentos n o adjacentes E finalmente ent o a forma de onda sintetizada usando tais formas de onda BRAUNSCHWEILER 2010 Na etapa de regenera o de pros dia dura es e contornos da frequ ncia fundamental s o geradas a partir das unidades A dura o para segmentos n o adjacentes s o geradas a partir da m dia das dura es das unidades selecionas e calculadas pela express o N E dim gt di 80 n 1 em que diy dy representam a dura o gerada e a dura o da n sima unidade selecionada para o i simo segmento respectivamente Para os contornos da frequ ncia fundamental estes s o gerados mapeando frames da frequ ncia fundamental de cada 190 unidade e realizando a m dia deste mapeamento para cada frame Ou seja o contorno da frequ ncia fundamental dado por di N 1 fla wD fo 81 diyn em que Pos t e fon t representam o fo gerado e o fo da n sima unidade escolhidas para o i simo segmento no tempo t respectivamente O Pos t para o i simo segmento dado por Foon t f n t offset 82 O valor do f m dio do ponto final do semi fonema esquerdo fosyn T e o in cio do semi fonema direito foca 0 s o calculados O valor do offset determinado como se segue offset 0 5 fiyn T FEO fim MD 83 offseti 0 5 ria 1 fig Teo 84 para os fonemas esquerdo e d
46. a press o sobre a parede do trato vocal e V 0 x s a velocidade de deslocamento da parede normal superf cie LIMA 2010 Um condutor real exibe ao menos dois fen menos a viscosidade e a absor o nas paredes Sendo u x t a velocidade volumetria e U x s sua transformada de Laplace ent o LIMA 2010 mostra que U x s dada pela Equa o 51 U x s alias bks 51 Pos ARL Ox Ox em que 4 a reas po a densidade do ar g e A s o solu es linearmente independentes da solu o geral P x s ag x s bh x s da Equa o 52 153 vo A x o E y P 59 Ax pos AR x poc aa Em que c a velocidade do som no ar P a press o e Y a imped ncia ac stica A 3 5 Modelo Fone Filtro O modelo fone filtro constru do atrav s dos formantes valor nominal da frequ ncia central da zona de resson ncia em quest o Nessa zona de frequ ncia central se encontra a maior concentra o de energia LIMA 2010 O modelo Fone Filtro da produ o de voz pode ser subdividido em tr s etapas distintas fone filtro trato vocal e a irradia o BRAND O 2011 Seus efeitos ac sticos podem ser visualizados por meio do diagrama de blocos mostrado na Figura A 33 Resson ncia dB 6 dB Oit dB W dB Oit Hz F F F F Hz Hz F F FF Hz Group 1 Signal 1 Int Outi Highpass Fonte Sinal Glotal Filtro Trato Vocal Irradia o Saida Sinal de Voz Figura A 33 diagrama de
47. a serem processados um filtro passa alta e uma pr nfase Em seguida o sistema passa por uma etapa de quantiza o que feito encontrando se o ndice k que minimiza E Y y P em que y o sub vetor de erro residual e 7 o vetor quantizado para o indice k Por fim realizada a extra o do pitch e a constru o da excita o Em termos de complexidade computacional o algoritmo de extra o de par metros AMR WB apresenta alta complexidade entretanto tal complexidade compensada pela alta qualidade do resultado quase n o apresentando diferen as tanto no dom nio do tempo como da frequ ncia com rela o a um sinal de voz amostrado SHU et al 2011 187 B 8 Outras abordagens A s ntese de formantes e a s ntese articulat ria s o menos usados atualmente sendo utilizados mais atualmente t cnicas como a s ntese de sele o de unidades combinado com HNM representando o sinal como a soma de harm nicos com ru do uma vez que a decomposi o do sinal de voz nessas duas partes permite modifica es mais naturais da fala al m de suavizar as descontinuidades das unidades ac sticas A maior limita o dessa combina o reside no elevado custo computacional TABET 2011 Esta combina o tem produzido resultados satisfat rio e consumindo pouca mem ria para armazenar par metros quando combinada com HMM permitindo al m disso maior variabilidade TABET 2011 J outros trabalhos tem procurad
48. apresenta tags para defini o de l nguas defini o de par grafos e senten as personaliza o de pron ncias defini o de fonemas configura o do tipo de voz pros dia nfase e inser o de arquivos de udio D 4 VoiceProxy e projeto NatalNet O Projeto NatalNet www natalnet br prev a implementa o de um sistema leitor de p ginas HTML cujo objetivo sintetizar udio a partir do processamento de p ginas HTML Uma vez pronto o sistema permitir que deficientes visuais naveguem atrav s da internet escutando o conte do das p ginas VoiceProxy um sistema em desenvolvimento no contexto deste projeto SANTOS 201 D 5 XLupa O XLupa uma lente de aumento ampliador de tela digital inteligente para pessoas portadoras de defici ncia particularmente pessoas com baixa vis o Trata se de um projeto em conformidade com a filosofia de software livre O desenvolvimento do XLupa justifica se por sua natureza inclusiva digital e portanto social O XLupa um software desenvolvido em Java a fim de tirar proveito da portabilidade e produtividade disponibilizadas pela linguagem e que se encontra em desenvolvimento desde o final de 2004 por pesquisadores do N cleo de Inova es Tecnol gicas NIT e do Programa Institucional de A es Relativas s Pessoas com Necessidades Especiais PEE ambos vinculados UNIOESTE em parceria com a Secretaria Estadual de Educa o do Paran CETE SEED PR a
49. blocos para o modelofone filtro Fonte BRAND O 2011 Adaptado O fluxo de ar modulado pelo movimento vibrat rio das pregas vocais Gra as ao efeito Bernoulli os pulsos de ar gerados possuem forma assim trica devido ao fechamento mais r pido de modo que o sinal glotal formado por uma s rie de harm nicos a ser filtrada na etapa do trato vocal gerando o som das vogais Numa voz normal a pot ncia dos harm nicos do sinal glotal se reduz em m dia a uma taxa de 12dB por oitava Isso gera o efeito do filtro glotal que reduz as altas frequ ncias Na etapa de filtragem a forma da estrutura do filtro trato vocal pode ser modificada de modo a alterar suas formantes ou frequ ncias de resson ncia da estrutura supra glotal Para uma dada forma o sinal glotal filtrado criando o som da respectiva vogal Na etapa de irradia o as baixas frequ ncias comprimento de onda maior sofrem difra o nos l bios enquanto as altas frequ ncias comprimento de onda menor possuem maior diretividade sendo mais suscet veis ao efeito de reflex o Resumindo a etapa de irradia o amplifica as altas frequ ncias com ganho m dio de 6dB por oitava 154 J foi demonstrado que no modelo fonte filtro o trato vocal pode ser considerado um sistema ac stico linear Logo pode tamb m ser caracterizado por uma fun o de resposta em frequ ncia O fato de ser poss vel obter o sinal glotal atrav s de filtragem inversa garante q
50. de objetos do que classes a tarefa de 105 classifica o pode ser implementada de forma l gica empregando uma base de regras de decis o expressando a classifica o de cada fonema como a descri o de uma express o l gica Em uma rvore de decis o o conhecimento representado em cada n que ao ser testado pode conduzir a busca a um de seus filhos Deste modo descendo da raiz em dire o s folhas da rvore pode se selecionar a configura o do sistema e deste modo comportamento associado A rvore de decis o implementada de classe discreta categ rica n o ordinal que assume um conjunto finito de valores que n o podem ser ordenados O algoritmo heur stico mais conhecido para a escolha do melhor atributo o ID3 e se baseia na escolha inicial de atributos que minimizem a entropia Se a informa o uma medida da quantidade de incerteza de um processo que ocorre com alguma probabilidade I a loga p Ent o a quantidade m dia de informa o de uma fonte A denominada entropia e esta dada por H A EK o PrlOJa Pr O algoritmo continua at que uma das condi es seja satisfeita todos os atributos foram inclu dos no caminho da raiz at as folhas ou os exemplos de treinamento associados com dado ramo apresentam o mesmo valor da sa da O ID3 um algoritmo pioneiro em indu o de rvores de decis o sendo um algoritmo recursivo de busca gulosa procurando sobre um conjunto de atri
51. de vocabul rio limitado AZUIRSON 2009 Armazenar todas as palavras impratic vel tamb m devido enorme demanda exigida para o locutor que dever ler centenas de milhares de palavras de uma forma consistente E mesmo que tal tarefa fosse realizada em m ltiplas sess es ao longo de 56 semanas a falta de coarticula o e os contornos das palavras resultaria em uma fala pouco natural SCHROETER 2005 S labas t m sido sugeridas como unidades por m as desvantagens superam as eventuais vantagens Em ingl s por exemplo s o necess rios em torno de 10000 s labas para que seja poss vel formar todas as palavras Adotando se 10 frames por s laba o espa o para armazenamentos cresce substancialmente SHAUGHNESSY 2003 Na l ngua chinesa por exemplo em s ntese baseadas em s labas o fen meno de coarticula o aparece apenas quando uma s laba termina em vogal e a seguinte inicia em vogal ou som aspirado KANG et Al 2009 Utilizar fonemas como unidades pode fornecer grande flexibilidade e economia entretanto pode apresentar problemas de coarticula o tornando a inteligibilidade muito baixa Sons das l nguas podem ser descritos por apenas aproximadamente 100 fonemas e 30 diacr ticos A l ngua inglesa por exemplo possui 40 fonemas SCHROETER 2005 SHAUGHNESSY 2003 AZUIRSON 2009 MAEDA 1995 Entretanto descrever senten as por fonemas muito pouco pr tico Al m disso todos os esfor os para concatenar
52. evidenciando o intervalo de ataque o per odo est vel e o intervalo de queda Ataque 0 Periodo Est vel Qed Figura 2 2 envelope de uma onda sonora Fonte LIMA 2010 Adaptado 39 O timbre determinado pelas cavidades sseas cavidades nasais boca garganta traqueia e pulm es al m da pr pria laringe MATUCK 2005 2 6 4 Pros dia A pros dia uma interpreta o r tmico mel dica da sintaxe e da sem ntica Uma das fun es da pros dia fornecer indica es sobre a localiza o de acentos criando uma sensa o de ritmo A pros dia determina como uma senten a falada em termos de melodia ritmo sotaque e emo es e pode carregar significados at mesmo em l nguas n o tonais A pros dia um processo de natureza supra segmental que atua em s labas palavras ora es etc Os tr s principais par metros pros dicos s o dura o frequ ncia fundamental e intensidade sendo os dois primeiros os mais importantes A modelagem da intensidade n o produz ganhos significativos de qualidade da s ntese de voz AZUIRSON 2009 Uma pros dia errada pode prejudicar severamente a inteligibilidade compreens o assim uma modelagem adequada dos par metros pros dicos dura o e frequ ncia dos fonemas pode melhorar significativamente a inteligibilidade e a naturalidade do resultado de um sintetizador de voz Assim a pros dia afeta a naturalidade e inteligibilidade e est relacionada com a presen
53. fatores que degradam a qualidade vocoder precis o na modelagem e suaviza o excessiva Para o primeiro problema alguns trabalhos prop em esquemas de excita o multi banda ou STRAIGHT Para o segundo problema tem sido usados t cnicas como HSMM grafos estoc sticos de Markov crit rio de erro de gera o m nima MGE Minimum Generation Error e abordagem Bayesiana variacional Em um sistema b sico o algoritmo de gera o de par metros usado para gerar par metros espectrais e de excita o a partir do HMM Levando em conta restri es entre caracter sticas est ticas e din micas o HMM pode gerar suaviza es Entretanto os par metros espectrais e de excita o frequentemente s o excessivamente suavizados A fim de reduzir este efeito e melhorar a qualidade da fala p s filtragem algoritmos de gera o de par metros considerando vari ncia global ou algoritmos de gera o de par metros de voz condicionais podem ser utilizados BLACK 2007 B 4 2 Estudos sobre variabilidade da voz em HMM No HMM modelos estat sticos do espectro e das caracter sticas pros dicas s o usadas para gerar uma voz sint tica Em sistemas HMM vetores m dios de modelos estat sticos s o usados para gerar vozes sint ticas por m mon tonas No mundo real poss vel observar diferen as sens veis na voz mesmo de um mesmo falante em diferentes instantes de tempo Em termos t cnicos isto significa que a vari ncia da distribui o r
54. feita tamb m por um conjunto de regras sendo vital para o estudo da pros dia Para palavras acentuadas a identifica o da s laba t nica evidente Sendo que a dificuldade ocorre na identifica o de ox tonas n o acentuadas uma vez que todas as proparox tonas s o acentuadas e a maioria das palavras n o acentuadas no portugu s s o parox tonas Assim algumas regras podem ser aplicadas para a identifica o de ox tonas n o acentuadas como palavras terminadas 49 em im e um palavras terminadas em ar er e or palavras terminadas em z antecedidas por vogais Deve se observar que essas regras n o se aplicam a todos os casos mas apresentam bom ndice de precis o AZUIRSON 2009 A transi o entre palavras um fator importante para assegurar a naturalidade da pron ncia Um dos fen menos a serem tratados no que diz respeito co articula o o s ndhi externo que ocorre na jun o de palavras em que a ltima vogal da primeira palavra igual primeira vogal da segunda palavra Neste caso a coarticula o transforma a jun o em uma vogal apenas Outro fen meno a ser observado o fonema s uma fricativa sonora surda exceto quando seguida por palavra iniciando por vogal ou consoante sonora AZUIRSON 2009 3 2 1 4 Processamento Pros dico O processamento pros dico a ltima etapa do bloco de processamento lingu stico pros dico tendo como entrada a informa o supra segmental e segm
55. gica verbo ou substantivo respectivamente O mesmo acontece com as palavras molho e seco No portugu s muitas palavras s o hom grafas mas n o s o hom fonas em outras palavras apresentam exatamente a mesma grafia por m s o pronunciadas de forma diferente Isto torna a etapa de An lise Lingu stica e Morfossint tica muito importante pois a estrutura pros dica de uma senten a est ligada an lise morfossint tica AZUIRSON 2009 H casos em que a an lise gramatical insuficiente para resolver ambiguidades neste caso a an lise sem ntica significado das palavras e pragm tica inten o do 48 falante se faz necess ria para a pron ncia correta Entretanto s o poucos os sistemas que realizam an lise sem ntica pragm tica A an lise morfossint tica realizada por um parser O parser que um analisador morfol gico sint tico um m dulo extremamente importante para assegurar a qualidade da s ntese uma vez que o mesmo que permite a infer ncia dos constituintes pros dicos de uma senten a a partir de sua an lise morfossint tica AZUIRSON 2009 3 2 1 3 Transcri o Fon tica A etapa de transcri o ortogr fico fon tica consiste em representar uma sequ ncia de palavras em uma sequ ncia de s mbolos fon ticos Tal etapa precedida por outras duas a separa o sil bica e a determina o de s labas t nicas Esta ltima al m de ajudar a assegurar uma correta transcri o
56. laborat rio CTS da Facult Polytechnique de Mons na B lgica obter um conjunto de sintetizadores de voz para a maior quantidade de l nguas poss vel e disponibiliz las para aplica es livres n o comerciais e n o militares al m de impulsionar pesquisas sobre s ntese de voz particularmente gera o de pros dia um dos maiores desafios atuais a respeito da s ntese de voz MBROLA 2014 E ESSES Eile Edit Settings Sampa insert About HAE a BAE 13 v bi3 i Type of file pho C phs Pitch factor 7 Time factor 7 Frequency 16000 7 1 1 gt J gt I Output format Way c c Figura 4 4 interface Grafica do MBROLA O ponto central do MBROLA o um sintetizador baseado na concatena o de d fonos que usa como entrada uma lista de fonemas juntamente com informa es sobre pros dia como dura o dos fonemas e tom e produz amostras de 16 bits Assim por n o aceitar como entrada texto puro o MBROLA n o considerado um sistema TTS MBROLA 2014 DUTOIT 1993 DUTOIT 1997 90 O projeto MBROLA est dispon vel para diversas plataformas como Microsoft Windows GNU Linux MacOSX NetBSD FreeBSD Solaris BeOS QNX Symbian etc Oficialmente o projeto MBROLA disponibiliza 3 vozes diferentes para o portugu s brasileiro brl b2 e b3 sendo todas as tr s masculinas Um grupo liderado por pesquisadores do SERPRO e da UFRJ disponibilizara
57. largura do modelo A decomposi o do sinal de voz baseado na modelagem da fala como um sinal peri dico perfeito com per odo do pitch To Tal sinal corresponde a uma transformada de Fourier com valores n o nulos em pontos m ltiplos da frequ ncia fundamental fo 1 To Na nota o complexa s n aproximado pela express o mostrada na Equa o abaixo L Sin ax exp j2rk fon 10 2 em que L o n mero de harm nicos e o n mero complexo ay representa a amplitude e o deslocamento de fase do k simo harm nico Note que n real se a e a p s o complexos conjugados A s ntese senoidal pode ser realizada de diversas formas As amostras sintetizadas n podem ser calculadas usando a express o acima enquanto se interpola os pontos entre ax Uma das desvantagens do modelo senoidal consiste no fato dos par metros n o serem diretamente relacionados s frequ ncias formantes e largura de banda tornando o dif cil de formular mudan as baseadas em informa es a respeito dos formantes WOUTERS et al 2000 A forma mais simples de modificar a frequ ncia fundamental truncar cada per odo removendo algumas amostras finais caso se deseje encurtar o per odo Para o caso contr rio deve se ou interpolar per odos adjacentes ou extrapolar as amostras finais SHAUGHNESSY 2003 3 3 7 Marca o de Pitch Em KOBAYASHI et al 1998 poss vel ver a aplica o da an lise de wavelets para uma marca o de pitch adeq
58. lt P componente causal devido ao trato e g n n kP componente devido excita o peri dica py n As duas primeiras componentes decrescem muito mais depressa que a ltima o que significa que a aplica o de uma janela no cepstro permite separar as duas contribui es e ao se calcular o cepstro inverso pode se determinar p n e h n O cepstro ent o dado por 2 n In X e S In X jB 2nf 70 sendo ent o necess rio conhecer a fase de X e 271 As implementa es de FFT normalmente apenas fornecem a parte principal da fase IB Qnf lt m pois necess rio efetuar a opera o de desenrolamento de fase phase unwraping que consiste em somar 27 nos pontos de descontinuidade Na pr tica usa se apenas o cepstro real A an lise cepstral frequentemente usada em an lise e processamento de sinais de voz por que capaz de separar as caracter sticas da excita o do trato vocal Baixas frequ ncias no cepstro representam caracter sticas do trato vocal enquanto que altas frequ ncias representam a excita o JUNG 2001 162 AP NDICE B ALGORITMOS DE S NTESE DE VOZ Em 1779 o cientista dinamarqu s Christian Kratzenstein trabalhando para a Academia Russa de Ci ncias desenvolveu modelos do trato vocal humano para produzir as vogais sendo posteriormente desenvolvidos sistemas mec nico ac sticos que modelavam l ngua e l bios capazes de reproduzir tamb m consoantes Em 1930 o Bell Labs dese
59. mais naturais sob v rias modifica es da pros dia TABET 2011 B 7 S ntese LPC A s ntese de formantes prov uma arquitetura flex vel mas requer a especifica o de diversos valores para modelar a coarticula o exigindo especialistas capazes de manipular todos os par metros de s ntese A s ntese LPC apresenta o uso de uma estrutura mais simples todos os detalhes da voz modelados exceto intensidade e periodicidade s o inclusos nos coeficientes dos filtros LPC Filtros digitais s o evitados devido sensibilidade ao ru do de quantiza o e o risco de instabilidade SHAUGHNESSY 2003 Atualmente a s ntese baseada em codifica o preditiva LPC Linear Predictive Coding tem chamado aten o por sua baixa taxa de dados baixa complexidade e baixo custo entretanto devido os par metros extra dos a partir de um modelo original simples demais para produzir resultados de alta qualidade B 7 1 Aplica o do algoritmo AMR WB para s ntese LPC A tecnologia de codifica o de voz AMR WB Adaptative Multi Rate Wideband usando Predi o Linear Excitada de C digo Alg brico ACELP Algebric Code Excited Linear Prediction e combina o de t cnicas ara calcular o atraso do pitch no est gio de extra o de par metros tem se apresentado como uma alternativa vi vel e de alta qualidade para melhoria do LPC A s ntese realiza uma etapa de pr processamento que inclui decima o a fim de reduzir a quantidade de dados
60. mostrada na Figura A 2 e cavidade nasal tendo in cio portanto na abertura entre as pregas vocais uma fibra el stica com duas pregas que se distende ou relaxa pela a o de m sculos no interior da laringe glote e terminando nos l bios Osso frontal Meato superior Osso nasal gt Concha superior Foncha ed a Sino esfenoidal Concha inferior Vest bulo Palato duro Canal incisivo M sculo Superior Longitudinal Apex da lingua Dobra sub lingual Mandibula M sculo Genioglossus M sculo Geniohi ide M sculo Miohi ide Osso hi ide Cartilagem tir ide Cavidade lar ngea glote Cartilagem ariten ide Corda vocal inferior Traqu ia Esofago Dente incisivo Palato duro Palato mole o Arco palatoglosso Tonsila palatina a a i we A cu a Arco palatofaringeo Uvula palatina 74 3 Dorso da l ngua L bio inferior Figura A 2 cavidade pr pria da boca Vista ventral Fonte PUTZ 2001 129 Figura A 3 anatomia da garganta Fonte MATUCK 2005 O comprimento m dio do trato vocal masculino de aproximadamente 17 cm sendo que este valor praticamente n o varia com rea de se o transversal determinada pela posi o da l ngua l bios maxilar e v u palatino variando entre zero o fechamento completo at 20 cm assumindo portanto diferentes
61. na determina o do sucesso de uma aplica o de voz quando ou n o h um benef cio claro ao se usar voz Uma interface baseada em udio tende a ser mais agrad vel por simular uma conversa homem homem ao inv s de um objeto inanimado Entretanto por se tratar de um meio natural de comunica o a expectativa do usu rio tende a ser extremamente alta Isto significa que a voz melhor usada quando a necessidade clara quando por exemplo as m os do usu rio est o ocupadas ou quando permite que alguma tarefa seja realizada de maneira que de outra forma n o seria poss vel como acessar e mails ou calend rios eletr nicos pelo telefone Deve se usar o reconhecimento de voz por voz quando o teclado n o est dispon vel as m os do usu rio estiverem ocupadas de tal forma que n o seja poss vel usar mouse ou teclado os comandos est o em uma estrutura de menu com muitos n veis usu rios n o conseguem ou n o se sentem confort veis com digita o ou possuem algum impedimento motor Deve se evitar entretanto em ambientes muito barulhentos ou quando a tarefa for realizada mais facilmente por meio de mouse ou teclado SUN MICROSYSTEMS 1998 Deve se usar a s ntese de voz quando os olhos do usu rio estiverem focando sua aten o para outras tarefas mais cr ticas como ao dirigir ou ao executar tarefas de manuten o ou reparo situa es que chamem aten o do usu rio ou em situa es em que o usu rio portador de algu
62. na normaliza o das diferen as ac sticas existentes entre diferentes sess es de grava o al m da suaviza o de erros existentes durante a concatena o como a t cnica LPC excitada residual que usa filtragem inversa e permite a perfeita reconstru o de sinal Entretanto esta t cnica tamb m apresenta suas falhas No trabalho WOUTERS et al 2000 poss vel encontrar um estudo acerca de uma das estrat gias para lidar com esta situa o Outro ponto negativo o fato de ser mais dif cil modificar a pros dia al m de apresentar problemas de descontinuidade nas extremidades das unidades podendo gerar resultados pouco naturais Suavizar formas de onda geralmente mais simples que uma suaviza o espectral entretanto o resultado soa mais descont nuo TABET 2011 SHAUGHNESSY 2003 Em resumo embora extremamente eficiente e amplamente usado poss vel ouvir os pontos de concatena o uma vez que o algoritmo n o apresenta uma forma de suavizar as transi es que ocorrem abruptamente pois as muitas mudan as de tom acompanham concatena es SCHROETER 2005 SHAUGHNESSY 2003 3 3 2 A escolha das unidades e difonos Como falado anteriormente a s ntese concatenativa explora vozes gravadas que comp em um invent rio SCHROETER 2005 Ao se concatenar unidades sonoras a sucess o de tais unidades deve ser cont nua Uma vez que as unidades sonoras ao longo do treinamento s o extra das a partir de sinais de vo
63. nima deve conter ao menos 30 minutos de vozes faladas dado que tais unidades devem ser modificadas por meio de processamento de sinal a fim de se adequarem de acordo o requerido pelo front end e apresentar pontos de concatena o suaves Sistemas de alta qualidade podem apresentar um banco de dados com horas de grava es n o necessitando de modifica es por j conterem em seu invent rio um fragmento adequado SCHROETER 2005 Experts s o respons veis por rotular espectrogramas e formas de onda baseados em habilidades de escuta sofisticadas a fim de produzir anota es que incluem marca es temporais fim de palavras representa es para s labas t nicas melodias fonemas 64 pausas etc Experimentos mostram que tais profissionais precisam de aproximadamente de 100 a 250 segundos de tempo de trabalho para rotular um segundo de fala Entretanto a realiza o de tal tarefa manual impratic vel para grandes bancos de dados que podem conter at d zias de horas de grava es sendo necess rio fazer uso de sistemas automatizados alguns inclusive baseados em sistemas de reconhecimento de voz A vantagem que tais sistemas de reconhecimento tem atingido alto grau de confiabilidade a ponto de apresentarem resultados at mesmo superiores que aquele feito por profissionais especialistas As ferramentas de rotula o autom tica podem ser classificadas e duas categorias ferramentas de rotula o fon tica autom tica res
64. operacionais livres COSTA e MONTE 2012 4 1 10 Liane TTS O LianeTTS um compilador que analisa texto e o traduz em texto compilado no formato de d fonos para processamento e s ntese de voz pelo MBROLA Este realiza a tarefa de concatenar d fonos Al m disso consiste em um front end para o MBROLA e 88 scripts para integra o ao leitor de tela ORCA por meio do driver speech dispatcher e incluiu ao MBROLA uma voz feminina chamada br4 COSTA e MONTE 2012 O LianeTTS passou a ser utilizado em larga escala em info centros atrav s de projetos governamentais de inclus o digital COSTA e MONTE 2012 O LianeTTS uma aplica o de software livre voltado para o sistema operacional GNU Linux permitindo que deficientes visuais utilizem computadores O sistema escrito em linguagem C e produz s ntese de voz em Portugu s do Brasil com sotaque carioca tendo sido produzido pelo Servi o Federal de Processamento de Dados SERPRO e do N cleo de Computa o Eletr nica da Universidade Federal do Rio de Janeiro NCE UFRJ Apesar dos esfor os o LianeTTS n o tem recebido boas cr ticas por parte de seus usu rios LIANETTS 2014 4 1 11 Nambiquara Trata se de um sistema TTS livre baseado em s ntese concatenativa servindo de front end para o MBROLA sendo programado em PHP sobre um servidor apache auxiliado por formul rios HTML e scripts em JavaScript com banco de dados de siglas desenvolvido em MySQL Como em quase todos os sis
65. pela Bell Labs nos anos de 1960 e 1970 por Paul Mermelstein e Cecil Coker O sistema mais not rio desenvolvido foi um sistema baseado no NeXT da Trilllum Sound Research uma compania originada na Universidade de Calgary e publicado com licen a GNU e usava um modelo baseado em guias de onda e linhas de transmiss o anal gicas dos controles dos tratos vocal e nasal A s ntese articulat ria gera fala a partir da modelagem direta do comportamento do sistema articulat rio humano usando modelos computacionais dos articuladores l ngua l bios etc e glote para sintetizar voz Ao inv s de descrever o sinal propriamente dito a s ntese articulat ria emprega par metros de controle como posi o e movimento das l nguas abertura glotal e outros par metros significantes para a produ o de voz assim a s ntese articulat ria tenta simular o aparelho fonador humano e mimetizar a din mica dos articuladores l ngua mand bula l bios osso hi ide v u palatino etc objetivando construir o modelo mais realista poss vel a fim de se obter uma fala exatamente igual humana Matematicamente a s ntese articulat ria pode ser t o simples quanto descrever o trato vocal como tubos de se o transversal vari vel ou t o complicado quanto resolver equa es de Navier Stokes TABET 2011 AZUIRSON 2009 SCHROETER 2005 Uma s ntese articulat ria altamente precisa teoricamente seria capaz de produzir uma s ntese completamente configur
66. perdem detalhes como pequenas deforma es protuber ncias e assimetrias naturais dos tratos vocais reais BRAND O 2011 A 4 O sinal de voz do ponto de vista do processamento homom rfico de sinais Seja x um sinal de sa da de um sistema linear invariante no tempo resultante da convolu o de uma excita o u com sua resposta impulsional h x ux h 55 Um sinal de voz pode ser considerado como x n p n g n h n n n w n 56 x PPS 3 1 em que p n para sons vozeados um trem de impulsos peri dicos de per odo P A p n X n kP 57 k Em que g n uma onda glotal de dura o finita composta por duas partes uma de m nima fase g4 n e outra de m xima fase g2 n sendo g n g n 92 n he n a resposta impulsional do trato vocal excetuando os sons nasais O trato vocal bem representado por um modelo de fase minima s com polos r n a resposta impulsional que traduz a radia o nos l bios e cujo efeito de radia o pode ser representado por um sistema com um zero R z 1 27 e w n uma janela temporal Considerando que h n g n hm n n 58 Ent o x n p n h n w n 59 160 Como x n n o uma convolu o e para poder efetuar a desconvolu o seria necess rio que o fosse pode se tomar janelas suficientemente grandes de dimens o M cobrindo um n mero significativo de per odos do fundamental P o que fornece a seguinte ap
67. preservarem a informa o da transi o entre os fonemas sendo guardados em um banco de unidades Entretanto ainda se faz necess rio o uso de t cnicas para suavizar a concatena o entre as unidades Devido ao fato da s ntese de d fono preservar os detalhes ac sticos da fala natural a s ntese 58 2 baseada em d fonos geralmente bastante intelig vel AZUIRSON 2009 SCHROETER 2005 Se por um lado os d fonos apresentam mesmo tamanho de um fonema sejam N o n mero de fonemas de uma l ngua teoricamente s o necess rios N d fonos para construir um banco de dados de d fonos Entretanto todas as l nguas apresentam restri es sobre quais sons s o poss veis ou n o de acontecer o que torna o n mero de d fonos em cada l ngua muito menor que N como no caso do espanhol que apresenta 800 d fonos aproximadamente enquanto que o alem o apresenta em torno de 2500 Desta forma um banco de dados de d fonos bastante vi vel sendo necess rio apenas alguns milhares janelas de dados espectrais TALAFOV et al 2007 A lista completa de d fonos denominada de invent rio de d fonos Para construir um invent rio de d fonos deve se gravar todos os fonemas em todos os contextos poss veis e ent o tais d fonos s o rotulados e segmentados Uma s ntese baseada em d fonos usa um banco de dados m nimo contendo todos os d fonos existentes em uma l ngua A pros dia determinada por meio de t cnicas de p
68. propaga atrav s destes tubos o espectro de frequ ncia moldado de acordo com a seletividade de frequ ncia do tubo produzindo um efeito semelhante resson ncia observada em instrumentos de sopro A frequ ncia de resson ncia do trato vocal chamada de frequ ncia formante ou simplesmente formante As frequ ncias formantes dependem do formato e das dimens es do trato vocal pois formatos diferentes implicam diferentes conjuntos de frequ ncias formantes podendo se produzir diferentes sons por meio da altera o do formato do trato vocal Assim as propriedades espectrais dos sinais de voz variam com o tempo conforme o formato do trato vocal se altera Figura A 20 modelo geom trico gen rico do trato vocal Fonte Google Images Para o referente modelo deve se inicialmente pressupor que as seguintes aproxima es s o v lidas 1 o trato vocal um tubo ac stico linear 2 a onda sonora uma onda plana 3 o meio de propaga o uniforme p constante 4 as paredes s o sem perdas A partir destas aproxima es poss vel demonstrar que as ondas ac sticas dentro de um tubo satisfazem as seguintes equa es diferenciais parciais mostradas nas Equa es 24 e 25 u x t dp g Ge 5 24 ax Pg o Op x t _ 1 a uG t A x t a OA x t 25 Ox pe Ot ot em que p x t a press o ac stica no ponto x e no instante t u x t o fluxo no ponto x e no instante t A x t a rea da
69. proposto Figura A 24 modelo de tubos semi infinitos Figura A 25 modelo de circuito para a glote Figura A 26 diagrama de Sinais Figura A 27 diagrama de fluxo de sinais para o caso discreto Figura A 28 diagrama de fluxo de sinais para o caso discreto Figura A 29 diagrama de fluxo de sinais para o caso discreto Figura A 30 modelo discreto completo para a produ o de voz Figura A 31 resposta obtida para o c digo MATLAB para obten o de sinais glotais Figura A 32 resposta obtida para o c digo MATLAB para obten o de sinais glotais Figura A 33 diagrama de blocos para o modelofone filtro Figura A 34 modelo massa mola amortecedor Figura A 35 modelo massa mola com duas massas Figura A 36 fun o rea do trato vocal Figura A 37 an lise cepstral Figura B 1 classifica o e aplica o dos tipos de sistemas de s ntese de voz xii 136 137 138 140 141 141 142 142 143 145 145 146 147 147 148 148 149 150 150 151 152 153 155 155 158 161 162 Figura B 2 diagrama de blocos explicando a s ntese baseada em formantes Figura B 3 banco de dados como uma rede de transi o de estados Figura B 4 vis o geral de um sistema de s ntese de voz baseado em HMM Figura B 5 solu o apresentada em CHEN et al 2013 para garantir variabilidade na voz Figura B 6 Funcionamento da s ntese SMG Figura B 7 solu o proposta por BRAUNSCHWEILER 2010 Figura B 8 algo
70. rea do trato vocal mostrada na Figura A 36 fornece a rea da se o transversal em rela o ao eixo do trato vocal para cada ponto localizado nesse eixo a uma determinada dist ncia da glote BRAND O 2011 158 6 s 5 E 24 2 3 o ca em 5 He 0 2 5 5 7 5 10 12 5 15 17 5 Comprimento do Trato Vocal cm Figura A 36 fun o rea do trato vocal Fonte BRAND O 2011 Adaptado A fun o rea especificada por um n mero fixo de se es nos quais a k sima se o definida por uma se o transversal A kn e comprimento x kn O ndice n denota um tempo discreto Uma transi o suave entre uma a se es transversais entre um fone e outro um item importante a ser observado MAEDA 1995 A fun o rea interpolada alimentada no modelo do trato vocal A varia o da rea vocal geometria dos pulsos vocais parametrizados representado a oscila o quasi peri dica das pregas vocais para sons vozeados e um processo de abertura fechamento lento da glote durante consoantes para suprimir um fluxo de ar suficiente tamb m calculado por meio de esquema de interpola o e usado pelo sintetizador O ru do fricativo automaticamente gerado pelo sintetizador Ru do rosa na realidade uma sequ ncia de n meros aleat rios que passaram por um filtro pasa baixas aplicada na se o de constri o A amplitude do ru do modulada por uma fun o da se o transversal da constri o e estimul
71. sec o do tubo ac stico no ponto x e no 144 instante t e p a densidade do ar no interior do tubo e c a velocidade de propaga o do som no ar O sistema acima tem como solu o u x t a t z u t 26 p x t eus t 2 u t 5 27 em que u t z eu t representam duas ondas progressivas com dire es de propaga o opostas Supondo a uma onda plana dada por u x t U x t e te impondo as condi es de contorno u x t U 0 t e excita o do tubo por uma onda plana e p l t 0 ou seja a press o na sa da do tubo ou seja nos l bios nula sendo l o comprimento do tubo chega se na seguinte solu o cosw l x c Us coswl c U 0 wet 28 pc sinw l x c jot 29 p x t Ja ENE U 0 we 29 O fluxo na sa da do tubo dado pela Equa o 30 1 u l t U 0 w e U l w e t 30 coswl c A rela o de amplitudes ser dado pela Equa o 31 U l w 1 V w 31 U 0 w coswl c Sendo esta rela o a resposta na frequ ncia do tubo Para l 17 5cm e c 350m s obt m se a resposta mostrada na Figura A 21 145 100 0 1000 2000 E 3000 4000 5000 Figura A 21 curva Frequ ncia Hz x Intensidade dB Fonte Google Images Os p los ocorrem s frequ ncias f 2i 1 i 1 2 Um modelo muito til consiste em considerar o trato vocal composto por uma s rie de tubos ac sticos uni
72. segmentos do tamanho de um fonema t m mostrado resultados insatisfat rios Isto resulta do fato da manifesta o ac stica dos fonemas depender fortemente do contexto segmental importante frisar tamb m que a intensidade deve ser ajustada quando se concatena fonemas MAEDA 1995 SHAUGHNESSY 2003 Outra desvantagem que na concatena o por fonemas ao se observar o espectro da voz percebe se que a quase totalidade da energia de uma palavra se encontra nas vogais dificultando a inteligibilidade das consoantes quando armazenadas em separado A s ntese por d fonos contorna este problema al m de evitar problemas causados pela variabilidade de contexto MACHADO 1997 D fono uma unidade sonora que come a na metade de um fonema e se estende at a metade do fonema seguinte A metade de um fonema tende a ser a regi o mais est vel acusticamente Assim o d fono representa a transi o ac stica da metade est vel de um fonema Uma vez que os limites de um d fono est o na metade dos fonemas seu comprimento o mesmo de um fonema e n o o dobro como inicialmente se possa esperar TABET 2011 SCHROETER 2005 TALAFOV et al 2007 A ideia b sica consiste em concatenar partes apenas est veis do som fazendo uso da regi o de transi o entre as mesmas como o meio de uma vogal e armazenar essas 57 informa es em um invent rio Exemplo Paris resultado da concatena o de seis difonos lt p gt lt pa gt l
73. telas para pessoas com vis o reduzida programas educacionais para crian as clientes para acesso internet como cliente de correio eletr nico Telnet FTP p ginas Web aplicativos multim dia leitor de telas para Windows etc O sistema foi desenvolvido pelo N cleo de Computa o Eletr nica da Universidade Federal do Rio de Janeiro sob a supervis o do prof Ant nio Borges da Divis o de Assist ncia ao Usu rio em conjunto com Marcelo Pimentel Da equipe de desenvolvimento participam tamb m programadores deficientes visuais AZUIRSON 2009 Ao contr rio do que consta no manual o DOSVOX n o um sistema operacional uma vez que necessita de uma plataforma operacional para ser executada e n o respons vel por tarefas de gerenciamento de hardware incluindo mem ria e E S processos ou sistemas de arquivos O sistema em sua maior parte baseado em vozes pr gravadas o que limita as possibilidades de intera o com o sistema portanto n o s ntese em si o DOSVOX n o realiza processamento lingu stico nem processamento pros dico AZUIRSON 2009 Por ter sido desenvolvido em Pascal n o faz proveito da portabilidade oferecida pelo Java O sistema foi desenvolvido nativamente para Windows e embora possa ser usado por meio do Wine no GNU Linux tal solu o pode tornar o sistema inst vel O projeto gratuito LINVOX a implementa o do DOSVOX em Linux ao executar o mesmo no referido ambiente usando o Wine e co
74. ticas e pros dicas que s o utilizadas como entrada para o Gerador de Lista de Segmentos Este ltimo tamb m faz uso de segmentos de voz pr gravados e armazenados em um banco de dados Tais segmentos sofrem um processo de compress o e codifica o quando armazenados e descompress o equaliza o para a pros dia correspondente e decodifica o Por fim tais segmentos s o concatenados gerando uma fala sintetizada que a sa da do sistema 92 Fonema Pros dia Speech Segmenta o Corupus Seletiva Banco de dados de Segmentos de Voz Gerador de Lista de Segmentos Banco de An lise da Dados de Voz Segmentos Pragm ticos a acts Equalizacao Codifica o Banco de Dados de ificac Correspond ncia Dan o de Pros dia Sintese de Segmentos Concatena o de Segmentos S ntese do Sinal Figura 4 6 diagrama esquem tico para o MBROLA O processo de s ntese de voz pode ser modelado pelas Equa es 11 12 e 13 o nT 1 T wj n wy To Fa 11 sj n s n w nn 12 n gt si n n 13 j 00 em que w um valor de peso que varia dentro do intervalo 0 1 e 7 um valor denominado pitch marker Fr tem valor padr o unit rio Nesse caso o somat rio possui no m ximo quatro termos com o fator de pitch a raz o entre per odo de pitch de 93 5 sat T s s ntese local e o original Fp E variando no intervalo 0 5 2 A precis o de 0 aproxima o depe
75. um um zero ao inv s de cento e dez ou 1kg ser sintetizado como um k g ao inv s de um quilo etc Al m disso embora existam alguns sistemas de acessibilidade e s ntese de voz a maior parte deles apresentam vozes n o naturais ou n o s o livres Palavras novas como nomes pr prios de pessoas empresas e produtos podem gerar pron ncias amb guas embora os sintetizadores possam pronunciar centenas ou at milhares de palavras Pronunciar corretamente uma frase ou senten a com a melodia correta requer um entendimento do significado de uma frase que o computador n o capaz de processar como tom de raiva d vida e afins o que resulta em respostas pouco naturais artificiais e por vezes at mesmo rob ticas pouco agrad veis de ouvir por longos per odos de tempo o que n o desej vel O ouvido humano muito sens vel pra pequenas mudan as na qualidade da voz Uma pessoa pode detectar mudan as que indiquem o estado emocional sotaques problemas de fala entre outros A qualidade da s ntese de voz atual ainda permanece abaixo da de uma voz real assim ouvintes devem fazer um esfor o maior do que o normal para compreender vozes sintetizadas e devem ignorar eventuais erros Para novos usu rios escutar uma voz sintetizada por longos per odos de tempo podem se tornar uma tarefa insatisfat ria Assim o desenvolvedor deve considerar duas coisas a respeito da qualidade do som clareza e compreens o o quanto o usu rio ir
76. uma l ngua Diferentes l nguas t m diferentes conjuntos de sons ou seja diferentes fonemas Por exemplo a l ngua inglesa apresenta aproximadamente 45 fonemas incluindo sons de consoantes e vogais enquanto que a l ngua japonesa apresenta menos fonemas e inclui sons n o encontrados na l ngua inglesa Ao realizar a transcri o fon tica o sistema deve utilizar a mesma nota o padronizada utilizada pelo MBROLA de forma que sua sa da seja uma entrada adequada e compat vel com o MBROLA Tal representa o mostrada na Tabela 5 1 que mostra a lista de fonemas seguidos por seus respectivos exemplos de ocorr ncia 103 Tabela 5 1 representa o dos fonemas utilizados para o MBROLA Z Silencio i Irm O Opera u Utiliza a Ave in Indica On Onde um Umbigo an antigo j joaquim Oo culos v Valor h o k Casa P Papa w wellington b baba l Luso R Real x Xarope d Dado lh Lhama r2 Carta y ionosfera e Episcopal m mesmo Rr rapadura Z Zebra Ee Era m2 castram S Sapato u Utiliza G Gato n Nada s2 Casca um umbigo H Habib nh nhoque T Taubat v Valor Durante a etapa de transcri o realizado um mapeamento por meio de Look up Tables e rvores de decis o para a obten o da representa o fon tica a partir do texto utilizando a representa o fon tica mostrada na Tabela 5 1 sendo aplicadas as regras de transcri o de fonemas estudadas nos Cap tulos iniciais desta D
77. vetores aleat rios correlacionados No est gio de treinamento a matriz de covari ncia completa estimado via MLLT No est gio de s ntese ap s a senten a HMM ser constru da a sequ ncia de estados obtida q q q2 gr 17 em que q indica o t simo estado da sequ ncia q Cada estado q consiste de um vetor m dio M dimensional da caracter stica est tica c c 1 c 2 M 7 A matriz de transforma o global 4 MxM A a matriz de covari ncia diagonal MxM e os vetores m dios M dimensionais das caracter sticas din micas Ac Ac 0 5 Cr41 Ct 1 78 Como a matriz de covariancia do vetor de par metros est ticos uma matriz positiva semi definida ent o Y pode ser expresso como X UT DU VDUJT NDU A decomposi o de Cholesky de X XY CTC CHEN et al 2013 mostra ent o que VA A 4A o que nos d ent o C TA Sendo o vetor 183 aleat rio x C r p reescrito como cj VAA tr c em que r o vetor aleat rio M dimensional e u o vetor m dio da distribui o Gaussiana B 5 S ntese baseada em grafos de Markov A vantagem de usar Grafos Estoc sticos de Markov SMG Stochastic Markov Graphs ao inv s de HMMs em s ntese de voz param trica reside na capacidade melhorada dos SMGs modelarem trajet rias em um espa o de caracter sticas Sintetizadores baseados em SMGs requerem menos espa o de armazenamento do que a s ntese concatenativa Embora a s ntese b
78. z 1 Tg ha aa mn e er lo 46 Que um polin mio em z de grau N Isto significa que o trato vocal pode ser representado por um sistema linear com N 2 zeros em z 0 e N p los Va Z se DF 47 Que pode ser representado pelo diagrama de Fluxo de sinal mostrado na Figura A 29 150 u z Figura A 29 diagrama de fluxo de sinais para o caso discreto Fonte Google Images Observando o fato de que zeros na origem n o afetam a resposta em frequ ncia o modelo que se usa para o trato vocal o modelo s com p los ou atoregressivo H 48 A Z 1 Dif Az Um modelo discreto completo para a produ o de voz mostrado na Figura A 30 Gerador de Ruido Ng Int Outi Inf Outi o I i 4 Ganho para Sons N o Vazeados ven Sein Modelo do Trato Vocal Modelo de Radia o Gerador de Impulsos Modelo de impulsos Glotais pitch f0 Ganho pars Sons Vozeados Figura A 30 modelo discreto completo para a produ o de voz Sons vozeados s o produzidos por uma excita o constitu da por impulsos produzidos nas pregas vocais e sons friccionais resultam da excita o do trato vocal por um fluxo turbulento de ar Assim a fonte de excita o para os sons friccionais pode ser um gerador de ru do e a fonte para sons vozeados pode ser um gerador de impulsos peri dicos de forma apropriada Uma express o muito usada dada por 05 1 cos 1 0 lt n lt P g n cos ur lt n lt k
79. 5 60 2540 33 fil 361 90 2583 89 3378 14 297 80 2150 85 2925 14 E 715 34 1073 27 2981 69 580 15 947 25 2525 52 lol 444 89 914 26 2899 80 411 62 832 84 2376 13 ful 461 82 763 41 2902 55 345 27 799 51 2351 50 Fonte GON ALVES et al 2009 32 Tabela 2 3 m dia dos valores das intensidades dos harm nicos em dB e respectivos desvios padr o para cada vogal para ambos os sexos Mulheres Homens X DP X DP al 42 92 9 48 36 91 11 02 lel 45 04 6 88 39 37 9 27 lel 43 88 8 32 38 85 10 3 fil 41 49 10 7 36 73 10 97 E 39 94 11 56 36 33 11 63 lol 36 5 13 25 33 84 12 91 ful 35 29 13 56 32 78 13 02 Fonte GON ALVES et al 2009 As consoantes podem ser classificadas quanto ao modo de articula o indicando o tipo de obst culo encontrado pelo fluxo de ar ao passar pela boca sendo oclusivas ou constritivas Nas oclusivas h total constri o do ar enquanto que nas constritivas a constri o parcial As constritivas se subdividem em fricativas laterais e vibrantes Nas fricativas o ar sofre fric o enquanto que nas laterais o ar passa pelos lados da cavidade bucal J nas vibrantes a l ngua ou o v u palatino vibram Quanto ao ponto de articula o indicando o ponto da cavidade bucal onde se encontra o obst culo corrente de ar as consoantes podem ser classificadas em bilabiais labiodentais alveolares palatais e velares Nas bilabiais os l bios ent
80. 7 simplificado para 3 tubos U pol w t uj t u t u t T u t Figura A 27 diagrama de fluxo de sinais para o caso discreto Fonte Google Images Ao se aplicar um impulso unit rio na entrada o sistema responder com um impulso ap s Nt Como na sa da de cada tubo haver um impulso refletido que se propagar para a entrada e ser refletido novamente para a sa da novos impulsos aparecer o sa da cada 2t Pode se dizer ent o que a resposta ao impulso do sistema dado por us ac Ne 2ke 41 Uma vez que a resposta ao impulso formada por impulsos igualmente afastados de 2T 1 no tempo se aplicarmos na entrada um sinal amostrado frequ ncia f gt impondo 3 T ae ee f obviamente que o sinal tenha sua descri o na frequ ncia limitada a A o sistema se comportar como um sistema digital causal com resposta ao impulso dada por 0 n lt N 2 wD S aaa nD N Z 42 149 Lembrando que um atraso de t que metade do per odo de amostragem corresponde no dom nio da transformada z multiplica o por z 1 2 podemos representar o sistema discreto pelo seguinte diagrama mostrado na Figura A 28 Figura A 28 diagrama de fluxo de sinais para o caso discreto Fonte Google Images Cuja fun o de transfer ncia dada por Valz 43 at Z N z Valz D z 44 Com N 2 0 5 1 15 1 1r 1 ry 1 ERR Dei 45 E a 1 TY 1 Ty 1 1 Tab 1 D
81. Associa o de Deficientes Visuais ACADEVI o Centro de Atendimento Especializado Crian a CEACRI e o Centro de Apoio Pedag gico Pessoa com Defici ncia Visual CAP BIDARRA 2005 VERS O 3 6 Tabela AN1 Checklist de acessibilidade para Software IBM Vers o 3 6 202 ANEXO A CHEKLIST DE ACESSIBILIDADE PARA SOFTWARE IBM 1 Acesso ao Teclado S o N o Coment rios Planejado N A 1 1 Fornecer equival ncia no teclado para todas as a es 1 2 N o interferir nas funcionalidades na acessibilidade do teclado incorporadas pelo sistema operacional 2 Informa es do Objeto S o N o Coment rios Planejado N A 2 1 Fornecer um indicador de foco visual que se move entre os objetos interativos conforme o foco de entrada vai mudando Este indicador de foco deve ser programaticamente exposto pela tecnologia assistiva 2 2 Fornecer informa o sem ntica sobre objetos de interface do usu rio Quando uma imagem representa m elemento do programa a informa o veiculada pela imagem tamb m deve estar dispon vel no texto 2 3 Associar r tulos com controles objetos cones e imagens Se uma imagem usada para identificar os elementos program ticos o significado da imagem deve ser consistente em todo aplicativo 2 4 Quando formul rios eletr nicos s o utilizado deve permitir que as pessoas que utilizam a tecnologia assistiva para acessar as info
82. BRASIL Dispon vel em lt http www onu org br oms afirma que existem 39 milhoes de cegos no mundo gt Acesso em Junho 2014 OPPENHEIM Alan v WILLSKY Alan S NAWAB S Hamid Signals and Systems 2a Edi o Prentice Hall 1997 OPPENHEIM Alan V SCHAFER Ronald W Digital Signal Processing Prentice Hall International 1975 OPPENHEIM Alan V SCHAFER Ronald W Discrete Time Signal Processing Prentice Hall 2009 O SHAUGHNESSY Douglas Interacting with compters by voice automatic speech recognition and synthesis In Proceedings of the IEEE Vol 91 No 9 Setembro de 2003 PHUNG Trung Nghia LUONG Mai Chi AKAGI Masato A concatenative speech synthesis for monosyllabic languages with limited data 126 PITT Ian J and ALISTAIR DN Edwards Improving the usability of speech based interfaces for blind users In Proceedings of the second annual ACM conference on Assistive technologies ACM 1996 PUTZ R e PABST R Sobotta Atlas de Anatomia Humana Volume 1 Cabe a pesco o e extremidade superior 21a Edi o Guanabara Koogan 2001 S NCHEZ Jaime AGUAYO Fernando APL Audio Programming Language for Blind Users In VII Congresso Iberoamericano de Inform tica Educativa 2004 SANTOS Andr a dos FRAN A Halisson Fabr cio de Carvalho GOMES talo Herbert Santos e TEIXEIRA Wander Glayson Fernandes FILHO Guido Lemos de Souza Desenvolvimento de aplica es para Deficientes Visuais Uma disc
83. Erros na convers o texto para fonema A s ntese de voz apresenta duas abordagens b sicas para a pron ncia de uma palavra em um processo denominado convers o texto para fonema ou grafema para fonema A abordagem mais simples a baseada em um dicion rio contendo todas as palavras e suas respectivas pron ncias armazenadas A outra abordagem baseada em regras de pron ncia Cada abordagem apresenta suas vantagens e desvantagens a abordagem baseada em dicion rio r pida e precisa por m falha quando a palavra n o se encontra no dicion rio Al m disso medida que o dicion rio aumenta os requisitos de espa o na mem ria aumentam Quanto baseada em regras dependendo da l ngua estas podem ser muito complexas e irregulares 3 4 3 Erros de pros dia e conte do emocional Um estudo da Universidade de Portsmouth no Reino Unido liderado por Amy Drahota e publicado na Speech Communication mostrou que ouvintes podem determinar quando um determinado locutor estaria sorrindo A identifica o das caracter sticas vocais que transmitem dados emocionais pode ser usada para tornar a fala mais natural Uma destas caracter sticas o pitch que auxilia a determinar se a 75 frase afirmativa interrogativa ou exclamat ria Uma das t cnicas que modificam o pitch envolve a transformada discreta cosseno 3 5 Particularidades sobre a engenharia de software envolvendo aplica es faladas e com comandos por voz Um fator crucial
84. Grammar Format Specification Vers o 1 0 Sun Microsystems Palo Alto Outubro de 1998 SUN MICROSYSTEMS Java Speech Markup Language Specification Vers o 0 5 Sun Microsystems Mountain View Agosto de 1997 127 TABET Youcef BOUGHAZI Mohamed Speech synthesis techniques A survey In 7th International Workshop on Systems Signal Processing and Their Applications WOSSPA 2011 TALAFOVA R ROZINAJ G CEPKO J Speech synthesis for mobile phone In 49 International Symposium ELMAR 2007 Zadar Croatia 2007 TAMURA Masatsune BRAUNSCHWEILER Norbert KAGOSHIMA Takehiko AKAMINE Masami Unit selection speech synthesis using multiple speech units at non adjacente segments for prosody and waveform generation In ICASSP 2010 2010 WALKER Mark R LARSON Jim HUNT Andrew A new W3C markup standard for text to speech synthesis 2001 WOUTERS Johan MACON Michael W Spectral modification for concatenative speech synthesis 2000 YANKELOVICH Nicole LEVOW Gina Anne e MARX Matt Designing SpeechActs Issues in speech user interfaces Proceedings of the SIGCHI conference on Human factors in computing systems ACM Press Addison Wesley Publishing Co 1995 128 AP NDICE A MODELAGEM MA TEM TICA DO TRATO VOCAL A 1 O trato vocal O trato vocal mostrado nas Figura A 1 e A 3 composto pela laringe e faringe ou cavidades lar ngea e far ngea respectivamente cavidades oral tamb m chamada de cavidade bucal e
85. IA SOFTWARE ASPECTOS QUALITATIVOS E PROBLEMAS RELATIVOS O presente Cap tulo visa discutir o funcionamento geral de um sistema TTS detalhando suas etapas de funcionamento bem como as principais falhas realizadas por estes sistemas atualmente Al m disso apresentada a t cnica de s ntese de voz baseada em concatena o de unidades sonoras pr gravadas t cnica esta utilizada nesta Disserta o sendo discutidas de forma detalhada seu funcionamento vantagens e desvantangens A voz um dos melhores meios de interface pois n o requer treinamento uma vez que uma forma de comunica o natural AZUIRSON 2009 A s ntese de voz a gera o de um sinal de voz podendo partir de uma transcri o fon tica acompanhada da pros dia associada Tal s ntese geralmente uma etapa de um sistema TTS cuja entrada um texto convencional Assim a s ntese de voz a produ o artificial da voz humana podendo ser implementada via hardware ou software Muitos sistemas operacionais incorporaram sintetizadores de voz no in cio dos anos 90 Sintetizadores de voz em geral requerem uma sa da de udio A maioria dos desktops e notebooks vendidos atualmente disp e de um suporte de udio satisfat rio Evidentemente quanto maior a qualidade da placa de som melhor o resultado da s ntese uma vez que para que sejam executados de modo mais efetivo alguns sintetizadores podem exigir configura es mais robustas necessitando de mais
86. N o Encontrado capas Encontrado Busca por fones sequ ncia misturada N o Encontrado Encontrado N o Encontrado d Sele o da fones Busca por fones t siso Encontrado Escolha de fones similares e unidades por regras Sele o de Fones E Verdadeiro Modifica o o aa Verdadeiro jiodificacao inter Modifica o inter inter fones Sele o de Fones E usto somado lt D unidades ambas Falso man Modifica o inter Verdadeiro fones unidades ater v Sintese STRAIGHT Modifica o inter fones t ais ie soe Sintese STRAIGHT Sintese STRAIGHT e Verdadeiro gt L Modifica o inter E rsrs Sintese STRAIGHT 1 t t Sintese STRAIGHT is Concatenar siabas __Concatenar senten as Senten as Sintetizadas yo Set Figura B 8 algoritmo de s ntese proposto em PHUNG et al Traduzido Para se determinar a posi o e a dura o dos n cleos e dos intervalos de transi o dentro de uma s laba usou se a medida de transi o espectral STM Spectral Transition Measure Para interpolar a fala e modificar a jun o dos intervalos de transi o usou se TD de segunda ordem restrito modificado MRTD Modified Restricted Second Order TD O STM no tempo t o local do frame no dom nio do tempo dado por PHUNG et al p 1 STM t gt a 86 p L i 1 em que us Ci n n N
87. NetBeans interface gr fica do software MATLAB interface gr fica do editor de udio Audacity arquitetura proposta 21 24 37 38 45 47 53 57 60 60 63 66 67 70 71 84 87 88 89 91 92 96 97 98 100 Figura 5 5 interface do a Sintetizador de Voz b Aplica o de Chat c Navegador de Internet d Lente de Aumento e Cliente de E mail f Editor de Texto Figura 6 1a resultado da forma de onda no dom nio do tempo para a frase Ol professor gerada pelo sintetizador Figura 6 1b resultado da forma de onda no dom nio do tempo para a frase Ol professor gerada por locutor humano Figura 6 2a resultado da forma de onda no dom nio da frequ ncia para a frase Ol professor gerada pelo sintetizador Figura 6 2b resultado da forma de onda no dom nio da frequ ncia para a frase Ol professor gerada por locutor humano Figura 6 3a espectrograma obtido para a frase Ol professor gerada pelo sintetizador Figura 6 3b espectrograma obtido para a frase Ol professor gerada por locutor humano Figura 6 4 resultados para o MOS Figura 6 5 resultados parao WAR Figura 7 1 solu o proposta em TALAFOV et al 2007 para aplica o em dispositivos m veis Figura A 1 Trato vocal em detalhes Figura A 2 cavidade pr pria da boca Vista ventral Figura A 3 anatomia da garganta Figura A 4 efeito de Bernoulli nas pregas vocais Figura 2 5
88. O Treinamento do HMM com matrizes de co vari ncia completa R tulos Contextuais Etapa de Treinamento CD HMMS e modelos de dura o E Texto Etapa de S ntese R tulos Contextuais Constru o da Senten a og i limped An lise do Texto gt HMM a aptas t sticas Gera o de par metros do Voz Sintetizada o Vocoder HMM a partir de caracter sticas din micas Par metros espectrais e FO gerados Figura B 5 solu o apresentada em CHEN et al 2013 para garantir variabilidade na voz Fonte CHEN et al 2013 Traduzido Infelizmente o modelo de distribui o tradicional da s ntese de voz n o preciso o suficiente porque uma distribui o gaussiana multivariada com matriz de covari ncia diagonal geralmente utilizada ignorando a correla o das dimens es por raz es de baixo custo computacional e armazenamento de dados Entretanto ignorar correla es dimensionais resulta em um modelo de distribui o impreciso Assim a fim de aprimorar o modelo de distribui o a matriz de covari ncia completa deve ser considerada Entretanto uma matriz de covari ncia completa dif cil de estimar devido ao grande n mero de par metros livres Para resolver este problema usa se ent o a Transforma o Linear de M xima Verossimilhan a MLLT Maximum Likelihood Linear Transformation a fim de estimar as matrizes de covari ncia completas
89. OIT 1997 O formato de um arquivo pho para a palavra noite mostrado na Figura 4 5 91 Fonema Dura o ms Pros dia pos freq amp n 102 O 121 0 40 116 0 81 111 0 o 105 20 106 0 60 101 0 y 84 t71 i57 097 0 19 99 0 40 100 0 79 102 0 Figura 4 5 formato de um arquivo pho para a palavra noite O MBROLA atrav s de uma lista de fonemas de entrada em conjunto com dados de pros dia pitch e dura o de fonemas em milissegundos gera vozes de 16 bits e pode gerar arquivos wav au raw e aiff AZUIRSON 2009 Os pontos de pitch s o determinados pela posi o relativa em percentual da mudan a da entona o e o pitch em Hertz AZUIRSON 2009 O MBROLA Faz uso de um banco de dados de d fono especialmente adaptado aos requisitos do sintetizador ap s passar por um processo de an lise s ntese harm nico estoc stico a partir de um banco de dados de d fono original um banco de dados composto por amostras tirando vantagem da flexibilidade do modelo param trico enquanto que mant m a simplicidade computacional dos modelos no dom nio do tempo O algoritmo apresenta baixo custo computacional com 7 opera es por amostra em m dia enquanto permite ao sintetizador uma suaviza o espectral no dom nio do tempo nas vizinhan as do segmento tornando o resultado mais fluido MBROLA 2014 A Figura 4 6 mostra o diagrama de blocos do MBROLA de forma detalhada O algoritmo MBROLA recebe como entrada informa es fon
90. S ntese I T tulo CDD 621 38 iv UNIVERSIDADE FEDERAL DO CEAR CENTRO DE TECNOLOGIA PROGRAMA DE P S GRADUA O EM ENGENHARIA DE TELEINFORM TICA CAMPUS DO PICI CAIXA POSTAL 6007 CEP 60 738 640 FORTALEZA CEAR BRASIL FONE 55 85 3366 9467 FAX 55 85 3366 9468 N COLAS DE ARA JO MOREIRA PROPOSTA DE UM FRONT END EM JAVA PARA SINTETIZADOR DE VOZ BASEADO NO MBROLA Disserta o submetida Coordena o do Programa de P s Gradua o em Engenharia de Teleinform tica da Universidade Federal do Cear como requisito parcial para a obten o do grau de Mestre em Engenharia de Teleinform tica rea de concentra o Sinais e Sistemas Aprovada em 02 09 2015 BANCA EXAMINADORA Universidade Federal do Cear 4 i tebow Wrcelo Profa Dra MARIA ELIZABETH SUCUPIRA FURTADO Universidade de Fortaleza A Deus Aos meus Pais Professores e Amigos A Sebasti o de Ara jo In memorian A Alexandre M de Morais In memorian vi AGRADECIMENTO CAPES pelo apoio financeiro com a manuten o da bolsa de aux lio bem como Siemens Unify Ao Prof Dr Paulo Cesar Cortez pela excelente orienta o e aos professores participantes da banca examinadora Prof Dr Jos Marques Soares Prof Dr Danielo Gon alves Gomes e Profa Dra Maria Elizabeth Sucupira Furtado pelo tempo pelas valiosas colabora es e sugest es Aos professores do Programa de P s Gradua o em Engenharia
91. Um novo algoritmo para intera o homem dispositivo port vil multiplataforma baseado em fluxo ptico Tese de doutorado Universidade Federal do Cear Fortaleza 2012 DUTOIT T An Introduction to Text To Speech Synthesis Kluwer Academic Publishers Dordrecht Hardbound ISBN 0 7923 4498 7 312 pp 1997 DUTOIT T H LEICH H MBR PSOLA Text To Speech Synthesis based on an MBE Re Synthesis of the Segments Database In Speech Communication Elsevier Publisher vol 13 n03 4 1993 EICHNER Matthias WOLFF Matthias OHNEWALD Sebastien HOGGMANN Riidiger Speech synthesis using stochastic markov graphs 2001 124 ESPEAK SITE OFICIAL Dispon vel em lt http espeak sourceforge net gt Acesso em Junho de 2014 FESTIVAL SITE OFICIAL Dispon vel em lt http www cstr ed ac uk projects festival gt Acesso em Junho de 2014 FULKERSON Michael S BIERMANN Alan W Javox A Toolkit for Building Speech Enabled Applications GON ALVES Maria In s Rebelo PONTES Paulo Augusto de Lima VIEIRA Vanessa Pedrosa PONTES Ant nio de Lima CURCIO Daniella DE BIASE Noemi Grigoletto Fun o de transfer ncia das vogais orais do Portugu s brasileiro an lise ac stica comparativa Brazilian Journal of Otorhinolaryngology Vol 75 ed 5 setembro outubro 2009 HAYKIN Simon S VEEN Barry Van Sinais e Sistemas Bookman 2001 HUNT Andrew J BLACK Alan W Unit selection in a concatenative speech synthe
92. a o da concatena o de segmentos n o adjacentes mantendo a qualidade Ent o a pros dia regenerada a partir de uma nica ou m ltiplas unidade s a fim de reter as express es pros dicas da fala original Finalmente a pros dia das unidades 188 modificada de acordo com a pros dia regenerada e ent o as unidades geradas s o concatenadas a fim de produzir uma fala BRAUNSCHWEILER 2010 A Figura B 7 mostra um diagrama de blocos para a solu o proposta O banco de dados de unidades sonoras cont m informa es sobre forma de onda dos segmentos marcadores de pitch atributos pros dicos atributos de contextos fon ticos e atributos de contextos gramaticais S o usados semi fonemas como as menores unidades sonoras A sequ ncia de fonemas a pros dia gerada no m dulo de gera o de pros dia juntamente com informa es de atributos para a sele o de unidades s o usadas como entradas BRAUNSCHWEILER 2010 Sequ ncia de fonemas pros dia Sele o de Unidades Busca tima por sequ ncia de unidades Regenera o de Pros dia Fus o de pros dia Unidades de pros dia Concatena o de pros dia SS Gera o de Forma de Onda Fus o da forma de Unidade de forma de onda onda Concatena o das unidades Voz sintetizada Figura B 7 solu o proposta por BRAUNSCHWEILER 2010 Fonte BRAUNSCHWEILER 2010 Traduzido 189 Tal t cnica faz uso dos custos alvo e dos custo
93. a ascendente bottom up iniciando com a entrada de dados e reescrevendo a at o s mbolo inicial tentando localizar os elementos mais b sicos Em conjunto com tokens e regras gramaticais gera se ent o a rvore sint tica da estrutura de entrada Para os casos em que este insuficiente s o necess rias e realizadas as an lises sem nticas e pragm ticas conforme o contexto 5 3 2 5 Separa o sil bica e identifica o das s labas t nicas Antes de iniciar a transcri o fon tica realizada a separa o sil bica e a identifica o das s labas t nicas por meio da acentua o Para a identifica o de ox tonas n o acentuadas podemos aplicar as seguintes regras j mencionadas conforme explicado no trabalho AZUIRSON 2009 palavras terminadas em im e um palavras terminadas em ar er ir e or devido forma infinitiva dos verbos apresentarem a sua ltima s laba t nica e palavras terminadas em z antecedidas por vogais Vale ressaltar que embora essas regras n o sejam verdadeiras para todos os casos elas abrangem a maioria deles apresentando um bom ndice de acerto conforme explicado em AZUIRSON 2009 5 3 2 6 Convers o texto para fonema e transcri o fon tica Os passos restantes s o os respons veis por converter o texto falado em fala propriamente dita A convers o texto para fonema como o pr prio nome sugere converte cada palavra em fonema lembrando que um fonema a menor unidade sonora de
94. a e dura o de pausas o pitch o valor da frequ ncia fundamental bem como dura o e amplitude dos fones SCHROETER 2005 AZUIRSON 2009 MAEDA 1995 Uma modelagem apropriada da pros dia essencial para produzir falas com alto grau de naturalidade Detalhes fon ticos como nasaliza o de vogais e melhorias nas fontes de excita o tamb m s o necess rias para obter uma fala natural Muitas vezes tais melhorias s o feitas com base em experimenta es de tentativa e erro MAEDA 1995 Devido ao alto n vel dos sistemas de processamento ac stico existentes atualmente a maior parte das pesquisas tem se voltado para modelagem lingu stica e pros dica AZUIRSON 2009 A pros dia pode fornecer pistas sobre a estrutura sint tica resolvendo ambiguidades Permite ainda a segmenta o de enunciados longos em unidades menores No caso da pron ncia a pros dia dependente do falante incluindo g nero tarefa espec fica etc AZUIRSON 2009 SCHROETER 2005 40 2 6 5 Entona o e Dura o A especifica o autom tica da entona o a partir de um texto comum continua sendo um desafio para os sistemas de s ntese de voz Os sistemas de s ntese de voz devem produzir uma entona o apropriada Tr s par metros din micos pros dicos ou suprassegmentais contribuem para a entona o pitch dura o e amplitude No n vel segmental fonema a amplitude varia muito de acordo com a forma de articula o Em geral
95. a um pacote de softwares acess veis livre gratuito de c digo aberto nativamente multiplataforma dispon vel para falantes do portugu s brasileiro contendo aplica es mais comuns no dia a dia de um usu rio integradas a um sistema de s ntese de voz Por fazer uso da tecnologia Java a arquitetura proposta nativamente multiplataforma ao contr rio do DOSVOX que foi desenvolvido nativamente para o Windows e que executado no GNU Linux apenas se houver o Wine instalado ou do ADRIANE que um ambiente puramente GNU Linux Embora solu es baseadas em plataformas livres sejam as ideais tanto por ter uma filosofia de desenvolvimento colaborativo e consequentemente mais r pido como pelo baixo custo n o se pode for ar os usu rios a adotarem um sistema operacional com o qual os usu rios possivelmente n o estejam habituados a usar Aplica es como JAWS e Virtual Vision custam aproximadamente US 1 200 00 e US 2 500 00 respectivamente o que os torna invi veis para usu rios com condi es financeiras restritas Al m disso alguns dos sistemas que foram apresentados anteriormente apresentam s ntese sofr vel para o idioma portugu s brasileiro e n o fornecem a seus usu rios ferramentas acess veis integradas 6 2 Resultados da s ntese an lise quantitativa Os testes iniciais tiveram por objetivo analisar no dom nio do tempo e da frequ ncia as diferen as entre a voz sintetizada e a voz natural de forma a esclare
96. ada em geral pois n o faz uso de grandes bancos de dados com amostras de voz TABET 2011 Outra vantagem desta t cnica que os par metros est o altamente correlacionados com a produ o e propaga o de som no trato vocal assim apresenta grande flexibilidade quanto ao tipo e a qualidade das vozes geradas por meio de mudan a nas regras ou nos valores para os par metros TABET 2011 AZUIRSON 2009 A s ntese baseada em regras tamb m bastante intelig vel mesmo quando o resultado reproduzido em alta velocidade TABET 2011 SCHROETER 2005 Par metros como frequ ncia fundamental n vel de ru dos s o variados ao longo do tempo para gerar formas de onda A maioria destes sistemas geram vozes muito artificiais rob ticas n o atingindo naturalidade Entretanto a m xima naturalidade nem sempre um objetivo prim rio dependendo do sistema E a s ntese de formantes pode apresentar certas vantagens sobre sistemas como os concatenativos A s ntese de formantes intelig vel mesmo em altas velocidades Al m disso costumam ser programas menores que aqueles baseados em concatena o por n o precisarem de um banco de dados de amostras podendo ser usados em sistemas embarcados com recursos de mem ria e processamento limitados TABET 2011 muito mais f cil modificar os par metros em s ntese de formantes para simular diversas vozes sint ticas que em outras t cnicas mas infelizmente mais dif cil a obter e dete
97. ada pelo fluxo de ar usando tanto lei quadr tica como c bica Por meio desse modelo poss vel sintetizar v rios fricativos e pausas n o vozeadas em diversos contextos em conjunto com vogais MAEDA 1995 Os c lculos baseados em modelos unidimensionais dependem das fun es de rea do trato vocal e da limita o da faixa de frequ ncia em um certo valor A se o transversal do trato vocal deve ser menor que a metade de um comprimento de onda para que o modelo de onda plana possa ser utilizado A partir deste valor de frequ ncia come am a surgir modos de propaga o adicionais n o descritos pelos modelos unidimensionais Por isso para altas frequ ncias n o v lido considerar a onda ac stica que se propaga pelo trato vocal como uma onda plana BRAND O 2011 159 Um modelo 2D apresenta precis o similar ao modelo 1D por m apresenta maior realismo BRAND O 2011 A fun o rea importante nas simula es 1D do trato vocal e para s ntese de voz J foram combinadas imagens de tomografia com dados ac sticos e da geometria dos l bios procurando melhorar a confiabilidade na obten o da fun o rea BRAND O 2011 Story criou um modelo param trico para controlar a fun o rea do trato vocal permitindo a simula o de consoantes e vogais BRAND O 2011 A dificuldade em se modelar a complexa estrutura dos rg os do corpo humano especialmente a laringe e o trato vocal que as formas aproximadas
98. ados nesse est gio como v rgula ponto e v rgula e ponto final e ponto par grafo Por se tratar de um prot tipo n o foi agregado ao sistema um dicion rio de abreviaturas e siglas 5 3 2 3 Pr processamento O pr processamento do texto analisa a entrada do texto buscando por constru es especiais da linguagem como acr nicos abrevia es datas horas n meros medidas valores monet rios endere os de e mails entre outros O resultado dessas duas primeiras etapas a forma falada do texto escrito por exemplo R M rio Mamede 455 Bl A Ap 203 Rua M rio Mamede n mero quatrocentos e cinquenta e cinco bloco A apartamento duzentos e tr s Depositar R 1 500 00 na minha conta Depositar mil e quinhentos reais na minha conta Nasci no dia 11 02 1988 Nasci no dia onze de fevereiro de mil novecentos e noventa e oito 5 3 2 4 An lise morfossint tica e lingu stica A fim de eliminar qualquer ambiguidade na pron ncia das palavras em especial de hom grafos n o hom fonos realizada a an lise morfossint tica por meio de um parser n o determin stico 102 O parser usa a sequ ncia de entrada para determinar a estrutura gramatical conforme a gram tica formal definida transformando a em uma rvore para processamento posterior e captura da hierarquia impl cita na entrada O parser decomp e o texto em unidades estruturais a fim de que sejam organizadas dentro de um bloco de form
99. agem mais promissora atualmente a abordagem concatenativa produz resultados de s ntese superiores pois usa grava es de vozes humanas Esta usa segmentos reais curtos de vozes gravadas que s o 53 cortadas durante grava es e armazenadas em um invent rio um banco de dados de voz tanto como formas de onda ou codificados por meio de um codificador adequado SCHROETER 2005 A Figura 3 3 mostra o diagrama de blocos de um sistema baseado em s ntese concatenativa gen rico O front end deve ser modificado para cada idioma Entrada An lise do Texto Montagem das unidades Sintese e modifica o da Sa da Texto convers o letra som de acordo com alvos forma de onda com a Voz Sintetizada pros dia adequados com entrada fala O banco de dados de unidades deve ser modificado para cada idioma eso e Arazenamento eg de unidades sonoras i 2 S mbolos Fon ticos Caracteres Alfab ticos Alvos Pros dicos Figura 3 3 diagrama de blocos da s ntese concatenativa Fonte SCHROETER 2005 Traduzido O front end de um sistema concatenativo deve converter uma entrada de texto em cadeia de caracteres string de s mbolos fon ticos e informa es de pros dia como a frequ ncia fundamental dura o e amplitude O front end emprega um conjunto de regras e ou um dicion rio de pron ncia Juntamente com uma string de s mbolos fon ticos produz valores para frequ ncia fundamental pitch dura
100. al tamb m chamada de pitch e representa o per odo de interrup o do fluxo de ar que excita o trato vocal causado pela vibra o das pregas vocais quando passado pela glote Considerando que a cada ciclo a glote abre devagar e fecha muito r pido isso deve fazer com que o trem de pulsos de onda de press o tenha um ataque lento e uma queda r pida No dom nio do tempo a press o P t definida por LIMA 2010 a P t Py sen x 1 em que T o per odo a nos diz se o ataque lento ou r pido Quanto maior alfa mais inclinado o pulso caso a seja nulo n o h inclina o Conforme dito anteriormente a frequ ncia de vibra o das pregas vocais durante a fona o pode ser modificada pelos m sculos lar ngeos e press o do ar gerada pelos pulm es Em resposta varia o de tens o dos m sculos as pregas vocais vibram a frequ ncias de 50 a 1000Hz resultando em sopros de ar injetado na traqueia Quanto maior for esse per odo menor o espa o entre as harm nicas e consequentemente menor o seu per odo fundamental resultando em um som mais grave Por outro lado se esse per odo for muito pequeno a frequ ncia fundamental alta logo produzindo som mais agudo BRAND O 2011 LOPEZ 2009 A altera o da frequ ncia fundamental realizada de tal forma que as informa es lingu sticas s o fornecidas ao interlocutor atrav s da entona o indicando perguntas afirma es ou estados emoc
101. alhos aceitos em congressos relacionados 1 5 Estrutura o do trabalho 2 CONCEITOS B SICOS E FUNDAMENTOS 2 1 Defini o de defici ncia visual 2 2 Inclus o digital 2 3 Acessibilidade 2 4 Tecnologias assistivas 2 6 Fon tica e especificidades de cada l ngua 2 7 Caracter sticas da voz 3 VIS O GERAL E PROJETO DE UM SISTEMA DE S NTESE DE VOZ VIA SOFTWARE ASPECTOS QUALITATIVOS E PROBLEMAS RELATIVOS 3 1 Aplica es das tecnologias de voz e vantagens 3 2 Vis o geral de um sistema TTS 3 3 S ntese de voz baseada em concatena o 3 4 Erros e dificuldades mais comuns gerados pelo processo de s ntese 3 5 Particularidades sobre a engenharia de software envolvendo aplica es faladas e com comandos por voz 4 TECNOLOGIAS DE S NTESE DE VOZ E ACESSIBILIDADE EXISTENTES NO MERCADO E O MBROLA 4 1 Sistemas de acessibilidade e s ntese de voz existentes no mercado 4 3 O MBROLA xvii 20 21 23 25 26 26 28 28 29 29 30 30 35 41 42 43 52 71 75 81 81 89 5 SISTEMA DESENVOLVIDO 5 1 Teste de di logo natural 5 2 As ferramentas utilizadas 5 3 O sistema desenvolvido 6 TESTES E RESULTADOS OBTIDOS 6 1 Compara o com outros sintetizadores de voz 6 2 Resultados da s ntese an lise quantitativa 6 3 Testes em campo an lise qualitativa 6 4 Testes em campo an lise quantitativa 7 CONCLUS O 7 1 Trabalhos futuros REFER NCIAS AP NDICE A MODELAGEM MATEM TICA DO TRATO VOCAL A 1
102. alidade j existentes com SDK dispon vel para teste Apresenta suporte para at 33 l nguas 100 vozes e plataformas ARM MIPS e Intel x86 entretanto n o se trata de uma solu o livre e como dito voltado apenas para sistemas GNU Linux ACAPELLA 2014 4 1 2 ADRIANE O projeto ADRIANE Audio Desktop Reference Implementation And Networking Environment Ambiente de Rede e Refer ncia para Implementa o de Desktop Auditivo visa prover uma interface de usu rio passo a passo e linear f cil de usar e organizada em menus que priorizam os aplicativos e tarefas mais usadas pelo usu rio A primeira linha do ADRIANE diz Enter para ajuda seta para baixo o pr ximo menu O sistema cont m leitores de tela sintetizadores de voz drivers Braille navega o pelo teclado e programas que podem ser inteiramente utilizado por meio de intera es n o gr ficas Al m disso com o GSM o usu rio do ADRIANE consegue baixar mensagens SMS para o computador e respond las com uso de um editor e um teclado normal em vez de pequenas telas do telefone A equipe do ADRIANE procurou desenvolver softwares que se adaptassem s capacidades e limita es dos usu rios ao inv s de adaptar uma interface pr existente cujo desenvolvimento inicial n o previa oferecer suporte aos deficientes visuais A pedido especial de usu rios e programadores cegos mais experientes depois foi acrescentado um item Shell ao primeiro menu O sistema ADRIANE est dis
103. alta qualidade de s ntese Modelos HNM s o modelos param tricos e apresentam facilidade para modificar caracter sticas pros dicas como entona o estresse ou ritmo TABET 2011 185 HNM assume que o sinal de fala composto por uma parte harm nica e uma parte de ru do A parte harm nica corresponde aos componentes quasi peri dicos da fala e o ru do corresponde aos componentes n o peri dicos Tais componentes s o separadas no dom nio da frequ ncia por um par metro chamado frequ ncia m xima vozeada Fm A largura de banda at Fm representada por senoidais harm nicas e a largura de banda a partir de Fm representada por componentes de ru do modulados Sons n o vozeados s o representados apenas pela parte do ru do O sinal de voz ent o obtido a partir da soma das harm nicas com ru do A parte harm nica cont m apenas m ltiplos da frequ ncia fundamental A parte do ru do pode ser modelada a partir de um envelope usando filtro AR no qual a s ntese realizada por meio da filtragem de ru do branco pelo filtro AR A fase dos ru dos ajustada aleatoriamente devido ao fato do ru do ser um sinal estoc stico TABET 2011 A parte peri dica ou quasi peri dica considerada harm nica Nas primeiras implementa es do HNM a parte harm nica designava a soma de componentes senoidais harmonicamente relacionadas com amplitudes constantes dentro de cada quadro A fase modelada por um polin mio de prim
104. analisados O frame shift quando alterado na etapa de treino pode melhorar parte do resultado do modelo gerado Na etapa de s ntese o respons vel por determinar a velocidade da fala COSTA e MONTE 2012 Em geral quanto maior for a frequ ncia de amostragem usada para gravar as senten as que comp em a base de treino melhor o resultado final A explica o se deve pelo fato do modelo gerado pelo processo de aprendizagem conter mais informa es A parte da s ntese realiza a opera o inversa do reconhecimento de voz inicialmente o texto marcado de acordo com r tulos dependentes de contexto Em seguida as dura es dos estados do HMM s o determinados de acordo com as fun es de densidade de probabilidade das dura es dos estados Ap s esta etapa o algoritmo de gera o de par metros gera uma sequ ncia de coeficientes mel cepstrais e os valores de log fo que maximizam suas probabilidades de sa da Finalmente a forma de onda da fala sintetizada diretamente a partir dos coeficientes mel cepstrais gerados e os valores de fo usando um filtro MLSA com pulso bin rio ou ru do de excita o BLACK 2007 179 Sinal de Voz Extra o do par metro de excita o Parm metros espectrais Par metros de excita o R tulo Etapa de S ntese An lise do Texto HMMs dependentes de contexto e modelos de dura o R tulo Gera o de Par metros a partir do HMM Pa
105. anco de dados de voz como uma rede de transi o de estados Os estados caixas representam todos os fonemas no banco de dados organizados de acordo com a identidade fon tica e as linhas representam as transi es que s o todas as sequ ncias de concatena o poss vel Figura B 3 banco de dados como uma rede de transi o de estados Fonte HUNT 1996 Dada a especifica o alvo a sequ ncia t t tn precisa se selecionar o conjunto de unidades uf u Un mais pr xima ao alvo minimizando o esfor o de computacional de se aplicar t cnicas de processamento de sinais para produzir as 174 caracter sticas pros dicas exigidas bem como minimizar as distor es das formas de onda O banco de dados contendo as unidades candidatas pode ser visto como uma rede de transi o de estados com cada unidade representando um estado O custo de perman ncia em um estado pode ser visto como o custo alvo e o custo de transi o de estados pode ser visto como o custo de concatena o Como qualquer unidade pode ser potencialmente concatenada com qualquer outra a rede completamente conectada O fonema alvo sempre sintetizado por uma unidade do banco de dados com a mesma identidade fon tica HUNT 1996 Cada alvo possui um pitch dura o e pot ncia desejada A tarefa achar um caminho pela rede de transi o de estados a sequ ncia no banco de dados de unidades com custo m nimo HUNT 1996 Cada fonema a
106. antagens e desvantagens interessante observar que as solu es apresentadas em geral n o apresentam voz natural n o s o nativamente multiplataformas apresentam suporte para um n mero restrito de idiomas e ou n o s o livres ou custam valores elevados para camadas populares Al m disso a maioria apresenta apenas sintetizador de voz n o provendo um pacote contendo as aplica es mais usadas no dia a dia de um usu rio comum Vale ressaltar ainda que esta lista apresenta apenas algumas das solu es existentes e n o todas deixando de lado softwares como o JAWS e Virtual Vision que custam respectivamente US 1 200 00 e US 2 500 00 e s o dispon veis apenas para plataforma Microsoft Windows tornando se proibitivos para usu rios que n o disponham de tais recursos financeiros ou n o usem esta plataforma Vale ressaltar que excetuando se o ADRIANE DOSVOX LINVOX LianeTTS e NVDA os demais sistemas s o apenas sintetizadores de voz n o englobando solu es de acessibilidade Ademais s o poucos os sistemas que realizam uma an lise sem ntica pragm tica de textos e quando o fazem comum os algoritmos do parser produzirem estruturas sint ticas incorretas AZUIRSON 2009 82 4 1 1 Acapella Acapella TTS um sintetizador de voz projetado para desenvolvedores integrarem a capacidade de s ntese de voz para suas aplica es nos dispositivos baseados em GNU Linux embarcado Apresenta uma das s nteses com maior qu
107. ante na determina o das vari veis aerodin micas associadas com a qualidade vocal Para um maior realismo necess rio considerar sua elasticidade em cada ponto da estrutura e n o considerar o mesmo m dulo de elasticidade para a estrutura inteira Dois problemas principais impedem a modelagem precisa das pregas vocais O primeiro problema relativo sua forma exata na qual os modelos massa mola conseguem fazer simula es razo veis mas ainda n o s o adequados O segundo problema relativo elasticidade dos tecidos a qual varia para diferentes pontos das pregas vocais e ainda em fun o das contra es musculares o que deveria ser refletido tamb m nos modelos BRAND O 2011 4 3 7 Modelagem Baseada em Imagens M dicas Com as t cnicas de imageamento por resson ncia magn tica IRM poss vel resolver o problema da forma da estrutura na modelagem tridimensional pois elas permitem a visualiza o espacial da maioria dos tecidos Assim poss vel obter malhas individualizadas para modelagem restando apenas o problema da determina o das 157 caracter sticas do tecido em cada ponto o qual pode ser resolvido atrav s da t cnica de imageamento por elastografia BRAND O 2011 A elastografia por resson ncia magn tica ERM uma t cnica que permite obter as propriedades mec nicas dos tecidos e consiste em provocar ondas mec nicas nos tecidos e usar um equipamento de RM para medir as varia es na posi
108. aramente examinada gerando um problema de estabilidade excessiva A variabilidade na voz humana portanto um empecilho para os sistemas baseados em HMM convencional Em CHEN et al 2013 proposta uma solu o para lidar com a variabilidade da fala que raramente recebe aten o nos estudos sobre o tema O trabalho prop e um m todo capaz de gerar vozes humanas variantes no tempo e uma fala expressiva e diversa diferente dos sistemas tradicionais que geram vozes por vezes considerada por seus usu rios como fria e mon tona Assim Um tradeoff entre estabilidade e variabilidade deve ser considerado a fim de garantir uma melhor naturalidade Um diagrama de blocos de um sistema HMM tradicional combinado com a estrat gia apresentada no trabalho mostrado na Figura B 5 Durante a fase de treinamento o espectro e os par metros de excita o s o extra dos e modelados por HMMs dependentes de contexto Durante a fase de s ntese um texto dado convertido em uma sequ ncia de r tulos dependentes de contexto por um analisador de texto 181 A solu o apresentada no trabalho citado apresentado considera que cada vetor da distribui o de estados provavelmente um vetor de caracter sticas da fala se o modelo de distribui o preciso o suficiente e que a probabilidade de sa da de um vetor com a dist ncia m nima do vetor m dio maior Sinal de Voz Extra o de Caracter sticas Par metros espectrais e F
109. arte dos volunt rios est na descontinuidade inerente t cnica de concatena o Pode se afirmar que o sistema proposto embora ainda n o t o natural quanto se deseje apresenta boa inteligibilidade Tal conclus o tem como base a compara o entre a voz produzida artificialmente por meio do sintetizador proposto e uma voz produzida por um locutor natural tanto no dom nio do tempo como da frequ ncia considerando se depoimento de usu ria portadora de defici ncia visual e o resultado dos testes de usabilidade bem como os resultados dos testes MOS e WER com volunt rios O resultado mais inesperado residiu no depoimento da usu ria deficiente visual embora o resultado obtido com a API do Google Translator fosse mais natural o tom grave do resultado obtido neste trabalho mostrou se mais agrad vel confort vel e adequado para uso a longo prazo um resultado n o muito comentado em trabalhos envolvendo acessibilidade Embora haja v rios projetos com caracter sticas semelhantes a flexibilidade do projeto tanto pelo fato de atuar como front end para diversas APIs de s ntese de voz prover suporte para diversas l nguas e diversas plataformas operacionais e ser livre bem como o fato de j fornecer ao usu rio um pacote de softwares mais utilizados torna a solu o proposta uma contribui o importante ao processo de integra o digital de deficientes visuais 121 7 CONCLUS O Programadores e engenheiros de software envol
110. arted Name Value Warning Name is nonexistent or not a directory C Xilinx 13 4 ISE_DS ISE sysgen util Warning Name is nonexistent or not a directo C Xilinx 13 4 ISE_DS ISE sysgen util nt Warning Name is nonexistent or not a directory C Xilinx 13 4 ISE_DS ISE sysgen hwcosim xtre Warning Name is nonexistent or not a directory C Xilinx 13 4 ISE_DS ISE sysgen hwcosim xtr Warning Name is nonexistent or not a directory C Xilinx 13 4 ISE_DS ISE sysgen hwcosim jtag w A conversawav Ei deploytool bat Warning Name is nonexistent or not a directory C Xilinx 13 4 ISE_DS ISE sysgen hwcosim jtag E a Warning Name is nonexistent or not a directory C Xilinx 13 4 ISE_DS ISE sysgen hwcosim netw E Iedataxsd Warning Name is nonexistent or not a directory C Xilinx 13 4 ISE_DS ISE sysgen hwcosim netw E ledata_utf8 xml Warning Name is nonexistent or not a directory C Xilinx 13 4 ISE_DS ISE sysgen hwcosim pp_e E matlab bat Warning Name is nonexistent or not a directory C Xilinx 13 4 ISE_DS ISE sysgen hwcosim pp e A matlab exe Warning Name is nonexistent or not a directory C Xilinx 13 4 ISE_DS ISE sysgen plugins bin mbuild bat Warning Name is nonexistent or not a directory C Xilinx 13 4 ISE_DS ISE sysgen examples dem F mec bat Warning Name is nonexistent or not a directory C Xilinx 13 4 ISE_DS ISE sysgen bin MemShieldStarter bat Name is nonexistent or not a directory C Xilinx 13 4 ISE_DS ISE sysgen bin n
111. as ADRIANE Sintese Nao Sim Sim C Linux JAWS N o N o N o Windows Virtual N o N o N o Windows Vision MBROLA S ntese Sim Livre com Sim C Windows restri es Linux MacOS etc Festival S ntese N o Sim Sim C Windows Linux e Mac OS IBM Via S ntese Sim N o Sim Windows e Voice Mac OS eSpeak S ntese Sim Sim Sim C Windows Linux Solaris Android e Mac OS Acapella S ntese Sim N o N o C Linux Liane S ntese Sim Sim Sim C Windows e Linux Fonte Pr prio autor 95 5 SISTEMA DESENVOLVIDO O presente Cap tulo visa apresentar o sintetizador de voz proposto citando suas caracter sticas gerais suas vantagens metodologia de desenvolvimento detalhando seu funcionamento e as ferramentas acess veis desenvolvidas O projeto desenvolvido um front end para o MBROLA desenvolvido em Java a fim de poder ser executado em diferentes ambientes operacionais com GNU Linux Mac OS e Microsoft Windows por exemplo O projeto segue o modelo de software livre e gratuito em oposi o a algumas das interfaces atuais que s o fechadas e apresentam alto custo financeiro Este projeto portanto de c digo aberto e de livre distribui o para que os interessados possam fazer modifica es e uso de acordo com suas necessidades facilitando e acelerando ainda mais o processo de inclus o digital de deficientes visuais Apesar da exist ncia de v rios sistemas de acessibilidade e s ntese de voz a maioria deles aprese
112. as assistivas como leitores de tela e lentes de aumento virtuais Tal interface chamada de Assistive Technology Service Provider Interface AT SPI que fornece uma ponte entre o AT SPI e as aplica es baseadas em Java que fazem uso de componentes de interface com o usu rio Swing A Figura C 1 mostra a arquitetura geral do GNOME no que diz respeito a algumas solu es voltadas para desenvolvimento de aplicativos acess veis 193 ARQUITETURA DE ACESSIBILIDADE DO DESKTOP GNOME Camada de Ferramentas Accessibility Helper Figura C 1 arquitetura do GNOME 2 0 Fonte SUN MICROSYSTEMS 2003 Traduzido C 2 IBM ViaVoice TTS SDK O IBM ViaVoice TTS SDK fornece aos programadores as ferramentas necess rias para o desenvolvimento de aplica es que incorporam a tecnologia de voz incluindo um conjunto da APIs e utilit rios que permitem ao desenvolvedor grande capacidade de padroniza o e gerenciamento do processo de s ntese de voz acessado por uma aplica o Este SDK permite aos desenvolvedores a escolha entre duas APIs distintas Eloquence Command Interface ECI e Microsoft Speech Application Programming Interface SAPD O IBM ViaVoiceTTS SDK juntamente com o IBM ViaVoice TTS Runtime fornecem todos os softwares e arquivos de suporte para as duas APIs ECI uma API propriet ria e independente de plataforma que permite acesso direto a toda a funcionalidade do IBM ViaVoice TTS Como caracter sticas desta API destacam se o seu s
113. as estimadas A s ntese articulat ria gera voz a partir de modelos do comportamento articulat rio do trato vocal humano A s ntese concatenativa produz fala por meio da concatena o de pequenas unidades de fala gravadas previamente sejam fonemas d fonos ou tr fonos A s ntese por sele o de unidades ao inv s de gravar apenas uma unidade sonora grava diversas at centenas de ocorr ncias da mesma unidade TABET 2011 A forma mais simples de um sistema TTS utilizar um Look up Table simplesmente reproduzindo vozes pr gravadas e codificadas Tal abordagem utilizada em aplica es com poucas mensagens SHAUGHNESSY 2003 M todos de s ntese baseados em manipula o do espectro do sinal de voz como s ntese de formantes ou s ntese por codifica o preditiva linear produzem uma sa da compreens vel por m pouco natural Essa falta de naturalidade prov m de modelos muito simplificados invent rios com poucas unidades sonoras ou controle de pros dia ruim KOBAYASHI et al Para o portugu s brasileiro as t cnicas mais empregadas s o a s ntese concatenativa e a s ntese baseada em formantes COSTA e MONTE 2012 Em sistemas que exigem apenas um vocabul rio limitado baseados em palavras ou frases previamente gravadas poss vel gerar pequenas frases com alta naturalidade e inteligibilidade uma vez que poss vel gravar todas as palavras ou trechos necess rios para s ntese em seus mais variados contex
114. as sofram nfase de maneira que os fonemas sejam caracterizados Tal fen meno realizado pelo grupo de resson ncia composto pela faringe cavidades oral e nasal e ocorre na passagem do ar impulsionado nos pulm es pelo trato vocal Al m disso filtra os pulsos de ar gerados pela vibra o das pregas vocais J o sistema articulador modifica as propriedades de filtragem dos rg os de resson ncia sobre o sinal glotal irradiando o som para o meio externo cuja frequ ncia dos pulsos de ar que passam pelo trato vocal determina basicamente o qu o agudo ou grave uma voz Ao chegar boca tais as ondas de press o s o irradiadas sendo esta tarefa realizada pelo grupo de irradia o LIMA 2010 MACHADO 1997 132 onda ac stica filtrada voz Grupo de Articula o Grupo de Resson ncia M sculos e paredes peitorais 2y f J Pulm es a E Grupo de Vibra o Disrama Grupo de Respira o M sculos abdominais Figura A 6 esquema de produ o da voz humana Fonte BRAND O 2011 A produ o da voz se inicia portanto com uma contra o expans o dos pulm es criando assim uma diferen a de press o entre o ar nos pulm es e o ar na frente da boca causando um deslocamento de ar Tal deslocamento passa pela laringe transformando se em uma s rie de pulsos o sinal glotal que chegam boca e cavidade nasal sendo modulados pelas l nguas dentes e l bios LIMA 2010
115. aseada em SMGs n o apresente a mesma qualidade que a s ntese baseada em concatena o atualmente espera se que a qualidade de ambos deva se equiparar em um futuro pr ximo EICHNER 2001 Seja y U Yyy um grafo dirigido com estados v rtices U u u Uy ea rela o de incid ncia Yyy UxU gt 6 1 Denotamos uma aresta entre dois estados u e Uz como u gt ug Uma aresta definida unicamente pela rela o de incid ncia A probabilidade de transi o do arco u gt ug estimado no processo de treinamento escrito como P A sequ ncia de sucessivas arestas em um grafo chamado de caminho q O i simo estado do caminho q denotado por q i EICHNER 2001 Come a se o treinamento com uma estrutura HMM convencional No est gio de inicializa o cada estado assinalado com uma distribui o Gaussiana Ap s o treinamento cada estado do modelo dividido em dois Ent o as arestas e os caminhos improv veis s o removidos do SMG Tal processo realizado em dois est gios no primeiro todas as arestas com probabilidade de transi o inferior a um dado limiar p s o removidos do grafo Tais procedimentos s o repetidos at que se atinja um n mero m ximo total de estados ou o n mero de estados descartados no ltimo est gio da itera o seja maior que 0 3 2 em que J o n mero de divis es de estados desde o in cio EICHNER 2001 A s ntese realizada por meio das seguintes etapas sele
116. butos aqueles que melhor dividem os exemplos gerando sub rvores A principal limita o do ID3 que ele s lida com atributos categ ricos n o ordinais n o sendo poss vel apresentar conjunto de dados com atributos cont nuos devendo portanto atributos cont nuos serem discretizados previamente 5 3 2 7 Entona o e pros dia Por fim a entona o realizada por meio de sinais de ponto exclama o e interroga o A an lise da pros dia respons vel por processar a estrutura da senten a palavras e fonemas para determinar a pros dia adequada Conforme j dito a pros dia inclui muitas das caracter sticas da fala al m dos sons produzidos como melodia ritmo pausas velocidade e nfases Uma pros dia apropriada importante para uma produ o de som mais natural A dura o dos d fonos baseada em valores estat sticos de acordo com o valor m dio da distribui o dos valores que estes podem assumir acompanhados de uma 106 varia o percentual desvio padr o a fim de efetuar o aumento ou diminui o na dura o do segmento Al m disso tais valores devem ser maiores ou iguais a um determinado limiar Eventuais ajustes emp ricos foram realizados medida que o sistema foi testado Al m disso a dura o influenciada pelo contexto fon tico anterior e posterior sendo limitada pelos segmentos vizinhos ressaltando que palavras de conte do apresentam maior nfase Por uma quest o de limita
117. c stico correspondente sequ ncia de fonemas fornecida pelo m dulo de transcri o ortogr fico fon tico e aplicar os par metros pros dicos fornecidos pelo m dulo de processamento pros dico AZUIRSON 2009 Sintetizadores de voz podem apresentar erros em qualquer uma das etapas de s ntese descritas anteriormente O sistema auditivo humano sens vel a esses erros de tal forma que os desenvolvedores devem minimizar esses erros e melhorar a qualidade do som resultante na sa da 52 3 3 S ntese de voz baseada em concatena o A s ntese de voz baseada em concatena o gerada a partir da concatena o de segmentos de voz armazenados em um banco de dados de refer ncia Geralmente a t cnica que produz resultado mais natural SHAUGHNESSY 2003 A principal limita o para a s ntese de formantes e s ntese articulat ria gerar voz a partir de representa o param trica principalmente no que diz respeito a encontrar trais par metros a partir do resultado do processo de an lise do texto A s ntese concatenativa adota uma abordagem orientada a dados Nos anos de 1970 e 1980 computadores eram capazes de realizar boas s nteses mas as limita es de mem ria permitiam que apenas pequenas unidades sonoras fossem armazenadas e concatenadas Assim se at recentemente os m todos espectrais eram as t cnicas dominantes a simplicidade de se concatenar unidades de formas de onda aliado capacidade de armazenamento do
118. cer quais par metros matem ticos influenciam na qualidade do resultado produzido a fim de que posteriormente possam ser realizados estudos com o intuito de melhorar a qualidade da s ntese A forma de onda da frase Ol professor no dom nio do tempo mostrada na Figura 6 1a O arquivo gerado no formato wav e de tamanho 45 6Kb apresenta taxa de amostragem de 256 kbps O resultado foi obtido com aux lio do software Audacity v 2 0 5 O resultado foi comparado com uma grava o da mesma frase realizada por um locutor humano em ambiente livre de ru do sendo a forma de onda no dom nio do tempo mostrado na Figura 6 1b Figura 6 1a resultado da forma de onda no dom nio do tempo para a frase Ol professor gerada pelo sintetizador Figura 6 1b resultado da forma de onda no dom nio do tempo para a frase Ol professor gerada por locutor humano Por meio do mesmo software foi poss vel obter o espectro no dom nio da frequ ncia em dB x Hz usando janela de Hanning mostrado na Figura 6 2a AA ee m Figura 6 2a resultado da forma de onda no dominio da frequ ncia para a frase Ol professor gerada pelo sintetizador 113 30dB 36dB 42dB 1000Hz 3000Hz 5000Hz 7000Hz 10000Hz 15000Hz 20000Hz Figura 6 2b resultado da forma de onda no dom nio da frequ ncia para a frase
119. cionar uma sequ ncia de estados usando SMG de acordo com a dura o do fonema alvo comprimento da sequ ncia solicitada e a modelagem da dura o de cada estado no caminho montagem da sequ ncia de vetores caracter sticos para o caminho escolhido por meio de extra o das m dias das Gaussianas correspondentes gera o de sinal de voz usando filtro MLSA EICHNER 2001 184 No primeiro est gio transforma se os SMGs treinados gama em uma apresenta o alternativa gama por meio da transforma o TE Tree Expansion EICHNER 2001 VU gy TE y U Yyy 79 Entretanto os SMGs cont m la os sendo ent o necess rio modificar a expans o em rvore utilizando o algoritmo explicado em EICHNER 2001 A Figura B 6 mostra o fluxograma do algoritmo proposto em EICHNER 2001 e o o q q q q Qi q Paraleliza o O SS ee Tm t i Estados de Divis o o 7 H coo Caracter sticas Ac sticas fClusteriza o 1 Caracteristicas menos significantes Km dias PENSE eon Caracter sticas N o Ac sticas Busca Viterbi 2 Estatistica de re entrada H casar ds TA a 3 Estatistica do comprimento do fone ae T 4 Estat stica do comprimento do caminho i 7 Corte 1 todo oe 4 mn LAS Modelo SMG 00 Figura B 6 Funcionamento da s ntese SMG Fonte EICHNER 2001 Traduzido B 6 S ntese HNM Modifica es pros dicas da fala s o necess rias para se produzir sistemas com
120. controle pros dico MAEDA 1995 O PSOLA modifica o pitch conforme mostrado nas Figuras 3 5 e 3 6 Uma janela pequena de tempo aplicada forma de onda original a cada an lise de instante de tempo per odos de pitch A s ntese ent o feita simplesmente colocando essas janelas sobre essas formas de onda wavelets A modifica o da dura o feita por meio da duplica o de uma ou mais wavelets para aumentar a dura o ou eliminando descartando uma ou mais wavelets para encurtar a dura o Deve se observar que este m todo funciona apenas no dom nio do tempo O intervalo de modifica o de pitch varia de 0 5 a 2 suficiente para aplica es TTS uma vez que o alcance do pitch um falante inferior a uma oitava MAEDA 1995 60 Forma de onda original dada AE 0015 5000 a O 1000 2000 3000 4000 5000 6000 7000 8000 b 0005 001 0015 002 0025 003 0055 0 1000 2000 3000 4000 5000 6000 7000 8000 Figura 3 6 esquerda dom nio do tempo direita espectro Fonte SCHROETER 2005 Uma vez que o m todo PSOLA processa o sinal no dom nio do tempo o algoritmo melhora o erro de modelagem da produ o da voz e a distor o do espectro Al m disso mais adequado para o controle de pros dia em tempo real por apresentar menor tempo de processamento Entretanto esta t cnica causa degrada o da qualidade quando se combinam dados de s labas extra dos de uma palavra dif
121. de Teleinform tica Dr Carlos Est v o Rolim Fernandes Dr Charles Casimiro Cavalcante Dr Guilherme de Alencar Barreto Dr Jo o Cesar Moura Motta Prof Dr Tarcisio Marciel Secretaria de Acessibilidade da Universidade Federal do Cear pelo aux lio nos testes em campo Aos meus excelentes colegas e amigos do Laborat rio de Engenharia de Sistemas de Computa o e Siemens Unify Prof MSc Eng Alexandre Augusto da Penha Coelho Cincinato Furtado Eng F bio Ribeiro Prof Dr Helano de Souza Castro Eng Jacques Henrique Bessa Eng Jefferson Figueiredo Luan Pinheiro Eng Ridley Gadelha Tiago Gomes Victor Fernandes Eng Eduardo Gabriel Bregant e Eng Henrique Ashihara Aos meus grandes amigos que estiveram juntos nessa mesma caminhada e que sem a ajuda teria sido imposs vel chegar aqui Ant nio Alencar David Coelho Delano Klinger Ednardo Rodrigues Franco Marques Pilloto Henriques Zacarias Igor Osterno Jos Wilker Lima Keuliane Nogueira Luiza Helena F lix Marcelo Marques Sim es de Souza Mairton Barros Junior Marciel Barros Reda Belkebir Mrani R gia Talina Ara jo Meu muito obrigado pela ajuda e pelo companheirismo E a Germano Fronza pelo esclarecimento de d vidas Aos meus irm os de Dharma do Shiwa Gonpa Guru Ling e em especial ao Lama Chimed Rigdzin Aos amigos do Waai Dojo em especial ao Sensei Sebastien For t Aos meus tios Tamara Duarte de Ara jo e Hindemburgo Duarte de Ara jo pelo apoio e supor
122. de 20 usu rios Por fim o sistema se mostrou vi vel vindo a preencher uma lacuna existente no mercado brasileiro de softwares permitindo maior inclus o dos deficientes visuais aos meios digitais Palavras chave S ntese de voz Sistemas multiplataforma Inclus o digital e acessibilidade Defici ncia visual 1X ABSTRACT It is estimated that in Brazil about 3 46 of population presents difficulty to see and 1 6 is blind The lack of adequate inclusive tools imposes many restrictions on the life of these people in other words non accessible hardware and software create a negative impact on academic professional and personal life In this context the present thesis aims to develop a an accessible system for digital inclusion of blind users since the existing systems present many disadvantages as low quality or cost that make impossible the daily use The system is composed by a multiplatform Java front end In addition the system is free to reach the maximum numbers of users as possible and to be modified and improved by the community The developed solution was tested presenting a medium intelligibility rate of 79 and naturalness classified as reasonable by a group of 20 users In the end the system proved to be feasible filling an existing gap on Brazilian software marked allowing greater inclusion of blind users to digital resources Keywords Voice synthesis Multiplatform systems Digital inclusion and accessibili
123. de geral maior e mais natural quando comparada com s ntese baseada em d fonos Apesar disso a s ntese por sele o de unidades apresenta uma s rie de desvantagens como custo e tempo de desenvolvimento para coletar e rotular dados TABET 2011 Para se atingir a m xima naturalidade indistingu vel da voz humana s o necess rios por m bancos de dados da ordem de gigabytes de dados pr gravados o que significa d zias de horas de grava o Recentemente pesquisadores tem focado em m todos autom ticos para detectar segmentos n o naturais durante a sele o das unidades Durante a cria o do banco de dados s o gravadas uma das unidades fonemas d fonos semi fonemas s labas morfemas palavras frases e senten as A divis o em segmentos feita usando reconhecedores de palavras aplicados em representa es visuais como formas de onda ou espectogramas e um ndice das unidades no banco de dados criado baseado na segmenta o e em par metros ac sticos como frequ ncia fundamental dura o posi o na s laba e fonemas vizinhos Em tempo de execu o a unidade escolhida determinando o melhor candidato Tal escolha geralmente feita usando uma rvore de decis o A sele o de unidades usa grandes bancos de dados com vozes pr gravadas No caso de uma sele o autom tica de unidade a influ ncia coarticulat ria n o limitada ao ltimo fonema O banco de dados muito maior com dura o variando de 1
124. determinar os pesos das fun es custo w e wr O treinamento de regress o envolve a compara o exaustiva das unidades do banco de dados e regress o linear m ltipla A tarefa do treinamento determinar os pesos que minimizem a diferen a entre a forma de onda natural e a forma de onda gerada pelo sintetizador dada a especifica o alvo HUNT 1996 A desvantagem do treinamento em busca no espa o de pesos que o custo computacional cresce exponencialmente com o n mero de pesos a serem treinados e com o n mero de valores a serem usados com o peso o que pode exigir mais de 150 horas de treino para um banco de dados de 40 000 unidades aproximadamente 1 hora de di logo HUNT 1996 A regress o determina os pesos dos custos de concatena o e alvo separadamente HUNT 1996 Estudos t m mostrado que a combina o linear da dist ncia cepstral e a diferen a da pot ncia no ponto de concatena o um preditor razo vel para a qualidade da concatena o HUNT 1996 As vantagens da regress o s o capacidade de gerar de forma eficiente e separada pesos para diferentes classes de fonemas cujos contextos pros dicos s o diferentes e maior efici ncia computacional Entretanto o treinamento pode levar de 1 a 10 horas dependendo do banco de dados HUNT 1996 B 4 S ntese baseada em modelos de Markov ocultos A abordagem concatenativa se limita a recriar o que j foi pr gravado Uma alternativa usar t cnicas de s nt
125. dos baseados em frames em geral tentam suavizar as descontinuidades nos pontos de concatena o mas nenhum deles prop e corrigir de forma eficiente erros gerados por sele o inadequada de unidade em decorr ncia de contextos especialmente quando os dados para concatena o s o limitados Tais problemas geralmente s o gerados ou por efeitos contextuais ou coarticula o PHUNG et al Uma vez que a s ntese baseada em concatena o limitada ao tipo de voz que foi usado na constru o do banco de dados desej vel modificar as unidades de fala a fim de remover descontinuidades e criar novas formas de fala Entretanto modificar a estrutura espectral geralmente conduz degrada o da qualidade do resultado Em WOUTERS et al 2000 poss vel encontrar estudos sobre o uso de filtragem inversa e modelagem senoidal a fim de modificar a estrutura espectral e mantendo a qualidade da voz sintetizada O resultado apresentou voz modificada de alta qualidade 69 O modelo senoidal uma representa o atrativa da fala por m o n mero de par metros a serem ajustados alto e o modelo ainda n o apresenta controles sobre a frequ ncia dos formantes e largura de banda No referido trabalho o sinal decomposto como soma de senos As amplitudes complexas do modelo senoidal de um espectro discreto s o aproximadas por meio de um modelo Ent o usado um modelo que se adequa magnitude a fase e modifica a frequ ncia dos polos e a
126. dos em vozeados aqueles em que as pregas vocais vibram durante a produ o e n o vozeados aqueles em que as pregas vocais n o vibram durante a sua produ o MACHADO 1997 As vogais s o distinguidas pela posi o da l ngua e dos l bios e se classificam quanto zona de articula o regi o da boca em que se d a maior eleva o da l ngua podendo ser anterior central e posterior pela eleva o da regi o mais alta da l ngua podendo ser classificadas em altas m dias e baixas e quanto ao timbre podendo ser aberta ou fechada MACHADO 1997 A classifica o das vogais da l ngua portuguesa os valores das frequ ncias dos seus tr s primeiros harm nicos os formantes em Hz e a intensidade m dia dos harm nicos em dB com seus respectivos desvios padr o para ambos os sexos s o mostrados respectivamente nas Tabelas 2 1 2 2 e 2 3 Tabela 2 1 classifica o das vogais Anteriores Centrais Posteriores Altas hil fal M dias Fechadas lel o Abertas 6 Baixas al Fonte MACHADO 1997 Tabela 2 2 m dia dos valores das frequ ncias dos harm nicos correspondentes aos tr s primeiros formantes F1 F2 F3 em Hz para cada vogal para ambos os sexos Mulheres Homens F1 F2 F3 F1 F2 F3 lal 1002 90 1549 95 2959 70 753 87 1278 70 2483 44 lel 672 45 2242 93 3018 60 688 44 1745 11 2566 00 lel 437 03 2429 76 3087 09 406 63 195
127. dos ou n o ajustes de press o pr fonat rios abaixo da glote e provocada pelo ar dos pulm es denominada press o subl tica pela tens o longitudinal pela aproxima o da parte posterior das pregas vocais e da for a de compress o na parte medial Com o esfor o expiat rio e com a glote fechada ainda a press o intragl tica aumenta enquanto que as bordas inferiores se afastam e acumulam energia potencial el stica na camada de abertura Tal aumento da press o intragl tica faz com que as bordas superiores se separem permitindo que o ar flua pela glote Tal fluxo leva a uma queda da press o que ocorre em um momento em que as bordas inferiores est o comprimidas resultando em um fechamento mais r pido que a abertura ocasionando a assimetria em um ciclo que se repete na frequ ncia fundamental LIMA 2010 O processo de fala um processo retroalimentado mostrado na Figura A 13 no qual para que haja uma correta fala necess rio realimentar o aparelho fonador com o som produzido a fim de que possa realizar eventuais ajustes biomec nicos necess rios 137 Figura A 13 fluxo do processo de leitura e fala como um processo retroalimentado Fonte DUTOIT 1997 A 2 Modelagem matem tica das ondas sonoras A propaga o de uma onda ac stica pode ser aproximada considerando a propaga o de perturba es infinitesimais em um fluido compress vel sem viscosidade A equa o de onda descreve o movimento da onda em um me
128. dos tem procurado formas de selecionar automaticamente unidades sonoras a partir de grandes bancos de dados de vozes naturais se tornando uma t cnica de s ntese dominante criando solu es baseadas em esquemas de treinamento e com aplica es em diversas l nguas Tal estrat gia tem levado os sistemas comerciais a um outro n vel Embora o cen rio seja bastante promissor as t cnicas de s ntese de voz ainda apresentam falhas imposs vel garantir que n o haja concatena es ruins ou sele o inapropriada de unidades sonoras devido ao grande n mero de combina es poss veis existentes Entretanto para determinadas aplica es limitadas a aplica es espec ficas poss vel quase sempre evitar falhas BLACK 2007 Atualmente sele o de unidades e a concatena o s o uma das formas de s ntese de voz mais usadas no mundo tanto para aplica es acad micas como comerciais Algumas dessas t cnicas n o realizam modifica es na pros dia enquanto outras geram forma de onda modificando os contornos da frequ ncia fundamental e a dura o das unidades selecionadas de acordo com a pros dia Os dois sistemas de s ntese mais bem sucedidos atualmente s o a s ntese concatenativa CSS Concatenative Speech Syntehsis e o baseado em Modelo de Markov Oculto HMMSS Hidden Markov Model based Speech System O CSS baseado na concatena o de segmentos de voz gravados Nas primeiras vers es de sistemas CSS simples unidade
129. duzida artificialmente ou por um ser humano Caso identifique ser artificial pergunta se o qu o perto do natural a fala sintetizada se aproxima Quanto inteligibilidade da fala o ouvinte convidado a ouvir uma frase devendo se ent o verificar se o mesmo compreendeu o que foi dito se a mensagem foi clara o suficiente e o qu o dif cil ou n o foi a compreens o Um teste MOS geralmente envolve de 12 a 24 usu rios SPANIAS 1994 Juntamente com o MOS outras duas m tricas complementares entre si s o usadas em testes para assegurar a qualidade de plataformas de s ntese de voz o WAR Word 118 Accuracy Rate e o WER Word Error Rate O ouvinte deve expressar quantas palavras n o consegue entender acertou ou errou ou apresentou grande facilidade dificuldade para entender podendo ser expresso em porcentagem do total da frase o n mero de palavras que n o compreendeu O WER representa o n mero de palavras n o entendidas em rela o ao total de palavras em termos percentuais O WAR representa o n mero total de palavras entendidas em rela o ao total de palavras da frase assim WER WAR 100 COSTA e MONTE 2012 Al m do MOS podem ser usadas as m tricas DAM Diagnostic Acceptrability Measure e o DRT Diagnostic Rhyme Test O DRT um teste de inteligibilidade cuja tarefa reconhecer uma de duas palavras dentre o conjunto de pares com sons semelhantes Assim para o presente trabalho realizou se uma bater
130. e em coopera o com empresas de tecnologias de voz e define uma interface de software que permite desenvolvedores tirarem vantagem das tecnologias de voz tanto para computa o empresarial e pessoal A Java Speech API define um padr o de interface de software multi plataforma f cil de usar e que em sua poca foi o estado da arte na tecnologia de voz Duas tecnologias principais s o suportadas pela JSAPI reconhecimento e s ntese de voz A Java Speech API foi desenvolvido por meio de um processo de desenvolvimento aberto Com o envolvimento ativo de companhias l deres em tecnologias de voz desenvolvedores de software sob meses de revis o p blica e atendendo a diversas sugest es a especifica o atingiu um alto grau de excel ncia t cnica Os principais objetivos da Java Speech API incluem prover suporte a sintetizadores de voz e reconhecedores de voz para comando e controle prover uma interface multi plataforma robusta para s ntese e reconhecimento de voz permitir acesso ao estado da arte em tecnologia de voz fornecer suporte integra o com outras funcionalidades da plataforma Java incluindo Java Media API ser simples compacto e f cil de aprender 197 A Java Speech API oferece portabilidade um ambiente compacto e poderoso suporte rede e seguran a Quanto portabilidade a linguagem de programa o Java as APIs e a m quina virtual Java est o dispon veis para uma ampla variedade de plataformas de hardwar
131. e cada per odo de pitch e 2 o sinal de voz janelado deve preservar as propriedades espectrais Marcar manualmente os per odos de pitch como ocorria no algoritmo PSOLA original impratic vel para os sistemas modernos e modelos como harmonic plus noise tem sido propostos para minimizar erros de fase SHAUGHNESSY 2003 3 4 Erros e dificuldades mais comuns gerados pelo processo de s ntese O maior desafio da pesquisa em s ntese de voz obter maior aproxima o poss vel com a voz humana enquanto se minimizam os custos sejam de mem ria computacionais treinamento etc SHAUGHNESSY 2003 12 O objetivo final de um sistema de s ntese de voz n o apenas produzir fala facilmente compreens vel mas indistingu vel da fala humana com o mesmo desempenho Assim as duas qualidades que se esperam de um sistema TTS s o a inteligibilidade e a naturalidade TABET 2011 Entender as limita es das solu es de acessibilidade atuais uma das chaves para se projetar melhores softwares para usu rios portadores de necessidades especiais Apesar do investimento substancial em pesquisa de tecnologias de voz nos ltimos 40 anos as tecnologias de s ntese de voz ainda apresentam limita es significativas quase sempre n o atingindo a expectativa dos usu rios apresentando pron ncias inadequadas voz pouco natural entona o incorreta e dificuldade de reconhecer contextos como por exemplo o n mero 110 ser sintetizado como
132. e concatenativa como back end do projeto 28 2 FUNDAMENTOS E CONCEITOS B SICOS Este Cap tulo visa apresentar os conceitos b sicos relacionados tem tica da presente Disserta o cobrindo conceitos relacionados acessibilidade anatomia fisiologia e din mica do trato vocal no es b sicas de fon tica da l ngua portuguesa e caracter sticas da voz humana 2 1 Defici ncia visual A classifica o entre os grupos de defici ncia visual cegos e portadores de vis o subnormal se d por meio de duas escalas oftalmol gicas acuidade visual e o campo visual O primeiro se refere capacidade de se enxergar a uma determinada dist ncia O segundo se refere amplitude da rea alcan ada pela vis o INSTITUTO BENJAMIN CONSTANT 2014 O termo cegueira n o significa necessariamente a total incapacidade de ver mas sim o preju zo dessa capacidade para o exerc cio de tarefas rotineiras Denomina se cegueira parcial tamb m chamada de cegueira legal ou cegueira profissional aquela cujos indiv duos s o capazes apenas de contar os dedos a curta dist ncia e que percebem apenas vultos A cegueira total a completa perda de vis o chamada de vis o nula a qual n o h sequer percep o luminosa sendo chamada pelos oftalmologistas de vis o zero INSTITUTO BENJAMIN CONSTANT 2015 Pedagogicamente define se cego o indiv duo que necessita de instru o em Braille mesmo que possua vis o subnormal e como portador de vis
133. e determinam a dura o de um fone s o divididos em tr s grupos os de natureza segmental os de natureza coarticulat ria e os de natureza supra segmental Os de natureza segmental s o aqueles relacionados ao tipo de segmento J os de 50 natureza supra segmental dependem do efeito pros dico desejado no instante em que o segmento ocorre Os fatores de natureza coarticulat ria ser o discutidos no item 4 2 5 da presente Disserta o AZUIRSON 2009 A dura o de unidades fon ticas pode ser influenciada tanto pelo contexto fon tico anterior como posterior ou seja a dura o calculada com base nos limites impostos pela concatena o com os segmentos vizinhos Geralmente os falantes tendem a enfatizar palavras de conte do e colocar palavras funcionais em segundo plano influenciando a dura o dos fonemas AZUIRSON 2009 A gera o autom tica da dura o de segmentos pode seguir dois modelos estat sticos e baseados em regras AZUIRSON 2009 Os modelos estat sticos usam uma base de dados um dicion rio de dura o ou modelos baseados em clustering n o hier rquico Devido coarticula o por vezes dif cil saber onde come a e onde termina um segmento sendo complexo marcar as fronteiras automaticamente AZUIRSON 2009 O modelo de Klatt faz parte da classe dos modelos multiplicativos baseados em regras Nos modelos multiplicativos a dura o de um fone uma fun o de v rias vari veis cada uma respons
134. e e sistemas operacionais al m de ser suportado pelo pela grande maioria dos navegadores Web no que diz respeito ao ambiente compacto e poderoso a plataforma Java prov aos desenvolvedores uma linguagem poderosa orientada a objeto com garbage collector coletor de lixo que permite um r pido desenvolvimento e maior confiabilidade alto n vel de toler ncia a falhas Por fim no tocante ao suporte a rede e seguran a existente desde sua concep o a plataforma Java tem sido voltada para aplica es em rede com robustez e seguran a Os recursos de internacionaliza o oferecidos pela linguagem de programa o Java aliado aos caracteres Unicode simplificam o desenvolvimento de aplica es de voz em diversas l nguas A JSAPI n o exige necessidade de hardware espec fico apenas dispositivos de entrada e sa da de udio comuns O Java Speech API em conjunto com o Java Speech Markup Language JSML fornecem diversas formas para o desenvolvedor de aplica es melhorarem a qualidade do sinal gerado por um sintetizador de voz O JSML descrito detalhadamente em uma especifica o pr pria define marcadores com informa es que permitem ao sintetizador melhorar a qualidade da sa da resultante que incluem marcar o in cio e o fim de par grafos e senten as especificar pron ncias de qualquer palavra acr nimo abrevia o ou representa es textuais especiais e explicitar controle de pausas nfases entona es velocidade volu
135. e o contrato entre os componentes de interface do usu rio e uma tecnologia assistiva para o acesso a esse aplicativo Java Se um aplicativo Java suporta por completo a API Java Accessibility ent o o mesmo compat vel com as tecnologias assistivas como leitores e ampliadores de tela etc Al m da API de acessibilidade existem tamb m o Java Accessibility Utilities fornecendo suporte necess rio para as tecnologias assistivas na localiza o dos objetos que implementam a API Java Accessibility SANTOS 2010 No que diz respeito a Java Accessibility Bridge esta funciona como uma ponte entre a JVM e o ambiente nativo Para que as tecnologias assistivas dispon veis nos sistemas operacionais possam fornecer acesso aos aplicativos Java eles precisam de alguma forma para se comunicar com o suporte de acessibilidade Java O Java Accessibility Bridge suporta essa comunica o SANTOS 2010 A Figura C 2 mostra como feita a comunica o entre O Java Accessibility Bridge a aplica o Java as classes utilit rias de acessibilidade e outras tecnologias assistivas Java Virtual Machine Java Application Java Accessibility Native Assistive Technology Utility Classes A Java Bridge Class Native Bridge DLL Java Accessibility Bridge Figura C 2 diagrama de Funcionamento do Java Accessibility Brige Fonte SANTOS 2010 Adaptado Para que uma aplica o possa ser considerada acess vel existe um conjunto de crit rio
136. e se identificar tr s partes b sicas do processo TTS Text Analysis Linguistic Analysis e Waveform Generation O processo Text Analysis An lise do Texto tem como prop sito colocar e organizar as ora es em uma lista de gerenciamento de palavras identificar n meros abrevia es e acr nimos transformando as em texto por extenso por exemplo Sr transformado em Senhor quando necess rio utilizando uma gram tica regular como base para solucionar alguns problemas Tamb m respons vel por determinar a classe 86 de casa palavra individualmente analisando a ortografia das mesmas e organizando uma lista de categorias e fazer a flex o e a deriva o das palavras quando necess rio decompondo as em unidades gramaticais elementares atrav s da an lise de suas ra zes l xicas e seus afixos prefixos e sufixos Al m disso analisa as palavras observando o contexto em que est o inseridas ou seja analisando a palavra em quest o associada aos seus vizinhos possibilitando assim uma melhor identifica o e diminui o da lista de categorias Linguistic Analysis o processo respons vel pelo gerenciamento e produ o da pros dia utilizada na gera o dos sons Conforme dito anteriormente a pros dia se refere a certas propriedades de sinais da fala que est o relacionadas mudan a de entona o da voz sonoridade e dura o do som das s labas A pros dia influi diretamente na comunica o por voz e te
137. e ter uma pequena distor o no espectro dif cil de manter a fase Por outro lado a modifica o do pitch no dom nio da frequ ncia pode manter a fase mas causar uma grande distor o no espectro devido mudan a na estrutura dos formantes JUNG 2001 Al m disso a t cnica PSOLA convencional cria trem de pequenos trechos de um sinal de voz original por meio da multiplica o do per odo de pitch decomposto com a fun o janela ap s decompor o sinal de voz A fala sintetizada a partir de uma unidade controlada ap s o controle da pros dia Entretanto a t cnica PSOLA convencional adapta uma janela sim trica mesmo em um sinal assim trico causando desequil brio de energia em outras palavras ao aplicar uma fun o janela sim trica para uma forma de 62 onda assim trica ocasiona o fen meno de desbalanceamento de energia sendo necess ria uma normaliza o para manter a energia constante JUNG 2001 O espectro do trato vocal representa a frequ ncia de resson ncia e o mesmo espectro formante JUNG 2001 O sinal de voz sintetizado a partir da convolu o da caracter stica do trato vocal a baixas frequ ncias com a excita o a altas frequ ncias O pitch pode ser alterado por meio da modifica o da excita o caracter stica JUNG 2001 Em JUNG 2001 apresentada uma solu o para o problema do desbalanceamento de energia causada pela modifica o do pitch no PSOLA iniciando com a convers o t
138. e tom dimens es do cr nio rouquid o respira o flutua o do tom velocidade e volume podem ser modificados com um conjunto de marca es de carater sticas de voz O IBM ViaVoice TTS permite que se especifique pron ncias expl citas para palavras abreviaturas e acr nimos por meio de dicion rios voltados para casos espec ficos Dicion rio de Palavras Especiais Dicion rio de Abreviaturas e Dicion rio de Radicais C 3 Java Accessibility API A maioria das tecnologias de voz est o implementadas em C e e s o voltadas para plataformas espec ficas como a Apple Speech Manager e Microsoft s Speech API SAPI ou outras APIs propriet rias SUN MICROSYSTEMS 1998 Sintetizadores e reconhecedores de voz escritos em Java podem beneficiar da portabilidade da plataforma Java e das suas melhorias cont nuas principalmente com rela o velocidade de execu o da Java Virtual Machine JVM SUN MICROSYSTEMS 1998 A API Java Accessibility cont m classes e interfaces que quando aplicadas garantem ao software tornar se acess vel s tecnologias assistivas SANTOS 2010 A tecnologia Java conta com recursos que fornecem suporte acessibilidade tendo sido introduzida na linguagem a partir de mar o de 1996 e est apoiada em quatro reas 195 API Java Acessibility Java Acessibility Utilities Java Accessibility Bridge e Pluggable Look and Feel do Java Foundation Classes SANTOS 2010 A API Java Accessibility defin
139. eeTTS e o ltimo a implementa o proposta pela presente Disserta o nesta sequ ncia de tal forma que a usu ria n o tinha consci ncia de qual sintetizador estava sendo testado no momento O teste em campo seguiu tr s etapas descritas no question rio exibido no Anexo B descritos a seguir 1 Naturalidade da fala foi questionado volunt ria se a voz a qual escutava era um udio pr gravado ou se era voz sintetizada por computador Al m disso foi solicitado que em uma escala de 1 muito ruim a 5 excelente fornecesse uma pontua o sobre a qualidade da voz 116 2 Teste de Inteligibilidade Foi solicitado que a usu ria escutasse duas frases Ol seja bem vinda ao projeto LESC Vox Obrigada por usar o nosso sistema e Seja bem vindo ao projeto de acessibilidade Ver com os ouvidos O que voc gostaria de fazer Pediu se ent o que a usu ria enumerasse quantas palavras n o conseguiu entender ou entendeu errado ap s ser informada o que de fato tinha sido falado de tal forma que a usu ria n o tinha conhecimento pr vio do que viria escutar 3 Teste de Usabilidade Foi solicitado que a usu ria usasse o sistema de forma independente para abrir aplica es espec ficas Ao inicializar o sistema a usu ria deveria ser capaz de abrir as aplica es como editor de texto cliente de chat ou qualquer outra aplica o de sua vontade e utilizar sem necessidade de aux lio Por fim foi solic
140. eio de uma fonte vozeada ou gerador de ru do a fim de se obter o espectro desejado controlando a fonte de excita o simulando sons vozeados ou n o vozeados A adi o de um conjunto de anti ressonadores permite tamb m a simula o de efeitos do trato nasal fricativos e pulsantes A especifica o de 20 par metros resulta em um sinal de fala satisfat rio TABET 2011 Um conjunto de par metros caracterizando um envelope espectral em um curto espa o de tempo armazenado para cada n mero de unidades sonoras Uma excita o simplificada convolu da com a resposta ao impulso de um filtro A fonte de excita o pode ser um trem de pulsos peri dicos vocais simulando a vibra o glotal ou ru do branco simulando sons fricativos resultantes da constri o do trato vocal ou aspirativos ou ainda ambos ou seja a excita o peri dica geralmente um trem de pulsos peri dicos para simular sons vozeados e ru do pseudo aleat rio para sons n o vozeados SCHROETER 2005 Enquanto que pulsos glotais para excita es vozeadas decrescem em intensidade com a frequ ncia a excita o de ru do para sons n o vozeados melhor modelado por um espectro plano As intensidades de um ru do natural se aproximam da distribui o gaussiana Amostras de ru do de excita o geralmente se originam de um gerado e de n meros pseudo aleat rios que levam a um espectro cont nuo em distribui o uniforme Entretanto ao se somar diversos n mer
141. eira ordem por exemplo pressup e se que seja linear Vers es posteriores consideravam a parte harm nica tamb m como a soma de componentes senoidais harmonicamente relacionadas por m com amplitudes complexas variando linearmente Outras implementa es usavam um polin mio de grau p com coeficientes reais para as amplitudes harm nicas e assumiam que as fases eram lineares Dada a parte harm nica a parte aperi dica obtida subtraindo a parte harm nica do sinal de voz original A parte aperiddica ou sinal residual considerada em todos os sinais n o descritos por componentes harm nicas Isto inclui ru dos fricativos flutua es entre per odos produzidos pela turbul ncia do fluxo de ar glotal etc TABET 2011 A qualidade do resultado gerado por HMM n o t o alta quanto na s ntese por sele o de unidades A precis o da modelagem pode ser melhorada usando t cnicas como Modelos semi Markov Ocultos e grafos estoc sticos de Markov por exemplo ou ent o integrar sistemas HTS Hidden Markov Model based Speech Synthesis System ao HNM Tal integra o reduz o tempo de desenvolvimento e custo em compara o com t cnicas do estado da arte baseado em sele o autom tica e s ntese concatenativa produzindo resultados melhores quando comparado ao HTS Tal qualidade alcan ada 186 substituindo a abordagem da modelagem do filtro da fonte usada no HTS com pelo modelo HNM conhecido por ser capaz de produzir respostas
142. empo frequ ncia de uma forma de onda assim trica para uma forma de onda sim trica JUNG 2001 TD PSOLA Time Domain Pitch Synchronous Overlap Add consiste em cortar exatamente dois per odos de pitch de um sinal de voz realizando janelamento a cada segmento com uma janela de Hanning centrada no ponto de fechamento glotal m xima excita o SCHROETER 2005 O TD PSOLA realiza uma sincroniza o do pitch automaticamente per odos do pitch s o extra dos sobrepostos e somados a diferentes taxas a fim de produzir a sa da Ou seja o sinal original s n decomposto e uma sequ ncia de curtos sinais sobrepostos Sm n usando uma janela de Hanning Am n centrada na origem n 0 KOBAYASHI et al 1998 Uma variante do TD PSOLA pode apresentar um filtro LPC que permite suavizar o envelope espectral nos pontos de concatena o SCHROETER 2005 H outras variantes que usam modifica es do modelo baseado em LPC ou ainda modelos h bridos como o Harmonic plus Noise Model HNM mostrado na Figura 3 7 Este ltimo faz uso do fato do espectro da voz em geral ser composto de duas partes distintas a harm nica peri dica cuja maior parte est nas baixas frequ ncias e altamente relevante para um locutor espec fico e a parte estoc stica ru do existente nas frequ ncias mais altas Assim dois sintetizadores separados s o podem ser usados um sintetizador harm nico e um sintetizador baseado em LPC com uma excita o estoc s
143. ental obtida pelas etapas anteriores como as marcas pros dicas e transcri o fon tica a fim de traduzir varia es de dura o do segmento ritmo frequ ncia fundamental entona o e inser o de pausas nas fronteiras pros dicas AZUIRSON 2009 A pros dia dividida em dois n veis segmental e supra segmental O n vel segmental se ocupa com a observa o da varia o dos par metros pros dicos como a dura o frequ ncia fundamental e amplitude a n vel de segmento e supra segmental Esse n vel foca na intera o do segmento om seus vizinhos e a interfer ncia dos vizinhos sobre o segmento observado J o n vel supra segmental se utiliza da estrutura o da senten a a n vel de s labas palavras frases Nesta etapa s o usadas as seguintes informa es dos m dulos anteriores determina o da s laba t nica da palavra da estrutura pros dia a partir da estrutura sint tica das pausas e da an lise morfossint tica das palavras AZUIRSON 2009 O m dulo de processamento pros dico o ltimo m dulo antes do processamento ac stico sendo respons vel por tratar a informa o de m dulos anteriores e fornecendo uma lista de fonemas em conjunto com par metros pros dicos AZUIRSON 2009 Um destes par metros pros dicos a dura o que mede a dist ncia temporal do in cio ao t rmino de um segmento fon tico e que pode ser da ordem de dezenas a centenas de milissegundos AZUIRSON 2009 Os fatores qu
144. erente Ademais 61 causa um desequil brio de energia devido aplica o de uma janela sim trica em um sinal de voz assim trico JUNG 2001 Se o sinal de voz vozeado o sinal de voz feito por meio de um trem de sinais curtos ap s a multiplica o de uma fun o janela por um per odo de pitch decomposto Se o som n o vozeado este analisado com 10ms Pode se usar as janelas de Hanning e de Hamming Equa oes 6 e 7 respectivamente JUNG 2001 wm gt 1 cos SEBo lt n lt n 1 6 2 1 W n 0 54 0 46 cos N A osnsN 1 7 O per odo de pitch decomposto obtido pela multiplica o do sinal de voz pela fun o janela com propriedade sim trica mostrada na Equa o 8 JUNG 2001 San tise n Wanatise M n S n 8 Em que San tise N o pequeno sinal do per odo de pitch Wan tise N uma fun o Janela m o m simo pitch e S n sinal de voz original A fim de modificar o pitch o per odo do pitch rearranjado por meio da altera o do seu per odo JUNG 2001 SsinteseM Sandtise n Ma 9 em que Ssintese n o per odo do pitch do sinal amostrado mg o per odo do pitch a ser alterado A modifica o do pitch necess ria para o controle da pros dia e para fornecer uma variedade de vozes e garantir uma maior qualidade na sa da JUNG 2001 Em geral a modifica o do pitch no dom nio da frequ ncia degrada a qualidade devido ao fato de apesar d
145. es Glote Trato Vocal Boca Figura A 17 modelo de linha de transmiss o aplicado ao trato vocal Fonte BRAND O 2011 Adaptado 142 Narinas Fossa piriforme esquerda Trato nasal v gt Poi Ums MU Uy at Labios Figura A 18 diagramas esquem ticos de blocos e de fluxo de sinal integrados para a modelagem do trato vocal Fonte BRAND O 2011 4 3 2 Modelo de Tubos Caso Cont nuo O modelo Kelly Lochbaum um modelo unidimensional que aproxima o trato vocal como sendo uma sequ ncia de tubos conforme mostrado na Figura A 19 representados por guias de onda digitais BRAND O 2011 DO ae lt SO agg Area cm 0 Curmprimento du Lratu vocal cm SS Sa Conama Glote L bios Figura A 19 modelagem do trato vocal Fonte BRAND O 2011 Como dito anteriormente sons produzidos pelo ser humano s o resultantes da vibra o das pregas vocais para fontes vocais ou pelo fluxo de ar turbulento por meio de constri o para fontes de ru do Tais fontes sofrem modifica o espectral por meio das caracter sticas ressonantes do trato vocal Uma vez que o trato vocal humano pode ser considerado um tubo a maior resson ncia ocorre ao longo do comprimento da glote at os l bios ou cavidade nasal no caso de sons nasais MAEDA 1995 143 Pode se modelar o trato vocal e nasal como tubos de sec o transversal n o uniforme conforme mostrado na Figura A 20 medida que o som se
146. escolhida AZUIRSON 2009 O processamento do texto um processo mais pr ximo da modelagem da l ngua do que processamento de sinais propriamente dito Como dito anteriormente o 46 processamento de texto feito por meio de um front end A entrada de texto transformada em representa es que permitam acesso s unidades armazenadas em um banco de dados juntamente com informa es adicionais de controle de entona o Deve se conhecer a sequ ncia de fonemas d fonos ou palavras a serem pronunciados quais s labas s o mais fortes onde deve haver pausas entonacionais etc SHAUGHNESSY 2003 Embora certos princ pios do NLP possam parecer universais l nguas usam alfabetos diferentes e cada l ngua tem um conjunto de fonemas Especialistas em fon tica estabeleceram um conjunto de fonemas universais caracterizados pelo alfabeto fon tico internacional a partir do qual cada l ngua seleciona um subconjunto com pequenas diferen as articulat rias e ac sticas SHAUGHNESSY 2003 A t cnica de s ntese baseada em formantes ver Ap ndice B pode ser facilmente modificada para uma nova l ngua ajustando par metros fon ticos Entretanto sistemas baseados em concatena o ou LPC s o menos flex veis com rela o ao ajuste de tais par metros SHAUGHNESSY 2003 O passo inicial do NLP no TTS a convers o de uma entrada de texto em um c digo que permita acesso ao banco de dados No caso comum das unidades serem fonemas
147. ese de par metros estat sticos para inferir especifica es Tais t cnicas apresentam duas vantagens exige se menos mem ria para armazenar os par metros dos modelos do que os dados propriamente ditos A outra vantagem reside no fato de garantir maior variabilidade uma voz por exemplo pode ser convertida em outra TABET 2011 176 S ntese de voz de par metros estat sticos tem crescido em popularidade nos ltimos anos a t cnica consiste basicamente em gerar a m dia de um conjunto de segmentos de voz similares Os resultados obtidos tanto em termos de naturalidade como grau de entendimento do que foi dito s o bastante interessantes O algoritmo se baseia na no o de custo alvo uma medida do qu o adequado um determinado candidato existente no banco de dados quando comparado com a unidade desejada Juntamente com o custo do alvo definido tamb m o custo de concatena o O custo alvo entre uma unidade u e uma unidade desejada t dado por p Ct tpu gt wt C t up 74 j 1 e o custo de concatena o definido por q C u q Uu a W COMU ui 75 k 1 em que wy e w s o pesos que podem ser definidos por uma combina o de treino e ajustes manuais Unidades do mesmo tipo s o agrupadas em uma rvore de decis o BLACK 2007 S ntese de voz de par metros estat sticos oferece uma ampla gama de t cnicas para melhorar a qualidade da voz Seus modelos mais complexos quando comparado com
148. esentam solu es de como ajustar as jun es por meio de otimiza o da dist ncia de similaridade a fim de reduzir as descontinuidades Tais dist ncias devem contemplar n o apenas o envelope espectral mas tamb m a continuidade de fase 65 3 3 4 1 Compress o do banco de dados Uma vez que o modelo TD PSOLA n o requer nenhum est gio de estima o de par metros exceto marca o de pitch este n o est ligado a nenhum algoritmo de redu o de dados ou em outras palavras o TD PSOLA pode ser a priori associado a qualquer t cnica de codifica o e compress o de voz Deve se levar em conta entretanto o equil brio entre a redu o de espa o utilizado realizado por determinada t cnica de compress o e a distor o que o mesmo insere no processo de s ntese Este equil brio pode ser medido pelo custo computacional Tal equil brio reduz significativamente o n mero de algoritmos de compress o aplic veis T cnicas de codifica o de formas de onda tipicamente requerem pouco poder computacional entretanto oferecem baixas taxas de compress o O codificador DPCM tem se mostrado o mais adequado para trabalhar com o TD PSOLA DUTOIT 1997 3 3 5 Problemas de Coarticula o Coarticula o um fen meno fonol gico que ocorre em todas as l nguas sempre que h uma sequ ncia de sons n o separadas por pausas referidas como a sobreposi o de gestos articulat rios sendo um fen meno da ocorr ncia de dois ou mai
149. face de texto direta se concentra no conte do n o no layout ou intui o visual 3 5 1 Desafios envolvendo desenvolvimento de softwares com interface por voz Ao desenvolver aplica es com interface por voz que inclui tanto o reconhecimento como a s ntese depara se com diversas peculiaridades inerentes exclusivamente a essa interface que por vezes tornam se desafios e dificuldades a serem contornados pelos engenheiros de software e programadores A primeira peculiaridade o fato de a voz ser transit ria Uma vez voc ou a algo a informa o deixa de estar presente ao contr rio dos gr ficos que s o persistentes Uma interface gr fica tipicamente permanece na tela at que o usu rio fa a alguma coisa A mem ria de curto prazo utilizada durante a audi o Como a voz transit ria usu rios podem lembrar apenas de um n mero limitado de itens de uma lista e pode acabar por perder informa es importantes do come o de uma longa senten a Por exemplo ao falar para um sistema o usu rio frequentemente esquece as palavras exatas que falou Em geral transit rio significa que a fala n o um meio adequado para entregar grandes quantidades de informa o Neste caso por exemplo listas devem ser listadas elemento a elemento em resposta ao comando pr ximo ao inv s de fornecer uma lista completa SUN MICROSYSTEMS 1998 79 Mas a natureza transit ria da fala tamb m fornece benef cios A fala ideal pa
150. formas A modifica o da forma do trato vocal permite a diversifica o do som e realizado pela l ngua BRAND O 2011 LIMA 2010 O trato nasal inicia se no v u palatino e termina nas narinas Quando o v u palatino baixa o trato nasal acoplado acusticamente ao trato vocal cujas cavidades constituem a estrutura ressoadora do rg o da voz tendo fun o semelhante dos ressonadores de instrumentos musicais BRAND O 2011 LIMA 2010 A teoria aerodin mica mioel stica postula que o movimento de abrir e fechar as pregas vocais s o regidos por propriedades mec nicas dos tecidos musculares que constituem principalmente as pregas vocais e pelas for as aerodin micas que se distribuem ao longo da laringe durante a fona o A a o neural consiste apenas em aproximar as pregas vocais de tal forma que a superf cie destas vibre LIMA 2010 O conjunto de m sculos respons veis pela movimenta o das pregas vocais mostrado na Tabela A 1 Os movimentos de eleva o e de depress o da laringe s o controlados respectivamente pelos m sculos extr nsecos elevadores e depressores Por sua vez os m sculos intr nsecos controlam a posi o e a tens o das pregas vocais para depois o sinal deve ser amplificado pelo trato vocal que pode ser analisado a partir de um modelo de tubos simples LIMA 2010 130 Tabela A 1 m sculos respons veis pela movimenta o das pregas vocais e rg os relacionados M
151. formes acoplados tal como se representa na Figura A 22 Figura A 22 modelo do trato vocal baseado em tubos de dimens es diversas Fonte Google Images Introduzindo o tempo de atraso do tubo de ordem como sendo l eae 32 c J E o coeficiente de reflex o r na jun o entre os tubos de ordem k e k 1 Ak Ak Ty Ax Axum 33 note que 1 lt 7 lt 1 146 Efetuando algumas manipula es matem ticas chega se s seguintes express es Uk 1 t uk t Te Tk HU D 34 Uz t Te rku t T 1 Up 0 35 Estas equa es mostram que cada onda que chega jun o k se decomp e em duas uma que transmitida para a se o seguinte e outra que refletida que pode ser representado por um diagrama de fluxo de sinal mostrado na Figura A 23 u t atraso By tt 7 Ui atraso et D u wo Tk TH Irs I Ty ui ty u KO WC U lb Figura A 23 diagrama de fluxo de sinais para o modelo proposto Fonte Google Images A partir de analogias entre o modelo de propaga o de ondas num tubo ac stico e o modelo de propaga o de ondas eletromagn ticas numa linha de transmiss o pode se estabelecer algumas rela es de equival ncia Pode se definir uma imped ncia ac stica pela rela o p t P ut U x w Usando esta analogia pode se definir a imped ncia caracter stica de um tubo uniforme Z x w 36 e sem pe
152. ft Windows Speak Pause Stop skp fo Speak wav Voice eSpeak PT ind Reset Rate Gune Save to wav Show all events Format 16kHz 16 Bt Mono X About Process XML i cs Figura 4 1 interface gr fica do eSpeak Dentre suas principais caracter sticas pode se citar disponibilidade para diversas plataformas como Android Mac OSX e Solaris apresentando alta compatibilidade com o sistema ADRIANE disponibilidade de diferentes vozes cujas caracter sticas podem ser alteradas possibilidade de produzir sa da no formado WAV suporte para HTML tamanho compacto possibilidade de ser utilizado como front end para o MBROLA por m n o acess vel n o fornece pacotes de softwares acess veis e n o possui possibilidade de atuar como front end para outras engines escrito em linguagem C e 85 dispon vel para mais de 30 idiomas incluindo ingl s franc s alem o russo espanhol e inclusive portugu s brasileiro ESPEAK 2014 4 1 6 Festival O Festival um sistema TTS desenvolvido inicialmente pela Universidade de Edimburgo sendo um front end para o MBROLA e outras engines n o possuindo um cliente TTS stand alone Possui uma vers o em portugu s n o livre baseado em s ntese de formantes COSTA e MONTE 2012 Festival oferece um framework geral para o desenvolvimento de sistemas de s ntese de voz por meio de APIs interpretadores de comando bibliotecas em C e Java e interface para o E
153. gia Assistiva AT SPI 200 na abrevia o em ingl s O Orca envia r tulos de texto de menus bot es e reas de texto misto como o painel principal do navegador web para um dispositivo Braille e sintetizador de voz O Orca ainda possui um recurso de ampliador de telas embora em alguns teste n o tenha funcionado de forma confi vel O Orca possibilita o trabalho com o OpenOffice org 2 3 e vers es posteriores com udio e Braille contado que o usu rio conhe a todas as abrevia es de teclado necess rias para ativar fun es normalmente selecionados com o mouse O Orca n o apenas l o texto visual aparente mas tamb m oferece dicas e metainforma es como fam lia e renderiza o da fonte tipos de elementos de formul rio e assim por diante Apesar de estar sendo desenvolvido primariamente para o ambiente GNOME ele funciona bem com todos os gerenciadores de janela contanto que o aplicativo individual suporte o AT SPI Estes incluem o Firefox OpenOffice org Pidgin e at parcialmente Gimp D 3 Speech Synthesis Markup Language Em WALKER et al 2001 poss vel encontrar uma especifica o para linguagem de marca o de texto baseada em XML a fim de possibilitar a intera o via voz com sites da internet denominada SSML Speech Syntehsis Markup Language Seu projeto baseado nos seguintes conceitos consist ncia interoperabilidade generalidade internacionaliza o facilidade de implementa o O SSML
154. gras Para maior parte da hist ria da s ntese de voz 1965 1995 a abordagem usando filtro de envelope espectral orientados a excita o era a t cnica dominante A s ntese por formantes n o usa qualquer amostra de voz humana mas apenas em regras definidas por linguistas para gerar os par metros e as transi es de um fonema para outro coarticula o Tais regras s o resultado de profunda an lise e estudo de espectogramas e da evolu o dos formantes realizados por linguistas Assim este m todo por vezes chamado de s ntese baseada em regras Por m ainda n o se conhece uma regra tima TABET 2011 O modelo de formantes baseado tamb m no modelo fone filtro sendo necess rio modelar a fonte de excita o determinando seus par metros como amplitude presen a aus ncia de ru do durante aspira o e per odo e os filtros capazes de simular o trato vocal e sua configura o como frequ ncia amplitude largura de banda dos formantes e presen a de zeros e polos nasais por meio de fun es de transfer ncia A s ntese de formantes usada em sistemas como MITalk KlatTalk e DECTalk TABET 2011 Sua vantagem reside no fato de utilizar uma representa o mais econ mica exigindo pouca mem ria uma vez que armazena apenas um conjunto de par metros juntamente com conjunto de regras de transcri o o que torna tal solu o interessante 167 para sistemas embarcados e sistemas com recursos de mem ria limit
155. ia de testes MOS e WAR envolvendo 20 volunt rios videntes de ambos os sexos com idade entre 17 e 31 anos no Centro de Humanidades da Universidade Federal do Cear cujos resultados s o mostrados na Tabela 6 1 Tabela 6 1 valores MOS e WAR Volunt rio Idade Sexo MOS WAR Volunt rio 1 30 F 3 100 Volunt rio 2 29 M 2 100 Volunt rio 3 26 M 2 50 Volunt rio 4 26 F 3 90 Volunt rio 5 20 F 4 70 Volunt rio 6 21 F 4 90 Volunt rio 7 20 M 3 40 Volunt rio 8 18 M 2 100 Volunt rio 9 18 M 3 90 Volunt rio 10 18 M 4 80 Volunt rio 11 19 M 4 70 Volunt rio 12 28 M 3 90 Volunt rio 13 20 M 3 50 Volunt rio 14 17 M 3 80 119 Tabela 6 1 valores MOS e WAR Continua o Volunt rio 15 22 F 3 70 Volunt rio 16 20 F 3 75 Volunt rio 17 26 F 3 100 Volunt rio 18 30 F 3 100 Volunt rio 19 19 F 3 40 Volunt rio 20 18 F 3 100 Valor M dio 22 25 3 05 79 Fonte Pr prio autor Os gr ficos para o MOS e WAR s o mostrados respectivamente nas Figuras 6 4 e 6 5 uu N Ww o E b OUNFUN Uw 123 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Figura 6 4 resultados para o MOS 120 100 90 80 70 123 45 6 7 8 9 101112 13 1415 16 17 18 19 20 Figura 6 5 resultados para o WAR O resultado apresentou desvio padr o de 0 60 para o MOS e 0 20 pra o WAR A principal reclama o por p
156. ideal para cada articulador independente dos fonemas vizinhos Do ponto de vista coarticulat rio a transi o entre dois fonemas descrita como o movimento entre dois alvos ideais de dois fonemas A transi o compartilha ambas as caracter sticas articulat ria e ac stica de ambos os alvos dos dois fonemas e gradualmente muda estando inicialmente predominantemente semelhante ao primeiro at predominantemente semelhante ao segundo fonema alvo posteriormente Embora a coarticula o cause a transi o na fala trabalhos mostraram que existe um n cleo estacion rio em vogais fricativas e semi vogais Em tais fonemas os n cleos s o estacion rios e as transi es formantes entre tais fonemas que realmente ocorrente entre os alvos nos contornos dos intervalos estacion rios s o suaves PHUNG et al Cada fonema pode ser dividido em um intervalo de n cleo e dois intervalos de transi o em ambos os lados O trabalho proposto em PHUNG et al tenta determinar as posi es e dura es do n cleo de dos intervalos de transi o dentro de uma s laba A exist ncia de intervalos estacion rios e quasi estacion rios dentro de vogais semi vogais e consoantes j foi demonstrada em trabalhos A estabilidade dos intervalos 68 estacion rios e quasi estacion rios sob efeito de coarticula o resulta que estas partes s o insens veis a contexto de tal forma que tais partes podem ser preservadas para serem concatenadas em diferen
157. intetizador java 92 VCO java 93 w new Word exce o a S VerySimpleChatServer java 94 assertEquals w getNumSyllables 3 f Navegador al 95 assertEquals w getSyllables get 0 getSyllable ex PEES DEFA w 2 assertEquals w getSyllables get 1 getSyllable ce E IL 37 assertEquals w getSyllables get 2 getSyllable o WordTestjava o Connectdialog Dialog 98 assertEquals w gerSyllables get 0 getTonicity Tonicity ATONA ConnectDialog Frame parent actionCancel E p actionComectO PA x String Saida x a 6 typeComboBox JC amp DDBEB e sE 89175 INs 97 5 2 3 MATLAB O MATLAB mostrado na Figura 5 2 um ambiente de desenvolvimento integrado para o desenvolvimento de algoritmos e modelagem de sistemas sendo considerado produto l der no mercado em c lculo num rico e de f cil uso H P E x E Ed 1 Blend ris HE Lid New Variable Lg Analyze Code es ES 49 Preferences 2 3 Community E Edita Li Open Variable E Run and Time 3 set Path Fi S Request Support Script Data Workspace 7 Clear Workspace Clear Commands Library i Parallel w GpAddOns FIE VARIABLE CODE SIMULINK ENVIRONMENT RESOURCES gt CE b gt G gt ProgramFiles MATLAB gt R2013a gt bin gt o Current Folder Sig Command Window TE Workspace New to MATLAB Watch this Video see Examples or read Getting St
158. io atrav s da evolu o da press o ac stica p ou da velocidade u da part cula em fun o da posi o r x y Z e do tempo t sendo dada pelas Equa oes 16 e 17 3 PCr t om 16 edi E V p r t 0 ulr t so aie c V u r t 0 17 em que p r t u r t p e c s o perturba es na press o est tica e na velocidade da part cula de ar a densidade do ar e a velocidade do som no ar respectivamente em um ponto r x y z do espa o tridimensional no instante de tempo t BRAND O 2011 A velocidade c da propaga o ac stica no ar dada pela Equa o 18 Re YPo 18 p C EM EA aes em que y ms a raz o entre os calores espec ficos do ar a press o e volume v constantes p e p s o a press o atmosf rica e a densidade do ar respectivamente BRAND O 2011 Para este estudo podemos desconsiderar eventuais varia es da temperatura do ar no interior do trato vocal por serem muito pequenas bem como densidades Estudos mostram que a turbul ncia do fluxo de ar que passa pelo trato vocal durante a vocaliza o pode ser desconsiderada BRAND O 2011 A equa o da onda na forma cl ssica dada pela Equa o 19 92P TA c2V2P 19 138 em que c a velocidade de propaga o de um som no fluido e P uma pequena perturba o no fluido cuja solu o pode ser obtida por meio de separa o de vari veis chegando se equa o escalar de Helmholtz e dada pela Equa
159. io interface command list lista de comandos a serem escolhidos como loop condi o entrada sa da e vari veis e query e program logic executar finalizar loop ou condi o deletar salvar comando verificar pr ximo passo e possui dois modos programmer e running A interface mostrada na Figura D 1 199 Figura D 1 interface do APL Audio Programming Language for Blind Learners Fonte S NCHEZ 2004 A linguagem foi desenvolvida para e por deficientes visuais sendo testado por programadores inexperientes durante e despois do desenvolvimento Os testes de usabilidade consistiam na proposi o de problemas com grau de complexidade crescente e por meio de question rios Os usu rios se mostraram satisfeitos e motivados para interagir com APL demonstraram interesse e entusiasmo quando programando Assim o APL mostrou ao mercado que poss vel construir uma linguagem de programa o baseada em udio que seja capaz de atender usu rios deficientes contribuindo para a inser o destes na rea de desenvolvimento de software S NCHEZ 2004 D 2 Orca O leitor de tela ORCA considerado por seus usu rios um dos melhores leitores de tela livres para ambiente gr fico sendo usado pelas distribui es Ubuntu OpenSUSE Fedora Mandriva e Knoppix COSTA e MONTE 2012 O Orca um leitor de tela escrito em Python para aplicativos gr ficos e usa a biblioteca GTK2 e Interface de Provedor de Servi o de Tecnolo
160. ionais As componentes de frequ ncia do sinal de voz que s o enfatizadas para uma determinada configura o do trato vocal s o denominadas de formantes um conjunto composto por quatro ou cinco resson ncias importantes que formam uma zona de alta concentra o de energia ac stica Diferentes combina es de frequ ncias formantes s o geradas conforme formato assumido pelo trato vocal gerando diferentes sons vozeados BRAND O 2011 LIMA 2010 A frequ ncia natural da voz influenciada tamb m pelo comprimento das pregas vocais mulheres e crian as apresentam vozes mais agudas porque suas pregas vocais s o mais curtas MATUCK 2005 cuja movimenta o durante a fona o mostrada nas Figuras A 7 at A 11 Na Figura A 10 poss vel observar o abaulamento da prega vestibular 134 Figura A 7 localiza o das pregas vocais Fonte LOPEZ e FANGANIELLO 2007 Epiglote Rima da glote Prega vocal Prega vestibular Cartilagem aritendidea Cartilagem corniculada Incisura Recesso piriforme interariten idea Figura A 8 laringoscopia direta pregas vocais na respira o profunda Posi o respirat ria Fonte PUTZ 2001 Epiglote Ventr culo da laringe Rima da glote Prega vocal Prega vestibular Prega ariepigl tica Cartilagem aritendidea Cartilagem corniculada Incisura
161. ireito respectivamente A suaviza o dos contornos feita minimizando a fun o erro definida por E plly s 1 p s Prs 85 em que y S p D representam o contorno de f suavizado o contorno da entrada fo par metro de suaviza o e uma matriz que fornece uma fun o diferencial de k sima ordem BRAUNSCHWEILER 2010 B 8 2 A abordagem proposta em PHUNG et al Sele o de unidades requer uma grande quantidade de dados para concatena o O trabalho de PHUN et al prop e decomposi o temporal para modelar efeitos contextuais inter e intra s labas adequando a modifica o e sele o das unidades de acordo com o contexto aplicado a l nguas monossil bicas mais especificamente o idioma vietnamita O algoritmo de s ntese mostrado na Figura D 8 O m todo apresenta uma proposta para estimar as posi es e a dura o do n cleo e os intervalos de transi o dentro de cada fonema Em seguida aplicado um modelo para coarticula o ac stica que representa os efeitos contextuais inter e intra s labas Ap s esta etapa usando o referido modelo um m todo de modifica o de unidades para 2 adequar ao contexto aplicado em conjunto com m todo de sele o de unidades 191 sens vel a contexto Por fim a solu o integrada a um sistema CSS para l nguas monossil bicas PHUNG et al Sequ ncia de Texto hd N o Encontrado sabido ai Encontrado n Busca por semi
162. isserta o Nesta etapa tamb m n o foi implementado dicion rio de exce es para pron ncia correta de palavras estrangeiras Quando implementado a busca no dicion rio de exce es deve preceder a transcri o fon tica Caso a palavra n o seja encontrada no dicion rio ent o se segue a divis o sil bica identifica o da s laba t nica e aplica o das regras de transcri o O sistema realiza a transcri o fon tica conforme as regras explicadas no item 3 2 1 3 Transcri o Fon tica da presente Disserta o Al m disso aplicam se as seguintes regras j mencionadas As vogais apresentam som aberto quando acento agudo e fechado quando circunflexo A letra x a mais problem tica transcrita como TF og FE x em in cio de palavras depois de n e depois de ai ei ou ou como z em palavras iniciadas com ex seguido de vogal e s quando seguido de consoante Para a sele o dos fonemas foi utilizado um classificador cuja tarefa realizar o mapeamento dos atributos para classifica o dos fonemas No caso o classificador adotado foi a rvore de decis o com base no algoritmo ID3 Foi utilizada a modelagem descritiva um modelo de classifica o utilizado como ferramenta para distinguir diferentes fonemas de diferentes classes 104 Uma rvore de decis o representa uma fun o discreta para representar dados a serem classificados Uma rvore de decis o classifica as inst ncia
163. itado que a usu ria tecesse coment rios gerais e sugerisse melhorias no sistema A seguir descrito o comparativo entre os tr s sistemas A Sistema baseado no Google API a usu ria classificou o som como sintetizado e atribuiu conceito razo vel qualidade do som Considerou som muito agudo sugerindo alterar o tom e a velocidade Informou ainda que tons muito agudos s o desagrad veis quando escutados por muito tempo Informou ainda que apresentou entona o errada por vezes mas em nada afetou a compreens o apresentando 100 de entendimento B Sistema baseado no FreeTTS a usu ria classificou o som como sintetizado e atribuiu conceito muito bom quanto qualidade da s ntese Entretanto notou que o sistema faz uso da fon tica do ingl s e embora as frases fossem em portugu s isto tornou a escuta inintelig vel A usu ria acredita que se houvesse modifica o da fon tica apresentaria ndice de inteligibilidade consider vel mas o sistema como foi apresentado recebeu conceito muito ruim Informou ainda que acredita que o sistema se mostrava bastante adequado para l ngua inglesa C Sistema proposto a usu ria classificou o som como sintetizado e atribuiu conceito muito bom entendendo as frases em sua totalidade Afirmou que o sistema apresenta tonalidade grave muito pr ximo do que julga ideal Sugeriu apenas que fosse fornecida ao usu rio uma forma de modificar a velocidade e o tom de voz 117 Como coment
164. lulares que quebrem as barreiras seja adaptando hardware seja utilizando softwares apropriados ou ambos SANTOS 2010 Ainda segundo SANTOS 2010 A acessibilidade digital s pode ser proporcionada por meio de combina o entre hardware e software que oferecem 30 respectivamente mecanismos f sicos para superar barreiras de percep o e o acesso a fun es e informa es 2 4 Tecnologias assistivas Tecnologia assistiva aquela que prov suporte a portadores de necessidades especiais adaptando e ou fornecendo dispositivos necess rios para que essas pessoas possam realizar atividades da forma mais independente poss vel Este tipo de tecnologia proporciona s pessoas com necessidades especiais maiores independ ncia e qualidade de vida refletindo se nas rela es sociais no trabalho e tamb m na fam lia SANTOS 2010 A tecnologia assistiva quando corretamente aplicada fundamental para garantir acessibilidade s mesmas atividades realizadas pelas pessoas sem necessidades especiais Essas t cnicas podem eliminar ou minimizar as limita es funcionais permitindo seu desempenho e intera o nas mais diversas situa es cotidianas como por exemplo o acesso informa o e comunica o SANTOS 2010 Como a informa o processada por um computador exibida em monitores de v deo pessoas com defici ncia visual total ou parcial precisam recorrer a outros dispositivos para obter as informa e
165. lvo um candidato no banco de dados e caracterizado por um vetor de caracter sticas multidimensional HUNT 1996 O treinamento possui muitas similaridades como a s ntese HMM HUNT 1996 O treinamento para os custos alvo e o custo de concatena o podem ser realizados ou com busca no espa o de pesos ou por regress o Ambos os m todos usam vozes naturais e fornecem bons resultados pesos que quando treinados manualmente Entretanto entre essas duas t cnicas a regress o apresenta maior flexibilidade e menor custo computacional HUNT 1996 O m todo tem sido aplicado para uma variedade de bancos de dados incluindo para idiomas japon s e ingl s e tanto para vozes masculinas como femininas HUNT 1996 Cada custo alvo calculado como a soma ponderada das diferen as entre os vetores de caracter sticas dos alvos e candidatos O peso em geral varia de 20 a 30 HUNT 1996 p C t us X WEOE ti wi 71 j 1 O custo de concatena o dado de forma semelhante HUNT 1996 q C uiz Uj gt wy CF Uia Ui 72 j 1 Assim o custo total para uma sequ ncia de n unidades a soma dos custos alvo e de concatena o HUNT 1996 175 n n CCR UM X CH ui Cour mi CS ty CCS 73 i 1 i 2 em que S denota o sil ncio e C S u e Cf un S definem as concatena es de in cio e fim dadas pela concatena o da primeira e da ltima unidade com sil ncio HUNT 1996 A parte mais complexa
166. m melhor 59 efeitos de coarticula o quando comparadas com d fonos elas apresentam menos problemas de concatena o SCHROETER 2005 Uma generaliza o dos d fonos s o os polifones que s o unidades que v o desde a regi o est vel de um primeiro fonema at a regi o est vel de um outro fonema juntamente com a realiza o ac stica completa de fonemas intermedi rios AZUIRSON 2009 3 3 3 PSOLA TD PSOLA PSOLA Pitch Synchronous Overlap and Add uma t cnica de processamento digital de sinais usada para s ntese de voz criado em 1986 utilizado para modificar o pitch e a dura o de um sinal de voz com baixa complexidade computacional e no dom nio do tempo PSOLA funciona dividindo a forma de onda em segmentos sobrepostos Para modificar o pitch os segmentos s o afastados para diminuir o pitch ou aproximados para aumentar o pitch Para modificar a dura o do sinal os segmentos s o repetidos diversas vezes para aumentar a dura o ou s o eliminados para diminuir a dura o portanto trata se de uma t cnica para escalonamento de tempo dura o e escalonamento de pitch MAEDA 1995 Os segmentos s o combinados usando a t cnica overlap add PSOLA pode ser usado para modificar a pros dia do sinal de voz MAEDA 1995 sendo a t cnica n o param trica mais conhecida para este fim O m todo se baseia no uso de pontos de excita o de voz encontrados como m todo para an lise de instantes de tempo para
167. m recentemente uma voz feminina denominada br4 COSTA e MONTE 2012 4 2 1 O Algoritmo O MBROLA Multi Band Resynthesis OverLap Add um algoritmo para s ntese de voz no dom nio do tempo baseado em d fonos que usa uma variante do m todo PSOLA uma patente da France Telecom e permite uma grande qualidade no som gerado Assim como ocorre no PSOLA h um baixo custo computacional Entretanto ao contr rio do PSOLA o MBROLA n o exige marca o preliminar de per odos de pitch Embora seja baseado em d fonos a qualidade da s ntese do MBROLA considerada superior aos demais sintetizadores baseados nesta t cnica uma vez que h um pr processamento dos d fonos impondo fases de modifica o de tom e harm nicos a fim de melhorar a concatena o O MBROLA disp e de um grande banco de dados contendo conjuntos de d fonos para diversas l nguas e vozes auxiliado por empresas laborat rios e volunt rios ao redor do mundo embora ainda tenha algumas l nguas importantes em falta como o chin s um sistema muito r pido e que usa pouca mem ria sendo adequado para execu o em m quinas modestas ou em ambientes com grande quantidade de s nteses de voz por segundo O arquivo de extens o pho usado como entrada pelo MBROLA cont m uma lista de d fonos a serem concatenados contendo informa es com nome dos fonemas dura o em milissegundos e curva de pros dia contendo posi o em porcentagem e pitch MBROLA 2014 DUTOIT 1993 DUT
168. m substancialmente mais espa o em disco e limitam as possibilidades de intera o SUN MICROSYSTEMS 1998 No contexto de inclus o digital os requisitos de acessibilidade n o devem ser um b nus disponibilizado no software mas sim colocado como prioridade pois a acessibilidade vem sendo apoiada por leis federais e internacionais SANTOS 2010 Para aplica es acess veis o sucesso na intera o deficiente computador consiste basicamente em ser o mais simples e amig vel poss vel oferecendo uma ponte atrav s da qual as peculiaridades individuais s o contempladas Ao se desenvolver produtos voltados para deficientes visuais o projetista deve privilegiar o uso de som fontes com tamanho grande e se poss vel usar teclados e impressoras em Braille monitores de tamanho maior sens vel ao toque e sistema de som completo placa de som microfone caixa de som ou fone de ouvido Ao mesmo tempo deve se evitar excesso de op es uso excessivo de cores cones e letras pequenas e uso de mouse SANTOS 2010 O desafio para desenvolvedores que t m pouco ou nenhum conhecimento sobre quest es de acessibilidade ou acerca da comunidade de pessoas com defici ncias aprender como projetar de forma eficiente e desenvolver solu es que atendam aos requisitos necess rios cr tico que desenvolvedores de software desprendam tempo projetando adequadamente aplica es voltadas para portadores de defici ncia visual uma vez que o sof
169. m uma fun o bastante espec fica e fundamental nesse tipo de comunica o Por fim o processo Waveform Generation respons vel pelo controle din mico de articula es e controle da frequ ncia vibrat ria das dobras vocais que possibilitam a produ o de sinais de voz exigidos O Festival est em constante desenvolvimento e pretende incluir diversos outros m dulos Aperfei oamentos j est o sendo considerados em v rios est gios de implementa o como t cnicas podem se citar s ntese baseada em sele o especifica o l xica independente do dialeto dentre outras FESTIVAL 2014 Entretanto criar um banco de dados e um conjunto de regras de fala para o Festival n o f cil pois usa uma sintaxe semelhante linguagem de programa o Lisp e requer um banco de dados de d fonos com aproximadamente 3 mil trechos de udio cortados e estendidos por pontos de entona o H somente algumas poucas vozes gratuitas gravadas para o Festival no momento dificultando seu empego em larga escala ou a sua populariza o em massa 4 1 7 FreeTTS FreeTTS um sistema de s ntese de voz escrito inteiramente em Java Free TTS inclui uma engine de s ntese de voz com suporte para vozes masculina em ingl s americano de 8 e 16 KHz e para voz MBROLA masculina e feminina a 8 e 16 Khz e suporte para importar vozes do FestVox Al m disso possui compatibilidade parcial com JSAPI e ampla documenta o incluindo diversas aplica es demo
170. ma livre e voltado para falantes da l ngua portuguesa Al m disso as aplica es desenvolvidas visam validar o uso do sintetizador de voz com outras aplica es de forma a torna las acess veis 107 E Hb x Gs Il e Ol essa a interface de teste do sintetizador de voz Ol essa a aplica o de chat Enviar b Nova Mensagem Emails Sender Sumea Date Salvar arquivo e f Figura 5 5 interface do a Sintetizador de Voz b Aplica o de Chat c Navegador de Internet d Lente de Aumento e Cliente de E mail f Editor de Texto O cliente de e mail e o navegador web ainda se encontram em fase de desenvolvimento 5 3 4 1 A lente de aumento virtual A baixa vis o corresponde a um comprometimento importante da fun o visual por m n o equivale cegueira Baixa vis o e ou vis o subnormal s o termos usualmente empregados para definir a situa o em que o olho est com uma de suas vias de condu o do impulso visual alterada de maneira irrevers vel cuja perda visual constitui um obst culo para o desenvolvimento normal da vida do indiv duo e que precisa de corre o especial 108 Uma das maiores dificuldades enfrentadas no desenvolvimento de softwares voltados para esse grupo est no tratamento de imagens que propicie aos usu rios
171. ma defici ncia f sica Deve se evitar o seu uso quando uma grande quantidade de informa es apresentada ao se mostrar dados que devem ser comparados ou quando a informa o exposta pessoal ou confidencial SUN MICROSYSTEMS 1998 Aplica es de voz s o como conversas entre o usu rio e o computador Conversas s o caracterizadas por retornos verbais e n o verbais para indicarem o entendimento O maior benef cio de incorporar fala em uma aplica o que a fala algo natural pessoas acham falar f cil conversar uma habilidade que a maioria aprende desde cedo e que praticam com frequ ncia Uma aplica o eficiente de voz uma que simule alguns dos aspectos principais da conversa entre seres humanos Interfaces bem projetadas devem se basear no 76 entendimento das diferentes formas da linguagem com que as pessoas se comunicam Aplica es de voz devem adotar uma linguagem que ajude as pessoas a saberem o que elas devem fazer em seguida e tentar evitar padr es de conversa o que violem a educa o e o comportamento cooperativo SUN MICROSYSTEMS 1998 Ap s definir se a fala uma interface apropriada deve se considerar como a fala ser integrada na aplica o Geralmente uma aplica o de voz desde seu in cio voltada para fala S o poucas as vezes em que a fala quando acrescentada a uma aplica o pr existente efetiva Traduzir uma aplica o gr fica para somente voz sem a devida adapta o tamb
172. macs Est dispon vel em ingl s brit nico e americano e espanhol O sistema escrito em C e usa a biblioteca Edinburgh Speech Tools Trata se de um software livre distribu do sob licen a X 11 permitindo uso irrestrito comercial e n o comercial A vers o est vel atual a 2 1 e apresenta as seguintes caracter sticas FESTIAL 2014 integra o de API de s ntese baseado em modelos de Markov suporte para GCC 4 3 4 4 e 4 5 suporte a udio nativo do Apple OS X retrocompatibilidade com Festival 1 4 3 suporte base de dados do MBROLA O Festival tido como um sistema de s ntese de voz para pelo menos tr s n veis de usu rios No primeiro n vel destinado para aqueles usu rios que simplesmente querem uma alta qualidade de voz de textos arbitr rios com o m nimo de esfor o No segundo dirigido para aqueles que est o desenvolvendo sistemas de idioma e desejam incluir sa da sintetizada Neste caso desejado e necess rio uma certa quantidade de padroniza o assim como vozes diferentes etc O terceiro n vel consiste em desenvolver e testar novos m todos de s ntese A filosofia adotada por sistemas como o Festival permite a adi o e teste de novos m dulos de voz sem a necessidade de gastar esfor os significativos para construir um sistema inteiro ou adaptar um j existente Este um sistema TTS inteiramente apropriado para ser utilizado em outros projetos que necessitem de sa da de voz al m disso pod
173. mb m um cliente e um servidor de chat bastante simples baseado em socket Java sendo necess rio informar o IP da m quina com a qual se deseja conectar Ao pressionar a tecla Enter o cliente l e envia a mensagem digitada ao destinat rio Quando a mensagem chega ao ltimo o sistema l a mensagem para o destinat rio 110 6 TESTES RESULTADOS OBTIDOS E DISCUSSOES Esta Capitulo visa apresentar e discutir a metodologia dos testes realizados com a ferramenta desenvolvida bem como os seus resultados Certamente o fator que mais pesa na aceita o por parte dos usu rios de sintetizadores de voz a qualidade na sa da resultante Saber como avaliar a qualidade da s ntese e os fatores que influenciam nesta s o pondera es muito importantes no processo de desenvolvimento de softwares de acessibilidade A qualidade de um sistema de s ntese de voz julgada de acordo com sua similaridade com a voz humana Um sistema de s ntese de voz comumente avaliado sob tr s aspectos precis o no tratamento do texto de entrada inteligibilidade o percentual do resultado que foi corretamente entendido e naturalidade o qu o parecido a sa da com uma voz humana real do resultado SCHROETER 2005 Por precis o entende se a habilidade de ler uma entrada de texto da mesma forma que um ser humano leria estando relacionado com o funcionamento correto do front end Projetistas de sintetizadores baseados em formantes devem
174. me a fim de melhorar a m trica SUN MICROSYSTEMS 1998 198 AP NDICE D ALGUMAS FERRAMENTAS NATIVAMENTE ACESS VEIS VOLTADAS PARA DEFICIENTES VISUAIS D 1 APL As linguagens de programa o atuais s o baseadas em uma interface de linhas de comando interpretadas pelo computador Tais comandos devem ser corretamente escritos e bem definidos de tal forma que caso haja algum erro seja de sintaxe ou de l gica o computador ser incapaz de compreender as instru es ou as tarefas desejadas n o ser o realizadas de forma correta Isto significa que o programador deve memorizar um grande n mero de instru es Em resumo as linguagens de programa o atuais s o focadas em usu rios videntes pois s o fortemente baseadas em interfaces visuais Sistemas TTS que leem comandos e vari veis s o inadequados para usu rios deficientes visuais que desejam programar sendo o maior problema a verifica o de erros A linguagem APL vem preencher uma lacuna existente entre as linguagens de programa o APL uma linguagem de programa o com interface baseada em udio a fim de auxiliar estudantes deficientes visuais na rea de desenvolvimento de software APL foi desenvolvida em Java e se baseia no FreeTTS para a realiza o da s ntese de voz No APL o programador n o escreve comandos ele os seleciona a partir de uma lista classificada por categorias garantindo sem ntica e sintaxe corretos O sistema composto por duas camadas aud
175. mem ria ou maior poder de processamento O objetivo da s ntese TTS converter uma entrada de texto para uma sa da de voz natural e intelig vel para transmitir a informa o da m quina para uma pessoa A metodologia usada no TTS explorar representa es ac sticas da fala para s ntese juntamente com an lise do texto a fim de obter pron ncias corretas e pros dia de acordo com o contexto SCHROETER 2005 Alguns sistemas TTS convertem textos convencionais diretamente para formas de onda enquanto que outros se baseiam em representa es simb licas lingu sticas como transcri o fon tica para tal Alguns sistemas se baseiam na concatena o de trechos de voz pr gravados e armazenados em um banco de dados enquanto que outros se baseiam na modelagem do trato vocal Tais sistemas inicialmente realizam um processamento lingu stico produzindo a convers o letra para som a fim de gerar a 42 transcri o fon tica correspondente ao texto de entrada al m das etapas de gera o de pros dia e entona o Tais etapas agem como um front end geralmente SHAUGHNESSY 2003 3 1 Aplica es das tecnologias de voz e suas vantagens As tecnologias de voz est o se tornando cada vez mais importantes tanto na computa o pessoal como empresarial e t m sido usadas para melhorar interfaces para os usu rios j existentes e proverem suporte s novas formas de intera es homem m quina Estas permitem o uso de computadore
176. minar Um exemplo de treinamento a clusteriza o de rvore de decis o na qual unidades de contextos fon ticos s o escolhidas por seus efeitos similares nos par metros ac sticos ou fonemas individuais rvores de decis o s o constru das sem interven o humana para maximizar a similaridade ac stica dentre as classes selecionadas Apenas 173 um pequeno subconjunto do espa o de busca te rica de fato usada Assim sistemas tendem a sintetizar uma ampla quantidade de falas durante o treinamento a fim de descobrir quais unidades e jun es s o mais adequadas geralmente usando t cnicas de programa o din mica SHAUGHNESSY 2003 B 3 1 O trabalho de HUNT 1996 O uso de um banco de dados com uma grande quantidade de unidades dispon vel com pros dia e caracter sticas espectrais diversificadas permite que se sintetize uma voz mais natural que podem ser produzidas por meio de uma pequena quantidade de unidades controladas HUNT 1996 O primeiro est gio transformar a entrada em especifica o alvo os fonemas solicitados em conjunto com caracter sticas pros dicas como pitch dura o e pot ncia HUNT 1996 A sele o de unidades baseada em duas fun es custo custo alvo C u t a estimativa da diferen a entre a unidade do banco de dados u e o alvo t que supostamente se deseja representar e o custo de concatena o C u 4 u de unidades sucessivas HUNT 1996 A Figura B 3 ilustra um b
177. nde do valor do per odo do pitch Quando Fp gt 1 a s ntese tende a falhar se Fp lt 1 o valor de K se torna altamente dependente do fator de pitch Em 1989 foi proposto um modelo que prop e que cada amostra de s ntese seja multiplicado por dois fatores de normaliza o Tal modelo mostrado na Equa o 14 si n 7 i 14 w n n S n a em que q introduzido para compensar a depend ncia de K em Fp e o denominador atua como fator de compensa o din mica que contrabalanceia as varia es de K com n Entretanto trabalhos publicados por Dutoit mostraram que n o h degrada o significante quando o denominador n o usado eliminando o e adotou tamb m 1 DUTOIT 1997 O MBROLA e o TD PSOLA podem ser vistos ent o como intermedi rios entre duas situa es extremas nas quais nenhum deles oferece resultados de s ntese satisfat rios se Fp muito grande as linhas espectrais aparecem no espectro de s n o que evita a reharmoniza o de s n se Fr muito pequeno uma harmoniza o grosseira ser produzida Al m disso a aproxima o n o ser v lida O caso intermedi rio fornece uma qualidade muito boa para certos valores de Fr se Fp 1 0 espectro de s n aproxima se do envelope do espectro de s n e a opera o de reharmoniza o altera o pitch sem afetar as frequ ncias formantes e a largura de banda DUTOIT 1997 Sinal reconstru do aproximadamente igual ao sinal da voz h
178. no caso do Festival n o serem gratuitos ou n o serem livres como Acapella Virtual Vision e Jaws por exemplo Adicionalmente tais sistemas ainda n o serem um sistema TTS completo como o MBROLA ou se basearem em vozes pr gravadas como o DOSVOX por exemplo o que limita as possibilidades de intera o Diante deste cen rio percebe se a necessidade de um sistema que garanta aos deficientes visuais amplo acesso aos recursos oferecidos pela inform tica que gere maior impacto na integra o social desse grupo ou em outras palavras que promova de fato a inser o digital por meio de um pacote de softwares Neste caso que inclui n o somente um sintetizador de voz mas tamb m um editor de texto cliente de e mails e chat lente de aumento etc Todas estas ferramentas voltadas para usu rios com problemas visuais em seus mais diversos graus desde a dificuldade de enxergar a curta dist ncia que exigiria o uso de uma lente de aumento virtual at cegueira plena por meio do uso de um sintetizador de voz para que seja poss vel a intera o do usu rio com o computador 1 3 Objetivos 1 3 1 Geral Esta Disserta o tem por objetivo principal propor um Front End em Java para Sintetizador de Voz Baseado no MBROLA a fim de promover a inclus o digital de deficientes visuais 1 3 2 Espec ficos Durante o desenvolvimento desta Disserta o outros objetivos foram atingidos tais como teste de usabilidade dos principais sintetizadore
179. nstrativas Apesar da facilidade de uso n o apresenta suporte para portugu s FREE TTS 2014 87 4 1 8 Furbspeech O TTS Furb Speech foi um front end para o MBROLA desenvolvido em Java pela Faculdade de Blumenau Aparentemente o projeto foi descontinuado pois a ltima atualiza o do projeto foi realizado em 2009 n o sendo integrado tamb m a nenhum sistema de acessibilidade COSTA e MONTE 2012 4 1 9 IBM Via Voice O IBM Via Voice uma plataforma propriet ria o que impede que o usu rio adapte o programa conforme suas necessidades n o s de s ntese mas tamb m de reconhecimento de voz Voltado tamb m para sistemas embarcados apresenta vers es para Microsoft Windows e Mac OS X A ltima vers o est vel foi a 9 0 Em 2003 a IBM vendeu o ViaVoice para a ScanSoft sendo agora chamado Nuance IBM VIA VOICE 2015 Sua tela principal mostrada na Figura 4 2 Observa se que as l nguas s o limitadas n o contemplando a l ngua portuguesa entre outras S US English German Italian C Japanese UK English French Spanish Initialize TTS Engine Figura 4 2 IBM Via Voice Posteriormente surgiu o Projeto Voxin uma parceria com a IBM para a aquisi o do sistema TTS IBM ViaVoice que um sistema TTS n o livre que pode ser usado em diversas aplica es como leitores de tela de boa qualidade podendo ser tamb m integrado a ferramentas e sistemas
180. nt m um pacote de aplicativos nativos open source que possibilitam acessibilidade ao Linux baseado no DOSVOX O sistema conta com um sintetizador de voz em portugu s e um leitor de tela open source devido grande tend ncia na poca de sua cria o na utiliza o do 84 Linux que possui acesso completo ao ambiente gr fico do Linux funciona em modo texto e gr fico e compat vel com v rias distribui es O projeto tem como objetivo facilitar a produ o cultural de portadores deficientes visuais permitir a alfabetiza o em todos os n veis fundamental m dio e superior e fornecer suporte s profiss es j existentes 4 1 5 eSpeak O eSpeak mostrado na Figura 4 1 um software sintetizador de voz para ingl s e outras l nguas incluindo portugu s brasileiro para GNU Linux e Microsoft Windows O sistema prov um programa em linha de comando que gera falas a partir de textos ou entradas padr o e bibliotecas compartilhadas por programas como por exemplo as DLLs do Microsoft Windows Como poss vel perceber n o se trata de um sistema de acessibilidade propriamente dito sendo apenas um sintetizador de voz n o possuindo uma interface que permita a intera o direta com um usu rio deficiente visual Pare g gt mi Mouth Position E 7 Options O eSpeak um software sintetizador de voz para ingl s e outras linguas estrangeiras para fisiiha GNU Linux e Microso
181. nta uma s rie de desvantagens como j foi abordado 5 1 Teste de di logo natural A fim de assegurar a qualidade do software ap s determinar os requisitos do sistema foram iniciados os primeiros testes Aplica es acess veis requerem testes especiais a fim de garantir se o mesmo atende s especifica es O primeiro teste o chamado Estudo de Di logo Natural dois usu rios devem completar uma determinada tarefa Um usu rio deve possuir um computador e um telefone O outro deve possuir apenas um telefone O primeiro representa o software e o segundo representa o usu rio final do produto Ent o deve se observar o di logo entre as duas pessoas analisando as ordens dadas pela pessoa que representa o usu rio e as mensagens fornecidas pela pessoa que representa o sistema Esta t cnica utilizada para coletar vocabul rio e estabelecer um padr o de gram tica fornecendo ideias para mensagens e respostas Trata se de um teste barato r pido e que n o requer um grande n mero de pessoas e muito menos uma implementa o pr via do sistema Uma vers o mais sofisticada do teste envolve v rios volunt rios atuando como usu rios Com base nessa an lise foi desenvolvida uma interface linear e objetiva semelhante existente no ADRIANE em que s o apresentadas inicialmente as op es de programas dispon veis e letras de atalho no teclado correspondentes com a op o para repeti las sempre que se deseje 96 5 2 As ferrame
182. ntas utilizadas 5 2 1 Linguagem JAVA A linguagem Java foi escolhida por ser uma linguagem de alto n vel orientada a objeto que apresenta uma ampla documenta o e uma grande variedade de APIs e Zz frameworks para as mais diversas aplica es e que constantemente atualizada Entretanto o principal motivo pelo qual a linguagem foi escolhida foi pela portabilidade oferecida pela linguagem Devido exist ncia da JVM Java Virtual Machine que atua como uma camada de software entre o sistema operacional e a aplica o desenvolvida n o h necessidade de recompilar o projeto para cada plataforma operacional uma vez que a JVM respons vel por fazer a ponte entre os bytecodes Java e o sistema operacional 5 2 2 IDE NetBeans O Netbeans mostrado na Figura 5 1 um ambiente de desenvolvimento integrado livre gratuito com suporte a diversas linguagens como Java C C e PHP e dispon vel para plataformas Microsoft Windows e GNU Linux Seu editor de c digo fonte possui destaque de sintaxe destaque de elementos selecionados fechamento autom tico de delimitadores identa o autom tica auto completar marca o de imports n o utilizados e integra o com Javadoc Al m disso possui designer de interface gr fica debugger recursos de refatora o suporte a controle de vers o e JUnit O irbspeech Net Arquivo Editar Exibir Navegar C digo Fonte Refatorar Executar Depurar Perfil Equipe Ferramentas Janela Ajuda
183. nte na dire o transversal O movimento das duas pregas vocais considerado sim trico assim somente equacionado o movimento de uma 156 delas Os deslocamentos x t de cada uma das massas s o regidos pelo sistema de equa es seguinte M X1 Si x1 By 1 ke 41 x2 Fy M X S2 X2 Bo 2 ke x2 x1 Fz 54 em que S e Sz s o as rela es das molas n o lineares dadas por S x K x 1 n jx para j 1 2 Os coeficientes K representam a rigidez linear e n s o coeficientes positivos que caracterizam a n o linearidade das molas As for as F e F dependem da press o subglotal do fluxo glotal e da rea da regi o entre as pregas vocais Apesar dos modelos massa mola amortecedor serem capazes de capturar as propriedades b sicas do movimento das pregas vocais muitos detalhes desse movimento s o desconsiderados devido sua representa o matem tica simplificada As pregas vocais s o mais espessas na regi o posterior do que na regi o anterior logo sob a a o do fluxo de ar elas se abrir o primeiro na parte anterior indo em dire o parte posterior formando uma onda que a onda mucosa a qual percorrer a extens o das pregas vocais medida que o fluxo de ar mantido como indicam as setas Tais modelos simplificados n o conseguem recriar o sistema de forma satisfat ria BRAND O 2011 BRAND O 2011 tamb m conclui que as for as el sticas desempenham um papel import
184. nvolveu o vocoder Durante os anos de 1980 e 1990 o sistema MITalk baseado no trabalho de Dennis Klatt no MIT e o sistema da Bell Labs foram um dos sistemas multil ngues independentes de l nguas que se tornaram refer ncias na poca usando t cnicas de processamento da linguagem natural Os m todos de s ntese de fala podem ser classificados em concatena o de forma de onda usando unidades sonoras t cnicas baseadas em par metros s ntese de formantes s ntese articulat ria e s ntese HMM Tal classifica o pode ser vista na Figura B 1 Todas as t cnicas apresentam suas respectivas vantagens e desvantagens De todos os tr s a concatena o de forma de onda tem apresentado a maior naturalidade e seu algoritmo bastante simples entretanto ainda apresenta problemas de coarticula o KANG et Al 2009 TALAFOVA et al 2007 Vocabul rio Limitado Vocabul rio limitado Sintese Artiulat ria Sintese de Formantes Sintese por Concatena o Mensagens Pre Gravadas Figura B 1 classifica o e aplica o dos tipos de sistemas de s ntese de voz Fonte AZUIRSON 2009 Adaptado Dentre as t cnicas citadas tr s s o as principais s ntese de formantes s ntese articulat ria e s ntese concatenativa A s ntese de formantes modela as frequ ncias do 163 sinal de voz Formantes s o as frequ ncias de resson ncia do trato vocal A s ntese realizada usando tais frequ nci
185. o 2 nacn n 87 Ci n o coeficiente espectral de i sima ordem 1 lt i lt p no n simo frame dentro da janela centrada em t com n lt n lt mn O coeficiente de regress o aj corresponde varia o linear do padr o do envelope espectral em uma unidade de tempo Assim STM t que a o valor quadr tico m dio de a corresponde varoa o do envelope espectral suavizado Como o pr prio nome indica STM t apresenta a medida da transi o espectral em uma fala cont nua PHUNG et al 192 AP NDICE C APIs PARA DESENVOLVIMENTO DE SOFTWARES BASEADOS EM VOZ C 1 GNOME GNOME um sistema de Desktop avan ado para usu rios voltado para alguns sistemas derivados do Unix como GNU Linux e Solaris Trata se de um projeto open source e que segue o modelo de software livre um ambiente f cil de usar e altamente personaliz vel O projeto GNOME foi desenvolvido pensando no usu rio incluindo portadores de necessidades especiais com problemas de vis o surdez ou motores O GNOME oferece uma plataforma robusta e confi vel para desenvolver aplica es acess veis e interfaces para tecnologias assistivas e inclui leitor de tela lente de aumento etc O GNOME foi projetado desde seu in cio levando em considera es quest es de acessibilidade e fornece um framework robusto que torna o desenvolvimento de aplica es acess veis muito mais f cil Al m disso prov uma interface padr o para integrar tecnologi
186. o conciliar HNM e HMM a fim de reduzir custos e tempo de desenvolvimento TABET 2011 B 8 1 A abordagem proposta em BRAUNSCHWEILER 2010 Nos modelos cl ssicos mesmo com grandes bancos de dados descontinuidades e pros dias pouco naturais causadas por escolhas inadequadas entre o alvo e a unidade selecionada s o inevit veis Por outro lado os m todos que modificam a frequ ncia fundamental geram pros dia precisa para sotaques e entona es mas podem produzir vozes pouco naturais rob ticas degradando a qualidade devido a modifica es pros dias BRAUNSCHWEILER 2010 O algoritmo descrito em BRAUNSCHWEILER 2010 visa reduzir a degrada o por modifica es pros dicas e descontinuidades por meio de um m todo de s ntese que combina concatena o de formas de onda naturais e uma t cnica pr pria de sele o plural e fus o de unidades modificando a frequ ncia fundamental a e dura o dos fones capaz de regenerar a pros dia a partir das unidades selecionadas e usando m ltiplas unidades em segmentos n o adjacentes reduzindo as descontinuidades apresentado resultados superiores aos m todos convencionais A entrada do sistema uma sequ ncia de fonemas e a pros dia O m todo consiste em selecionar m ltiplas unidades de voz para cada segmento de semi fonemas e ent o gerar formas de onda que representam as m ltiplas unidades realizando uma m dia das formas de onda em um ciclo de pitch Tal solu o permite a suaviz
187. o de um dicion rio inserindo tamb m meios de modificar velocidade e tom de voz por parte do usu rio Como forma de melhorar a qualidade da voz sintetizada prop e se implementar a solu o proposta em KANG et al 2009 para melhorar a coarticula o conclus o da implementa o de algumas ferramentas como navegador web sistema de Voz sobre IP e agenda portar o sistema para plataformas m veis baseadas no sistema Android A s ntese de d fonos tem apresentado resultados superiores em dispositivos m veis quando comparados com outras t cnicas de s ntese de voz TALAFOV et al 2007 apresenta uma primeira aplica o de s ntese de d fonos em ambiente m vel cujo diagrama de funcionamento mostrado na Figura 7 1 Neste trabalho ao receber uma mensagem SMS por exemplo o sistema concatena amostras de voz pr gravadas e armazenadas em um banco de dados o bad IH Es i Eai Sinal de Voz Amostras de voz Saida Pr Gravadas gt Banco de Dados Sintetizador de Voz Figura 7 1 solu o proposta em TALAFOVA et al 2007 para aplica o em dispositivos m veis Fonte TALAFOV et al 2007 Traduzido 123 REFER NCIAS ACAPELA SITE OFICIAL Dispon vel em lt http www acapela group com acapela for linux embedded gt Acesso em Outubro 2014 AZUIRSON Gabriel de Albuquerque Veloso Investiga o da modelagem lingu stica e pros dica em sistemas de s ntese de voz
188. o que nem sempre pode ser uma tarefa f cil uma vez que o usu rio tender a repetir a mesma frase podendo ocasionar o mesmo erro novamente Neste caso a melhor forma de lidar com isso evitar repetir a mesma mensagem de erro Repeti es de mensagens de erro al m de n o ajudarem o usu rio tendem a parecer hostis ao usu rio devendo se ent o recorrer assist ncia progressiva primeiro com um O que seguido de um Desculpe poderia repetir e por fim orientar o usu rio Tente falar pausadamente mas sem muita nfase Outra t cnica explicitar as possibilidades do tipo sim n o ou fornecer uma entrada de dados alternativa SUN MICROSYSTEMS 1998 3 5 3 Desafios envolvendo sistemas multi modal Sistemas multi modais incluem outros tipos de entrada e sa da al m do som No caso da lat ncia indicadores na interface gr fica podem indicar o estado do reconhecedor como processando ou aguardando entrada ao contr rio do que ocorre do tipo speech only al m de mostrar o resultado do reconhecimento possibilitando que o usu rio veja a resposta Pode se mostrar tamb m ao longo da etapa de processamento os resultados preliminares da an lise do que foi dito pelo usu rio que v o mudando medida que o usu rio continua a falar ou estes podem ser ocultados ou mostrados em uma janela a parte a fim de n o confundir o usu rio O que n o se deve n o mostrar resultado algum para que o usu rio pense que o
189. o um ou uma Abreviaturas s o geralmente 74 sequ ncias de caracteres terminados por ponto e que necessitam ser substitu dos por sua forma por extenso Entretanto algumas abreviaturas n o s o seguidas por ponto Al m disso o n mero que antecede a abreviatura dever ser colocada no plural ou no singular Outras vezes uma abrevia o pode ter mais de uma transcri o cap pode ser capit o ou cap tulo de acordo com o contexto Siglas s o sequ ncia de letras mai sculas delimitadas ou n o por ponto Neste caso a dificuldade se encontra em saber se a sigla deve ser lida ou soletrada Ademais certos casos fogem regra a apresentam pron ncia pr pria como IEEE i tr s e AZUIRSON 2009 3 4 1 2 Erros de transcri o fon tica As principais dificuldades encontradas nesta etapa s o a determina o se as vogais e e o n o acentuadas s o abertas ou fechadas e a transcri o fon tica da letra X A consoante X uma das mais problem ticas durante o mapeamento sendo que nem sempre poss vel realizar a transcri o correta por meio de regras e nesse caso novamente deve se lan ar m o do uso de um dicion rio de exce es Ainda assim podemos aplicar a seguinte regra v lida para boa parte dos casos o fonema x ocorre em in cio de palavras depois de n ai ei ou ou o fonema z ocorre em palavras iniciadas com ex seguido de vogal e o fonema s quando seguido de consoante AZUIRSON 2009 3 4 2
190. ocal varia de uma pessoa a outra cada fonema possui um conjunto de formantes acrescidos dos formantes caracter sticos de cada trato vocal MACHADO 1997 Vogais diferem das consoantes de acordo com o grau de abertura do trato vocal Se o trato vocal est aberto o suficiente para o ar pulsado pelos pulm es fluir sem encontrar obst culos uma vogal produzida A atua o da boca ent o reduzida a simplesmente modificar o timbre vocal caso contr rio produzida uma consoante DUTOTT 1997 Sons vozeados como os produzidos por uma vogal por exemplo ocorrem quando o ar for ado pelos pulm es atrav s das pregas vocais em dire o boca ou nariz por onde escapa ou seja Sons vozeados s o produzidos pela excita o do trato vocal gerado por pulsos de ar glotal quasi peri dicos resultantes da vibra o das pregas vocais LOPEZ 2009 SPANIAS 1994 Quando ocorre a constri o de algum ponto do trato vocal geralmente em dire o boca sons fricativos ou n o vozeados s o originados for ando o ar passar pela constri o com uma velocidade suficientemente grande para gerar uma turbul ncia e consequentemente um ru do que excita o trato vocal Sons fricativos incluem ch f s lvl x e z ou seja sons n o vozeados s o produzidos for ando o ar ao longo de uma constri o do trato vocal LOPEZ 2009 SPANIAS 1994 34 Quando h a total obstru o de algum ponto ao longo da passagem de ar no trato
191. odelo fonte filtro Monografia em F sica Universidade Estadual do Cear Fortaleza 2010 LOPEZ Fernando Carrara FANGANIELLO Renato Dalto S ntese e predi o de sinais de voz Trabalho de Gradua o Interdisciplinar em Engenharia El trica Universidade Presbiteriana Mackenzie 55p S o Paulo 2009 MACHADO Cristiano Gaspar Um sistema de s ntese de voz para a l ngua portuguesa Universidade Federal do Rio de Janeiro 1997 MAEDA Shinji Vocal tract acoustics and speech synthesis 1995 MARANGONI Josemar Barone PRECIPITO Waldemar Barilli Reconhecimento e Sintetiza o de Voz Usando Java Speech In Revista Cient fica Eletr nica de Sistemas de Informa o ISSN 1807 1872 Ano 2 N mero 4 2006 MATUCK Gustavo Ravanhani Processamento de sinais de voz padr es comportamentais por redes neurais artificiais Relat rio Final de Projeto de Inicia o Cient fica 56p Instituto Nacional de Pesquisas Espaciais S o Jos dos Campos 2005 MBROLA SITE OFICIAL Dispon vel em lt http tcts fpms ac be synthesis mbrola html gt Acesso em Junho de 2014 MONTILHA Rita de Cassia Ietto TEMPORINNI Edm a Rita NOBRE Maria In s Rubo JOSE Newton Kara Percep es de escolares com defici ncia visual em rela o ao seu processo de escolariza o In Paideia vol 19 No 44 2009 MOORE Keith L DALLEY II Arthur F Anatomia orientada para cl nica 4a edi o Guanabara Koogan 2001 NA ES UNIDAS NO
192. oe oo oo oo 00 ee co 006060 so oe oe 0000 Sinal de N x divis o Expoente Grau oe oo oo oo oo oo 000 e oo oo oe ee oo co ee oo 0006 oo oe ee eo ee co ee ee oe ee o oe ee 000 R gt Se x oe eo 00 o oe co oe co oe oo co 00 oo 00 ee oe oe o o oe ee ee oe eo oe eo 00 00 of o oe oe o ee ee oo eo 0000 1 2 3 4 5 6 7 8 9 e ee e o e oo e oo e o e oo e oo ee e a o q e ee e e e e e o e oo e oo e o ee ee ee ee ee ee ee ee ee ee Figura 1 2 alfabeto Braille para portugu s Fonte Google Images Sistemas TTS Text to Speech s o sistemas que transformam um texto simples em voz falada sendo atualmente importantes ferramentas para a intera o homem computador podendo ser utilizados como leitores de tela para deficientes visuais COSTA e MONTE 2012 Dentre os sistemas de acessibilidade e ou s ntese de voz existentes atualmente podem se destacar como principais os seguintes ADRIANE Acapella DOSVOX eSPEAK Festival Jaws LianeTTS MBROLA e Virtual Vision Embora estes sistemas apresentem desempenho considerado adequado aos seus prop sitos possuem caracter sticas que de uma forma ou de outra limitam o seu uso a 25 um grupo menor de usu rios seja por serem exclusivos para uma determinada plataforma operacional como ADRIANE exclusivo para GNU Linux ou simplesmente n o serem nativamente multiplataformas neste caso todos esses citados n o possuir suporte l ngua portuguesa como
193. olaridade m dia das pessoas com defici ncia um ano menor que do grupo de pessoas sem defici ncia consequ ncia da n o inser o destes na escola ou da evas o As taxas daqueles que nunca frequentaram a escola s o 16 3 21 6 e 33 7 para a popula o em geral para grupo de pessoas com vis o limitada e para pessoas com total incapacidade de enxergar respectivamente Um estudo realizado entre estudantes a partir de 12 anos com 26 alunos 46 2 com vis o subnormal e 53 8 com cegueira com idade m dia de 17 1 anos da rede p blica de ensino do Estado de S o Paulo revelou que mostrou que 73 1 dos estudantes repetiram o ano Entre as dificuldades encontradas sobressa ram se a leitura de livros did ticos e dentre os que possuem vis o subnormal a dificuldade para visualizar a lousa BRASIL 2015 MONTILHA 2009 Nesse contexto softwares de acessibilidade inadequados para deficientes visuais n o apenas tornam espa os de trabalho ineficientes e frustrantes como tamb m perdem 22 muita produtividade por subestimarem as capacidades dos funcion rios Para pessoas com defici ncia os resultados podem ser ainda piores como dificuldade para se inserir no mercado de trabalho e dificuldade de aprendizagem Um deficiente visual que use hardware e software apropriados consegue trabalhar pelo menos t o r pido quanto ou s vezes at mais r pido do que algu m sem defici ncia visual entretanto a maioria dos softwares e sistemas o
194. ont End Java An lise ds Estrutura i re Difonos e do Texto Informa es de Convers o de Texto Prosodia para Donos An lise ds Pros dia Suporte ao JSAPI Google Translator API Suporte a mais de 30 linguas Microsoft Windows GNU Linux MacOSX NetBSD FreeBSD Solaris BeOS QNX Symbian Figura 5 4 arquitetura proposta 5 3 2 O front end desenvolvido O front end tem por objetivo converter texto contendo s mbolos n meros e abrevia es em sua forma por extenso em um processo chamado de tokeniza o e posteriormente realizar a transcri o fon tica e fornecer informa es de pros dia a serem utilizados pelo back end O front end possui algoritmos para normaliza o do texto baseado nas regras de convers o grafema fonema divis o sil bica e marca o de s laba t nica De fora geral os principais passos realizados pelo front end desenvolvido s o An lise da Estrutura Pr Processamento do Texto Convers o Texto para Fonema e An lise da Pros dia 5 3 2 1 Entrada e Sa da O sistema recebe como entrada texto simples sem elementos gr ficos ou sinais de formata o de texto e gera um arquivo pho que informa ao MBROLA a lista de d fonos a serem concatenados e que cont m os fonemas conforme a representa o mostrada na Tabela 5 1 com suas respectivas dura es em milissegundos e curva de pros dia esta ltima por sua vez composta por um percentual indicador de posi o pitch fre
195. or assunto ou remetente por exemplo Ler esses dados s o mais naturais Por exemplo A mensagem 2 de Paulo Cesar Cortez cujo assunto entrega do artigo No caso de sistemas que envolvam comandos por voz tamb m os comandos geralmente usados em interfaces gr ficas soam igualmente estranhos como Mover Spam Embora seja um pouco mais longo dizer Mover para a pasta spam mais natural e consequentemente mais f cil de lembrar Os sintetizadores atuais ainda n o soam de forma completamente natural A escolha entre usar voz sintetizada gravada ou simplesmente n o fazer uso de recursos de voz 77 nem sempre f cil Embora uma voz pr gravada seja muito mais f cil e agrad vel para o usu rio menos efetiva quando a informa o a ser apresentada din mica Usar vozes gravadas melhor para mensagens que n o mudam enquanto voz sintetizada melhor para textos din micos Misturar vozes sintetizadas com gravadas por m n o costuma trazer resultados satisfat rios Embora usu rios relatem n o gostarem de som sintetizado elas s o de fato eles s o mais adapt veis quando n o misturados com vozes pr gravadas Escutar consideravelmente mais f cil quando a voz consistente Usam se mensagens gravadas quando todo o texto a ser falado conhecido de antem o caso contr rio ou caso o espa o em disco seja limitado recomenda se o uso de sintetizadores de voz Mensagens pr gravadas requere
196. os aleat rios nos aproximamos de uma amostra de ru do gaussiano via teorema do limite central da probabilidade SHAUGHNESSY 2003 S ntese de formantes emprega se es de filtros de segunda ordem em cascata s rie ou em paralelo O sistema composto pela fun o de transfer ncia do trato vocal que relaciona o fluxo de volume de ar nos l bios sa da e o fluxo do volume de ar na glote entrada A tarefa aproximar todas as resson ncias do trato vocal picos na fun o de transfer ncia os formantes por uma rede de filtros de segunda ordem SCHROETER 2005 Pode ser demonstrado que a representa o por filtros em s rie aproxima razoavelmente bem o trato vocal n o nasal Nesta abordagem especificamos apenas as 169 frequ ncias dos formantes a largura de manda e o fator de ganho SCHROETER 2005 Tipicamente o filtro especificado em termos de frequ ncia central de resson ncia formante e largura debanda sobre um intervalo de frequ ncia de aproximadamente 5 kHz Na s ntese baseada em formantes as quatro frequ ncias centrais mais baixas dos formantes variam dinamicamente de frame a frame juntamente com as tr s menores bandas Os par metros de ordem mais elevada s o geralmente mantidos fixos uma vez que sua varia o apresenta muito pouco efeito percentual A abordagem cl ssica proposta por Klatt envolve tanto estruturas de filtros de segunda ordem em cascata e paralelos cada um simulando uma resson ncia
197. os de voz n o vozeados SPANIAS 1994 A distribui o das frequ ncias espectro da voz caracterizada por sua estrutura harm nica e formante A estrutura harm nica uma consequ ncia da quasi periodicidade e pode ser atribu do vibra o das pregas vocais A estrutura formante envelope espectral deve se intera o entre a fonte e o trato vocal SPANIAS 1994 O envelope espectral caracterizado por um conjunto de picos chamados de formantes Os formantes s o os modos ressonantes do trato vocal Em m dia o trato vocal apresente de 3 a 5 formantes abaixo de 5 kHz As amplitudes e localiza es dos tr s primeiros formantes que geralmente ocorrem abaixo de 3 kHz s o muito importantes tanto na s ntese quanto na percep o Altos formantes s o tamb m importantes para representa es de sons com grande largura de banda e vozeados A diferen a entre os espectros de sons vozeados e n o vozeados est mostrada na Figura 2 1 Os dois gr ficos esquerda desta Figura mostra os sinais no dom nio do tempo e os sinais direita s o os respectivos espectros de frequ ncia sendo que o primeiro sinal vozeado e o segundo n o vozeado A diferen a entre os dois est evidente no envelope e na magnitude dos componentes de frequ ncia de cada um dos sinais e na periodicidade 37 Time domain speech segment TAPE TIME BOM 16 Time mS Time domain speech segment TAPE TIVE 3340 0 8 16 24 32 0 1 2 3 4
198. os tem mostrado ser bastante efetiva gerando resultados satisfat rios A t cnica de s ntese baseadas em HMMs tem recebido grande aten o tamb m pela facilidade de aplica o e qualidade dos resultados dentre as t cnicas mais recentes Para aplica o de HMMs podem ser usadas bases de voz com baixa qualidade caseiras e poucas amostras e ainda assim obter resultados satisfat rios BLACK 2007 COSTA e MONTE 2012 Na s ntese por sele o de unidades m ltiplas inst ncias de cada fone em diferentes contextos s o armazenadas em um banco de dados Construir tal banco de dados uma tarefa custosa al m de resultar em um banco de dados grande TABET 2011 O diagrama de blocos de um sistema baseado em HMM mostrado na Figura D 4 O sistema divido em duas partes treinamento e s ntese Na etapa de treinamento um conjunto de HMMs um por fonema treinado com par metros amostrais da voz e par metros contextuais pros dicos a fim de gerar um modelo que relaciona regras contextuais pros dicas com par metros amostrais da voz Esta etapa inclui os seguintes sub processos gera o de r tulos de contexto para cada frase da base alinhamento for ado a n vel de monofone para cada frase da base reamostragem dos arquivos de udio se necess rio e convers o para o formato RAW Na etapa de s ntese m dulos de NLP ser o utilizados para gerar informa es pros dicas de contexto a fim de que as mesmas determinem a gera
199. peracionais permanece n o acess vel a este tipo de usu rio e quando existem s o disponibilizados em ingl s SANTOS 2010 Em um ambiente escolar por exemplo quando s o detectados alunos que apresentem algum grau de redu o visual a conduta mais indicada deve ser sempre no sentido de buscar e garantir os recursos did ticos e pedag gicos que melhor atendam s necessidades destes indiv duos A educa o especial visa desenvolver tecnologias de hardware e software adaptando os para auxiliar na solu o do problema do processo de aprendizagem de pessoas que n o possuem o seu desenvolvimento cognitivo normal tais como os deficientes visuais entre outros Atrav s da explora o dos recursos das novas tecnologias da informa o poss vel criar ambientes de aprendizagem visando o desenvolvimento cognitivo dos portadores de necessidades especiais Diante deste problema a interface do software educacional deve ser projetada de forma a melhor responder s necessidades do usu rio Com rela o aos deficientes visuais destacam se alguns requisitos que devem ser atendidos pela interface tais como a utiliza o de sons para intera o usu rio m quina e privilegiando o uso do teclado atrav s de teclas de atalho evitando mensagens visuais e intera o atrav s do mouse SUN MICROSYSTEMS 1998 Considere algu m em idade economicamente ativa e que sofreu uma perda da vis o Tarefas como ler um jornal parte do ritual matinal
200. pete novamente o que falou Isso pode tanto fazer com que o usu rio perca a resposta ao falar ao mesmo tempo que o dispositivo como pode causar uma falha de reconhecimento ou resposta errada Dessa forma conveniente deixar claro as seguintes informa es durante a intera o homem m quina o reconhecedor est aguardando uma resposta ou est processando a entrada de udio O reconhecedor ouviu o usu rio Caso afirmativo interpretou corretamente o que o usu rio disse importante em alguns momentos realizar confirma o de ordens expressas pelo usu rio seja de forma impl cita repetindo o comando entendido ou expl cita perguntando se o usu rio deseja mesmo realizar a a o que o sistema entendeu como em caso de exclus o de dados por exemplo Ao se exibir mensagens referentes a um conjunto de dados de uma mesma natureza pode se remover informa es redundantes e ou desnecess rias A temperatura em 80 Fortaleza de trinta graus Celsius no Rio de Janeiro trinta e cinco n o sendo necess rio repetir as palavras temperatura nem graus Celsius Na necessidade de repetir informa es pode se fazer de forma cada vez mais curta Ap s o bipe grave sua mensagem e aperte parar Grave sua mensagem ap s o bipe Grave sua mensagem Em caso de detec o de erro seja por parte do usu rio seja por parte do pr prio software importante prover um ou mais mecanismos para corre o de erros
201. pon vel no Live CD ou DVD do Knoppix desde a vers o 5 3 por meio da op o de inicializa o Adriane Tamb m poss vel remasterizar o CD ou DVD para usar o ADRIANE como op o padr o Como desvantagem pode se afirmar o fato do projeto ADRIANE ser exclusivo para ambiente GNU Linux que restringe o campo de uso para apenas os usu rios deste sistema operacional KNOPPER 2009 4 1 3 Aiuruet Iniciado em 1991 pelo Laborat rio de Fon tica e Piscolingu stica LAFEPE em conjunto com o Instituto de Estudos da Linguagem TEL da Universidade Estadual de Campinas UNICAMP Trata se de um projeto acad mico baseado em s ntese concatenativa de polifones capaz de diferenciar maior ou menor abertura voc lica por 83 meio da identifica o da classe gramatical O sistema foi desenvolvido em C e Delphi e voltado apenas para plataforma Microsoft Windows AZUIRSON 2009 4 1 4 DOSVOX e LINUXVOX De acordo com o manual de usu rio do sistema o DOSVOX um sistema para microcomputadores da linha PC que se comunica com o usu rio mediante s ntese de voz viabilizando o uso de computadores por deficientes visuais O programa composto de sistema operacional que cont m os elementos de interface com o usu rio sistema de s ntese de fala para l ngua portuguesa editor leitor e impressor formatador de textos impressor formatador para Braille programas de uso geral adaptado a cegos como agenda calculadora jogos ampliador de
202. pons veis por rotular fonemas de forma adequada e ferramentas de rotula o pros dica autom tica respons veis por rotular tons e tonicidade bem como pausas de forma adequada importante que tanto o sistema TTS baseado banco de dados a ser rotulado como a ferramenta de rotula o sigam uma conven o comum SCHROETER 2005 O sinal de voz armazenado em um formato comprimido de tal forma que o banco de dados de voz pode ser usado em sistemas com limita es de mem ria de prefer ncia com codificadores e decodificadores de baixo custo computacional transparentes ao usu rio e que permitam acesso aleat rio SCHROETER 2005 Deve se tomar alguns cuidados ao se gravar vozes para o banco de dados qualidade da grava o escolha adequada da voz defini o e marca o adequada dos limites dos d fonos e equaliza o apropriada TALAFOVA et al 2007 Sele o adequada de locutor com fala correta e consistente e equipamento de grava o em um ambiente livre de ru dos e reflex es ac sticas garante um banco de dados com qualidade boa o suficiente para realizar s nteses intelig veis SCHROETER 2005 dif cil para um locutor manter um estilo de fala uniforme por mais que algumas centenas de unidades geralmente seleciona se apenas algumas unidades desej veis ao longo de diversas sess es de grava o Assim para tornar isto poss vel algumas solu es apresentam sele o autom tica de unidades Outros trabalhos apr
203. possibilita o r pido aprimoramento das ferramentas oferecidas pelo pacote desenvolvido ao contr rio do que costuma acontecer com sistemas fechados O fato do sistema ser multiplataforma garante que usu rios dos principais sistemas operacionais possam fazer uso dos benef cios pelo sistema n o for ando o usu rio a adotar um sistema operacional com o qual esteja pouco habituado muito menos um que seja propriet rio Os testes realizados abordaram tanto aspectos quantitativos como qualitativos e em ambos provou se que embora ainda haja trabalho a ser feito no tocante a tornar a voz mais natural devendo ainda eliminar descontinuidades o resultado bastante intelig vel e causa menos cansa o aos usu rios que determinados outros sistemas com s ntese mais semelhante voz humana Diante do exposto pode se afirmar que o projeto proposto neste trabalho se apresenta como uma solu o vi vel como forma de integrar socialmente deficientes 122 visuais e contribuindo para a diminui o da sua exclus o digital quebrando barreiras e assegurando assim um direito que garantido pela constitui o o acesso livre a informa o para todos os brasileiros de forma igualit ria 7 1 Trabalhos futuros Dentre os trabalhos futuros que podem dar continuidade ao presente trabalho podem se citar melhorias na qualidade da s ntese de voz incluindo pros dia e melhor reconhecimento de contexto para valores num ricos e abrevia es por mei
204. qu ncias fundamentais e amplitude Em outras palavras cada linha cont m um fonema a dura o em milissegundos e a s rie de pitch do alvo composto por dois n meros em ponto flutuante um representa a posi o em um percentual da dura o total e o valor seguinte representa o valor em Hertz do pitch na referida posi o Por exemplo a linha _ 51 25 114 informa que o sintetizador deve produzir um sil ncio de 51 ms com um pitch de 114 Hz a 25 desses 51 ms As frequ ncias fundamentais dos alvos definem a curva do pitch 101 A curva de entona o cont nua uma vez que o MBROLA realiza um decaimento autom tico da frequ ncia ao se sintetizar fonemas n o vozeados Os dados no arquivo s o separados ou por espa os em branco ou por tabula es Eventuais coment rios podem ser inseridos nos arquivos pho por meio de ponto e v rgula importante frisar que o MBROLA respons vel por gerar o d fono produzindo uma sa da de udio de 16 bits baseado no banco de dados br3 e que tamb m pode ser redirecionada para um arquivo no formato wav O front end desenvolvido permite que seja definido tanto o local onde ser salvo o arquivo wav como qual ser o banco de dados de d fonos e onde o mesmo se encontra 5 3 2 2 An lise da estrutura A an lise da estrutura processa a entrada em texto a fim de determinar onde par grafos frases e outras estruturas come am e terminam Dados sobre a pontua o e a formata o s o us
205. que s o necess rias ferramentas que adaptem e adequem o equipamento de tal forma que o usu rio o use satisfatoriamente SANTOS 2010 Inclus o digital um processo muito mais profundo que permitir acesso a um computador envolvendo tamb m capacitar o indiv duo a operar um computador com autonomia SANTOS 2010 A quest o da inclus o digital ganha uma dimens o ainda mais complexa quando o usu rio portador de necessidades especiais As pessoas com defici ncia passaram a receber maior aten o por meio de pol ticas espec ficas voltadas para a qualifica o e a habilita o de tal forma que as capacite e as integre sociedade Entretanto ainda existem barreiras f sicas que dificultam o acesso do usu rio ao computador e nesse caso os obst culos para este acesso n o se restringe apenas a quest es socioecon micas mas tamb m quest es f sicas SANTOS 2010 2 3 Acessibilidade O Decreto 5 296 de 2 de dezembro de 2004 define acessibilidade como condi o para utiliza o com seguran a e autonomia total ou assistida dos espa os mobili rios e equipamentos urbanos das edifica es dos servi os de transporte e dos dispositivos sistemas e meios de comunica o e informa o por pessoa portadora de efici ncia ou com mobilidade reduzida SANTOS 2010 O conceito de acessibilidade se aplica aos sistemas de informa o por meio de dispositivos eletr nicos incluindo computadores desktops notebooks ce
206. r metros de Par metros espectrais excita o Gera o de Filtro de excita o s ntese Figura B 4 vis o geral de um sistema de s ntese de voz baseado em HMM Fonte BLACK et Al 2007 Traduzido VOZ SINTETIZADA Em s ntese baseado em HMM distribui es para o espectro f e dura o s o agrupados independentemente tendo portanto para cada um deles uma rvore de decis o diferente As rvores de decis o para os dois ltimos s o equivalentes a rvores de regress o existentes nos sistemas de sele o de unidades sonoras BLACK 2007 poss vel tamb m adotar abordagens h bridas Algumas abordagens usam par metros espectrais valores de f e dura es ou parte deles gerados a partir de HMM para calcular custos alvos em sele o de unidades BLACK 2007 B 4 1 Vantagens e desvantagens As vantagens da s ntese de voz baseado no HMM s o 1 as caracter sticas vocais s o facilmente modific veis utilizando por exemplo interpola o 2 pode ser aplicado para diversas l nguas como japon s mandarim coreano ingl s alem o portugu s sueco esloveno croata rabe etc com poucas modifica es 3 varia es de estilos de fala ou emo es podem ser facilmente sintetizadas a partir de uma pequena quantidade de dados por meio de re estima o da m dia dos modelos de voz existentes BLACK 2007 180 A maior desvantagem dos algoritmos de s ntese baseado em HMM s o os tr s
207. r aos deficientes visuais dos mais diferentes n veis sociais amplo acesso aos recursos oferecidos pela inform tica gerando alto impacto na integra o social desse grupo Quanto s ntese observou se apesar de que ainda rob tico procurou se desenvolver um voz com tom grave e lento a fim de evitar o cansa o por exposi o durante longos per odos de tempo e para garantir a clareza respectivamente O processo de s ntese apesar de pouco natural e apresentar complexidade computacional consideravelmente maior foi escolhido em detrimento do uso de vozes pr gravadas por este ocupar um consider vel espa o em disco o que poderia inviabilizar o port do projeto para plataformas embarcadas Outrossim vozes pr gravadas s o adequadas apenas quando j se conhece previamente o texto a ser falado o que limita as possibilidades de intera o com o usu rio Com rela o s etapas de s ntese discutidas no Cap tulo 3 coube ao front end desenvolvido as quatro primeiras etapas an lise da estrutura pr processamento do texto convers o de texto para d fonos e an lise da pros dia deixando para o MBROLA apenas a etapa de produ o de forma de onda a partir dos dados providos pelo sistema desenvolvido d fonos e dados de pros dia A arquitetura do sistema proposto pode ser vista na Figura 5 4 Nesta Figura os blocos em azul representam as entradas e sa das e o que foi efetivamente desenvolvido nesta Disserta o 100 Fr
208. ra Tais valores de k s o determinados por meio de ajustes emp ricos sucessivos AZUIRSON 2009 A determina o dos par metros pros dicos n o uma tarefa simples e n o possui uma nica solu o poss vel j que a pros dia a marca da individualidade do falante Isto explica o porqu do fato de uma senten a poder ser lida corretamente de v rias formas diferentes AZUIRSON 2009 Uma dura o correta faz com que o resultado se aproxime o m ximo poss vel de um falante natural AZUIRSON 2009 3 2 2 m dulo de processamento ac stico A produ o da forma de onda o passo final utiliza as informa es sobre a fon tica e a pros dia para produzir a forma de onda do som de cada senten a H diversas formas nas quais o som pode ser produzido a partir dessas informa es A maioria dos sistemas atuais faz uso de uma das duas formas seguintes concatena o de trechos de falas pr gravadas que pode consumir um grande espa o em disco al m de limitar as possibilidades de intera o apenas ao que foi gravado anteriormente ou usando algoritmos de processamento de sinais por meio de modelos matem ticos baseados no conhecimento a respeito dos fonemas e m trica SUN MICROSYSTEMS 1998 O m dulo de processamento ac stico tamb m chamado de processador digital de sinais ou motor de s ntese a ltima etapa do processo TTS AZUIRSON 2009 Todos os modelos de s ntese de voz tem o mesmo objetivo que gerar sinal a
209. ra chamar aten o ou prover um mecanismo de retorno alternativo poss vel receber notifica es sem que o usu rio mude de contexto de janela Por exemplo enquanto se trabalha na su te de escrit rio o usu rio pode receber a notifica o da chegada de um e mail e pode responder sem mudar para o cliente de e mail se deseja responder ou n o a mensagem ou ainda mover para a pasta spam Outra caracter stica reside no fato da fala assim trica ou seja pessoas podem falar mais rapidamente e facilmente mas nem sempre compreendem com a mesma facilidade e velocidade Essa assimetria tamb m significa que pessoas podem falar mais rapidamente do que digitar mas escutar mais lentamente do que ler Uma interface baseada em fala deve fazer o equil brio entre um grande n mero de informa es para o usu rio com a capacidade do usu rio de absorver informa es verbais 3 5 2 Desafios envolvendo sistemas speech only Um sistema do tipo speech only aquele cuja entrada e sa da por voz s o as nicas op es de intera o dispon veis para o usu rio A maioria desses sistemas s o implantados na telefonia atualmente Em uma conversa o tempo de reprodu o cr tico Infelizmente o atraso em decorr ncia do processamento em aplica es de voz frequentemente causam pausas em momentos que n o s o naturais Por exemplo o usu rio responde a uma sa da e por n o ouvir uma resposta imediata o mesmo acredita que n o se fez ouvir e re
210. ra cujo mapeamento de sua ortografia para fonemas pode ser dif cil por conta da depend ncia com o contexto em que se encontra Em geral tal problema tratado com um treinamento de classifica o e rvores de regress o tamb m chamadas de rvores de decis o que capturam as probabilidades de convers es espec ficas dado o contexto caso uma palavra seja uma homomorfa Tamb m s o usadas regras letra para som Nomes em geral costumam apresentar problemas tamb m SCHROETER 2005 Em resumo a s ntese de voz a partir de texto pode ser dividida em duas etapas a primeira etapa corresponde an lise do texto e consiste em obter a representa o fon tica com base na ortografia do texto e a etapa de s ntese que a gera o do sinal ac stico associado representa o fonol gica obtida no processo anterior A etapa de an lise do texto pode ser subdividida em subprocesos como o pr processamento e o processamento pros dico AZUIRSON 2009 O front end tem a fun o de processar o texto e gerar como sa da os fonemas correspondentes em conjunto com as suas respectivas informa es a respeito da pros dia dura o e frequ ncia O front end pode ser subdividido em outros m dulos cuja sa da de um serve de entrada para o bloco seguinte Cada l ngua possui seu conjunto de fonemas b sico o que implica que a constru o dos m dulos que fazem parte do bloco de processamento lingu stico e pros dico s o dependentes da l ngua
211. ra a gera o de som no trato vocal foi realizado no final da d cada de 1960 139 Pesquisas subsequentes produziam um modelo mais refinado fornecendo representa o mais detalhada do processo de gera o de sons vozeados e n o vozeados Tal modelo se baseia em mec nica cl ssica e mec nica dos fluidos LOPEZ e FANGANIELLO 2007 Utilizam se duas aproxima es para gera o de voz grava o digital e simula o do trato vocal No caso de grava o digital a voz de um falante humano digitalizada e armazenada geralmente sob uma forma comprimida Durante a reprodu o os dados armazenados s o descomprimidos e convertidos em sinal anal gico J a simula o do trato vocal mais complexa pois tenta imitar o mecanismo f sico pelo qual a voz humana gerada Podemos tomar inicialmente um sinal S n que se trata de um determinado sinal s n amostrado Seja x n a entrada e G o ganho podemos adotar o seguinte modelo mostrado na Equa ao 22 p s gt am 6x00 22 Tipicamente os coeficientes variam a cada 10 a 20ms de acordo com mudan as do trato vocal para a produ o dos diferentes sons Para a s ntese aplica se uma sequ ncia de excita o ao modelo que cont m os coeficientes apropriados para cada intervalo de tempo a fim de se gerar a sequ ncia de sons desejada Para o caso temos o seguinte polin mio caracter stico mostrado na Equa o 23 p p 1 Q z 1 gt azt z zi 23 Ee i 1
212. ram em contato enquanto que nas labiodentais o l bio inferior toca os dentes incisivos superiores J nas alveolares a l ngua toca os alv olos dos incisivos superiores e nas palatais a l ngua toca o palato duro o c u da boca Nas velares a l ngua toca o palato mole v u palatino As consoantes podem ainda ser classificadas de acordo com a vibra o das pregas vocais surdas ou sonoras e ainda de acordo com a participa o das cavidades bucais e nasal para a sua produ o as orais e nasais MACHADO 1997 33 Tabela 2 4 classifica o das consoantes Cavidades Bucal e Nasal Orais Nasais Modo de Articula o Oclusivas Constritivas Fricativas Laterais Vibrantes Pregas vocais Surdas Sonoras Surdas Sonoras Surdas Sonoras Sonoras Ponto de Bilabiais p b m Articula o Labiodentais f Iv Linguodentais t d n Alveolares s Izl A Irl Palatais x j IM my Velares k g R Fonte MACHADO 1997 Para a forma o de fonemas existem dois conjuntos de par metros que determinam o som produzido as frequ ncias de resson ncia do trato vocal os formantes e a frequ ncia dos pulsos de ar produzidos pelo conjunto composto por pulm es e pregas vocais Tais par metros s o respons veis tanto pela diferencia o entre fonemas quanto por locutores Como os par metros que diferenciam fonemas entre si s o os formantes e como o trato v
213. rcebe se tamb m que a voz natural apresenta muito mais conte do em termos de informa o pois sua forma de onda mais cheia Isto resultado da modelagem da voz que n o considera todos os par metros para a produ o de voz e da compress o realizada para armazenamento de d fonos no banco de dados Tal fato confirmado pela an lise do espectro no dom nio da frequ ncia no qual se percebe a maior presen a de harm nicos na voz natural pela largura do espectro tanto na intensidade como na largura do espectro 6 3 Testes em campo an lise qualitativa O estudo de usabilidade garante que o usu rio consiga completar tarefas b sicas Tal estudo exige uma vers o preliminar do software a fun o principal do sistema deve estar completamente implementada O teste deve ser conduzido em um laborat rio e em um ambiente semelhante quele em que o usu rio final deve usar o sistema Um question rio pode ser usado a fim de coletar sugest es coment rios e opini es Com base nisso foram realizados diversos testes tendo como usu rios portadores de defici ncia visual Um dos testes contou com participa o de uma deficiente visual de 40 anos usu ria de softwares de acessibilidade desde 1994 usando atualmente o DOSVOX O teste foi realizado na Secretaria de Acessibilidade da Universidade Federal do Cear Foram comparados incialmente tr s sintetizadores de voz o primeiro baseado em uma API da Google o segundo baseado no Fr
214. rdas como 37 O papel da glote e dos l bios pode ser modelado usando tubos semi infinitos sem perdas conforme mostrado na Figura A 24 Num tubo destes uma onda aplicada sua entrada se propagar sem reflex es 147 gt E E tubo tubo glotal labial 1 tubo N simo vocal tubo vocal Figura A 24 modelo de tubos semi infinitos Fonte Google Images Define se coeficiente de reflex o labial por Ziab ZoN EEEN 38 Ziab Zon ee flab Para estudar o modelo da glote pode se recorrer ao modelo de circuito mostrado na Figura A 25 Modelo do tracto vocal Figura A 25 modelo de circuito para a glote Fonte Google Images Fazendo uma analogia da velocidade u t com a intensidade de corrente tem se 0 t u 0 t ug t Qd 39 Zg Considerando Z Z AG 0 1 o ZA 40 Esses resultados nos permitem construir o diagrama de sinal mostrado na Figura A 26 148 u KU u et l r gi2 r gt t u t T uj t t Figura A 26 diagrama de Sinais Fonte Google Images A 3 3 Modelo de Tubos Caso Discreto Considere o caso particular em que o trato vocal composto por N tubos de l l z es l comprimento ly T O tempo de propaga o em cada se o igual a T oa O Trato vocal pode ser modelado ent o por um conjunto de tubos iguais cujo diagrama de fluxo de sinais neste modelo pode ser representado pelo diagrama mostrado na Figura A 2
215. ritmo de s ntese proposto em PHUNG et al Traduzido Figura C 1 arquitetura do GNOME 2 0 Figura C 2 diagrama de Funcionamento do Java Accessibility Brige Figura D 1 interface do APL Audio Programming Language for Blind Learners xiii 170 173 179 181 184 188 191 193 195 199 LISTA DE TABELAS Tabela 2 1 classifica o das vogais Tabela 2 2 m dia dos valores das frequ ncias dos harm nicos correspondentes aos tr s primeiros formantes Fl F2 F3 em Hz para cada vogal para ambos os sexos Tabela 2 3 m dia dos valores das intensidades dos harm nicos em dB e respectivos desvios padr o para cada vogal para ambos os sexos Tabela 2 4 classifica o das consoantes Tabela 2 5 fonemas da l ngua portuguesa Tabela 4 1 compara o entre as diversas plataformas de acessibilidade e sintetizadores de voz existentes Tabela 5 1 representa o dos fonemas utilizados para o MBROLA Tabela 6 1 valores MOS e WAR Tabela A 1 m sculos respons veis pela movimenta o das pregas vocais e rg os relacionados Tabela AN1 Checklist de acessibilidade para Software IBM Vers o 3 6 XIV 31 31 32 33 34 94 103 118 130 202 XV LISTA DE ABREVIATURAS E SIGLAS ACELP Algebric Code Excited Linear Prediction ADRIANE Audio Desktop Reference Implementation and Networking Environment AMR WB Adaptative Multi Rate Wideband API Application Programming Interface AT SPI
216. rma es elementos de campo e funcionalidade necess ria para o preenchimento e envio do formul rio incluindo todas as dire es e sugest es 3 Sons e Multim dia S o N o Coment rios Planejado N A 3 1 Fornecer uma op o de sinaliza o visual para todos os alertas de udio 3 2 Fornecer alternativas acess veis para udio e v deo significativos 3 3 Fornecer uma op o para ajuste de volume 4 Tela S o N o Coment rios Planejado N A 4 1 Fornecer texto atrav s de sistema padr o de chamada de fun es ou atrav s de uma API que suporta a intera o com tecnologia assistiva 4 2 Uso da cor como um acess rio e n o como uma nica forma de transmitir informa es ou indicar uma a o 4 3 Suporte a configura es do sistema para alto contraste para todos os controles de interface do usu rio e rea de conte do do cliente 4 4 Quando a personaliza o de cores suportada fornecer uma variedade de sele es de cores capazes de produzir uma variedade de n veis de contraste 4 5 Herdar configura es do sistema para a fonte tamanho e cor para todos os controles de interface do usu rio 4 6 Fornecer uma op o para exibir uma anima o em modo de apresenta o n o animada 203 5 Tempo de Resposta S o N o Coment rios Planejado N A 5 1 Fornecer uma op o para ajustar o tempo de resposta de instru es cronometradas ou permitir persistir as instru es 5
217. rma es sobre a pros dia Assim a proposta apresentada por esta Disserta o atuar como um font end para o MBROLA provendo para este ltimo as informa es sobre d fonos e pros dia a partir de texto puro Contudo o sistema foi desenvolvido de tal forma que possa prover suporte para outras APIs como Java Speech API e Google Translator API e consequentemente suporte para outras l nguas com pouca altera o de c digo Sendo necess rio apenas uma linha de c digo para sintetizar uma frase Uma vez que o sistema foi desenvolvido com base na tecnologia Java sua execu o poss vel em todas as plataformas que oferecem suporte a Java Virtual Machine e ao 99 MBROLA como GNU Linux e Microsoft Windows sem necessidade de recompila o pois o sistema operacional que se deve adaptar ao sistema garantindo que a JVM e o MBROLA estejam instalados para a perfeita execu o do software O sistema totalmente baseado na filosofia de software livre com c digo fonte aberto e de livre distribui o para que a comunidade possa colaborar abertamente no desenvolvimento do projeto al m de abrir possibilidade de personaliza o e modifica o para aplica es espec ficas para eventuais interessados Al m disso espera se que as limita es apresentadas pelo sistema possam ser resolvidas ao longo do tempo em um prazo muito menor do que se o projeto proposto fosse propriet rio Ademais o mesmo ser gratuito de forma a garanti
218. rminar par metros adequados sendo necess rio um estudo do espectro da fala natural uma tarefa muitas vezes dif cil tanto em trechos est veis como transit rios da fala SHAUGHNESSY 2003 AZUIRSON 2009 Determinar com precis o os momentos de fechamento glotal o fechamento da prega vocal causa maior excita o do trato vocal e define o in cio de um per odo de pitch tamb m dif cil Assim encontrar regras para sintetizar voz o principal problema na s ntese de formantes As regras para especificar os timings da voz vozeados n o vozeados e os valores din micos de todos os par metros dos filtros tamb m uma tarefa dif cil de fazer manualmente at mesmo para palavras simples A obten o dessas regras pode ser feito po meio de an lise por s ntese Da mesma forma t cnicas autom ticas para especificar os par metros formantes ainda n o apresentam bons resultados devendo muitos deles serem otimizados manualmente SHAUGHNESSY 2003 SCHROETER 2005 TABET 2011 Ademais a s ntese de formantes requer esfor o computacional moderado SCHROETER 2005 168 Na s ntese por formantes assume se que a fun o transfer ncia do trato vocal pode ser satisfatoriamente modelada por meio de simula o das frequ ncias e amplitudes formantes ou seja a s ntese consiste em por meio da reconstru o artificial das caracter sticas formantes a serem produzidas o que feito por meio da excita o de ressonadores por m
219. rocessamento digital de sinais como codifica o preditiva linear PSOLA MBROLA ou t cnicas mais recentes como a modifica o do pitch por meio da transformada cosseno discreta A s ntese de d fono apresenta as mesmas defici ncias presentes nas t cnicas concatenativas resultando em vozes pouco naturais e rob ticas Na s ntese baseada em d fonos apenas um exemplar de cada d fono armazenado no banco de dados Uma vez constru do o invent rio o pitch e a dura o de cada d fono deve ser modificado a fim de atender pros dia especificada TABET 2011 Em certos casos dif cil determinar a parte est vel em um fonema Nesses casos podem se usar d fonos sil bicos ou tr fonos Neste ltimo caso Paris seria resultado da seguinte concatena o lt pa gt lt arl gt lt is gt Por exemplo para a l ngua inglesa o n mero de fonemas d fonos e tr fono respectivamente 40 1600 64000 aproximadamente MAEDA 1995 A desvantagem da s ntese por d fonos que a coarticula o apenas dada apenas pelos fonemas precedentes e seguintes Nesse caso as semi s labas s o uma alternativa interessante de serem consideradas A semi s laba como o pr prio nome j sugere a metade de uma s laba compreendendo a parte inicial da primeira metade no do n cleo da s laba ou a por o final da segunda metade do n cleo da s laba Devido ao fato de semi s labas serem unidades sonoras mais longas que d fonos e permite
220. roxima o x n p n w n h n py n h n 60 Fazendo M 1 Pw n pn w n gt w kP S n kP 61 k 0 E P e 2nf W ejnPr END 62 Bim 9 5 es O processamento homom rfico se baseia no c lculo do logaritmo de uma transformada do sinal Ao se considerar um sinal amostrado temos ent o o logaritmo da transformada de z X z InX z 64 Define se ent o cepstro complexo do sinal x como a transformada inversa de z de X z X z gt EAR 65 i Esta opera o n o linear ser chamada de H Nestas condi es tem se h 66 O cepstro real de um sinal a transformada inversa de Fourier do logaritmo de sua transformada de Fourier Para sinais amostrados numa janela de dura o finita 0 N 1 N 1 1 Xk gt x n e Teen 67 n 0 N 1 E gt InlX eitn2mn 68 k 0 161 x n DFT In xx DFT Inversa Cn Figura A 37 an lise cepstral O cepstro a transformada inversa do logaritmo do espectro complexo vale n py n h n 69 O cepstro composto por uma parte correspondente resposta impulsional do sistema ac stico que conta com as contribui es causais de g n h n e n n e a contribui o n o causal de g gt n al m de outra parte resultante da excita o modificada pela janela e constitu da por um trem de impulsos espa ados de P amostras O cepstro apresenta tr s regi es P lt m lt 0 componente n o causal devido a g n 0 lt n
221. rutores por m desnecess rio para os vozeados Filtros paralelos criam flexibilidade para aproximar qualquer espectro mas requerem ganhos individuais al m de frequ ncias de formantes e larguras de banda Uma outra desvantagem da abordagem unicamente paralela a ocorr ncia n o intencional de zeros espectrais entre 170 as frequ ncias formantes mas que podem ser canceladas por meio de filtros de corre o especiais SCHROETER 2005 Entretanto para sons nasais bem como sons fricativos a representa o por filtros de segunda ordem pode n o ser boa o suficiente Sons nasais apresentam estrutura de formantes similares um formante por quilohertz em m dia para um homem adulto Quando o trato nasal envolvido por m o trato naso vocal maior e apresenta uma ou duas resson ncias a mais al m de zeros espectrais sendo usados ent o cinco ressonadores de segunda ordem em cascata com um ressonador extra e um anti ressonador em cascata Nasais velares apresentam mais de um zero espectral mas geralmente modelado apenas um uma vez que os outros zeros adicionais apresentam pouca import ncia percentual SCHROETER 2005 SHAUGHNESSY 2003 A Figura A 2 mostra o diagrama de blocos de um sistema gen rico baseado em s ntese de formantes exibindo o caso para filtros em s rie e para filtros em paralelo Digital Digital Filter Filter z Pp Entrada E z Saida Fun o de Transfer ncia Filtro 1 Filtro 2 do Trato Vocal
222. s A qualidade da voz sintetizada depende tamb m do dicion rio de unidades A necessidade de um conjunto suficientemente grande para produzir uma sa da de alta qualidade deve ser equilibrada com o tamanho do dicion rio Para esta tarefa foi utilizado o algoritmo CDC context dependent culstering determinando o conjunto de unidades a serem instaladas no dicion rio As tr s principais etapas no processo TTS desenvolvido mostrado na Figura 3 11 71 Texto com Dicion rio Kanji de Palavras An lise do Texto Sintese por Sele o de Dicion rio ser da Unidades Baseado em de rosodia Ambiente Fon tico Unidades Gera o da Forma de Onda Voz Sintetizada Figura 3 11 etapas principais para o processo TTS proposto em KOBAYASHI et al 1998 Fonte KOBAYASHI et al 1998 Traduzido A convers o TTS come a com a an lise morfol gica na entrada a segmenta o do texto em palavras e a an lise l xica a fim de determinar a correta leitura A segunda etapa um parser utilizado para realizar o controle da pros dia para uma determinada frase o sistema deve escolher um dentre quatro conex es A etapa final usa uma vers o modificada do TD PSOLA a fim de produzir uma sa da mais suave as janelas s o determinadas de forma a minimizar distor es espectrais de acordo com dois crit rios 1 a janela de an lise deve ser rigorosamente sincronizada com os instantes de excita o principal dentro d
223. s caracter sticas fon ticas afetadas antes ou depois dos fonemas durante a articula o Portanto trata se de um processo relativamente comum durante a fala Coarticula o um problema para unidades sonoras de qualquer tamanho entretanto ao se concatenar unidades como palavras ou frases h muito menos jun es SHAUGHNESSY 2003 Nas t cnicas de concatena o de formas de onda atuais para algumas l nguas como o Chin s o tal efeito n o considerado o que resulta em uma s ntese da coarticula o ineficiente na jun o das s labas reduzindo a naturalidade da fala sintetizada Por meio de um espectrograma poss vel ver o deslocamento suave da energia durante a coarticula o mostrado na Figura 3 8 A fala durante a coarticula o pode ser dividida em duas partes banda transit ria e regi o est vel O espectro de energia na regi o est vel permanece basicamente invari vel e o espectro de energia na banda transit ria transita suave e continuamente at o in cio da pr xima s laba KANG et Al 2009 Se todas as transi es poss veis fossem armazenadas em um banco de dados estas poderiam ser recuperadas de tal forma a reduzir o problema entretanto isto exigiria uma grande capacidade de armazenamento para o banco de dados Uma solu o alternativa consiste na modifica o do espectro de energia nas transi es KANG et Al 2009 66 Amplitude Amplitude time Frequency Frequency
224. s o imposs veis sem aux lio de uma ferramenta de inclus o de deficientes visuais A pessoa n o pode mais ver as horas no mostrador de um rel gio digital ou ajustar o alarme do mesmo sem aux lio Tamb m n o pode ler e mails fax correspond ncias sem assist ncia N o poss vel reconhecer o rosto das pessoas com quem convive e muitos equipamentos se tornam imposs veis de serem usados porque simplesmente o projeto assume que todos os usu rios possuem as mesmas habilidades As barreiras encontradas pelos usu rios portadores de defici ncia visual afetam reas como emprego educa o e a possibilidade de uma vida independente Se uma pessoa n o consegue usar um telefone atividades s o severamente restritas porque at 23 mesmo comunica es b sicas se tornam dif ceis Se uma pessoa n o consegue usar um computador conseguir uma vaga de emprego ou frequentar uma universidade se tornam atividades desafiadoras ou at talvez imposs veis Se as pessoas desejam ter acesso internet mas n o conseguem ler o conte do das p ginas n o t m acesso ao com rcio eletr nico informa es b sicas e at mesmo intera es sociais At mesmo a privacidade fica afetada uma vez que dever o delegar a outras pessoas tarefas de natureza pessoal como ler e mails Em resumo a falta de acessibilidade exclui do portador de defici ncia visual independ ncia e liberdade SUN MICROSYSTEMS 2003 Quando algu m adquire uma defici ncia
225. s podem introduzir grandes erros em importantes regi es do sinal modificado como por exemplo pr ximo s frequ ncias formantes WOUTERS et al 2000 4 3 6 Modelo Massa Mola Os primeiros modelos do sistema vocal podem ser encontrados em BRAND O 2011 e representam a movimenta o das pregas vocais a partir de modelos mec nicos massa mola amortecedor conforme mostrado na Figura A 34 155 Ce stati on oe Cordas lt Vocais y yn gt ij PSF ETA x Figura A 34 modelo massa mola amortecedor Fonte BRAND O 2011 Segundo esses modelos as equa es que fornecem a din mica das pregas vocais dada pela Equa o 53 Mx t Bx t Kx t F x t 53 em que x t o deslocamento da massa M B e K s o as constantes de rigidez e elasticidade respectivamente e F x t a for a aplicada ao sistema considerada como a m dia entre as press es subglotal e supraglotal Posteriormente em 1972 foi proposto por Ishizaka e Flangan um modelo para as pregas vocais considerando agora que o mesmo seria composto por duas massas Tal modelo considerada cada uma das pregas vocais como um sistema de duas massas ligadas s paredes da laringe por duas molas n o lineares S e S e ligadas entre si por uma mola linear K cujo modelo esquematizado na Figura A 35 BRAND O 2011 Traqu ia e Pulm es Figura A 35 modelo massa mola com duas massas Fonte BRAND O 2011 As massas movem se some
226. s computadores fez com que tal t cnica voltasse a receber aten o As primeiras tentativas de s ntese baseadas em colagens n o apresentaram resultados satisfat rios Atualmente a maioria dos sistemas TTS em desenvolvimento s o baseados em metodologias de concatena o de formas de onda A t cnica PSOLA por exemplo aumentou significativamente a qualidade de um sistema TTS sendo atualmente a qualidade em geral compar vel aos demais sistemas mais avan ados baseados em regras dispon veis no mercado SHAUGHNESSY 2003 MAEDA 1995 Zz A s ntese concatenativa mais simples que a s ntese baseada em regras e par metros para simular fonemas e suas transi es uma vez que n o necess rio determinar regras para a s ntese baseando se apenas na justaposi o de segmentos de voz natural pr gravados o que elimina a necessidade de ter conhecimentos detalhados sobre a fala AZUIRSON 2009 MAEDA 1995 Teoricamente a s ntese concatenativa deveria apresentar qualidade inferior em decorr ncia da descontinuidade resultante da destrui o da coer ncia f sica do sinal em cada ponto de concatena o o que pode ser contornado ao se aumentar o tamanho das unidades sonoras Reduzir as descontinuidades na transi o espectral e o uso de algoritmos de concatena o capazes de modificar a envolt ria espectral do sinal pode suavizar as descontinuidades AZUIRSON 2009 Curiosamente embora haja diverg ncias sobre qual a abord
227. s da tela Deve se ent o fornecer um software leitor de tela que capte a informa o do v deo e a envie para um sintetizador de voz ou para um terminal Braille SANTOS 2010 Dentre as tecnologias assistivas voltadas para deficientes visuais pode se citar as seguintes solu es principais sintetizador de voz processo de produ o artificial de voz humana leitor de tela um software que com aux lio de um sintetizador de voz transforma os textos impressos na tela em voz humana e um ampliador de tela que funciona como uma lupa lente de aumento aumentando o tamanho dos itens exibidos na tela do computador SANTOS 2010 Para compreender melhor tais tecnologias importante conhecer melhor sobre a fisiologia da voz em especial o trato vocal 2 5 Fon tica e especificidades de cada l ngua Define se fonema como a menor unidade sonora de uma l ngua assim fonemas s o as unidades sonoras b sicas de uma l ngua SCHROETER 2005 MACHADO 1997 Os sons podem ser classificados em classes fon tica de acordo com a forma de articula o como por exemplo vogais fricativos pausas nasais deslizantes l quidos 31 ditongos etc Podem ser classificados tamb m de acordo com o local da articula o labial dental alveolar palatal velar uvular far ngeo e glotal Outros tipos de classifica o podem incluir sussurros fona o respirat ria chiados etc DUTOIT 1997 Os sons produzidos durante a fala s o dividi
228. s de concatena o BRAUNSCHWEILER 2010 Na etapa de sele o de unidades segmentos de cada semi fonema s o selecionados A unidade tima selecionada usando uma fun o custo que consiste dos custos alvo e de concatena o Neste caso s o definidos como a soma ponderada do custo da frequ ncia fundamental custo da dura o do alvo custo do contexto fon tico e custo do contexto gramatical O custo de concatena o definido como o custo de concatena o da frequ ncia fundamental o custo de concatena o do espectro o custo de concatena o de pot ncia e o custo de adjac ncia 0 quando as unidades s o adjacentes e 1 caso contr rio No referido trabalho os pesos foram ajustado manualmente O custo de contexto gramatical s o calculadas as dist ncias das s labas no come o e fim da senten a grupo respirat rio e palavras justamente com a dist ncia das s labas acentuadas em uma palavra BRAUNSCHWEILER 2010 Na etapa de regenera o da pros dia a dura o dos fonemas e o contorno da frequ ncia fundamental s o regenerados usando as unidades selecionadas A m dia do contorno da frequ ncia fundamental suavizada e concatenada e realizada por meio de adi o de um valor de deslocamento off set interpola o linear e spline O valor de deslocamento desloca o contorno da frequ ncia fundamental para reduzir a diferen a na fronteira Na etapa de gera o de forma de onda formas de onda que foram geradas
229. s de voz existentes como Acapella DOSVOX LINVOX eSpeak FreeTTS Furbspeech IBM Via Voice e JSAPI testes de naturalidade inteligibilidade e usabilidade envolvendo usu rios deficientes visuais para fim de valida o do sistema desenvolvido e estudos sobre uso de filtros digitais em lentes de aumento virtuais Al m disso como objetivo secund rio desenvolveu se um front end flex vel o suficiente para suportar o sintetizador de voz do Google Speech API e FreeTTS ou seja um sistema que atua como interface entre de texto de entrada e tais sintetizadores fornecendo um formato intermedi rio apropriado para os mesmos 26 Outrossim o presente trabalho pretende servir de refer ncia bibliogr fica sobre o tema N apresentando conceitos referentes acessibilidade anatomia fisiologia e din mica do trato vocal fon tica modelos e algoritmos de s ntese de voz bem como as solu es existentes no mercado fazendo uma an lise completa e bastante aprofundada a respeito destes temas 1 4 Trabalhos aceitos em congressos relacionados MOREIRA N colas de Ara jo e CORTEZ Paulo Cesar Prot tipo de Sistema de Acessibilidade e S ntese de Voz Livre e Multiplataforma In INFOBRASIL 2014 2014 Fortaleza Brasil MOREIRA Nicolas de Ara jo e CORTEZ Paulo Cesar A Multiplaftorm and Open Source Accessibility System for Portuguese Language In World Conference on Information Systems and Technologies WordCIST 2015 2015 Azores Por
230. s eram armazenadas para reuso para s ntese em contextos diferentes sem algum tipo de modifica o o que gerava resultados com pouca qualidade devido a problemas de contexto Atualmente usa se um amplo banco de dados cobrindo todas as possibilidades poss veis e selecionando a unidade mais adequada para concatena o Entretanto o uso de grandes bancos de dados tornam a sele o de unidades convencional imposs vel de serem usados em dispositivos com espa o para armazenamento limitado ou em condi es com dados limitados PHUNG et al HMMSS representa um modelo baseado no dom nio estat stico ao inv s de forma de onda ou espectral O tamanho dos par metros estat sticos treinados s o pequenos o que possibilita que sistemas HMMSS sejam distribu dos para diferentes plataformas 165 Modelagem de contexto relacionado a coarticula o tamb m bem realizada com HMMSS resultando em uma sa da suave Entretanto para garantir uma boa precis o estat stica modelos HMM geralmente exigem uma grande quantidade de dados para treinamento PHUNG et al B 1 S ntese articulat ria Se baseiam em t cnicas computacionais de modelar o trato vocal humano e o processo articulat rio que nele ocorre O primeiro sintetizador articulat rio denominado ASY foi desenvolvido na metade dos anos de 1970 por Phillip Rubim Tom Baer e Paul Mermelstein nos Jaskins Laboratories Este sintetizador foi baseado nos modelos de trato vocal desenvolvido
231. s importante no que diz respeito capacidade de transmitir informa o lingu stica enquanto que a dura o prov o ritmo da fala Esta frequ ncia tamb m indica a proemin ncia de palavras importantes por meio de subidas e descidas em conjunto com o aumento e diminui o da dura o dos segmentos Al m disso aumenta a inteligibilidade uma vez que a varia o da frequ ncia fundamental cont m informa es sobre a estrutura sint tica e sobre o estado psicol gico SCHROETER 2005 AZUIRSON 2009 2 6 3 Timbre O timbre ou cor sonora uma qualidade auditiva por meio do qual o ser humano identifica os diversos tipos de voz bem como instrumentos musicais e outras fontes sonoras Tal qualidade sonora est correlacionada com a forma da onda sonora sendo que frequ ncia e a amplitude s o importantes na defini o do timbre LIMA 2010 Hermann Von Helmholtz no final do s culo XIX caracterizou os sons como constitu do por uma forma arbitr ria fechada em um envelope envolt ria de amplitude composta por tr s partes ataque tamb m chamado de tempo de crescimento per odo est vel e queda chamado de tempo de queda O ataque o tempo que a amplitude de um som leva para sair do zero e subir at o valor de pico O per odo est vel aquele que a amplitude idealmente constante e o som desaparece no per odo de queda em que a amplitude cai at zero LIMA 2010 Um envelope de uma onda sonora est mostrado na Figura 2 2
232. s mantendo as m os livres e ou dist ncia Entretanto o reconhecimento e a s ntese de voz podem melhorar a acessibilidade ao computador para usu rios portadores de defici ncia e podem reduzir os riscos de les es por esfor o repetitivo e outros problemas causados por outras interfaces atuais Tecnologias de voz podem aumentar as possibilidades com rela o s tradicionais interfaces gr ficas de usu rio permitindo comandos mais complexos do que Sim N o Ok Cancelar e Aplicar Por exemplo um comando Usar tamanho 12 it lico fonte Times New Roman substitui diversos cliques em menus de sele es Outras aplica es poss veis est o em ferramentas CAD que enquanto se desenha pode se simultaneamente mudar a cor e a espessura de uma linha por exemplo sem ter a necessidade de tirar o mouse dentro da rea de desenho SUN MICROSYSTEMS 1998 Sistemas de s ntese de voz permitem por exemplo detectar erros gramaticais ortogr ficos e estil sticos com maior facilidade por ser mais f cil perceber tais erros ouvindo do que lendo ou informar ao usu rio algum alerta sem abrir uma janela que interrompa vis o do programa em execu o uma mensagem de alerta pode ser direcionada ao usu rio sem que o mesmo desvie sua aten o para o objeto atual Isto o deixa livre tamb m para usar m os e olhos em outras tarefas paralelas e conferindo maior agilidade na realiza o de tarefas al m da n o obrigatoriedade do usu rio de
233. s ordenando as da raiz para algum n folha onde cada n da rvore representa uma classifica o sendo uma modelagem semelhante regra if then Tal modelagem segue a estrat gia dividir para conquistar em que um problema complexo decomposto em subproblemas mais simples A mesma estrat gia aplicada a cada subproblema conforme mostrado no algoritmo abaixo em pseudoc digo N criaArvore exemplos alvo atributos se todos os exemplos tem mesmo valor de Alvo ent o retorna folha com valor sen o se o conjunto de atributos vazio ent o retorna folha com o valor Alvo mais comum entre exemplos sen o A lt melhor atributo com as varia es v1 v2 v3 vk Particiona exemplos segundo valores para A em conjuntos S1 S2 Sk Cria um n de decis o N com atributo A Cria n de decis o N com atributo A Para i 1 at K fa a Conecta um n B para o n N com teste vi Se si n o vazio ent o Conecta ramo B a criaArvore si alvo atributos A Sen o ent o Conecta B para folha do n com Alvo mais comum Retorna N O algoritmo escolhe o melhor atributo para repartir as inst ncias e criar o n de decis o correspondente rvores de decis o est o fundamentadas no paradigma bottom up e seu uso se deve ao fato dos fonemas serem classificados em termos de um conjunto de propriedades fixas estudadas no item 2 5 do Cap tulo 2 o n mero de classes definido a priori h uma quantidade bem maior
234. s que precisam ser atendidos Um checklist de acessibilidade foi criado para as aplica es desenvolvidas com a tecnologia Java que se fundiu ao checklist de acessibilidade de produtos da IBM e mostrado no Anexo A SANTOS 2010 196 Especificamente a API Java Accessibility define um contrato entre os componentes de interface usados em uma aplica o e a tecnologia assistiva que permite o acesso a essa aplica o Java Se uma aplica o suporta totalmente a API Java Accessibility ent o a mesma compat vel com leitores de tela ampliadores de tela e outros tipos de tecnologias assistivas SANTOS 2010 importante ressaltar que para proporcionar a acessibilidade aos aplicativos escritos na linguagem de programa o Java uma tecnologia assistiva exigem mais do que a API de acessibilidade Java Tamb m requer um mecanismo para localizar os objetos que implementam essa API bem como suporte para carreg la na M quina Virtual Java rastreamento de eventos e assim por diante Portanto a API Java Accessibility trabalha em conjunto com Java Accessibility Utilities para essa assist ncia SANTOS 2010 Somente o uso da API Java Accessibility n o suficiente para prover a acessibilidade sendo necess rio utilizar o pacote de utilit rios para fornecer apoio API SANTOS 2010 C 4 Java Speech API A Java Speech API JSAPI foi desenvolvida pela ent o Sun Microsystems empresa que posteriormente foi adquirida pela Oracl
235. s tamb m podem ser lidos de forma diferente enquanto Elizabeth II lido como ordinal Elizabeth segunda Cap tulo II lido como cardinal Cap tulo dois Abrevia es tamb m podem ser amb guas Enquanto por exemplo in pode ser abrevia o para polegadas pode ser tamb m a preposi o em ingl s V rios erros podem ocorrer tamb m dentro do contexto de normaliza o do texto como por exemplo os pontos na sigla E U A que podem ser interpretados de forma err nea como fins de senten a 1988 pode ser lido como mil novecentos e oitenta e oito ou um nove oito oito ou ainda constru es especiais como endere os de e mail que s o particularmente dif ceis de interpretar por exemplo nicolas lesc ufc br pode ser lido com nicolas arroba lesc ponto u f c ponto b r ou nicolas arroba le s c ponto u f c ponto b r uma vez n o ser poss vel para um sintetizador conhecer todas as abrevia es e acr nimos em uma l ngua SUN MICROSYSTEMS 1998 3 4 1 1 Erros na etapa de pr processamento As principais dificuldades encontradas nesta etapa ocorrem em situa es que lidam com os seguintes tipos n meros abreviaturas e siglas N meros s o elementos frequentemente dependentes de contextos podendo ser lidos de diversas formas como cardinais ordinais datas etc Por exemplo 3 4 pode significar uma fra o sendo lido como tr s quartos ou tr s de abril Al m de ambiguidades de g nero 1 pode ser lido com
236. samento Ac stico Motor de S ntese ou ainda Processador Digital de Sinais composto por m dulos de processamento de voz o motor de s ntese para a gera o de voz sintetizada O back end possui um conjunto de filtros que recebem par metros amostrais de voz juntamente com os r tulos de contexto pros dico para gerar a forma de onda de sinais de voz correspondente ao texto a partir dos fonemas e seus respectivos par metros pros dicos gerados pelo bloco de Processamento Lingu stico Pros dico poss vel perceber que o front end a parte mais pr xima do texto de entrada enquanto que o back end a parte do sistema mais pr ximo da sa da falada COSTA e MONTE 2012 AZUIRSON 2009 O front end respons vel por detectar e analisar a estrutura do texto de entrada e possui duas tarefas principais a primeira converter textos contendo s mbolos n meros e abrevia es em sua forma por extenso em um processo chamado de normaliza o pr processamento ou ainda tokeniza o A outra tarefa a transcri o fon tica A transcri o fon tica e a informa o sobre a pros dia s o utilizadas pelo back end ou sintetizador propriamente dito Opcionalmente o texto de entrada pode conter tags para o controle da pros dia e outras caracter sticas An lise do Texto Detec o da Estrutura do Texto Normaliza o do Texto Entrada de Texto Simples Analse Lingustca Texto com Marca es An lise Fon tica
237. sas pessoas habitam em pa ses em desenvolvimento Esta organiza o calcula que 19 milh es de crian as com menos de 15 anos tenham problemas visuais Desse total 12 milh es sofrem de condi es que poderiam ser facilmente diagnosticadas e corrigidas Cita ainda que quase 1 5 milh o de menores t m o que chamado de cegueira irrevers vel e nunca mais voltar o a enxergar A OMS diz que dois ter os dessas crian as morrem at dois anos depois de ter perdido a vis o NA ES UNIDAS DO BRASIL 2014 Conforme consta na Cartilha do Censo 2010 a Secretaria de Direitos Humanos da Presid ncia da Rep blica afirma sobre pessoas com defici ncia que 18 6 da popula o brasileira apresenta defici ncia visual em algum grau sendo 3 46 severa e 1 6 totalmente deficientes Em valores absolutos isso significa que 6 782 860 brasileiros apresentam grande dificuldade para enxergar ou n o enxergam absolutamente nada SECRETARIA DE DIREITOS HUMANOS DA PRESID NCIA DA REP BLICA 2012 INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTAT STICA 2014 A Figura 1 1 mostra os resultados obtidos no Censo de 2010 e descreve o percentual da popula o de 10 anos ou mais de idade por sexo e tipo de defici ncia que possui alguma ocupa o ou seja que estuda ou trabalha Embora se perceba que os deficientes visuais de ambos os sexos s o os que apresentem maior ocupa o dentro do grupo das pessoas com alguma defici ncia poss vel ver que a porcentagem
238. se concentrar em maximizar inteligibilidade aceitando o fato de que a naturalidade dif cil de ser atingida comum sistemas concatenativos enfatizarem em excesso a naturalidade negligenciando a inteligibilidade A precis o pode ser avaliada verificando a correta s ntese de abrevia es e acr nicos e julgando o texto de sa da gerado pelo front end Avaliar inteligibilidade e naturalidade requer testes de audi o mais elaborados SCHROETER 2005 Avalia o de um sistema TTS exige testes subjetivos A Uni o Internacional de Telecomunica es recomenda metodologias espec ficas de testes Tais testes envolvem geralmente cinco pontos dentro de uma escala geral em crit rios como impress o geral esfor o para compreens o compreens o etc Alternativamente pode se propor que volunt rios expressem sua prefer ncia dentre dois sistemas acerca de qual dos dois melhor testes A B SHAUGHNESSY 2003 SCHROETER 2005 Manter um dicion rio de pronuncia de itens espec ficos uma solu o interessante quando se pretende usar o sistema para determinadas aplica es Escolhas de engenharia t picas como trade off entre velocidade e mem ria qualidade e complexidade tempo de desenvolvimento e press o do mercado s o tamb m frequentes no desenvolvimento de softwares de s ntese de voz SCHROETER 2005 111 6 1 Compara o com outros sintetizadores de voz importante lembrar que n o foi encontrado durante a pesquis
239. se encontra apenas um pouco acima da metade o que indica necessidade de continuar investindo em medidas que facilitem a integra o tanto social como tecnol gica e no mercado de trabalho dessas pessoas 21 60 50 30 E Homens 20 O Mulheres 10 Defici ncia Defici ncia Defici ncia Defici ncia Mental Motora Visual Auditiva Figura 1 1 n vel de ocupa o da popula o deficiente de 10 anos ou mais de idade Fonte Secretaria de Direitos Humanos da Presid ncia da Rep blica 1 1 Impactos da falta de acessibilidade na vida di ria do deficiente visual A partir dos dados apresentados est evidente a imensa quantidade de pessoas com alguma defici ncia em especial defici ncia visual Tais pessoas est o inseridas em um contexto em que se encontram mais e mais dependentes da informa o nas suas atividades di rias sendo tal fen meno chamado de sociedade da informa o Em outras palavras a informa o atualmente o item mais importante para o desenvolvimento social pol tico econ mico de um pa s SANTOS 2010 De acordo com o artigo 208 da constitui o federal dever do Estado com a educa o a garantia de atendimento educacional especializado aos portadores de defici ncia preferencialmente na rede regular de ensino Entretanto estudos apontam que n o tem sido fornecida infraestrutura adequada o suficiente que garanta por exemplo o correto aprendizado por parte dos deficientes visuais a esc
240. sele es de unidades sonoras padr o permitem bons resultados para solu es gerais sem necessidade de gravar todos os fonemas e contextos pros dicos BLACK 2007 Dentre a s ntese de par metros estat sticos uma das t cnicas mais usadas a baseada em Modelos de Markov Ocultos HMM Hidden Markov Models O modelo consiste de duas fases a fase de treinamento e a fase de s ntese Durante a fase de treinamento deve se decidir quais caracter sticas os modelos devem treinar Coeficientes mel cepstrais MFCC Mel Frequency cepstral coefficients de frequ ncia e suas primeiras e segundas derivadas s o as caracter sticas mais usadas O algoritmo de Baum Welch usado com os vetores de caracter sticas para produzir modelos para cada fone Um modelo consiste basicamente de tr s estados representando o come o o meio e o fim de um fone A fase de s ntese consiste de duas etapas primeiramente os vetores de caracter sticas de uma dada sequ ncia de fonemas devem ser estimados Depois um filtro implementado para converter os vetores de caracter sticas em sinais de udio TABET 2011 177 A s ntese HMM baseada em modelos de Markov ocultos Neste sistema o espectro em frequ ncia trato vocal a frequ ncia fundamental fonte vocal e dura o pros dia da fala s o modelados simultaneamente por HMM As formas de onda s o geradas pelo crit rio de m xima verossimilhan a A s ntese baseada em Modelos de Markov Ocult
241. siano LOPEZ e FANGANIELLO 2007 A Figura A 15 mostra a varia o espectral do pitch para a vogal A ap Muito Baixo Normal Pitch 50 Hz Pitch 100 Hz a a dB F 60 50 40 30 20 10 0 KHz 3 0 1 2 3 Alto dB Pitch 200 Hz 60 a KHz os 1 2 3 Figura A 15 varia o espectral do pitch da vogal A Fonte Google Images 4 3 1 Linhas de Transmiss o A gera o e propaga o dentro do trato vocal pode ser simulada por meio de linhas de transmiss o ac sticas mostradas na Figura A 16 Os valores dos elementos ac sticos dessa linha de transmiss o podem ser descritos por meio da varia o das se es transversais ao longo do trato vocal A fun o transfer ncia rela o sa da entrada desse sistema no caso se d pelas rela es entre som irradiado e fonte Entretanto o custo computacional dessa metodologia muito maior do que os dos sintetizadores baseados em s ntese de formantes MAEDA 1995 No dom nio ac stico vogais orais s o caracterizadas apenas pelos polos na fun o de transfer ncia enquanto que consoantes requerem polos e zeros A interpola o no dom nio ac stico ent o se torna complicado caso se deseje interpolar a transi o entre uma consoante para vogal adequadamente MAEDA 1995 Existe uma analogia entre as ondas de press o e as ondas el tricas tal que a press o equivale diferen a de potencial ou tens o el trica e o escoamento de ar causado pela diferen
242. sis system using a large speech database 1996 INSTITUTO BENJAMIN CONSTANT Dispon vel em lt http www ibc gov br gt Acesso em Janeiro de 2015 INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTAT STICA Dispon vel em lt http www ibge gov br home estatistica populacao censo2010 caracteristicas reli giao deficiencia caracteristicas religiao deficiencia tab xls shtm gt Acesso em Dezembro de 2014 JUNG Jong Soon KIM Jeong jin BAE Myung jin Pitch alteration technique in speech synthesis system In IEEE Transactions on Consumer Electronics Vol 47 No 1 Fevereiro 2001 KANG Guangyu GUO Shiz YU Longjiang Speech synthesis algorithm of co articulation based on the continuous transition of energy In 2009 World Congress on Computer Science and Information Engineering 2009 KNOPPER Klaus Desktop Auditivo Revista do Linux 51a Edi o Fevereiro de 2009 KOBAYASHI Mei SAKAMOTO Masaharu SAITO Takasi HASHIMOTO Yasuhide NISHIMURA Masafumi SUZUKI Kazuhiro Wavelet analysis used in text to speech synthesis In IEEE Transactions on Circuits and Systems II Analog and Digital Signal Processing Vol 45 No 8 August 1998 LATHI B P Sinais e Sistemas Lineares 2a Edi o Bookman 2007 LIANE TTS SITE OFICIAL Dispon vel em lt http intervox nce ufrj br lianetts gt Acesso em Setembro de 2014 125 LIMA Gisl nia Maria de Souza Modelagem matem tica da voz humana um exemplo de aplica o de um m
243. sistema n o recebeu a entrada facilitando a identifica o de erros importante ressaltar que se a privacidade um ponto importante deve se atentar para a sa da n o estar em volume alto 81 4 TECNOLOGIAS DE S NTESE DE VOZ E ACESSIBILIDADE EXISTENTES NO MERCADO E O MBROLA O presente Cap tulo tem por objetivo fornecer uma vis o geral sobre as principais solu es de acessibilidade e s ntese de voz dispon veis no mercado atualmente citando suas caracter sticas vantagens e desvantagens Al m disso apresentado o m todo de s ntese de voz baseado em concatena o de unidades sonoras e o MBROLA sistema baseado em concatena o e parte integrante do sistema desenvolvido Para maiores informa es referentes a outras t cnicas de s ntese de voz consultar os ap ndices referentes modelagem matem tica do trato vocal e algoritmos de s ntese de voz 4 1 Sistemas de acessibilidade e s ntese de voz existentes no mercado Desde o in cio da computa o orientada ao mouse o desktop gr fico foi projetado para usu rios que trabalham dentro de um contexto visual Entretanto atualmente t m surgido solu es que visam mudar essa situa o na tentativa de garantir aos portadores de defici ncia visual o acesso aos recursos de inform tica As caracter sticas gerais de alguns dos sistemas de acessibilidade e s ntese de voz mais usados ao redor do mundo inclusive no Brasil s o descritas a seguir destacando suas v
244. t E mexbat L mexpl E mexext bat L mexsetup pm mexutils pm msvc modules installer pm Command History 2 figure 2 plot 0 N K 1 y E 4 31 05 2015 14 56 ly fs wavread Teste wav lefr y 1 fy fft left 4 mw mpiexec bat 2 sami m A seiska wav E worker bat o dom nio da frequ ncia figure specgram fy 31 05 2015 16 06 Details A mL Ready Figura 5 2 interface gr fica do software MATLAB O MATLAB possui fun es de c lculo num rico gera o de gr ficos elaborador de interfaces gr ficas denominado GUIDE ambiente de modelagem e simula o de sistemas SIMULINK e toolboxes para desenvolvimento de simula es e aplica es cient ficas de naturezas diversas O MATLAB foi utilizado para an lise e compara o da forma de onda no dominio da frequ ncia do resultado gerado e uma voz natural gravada com um locutor real 5 2 4 Editor de udio Audacity O Audacity mostrado na Figura 5 3 um software para edi o digital de udio livre e gratuito dispon vel para as plataformas Microsoft Windows GNU Linux e Mac O Audacity permite a manipula o de arquivos do tipo WAV MP3 e OGG Permite a grava o e reprodu o de sons al m de apresentar recursos de edi o simples como recortar copiar colar apagar mixagem em m ltiplas faixas aplica o de efeitos remo o de ru dos modifica o de velocidade sem alterar a altura ni
245. t ar gt lt ri gt lt is gt lt s gt em que denota o sil ncio existente no contorno entre as palavras A curva de transi o entre dois fonemas mostrado na Figura 3 4 em que poss vel identificar as regi es de transi o os n cleos dos fonemas e as descontinuidades existentes T T T T T T T T lt lt ALVO UNIDADE 1 DA S LABA 1 UNIDADE 2 DA S LABA 1 ALE alae aa O a fal Pat onl aG 1 CONTORNO ENTRE DUAS UNIDADES 0 X 10 REGI ES DE TRANSI O X 8 x gt N CLEOS DOS SEGMENTOS ALVO 4 IDEAL V1 0 a 0 2 4 6 8 10 12 14 16 18 UNIDADE 1 DA SILABA 2 UNIDADE 2 SA SILABA 2 gt gt gt Figura 3 4 transi o entre unidades sonoras Fonte PHUNG et al Traduzido Em termos de desempenho isto faz com que d fonos apresentem melhor resultado na transi o entre sons uma vez que seus limites est o na metade dos fonemas e apresentam uma curva caracter stica mais est vel ao longo do tempo Logo os d fonos s o vantajosos por conterem dentro delas mesmas o modelo de coarticula o transi o Por uma quest o de flexibilidade e economia os d fonos s o a unidade sonora mais usada na s ntese concatenativa TALAFOV et al 2007 TABET 2011 Difonos s o teis em s ntese de voz por apresentarem resultados mais naturais do que simplesmente combinando fonemas por conta das varia es de pron ncia destes ltimos Outra vantagem est no fato dos d fonos
246. te de ar passa atrav s da rinofaringe orofaringe e boca Durante este processo ocorre a modula o ou amplifica o da voz que cria caracter sticas individuais da voz A articula o outro fen meno sendo resultante do movimento dos l bios l ngua dentes palato duro ou mole Trata se da produ o de sons da fala por meio da parada ou constri o do fluxo de ar vocalizado ou n o por meio de tais movimentos destes referidos rg os Por fim a pros dia se refere velocidade intervalo melodia e nfase MATUCK 2005 131 Os rg os respons veis pela fona o s o laringe l bios l ngua dentes v u palatino e boca mostrados na Figura A 5 De A A Palato Mole Faringe Epiglote ill Laringe Cordas Vocais Lingua Tiredide Pomo de Ad o SE Pulm es EL Diafragma Figura 2 5 rg os respons veis pela fona o Fonte MACHADO 1997 poss vel classificar os rg os atuantes na fona o em cinco grupos o da respira o o da vocaliza o o da resson ncia o da articula o e o de irradia o estes s o ilustrados na Figura A 6 O grupo da respira o respons vel pela produ o de um fluxo de ar iniciando nos pulm es e terminando na traqueia j o de vocaliza o respons vel produ o do sinal glotal ocorrendo na faringe Este sinal de baixa intensidade que necessita ser amplificado para que determinadas componentes harm nic
247. te e Camila Vasconcelos pela paci ncia e compreens o nos momentos de priva o Obrigado aos meus pais Raimundo Moreira Filho e Samara Duarte de Ara jo Moreira pelo apoio durante mais essa longa e dura jornada vil Quem vence algu m um vencedor mas quem vence a si mesmo invenc vel Morihei Ueshiba Criador do Aikido viii RESUMO Estima se que no Brasil cerca de 3 46 da popula o apresenta grande limita o de vis o e 1 6 seja totalmente incapaz de enxergar A falta de meios de inclus o adequados imp e uma s rie de restri es na vida destas pessoas em outras palavras ferramentas de hardware e software n o acess veis geram impacto negativo na vida acad mica pessoal e profissional Dentro desse contexto a presente Disserta o tem por objetivo principal desenvolver um sistema para inclus o digital de deficientes visuais O sistema composto por um front end multiplataforma para o sintetizador de voz MBROLA e um conjunto programas acess veis que inclui editor de texto cliente de chat lente de aumento virtual entre outros desenvolvido em Java a fim gerar um software multiplataforma Al m disso o sistema gratuito e livre para que possa atingir o maior n mero de usu rios poss vel e ser modificado e aprimorado pela comunidade A solu o desenvolvida foi testada em campo apresentando ndice de inteligibilidade m dio de 79 e com naturalidade classificada como razo vel em um grupo
248. temas concatenativos apresenta grande dificuldade para modelar caracter sticas emocionais e dependentes de contexto realizando uma fala sempre neutra AZUIRSON 2009 As etapas de processamento realizados pelo Nambiquara s o mostrados na Figura Av It lia Km a Processador Processador de Linguagem de Sinais Natural a 105 100 120 Digitais v 50 100 119 Pr processador e 105 100 118 dh n 105 100 118 i 105 100 117 Analisador a 50 100 118 A contextual a 105 100 119 lt Pee om gare EE ROE e 105 100 118 EEU EAR r 50 100 119 o 105 100 120 avenida it lia quil metro oito sem n mero Conversor letra som Figura 4 3 diagrama de Blocos do Nambiquara Fonte AZUIRSON 2009 NVDA Non Visual Desktop Access um leitor de telas dispon vel para 48 l nguas livre e de c digo fonte aberto sob Licen a GNU voltado para a plataforma 89 Microsoft Windows Foi criado por Michael Curran em 1996 sendo desenvolvido em Python e uma parte em C e baseado nas APIs Microsoft Active Accessibility TAccessible2 e Java Access Bridge O NVDA utiliza o eSpeak como sintetizador integrado e prov suporte a aplica es como WordPad Notepad Internet Explorer Google Chrome Outlook Express Mozilla Thunderbird Microsft Word Microsoft Excel e Microsoft PowerPoint Por meio do Java Access Bridge prov suporte tamb m ao LibreOffice e OpenOffice 4 2 O MBROLA O objetivo do projeto MBROLA mostrado na Figura 4 4 iniciado pelo
249. tes situa es PHUNG et al considera que as mesmas afirma es s o v lidas tamb m para intervalos pseudo estacion rios Ambos os intervalos estacion rio e quasi estacion rio s o considerados n o sens veis a contexto ao contr rio das outas partes Entretanto ainda n o h m todos para se estimar a posi o e a dura o de cada parte dentro dos fonemas e s labas A decomposi o temporal TD Temporal Decomposition um m todo que pode decompor a fala em componentes independentes m tuos TD o n cleo dos m todos propostos para modelar a coarticula o e resolver problemas de contexto em sistemas CSS PHUNG et al 3 3 6 Problemas Modifica o Espectral Algumas abordagens modificam valores espectrais dinamicamente a fim de simular a coarticula o fazendo uso de filtros digitais com uma excita o Outras abordagens mais simples ao inv s de armazenar padr es espectrais armazenam formas de onda de dura es variadas concatenando as quando necess ria Tal abordagem elimina a necessidade de filtragem Em ambos os casos s o necess rios ajustes nos contornos dos sinais SHAUGHNESSY 2003 Alguns trabalhos prop em uma suaviza o espectral por meio de modifica o das frequ ncias formantes e da largura de banda para reproduzir a estrutura formante desejada nos pontos de concatena o Outros prop em m todos de controlar a din mica espectral a fim de suavizar a trajet ria das frequ ncias formante M to
250. tica ru do filtrada por um filtro passa alta O sintetizador harm nico controlado por par metros como frequ ncia fundamental wo amplitudes aq e fases Po para a i sima harm nica e os par metros para um filtro variante no tempo opcional com resposta ao impulso h n m sintetizando a forma de onda s n m O sintetizador estoc stico consiste de um filtro variante no tempo com resposta ao impulso 63 hr n m um sinal de excita o er n criando uma forma de onda sr n Ambos os componentes s o adicionados ao sinal de banda completa s n O HNM e abordagens similares permitem uma suaviza o da excita o nos pontos de concatena o Uma desvantagem dos sintetizadores h bridos como o HNM reside na elevada complexidade computacional SCHROETER 2005 Mp aa Sdo s n Figura 3 7 sintese HNM 3 3 4 A cria o do banco de dados de voz Antes de iniciar a sintese de voz baseada em difonos deve se criar um banco de dados de d fonos O banco de dados consiste em grava es reais que s o quebradas em partes menores os d fonos Al m das vozes que podem ser gravadas em um arquivo wav deve se incluir um ndice listando os d fonos e seus limites Caso um determinado d fono n o tenha sido inclu do no banco de dados pode se fazer uso dos fonemas com o qual o mesmo composto TALAFOVA et al 2007 Um banco de dados t pico cobrindo todas as unidades de d fonos poss veis para um conjunto de senten as m
251. ticas 27 O Capitulo 6 Testes e resultados obtidos explica a metodologia de teste utilizada mostrando os resultados obtidos e comparando suas vantagens sobre as ferramentas existentes atualmente apresentados no Cap tulo 4 S o apresentados resultados tanto qualitativos como quantitativos apresentando depoimentos de usu rios do sistema bem como comparando com trechos de vozes naturais O Cap tulo 7 Conclus o encerra o presente trabalho com uma vis o geral a respeito do tema abordado bem como apresenta as dificuldades encontradas e sugere melhorias implementa o de novos recursos citando trabalhos complementares que possam colaborar com a melhoria do projeto Al m disso o presente trabalho conta com dois importantes ap ndices sobre modelagem matem tica do trato vocal e algoritmos de s ntese de voz que apresentam as principais t cnicas de s ntese de voz descrevendo seus modelos e algoritmos citando suas vantagens e desvantagens e comparando os resultados de cada um desde as primeiras implementa es at os trabalhos mais recentes em cada abordagem ou seja das t cnicas cl ssicas at o estado da arte Embora envolva m todos n o relacionados ao trabalho diretamente estes ap ndices objetivam serem refer ncias para outros trabalhos na rea e apresentam um comparativo entre as t cnicas de s ntese de voz realizando uma revis o bibliogr fica que serve de embasamento te rico para a escolha da t cnica de s ntes
252. tos AZUIRSON 2009 Para sistemas limitados a s ntese param trica bastante adequada a s ntese param trica possui um banco de palavras parametrizadas utilizando t cnicas de parametriza o coeficientes LPC sendo poss vel a recupera o do sinal original sem perda consider vel de qualidade Uma de suas vantagens a redu o do espa o de armazenamento requerido uma vez que o que se armazena a palavra parametrizada e n o a forma de onda propriamente dita Al m disso ao se manipular os par metros poss vel obter transi es mais suaves tornando a sa da mais natural Assim sistemas de s ntese em dom nio espec fico apresentam alta naturalidade devido ao fato das senten as serem limitadas n o apresentando prop sito de uso geral apenas para fun es pr programadas AZUIRSON 2009 A s ntese de vocabul rio ilimitado tenta obter todas as informa es sobre pros dia necess ria para a s ntese a partir do texto S o portanto mais abrangentes O espa o de 164 armazenamento exigido tamb m menor por armazenarem menos informa es como unidades sonoras menores AZUIRSON 2009 Vozes sintetizadas de alta qualidade podem ser constru dos a partir de um banco de dados diversificado de obtido a partir de uma voz natural de um nico locutor Os invent rios comumente encontrados em sistemas baseados em d fonos ficaram mais generalizados e portanto tem consumido mais recursos Por este motivo estu
253. tugal 1 5 Estrutura o do trabalho O Cap tulo 2 Conceitos b sicos e fundamentos introduz todos os conceitos b sicos relacionados natureza do trabalho apresentando algumas defini es referente acessibilidade anatomia fisiologia e din mica do trato vocal no es b sicas de fon tica da l ngua portuguesa e caracter sticas da voz humana O Cap tulo 3 Vis o geral e projeto de um sistema de s ntese de voz via software aspectos qualitativos e problemas relativos apresenta a vis o geral de um sistema de s ntese de voz citando seus componentes e funcionamento global Ademais o m todo de s ntese de voz baseada em concatena o explicado de forma detalhada bem como s o discutidos os aspectos qualitativos e problemas relativos s ntese de voz apresentados pelos sistemas dispon veis atualmente O Cap tulo 4 Tecnologias de s ntese de voz e acessibilidade existentes no mercado e o MBROLA cita os principais sistemas de s ntese de voz e acessibilidade existentes no mercado desde trabalhos acad micos at produtos j consagrados passando por sistemas que n o se encontram mais dispon veis citando suas caracter sticas vantagens e desvantagens Ademais apresenta de forma detalhada o MBROLA sistema em que se baseia o presente trabalho O Cap tulo 5 Metodologia explana a metodologia desenvolvimento da solu o proposta apresentando as ferramentas utilizadas para o seu desenvolvimento e suas caracter s
254. tware resultante pode apresentar recursos que s o teis para todos Entretanto para determinadas plataformas computacionais desenvolver aplica es acess veis pode ser um processo extremamente dif cil e caro SUN MICROSYSTEMS 2003 78 Apesar de alguns aplicativos possibilitarem que cegos utilizem programas orientados ao mouse uma interface gr fica com v rios bot es ou menus numa nica janela n o tima ou eficiente para uso n o gr fico Trabalhar com interfaces gr ficas ainda mais lento e complicado para usu rios com defici ncia visual do que para aqueles com vis o O verdadeiro desastre ocorre quando o programa minimizado ou sua janela perde foco por causa de outro aplicativo Com isso a janela se torna inacess vel pelo leitor de tela at receber novamente o foco e para o usu rio fica ainda mais invis vel A menos que saiba como restaurar janelas minimizadas n o fica claro para o usu rio sem vis o se o programa simplesmente perdeu o foco e desapareceu ou se o pr prio leitor de tela travou por erro de software Portanto a interface de escolha para deficientes visuais iniciantes na computa o ainda o console de texto que nunca perde o foco e sempre fornece um modo tela cheia para cada programa A linha de comando a interface mais eficaz para trabalhar com computadores pois oferece uma forma direta de introduzir comandos que fazem o computador realizar exatamente o que se deseja Uma inter
255. ty Visual disability Figura 1 1 idade Figura 1 2 Figura 2 1 Figura 2 2 Figura 3 1 Figura 3 2 pros dico Figura 3 3 Figura 3 4 Figura 3 5 Figura 3 6 Figura 3 7 Figura 3 8 dir LISTA DE ILUSTRA ES n vel de ocupa o da popula o deficiente de 10 anos ou mais de alfabeto Braille para portugu s espectro de sons vozeados e sons n o vozeados envelope de uma onda sonora diagrama de blocos de um sintetizador de voz diagrama de blocos do bloco de processamento lingu stico diagrama de blocos da s ntese concatenativa transi o entre unidades sonoras escalonamento de pitch e dura o pelo PSOLA esquerda dom nio do tempo direita espectro s ntese HNM fen meno de coarticula o para s labas separadas esg e juntas Figura 3 9 solu o proposta por KANG et Al 2009 para resolver problemas de coarticula o Figura 3 10 processo de prepara o do dicion rio para o sistema proposto em KOBAYASHI et al 1998 Figura 3 11 etapas principais para o processo TTS proposto em KOBAYASHI et al 1998 Figura 4 1 Figura 4 2 Figura 4 3 Figura 4 4 Figura 4 5 Figura 4 6 Figura 5 1 Figura 5 2 Figura 5 3 Figura 5 4 interface gr fica do eSpeak IBM Via Voice diagrama de Blocos do Nambiquara interface Gr fica do MBROLA formato de um arquivo pho para a palavra noite diagrama esquem tico para o MBROLA interface gr fica do IDE
256. uada para a l ngua japonesa O sistema proposto composto por um dicion rio cujo processo de prepara o mostrado na Figura 3 10 A prepara o do dicion rio se inicia com uma cuidadosa sele o dos dados de forma a assegurar um n mero suficientemente grande de sons para a extra o dos fonemas 70 Dados de Voz An lise Espectral Transformada de Wavelet Detec o de Pitch Candidatos a marcadores de pitch Padr o Espectral Marca o manual de pitch e fonema usando ferramentas de intera o visual Clusteriza o dependente de contexto de fonema Gera o das unidades de sintese Dicion rio de unidades de sintese Figura 3 10 processo de prepara o do dicion rio para o sistema proposto em KOBAYASHI et al 1998 Fonte KOBAYASHI et al 1998 Traduzido No referido trabalho prop e se que os dados de voz sejam segmentados em fonemas por meio da observa o de algumas caracter sticas da fala como espectro din mica espectral e pot ncia Na abordagem proposta pelo trabalho o momento fechamento glotal detectado por meio da busca por picos locais na transformada de wavelet da forma de onda e usa se essa informa o para a marca o do per odo do pitch Ap s isso an lise espectral usada para extra o e rotula o de fonemas O algoritmo baseado em wavelets pode ser usado tanto para vozes masculinas como femininas sem necessidade de modificar par metro
257. ue o trato vocal pode ser considerado um filtro ac stico linear Assim o modelo fonte filtro representado no diagrama da Figura C 16 considera a linearidade do trato vocal e a inexist ncia da intera o ac stica entre o trato vocal e a fonte sonora glotal BRAND O 2011 No modelo fonte filtro a sequ ncia de amostrar s n modelada como um sinal de excita o r n aplicado por um filtro h n s n h n rfn O filtro pode ser estimado a partir de um sinal de fala por meio de por exemplo a predi o linear A excita o ou o res duo r n encontrada por meio da filtragem inversa r n h n s n Assumindo que tal modelo uma descri o precisa da produ o de voz e que o filtro estimado apresenta comportamento muito parecido com o trato vocal verdadeiro h n r n aproxima a excita o do sinal produzido pelas pregas vocais Consequentemente r n independente de h n e a fala com um formato espectral desejado pode ser gerado aplicando r n em um novo filtro Anj O problema deste procedimento que qualquer erro de estima o do filtro atribu da excita o Uma vez que o res duo passa pelo mesmo filtro os erros compensam e o sinal de fala reconstru do perfeitamente Entretanto se r n passa por um novo filtro Anj pequenos erros em r n podem ser aplicados de acordo com o formato espectral do novo filtro Desta forma erros em regi es perceptivelmente menos importantes em regi es de s n como em vales espectrai
258. uma apresenta o confort vel e tanto quanto poss vel isenta de distor es Uma t cnica bastante usada nesses casos a chamada opera o de reamostragem tamb m conhecida por zoom in Trata se de uma opera o que consiste basicamente em adicionar linhas e colunas vazias na imagem original aumentando a sua resolu o espacial Cores ent o s o atribu das a estas linhas e colunas utilizando se um dos seguintes m todos replica o do vizinho mais pr ximo interpola o linear interpola o bi linear ou interpola o bic bica Alguns trabalhos apresentam os seguintes resultados de um zoom in a partir da replica o do vizinho mais pr ximo para um fator de amplia o de 2x o resultado do encontrado satisfat rio Entretanto para fatores maiores surgem blocos de cores homog neas na imagem Melhores resultados seriam obtidos por meio de outros algoritmos como usar o filtro espacial de Bartlett interpola o bilinear para implementar o zoom in Os m todos de interpola o em imagens atuam como filtros passa baixa atenuando as altas frequ ncias nas imagens resultantes causando um efeito de sombreamento na imagem BIDARRA 2005 Entretanto pelo fato dos usu rios serem pessoas com baixa vis o necess rio resgatar as altas frequ ncias na imagem ampliada caracterizadas pelas regi es de borda presentes na imagem Para tanto filtros de realce ou detec o das bordas presentes na imagem digitalmente ampliada
259. umana original oo e gt aum eG a E 15 i 00 em que w n denominada janela de pondera o Para o caso de uma janela triangular com tamanho igual ao dobro do per odo do pitch temos uma redu o na express o para uma igualdade exata com K 1 No caso particular do MBROLA e do TD PSOLA a lista de par metros se reduz a sequ ncias de marcadores 7 indicando o centro de quadros OLA Eles s o posicionados de forma sincronizada com o pitch nas partes vozeadas de segmentos por meio de aux lio atrav s de um algoritmo de extra o de pitch e igualmente espa ados nos trechos sem voz Na pr tica o comprimento da janela de pondera o w n implicitamente adaptado do per odo do pitch local assim as 94 amostras s n diferem de zero apenas em um intervalo que depende do fator de sobreposi o Fp definido como a taxa do tamanho L da janela w n pelo per odo do pitch de an lise menos um Fp 1 DUTOIT 1997 0 O comparativo entre algumas das solu es de s ntese de voz dispon veis atualmente mostrado na Tabela 4 1 Tabela 4 1 compara o entre as diversas plataformas de acessibilidade e sintetizadores de voz existentes Tipo Suporte Licen a Gratuito Linguagem Sistema L ngua Livre de Operacional Portuguesa Programa o DOSVOX Vozes Sim Sim Sim Pascal Windows Pr Gravadas LINVOX Vozes Sim Sim Sim Pascal Linux Pr Gravad
260. umentados dificulta a constru o do banco de dados o que significa que necess rio um grande conjunto de unidades a fim de se adequar a qualquer tipo de aplica o AZUIRSON 2009 SCHROETER 2005 Em outras palavras o comprimento da unidade afeta a qualidade da s ntese quanto maior a unidade maior a qualidade naturalidade pois s o necess rios menos pontos de concatena o entretanto o n mero de unidades armazenadas no banco de dados se torna muito numeroso medida que o tamanho das unidades cresce o espa o para armazenamento cresce exponencialmente Tornando o at mesmo invi vel Usar pequenas unidades requer menos espa o para armazenamento mas geralmente prov sa das menos naturais que quando usadas unidades maiores KANG et Al 2009 SHAUGHNESSY 2003 No que diz respeito constru o do banco de dados com unidades menores a coleta de unidades e as t cnicas de rotula o se tornam mais complexas TABET 2011 Do ponto de vista da flexibilidade dos sistemas se as unidades s o senten as completas a qualidade soa natural Entretanto tais sistemas s o inflex veis Assim para sistemas de vocabul rio ilimitado os bancos de dados armazenam um grande n mero de unidades geralmente fonemas d fonos e outras unidades O emprego de palavras como unidades b sicas invi vel quando se deseja construir um sintetizador gen rico A utiliza o de palavras como unidades b sicas geralmente se d em contextos
261. uporte a diversos sistemas operacionais padroniza o da sa da de voz atrav s de chamadas de fun es e de anota es textuais al m de n o utilizar o Registro do Windows para localiza o de componentes evitando modifica es acidentais de instala es por outras aplica es SAPI a API da Microsoft sendo suportada somente em sistemas Windows Esta API fornece compatibilidade com padr es como ActiveX 194 COM DCOM MSAgent e tamb m permite padroniza o da sa da de voz por meio de chamadas de fun es e marca es de texto SAPI O IBM ViaVoice TTS SDK capaz de interpretar abreviaturas acr nimos e n meros com alta qualidade e entona o bastante natural Al m disso poss vel inserir marca es no texto a fim de ajustar melhor a entona o e escolher o modo de interpretar textos e n meros permitindo controlar atributos como nfase em certas palavras e velocidade personalizando a sa da poss vel tamb m utilizar uma ortografia fon tica a fim de especificar a pron ncia de uma palavra O IBM ViaVoice TTS SDK fornece pelo menos cinco vozes predefinidas para cada idioma e cada uma tem uma marca o de voz correspondente que pode ser inserida no texto Vozes individuais derivam sua exclusividade de diversos fatores f sicos Ademais a voz de um indiv duo pode assumir formas diferentes de acordo com fatores como estado de esp rito e circunst ncias Estes atributos tais como trato vocal linha de base d
262. uss o sobre Ferramentas para Incorpora o da Tecnologia de Voz ao VoiceProxy Universidade Federal do Rio Grande do Norte SANTOS Jader Gustavo de Campos Acessibilidade em aplica es desktop utilizando ferramentas Java Monografia de Especializa o Universidade Tecnol gica Federal do Paran Corn lio Proc pio 2010 SCHUMACHER ROBERT M HARDZINSKI Mary L e SCHWARZ Amy L Increasing the usability of interactive voice response systems Research and guidelines for phone based interfaces Human Factors The Journal of the Human Factors and Ergonomics Society 37 2 251 264 1995 SCHROETER Juergen Electrical Engineering Handbook Cap tulo 16 Circuits Signals Speech and Image Processing 3 Edi o AT amp T Laboratories 2005 SECRATARIA DE DIREITOS HUMANOS DA PRESID NCIA DA REP BLICA Cartilha do Censo 2010 Pessoas com Defici ncia 32p Bras lia 2012 SHU Chang MEI Jin Shuo YIN Jing Hua Speech synthesis based on AMR WB algorithm In 2011 International Conference on Electronic amp Mechanical Engineering and Information Technology Agosto 2011 SPANIAS Andreas S Speech Coding A Tutorial Review In Proceedings of the IEEE Vol 82 No 10 1994 SUN MICROSYSTEMS GNOME 2 0 Desktop Developing With the Accessibility Framework Sun Microsystems 2003 SUN MICROSYSTEMS Java Speech API Programmer s Guide Vers o 1 0 Sun Microsystems Palo Alto Outubro de 1998 SUN MICROSYSTEMS Java Speech
263. vel capaz de produzir sons de diversos locutores estilos de fala etc levando em conta os limites fisiol gicos da movimenta o dos articuladores bem como a intera o na movimenta o dos articuladores entre si SCHROETER 2005 AZUIRSON 2009 Por m h duas grandes dificuldades nisso aquisi o de dados para modelo e o equil brio entre precis o qualidade e facilidade de implementa o e controle Os dados 166 para o modelo geralmente s o obtidos por meio de imagens de Raio X e n o caracterizam massa nem graus de liberdade TABET 2011 Uma forma elegante de gerar voz seria a s ntese articulat ria que em ess ncia transforma entradas de texto em comandos musculares a fim de criar uma sequ ncia temporal de formatos do trato vocal que s o convertidos em filtros digitais e excitados sejam por ru dos ou pulsos peri dicos SHAUGHNESSY 2003 Teoricamente seria o modelo que mais deveria atingir a qualidade em seus resultados Entretanto na pr tica um dos m todos mais dif ceis de serem implementados devendo controlar par metros como abertura e formato dos l bios posi o das l nguas e suas dimens es Ademais tal modelo de grande complexidade computacional e nunca produziu resultados com boa qualidade sendo em geral inferiores aos obtidos por meio da s ntese de formantes ou s ntese concatenativa TABET 2011 AZUIRSON 2009 SHAUGHNESSY 2003 B 2 S ntese de formantes ou s ntese baseada em re
264. velamento e equaliza o Ficheiro Editar Ver Controlo Faixas Gerar Ffeitos Analisar Ajuda Hofi fal Ee et Ag DD DD 0 oleo seio io o ps de do e o fean oll 6 eee pes me 4 Alto falantes Dispositivo de H J9 Microfone Dispositivo de High 2 Canais Est reo v 0 10 p 0 10 0 20 0 30 0 40 0 50 060 070 0 80 0 90 1 00 110 120 k AO X Testevoz v m Taxa do Projecto Hz In cio da Selec o 9 Fim Tamanho Posi o do udio 18000 ajustara E 00h00 m00 00057 Figura 5 3 interface gr fica do editor de udio Audacity O Audacity foi utilizado para an lise e compara o da forma de onda no dom nio do tempo do resultado gerado e uma voz natural gravada com um locutor real 5 3 O sistema desenvolvido 5 3 1 Caracter sticas gerais Por apresentar resultados mais naturais e intelig veis al m de sua simplicidade baixo esfor o computacional e ampla documenta o cient fica dispon vel a s ntese concatenativa foi utilizada como m todo de s ntese de voz sendo o sintetizador escolhido o MBORLA O sistema desenvolvido trabalha em conjunto com o MBROLA entretanto o MBROLA conforme dito anteriormente n o um sistema TTS propriamente dito pois n o converte texto puro em fala apenas aceita como entrada texto contendo d fonos e info
265. vidos com softwares de acessibilidade devem considerar a qualidade e a naturalidade da s ntese realizada Um projeto de software acess vel tem requisitos diferentes dos softwares convencionais e deve ser adotada uma abordagem espec fica desde o in cio das especifica es do projeto assim softwares que visem atingir tamb m o p blico com restri es visuais devem ter esta meta estabelecida desde os requisitos iniciais do sistema Considerar esses aspectos um passo cr tico para melhorar a qualidade de vida de usu rios deficientes visuais A solu o mostrada neste trabalho visa preencher uma lacuna existente nos softwares de acessibilidade com suporte l ngua portuguesa apresentando n o s um sintetizador de voz com qualidade acima da m dia como tamb m apresenta um pacote de softwares pronto para uso e simples de usar Os usu rios atingiram os objetivos propostos e completaram as tarefas sem maiores dificuldades As sugest es dadas pelos volunt rios devem ser implementadas em vers es futuras do software Embora n o propriamente original o projeto vem a atender uma demanda quase sempre ignorada pela ind stria de TI al m disso n o foi encontrado na literatura pesquisada um FRONT END que realizasse mapeamento fonema d fonos para a l ngua portuguesa O fato de ser gratuito permite que pessoas pertencentes a qualquer classe social possam se beneficiar dos recursos oferecidos pela inform tica e o modelo aberto e colaborativo
266. xergam com dificuldade incluindo formas de modificar o tamanho da fonte e alto contraste em sites Fazer o computador pronunciar uma linha de texto e exibir o texto num dispositivo Braille s o as formas mais comuns para cegos aprenderem o que est escrito na tela do computador Um dos dispositivos Braille mais comuns denominado de linha e consiste 24 de uma tela t til com seis ou oito pontos por letras que pode ser lido por meio do toque pelos usu rios que conhecem o alfabeto Braille KNOPPER 2009 A Figura 1 2 mostra o alfabeto Braille para portugu s Cada idioma usa uma tabela diferente para tradu o e como n o h s mbolos especiais para n meros as letras de a 66197 a j s o usadas para representar os algarismos de um a zero s vezes com um simbolo de n mero antes para esclarecer que se tratam de d gitos a b c f g h i j e e ee ee e ee ee e e e e e e e ee ee e ee k l m n o p q r s t e e co ee e ee ee e e e e e e e ee ee e ee e e e e u v w x y z a e bd ee ee e eoe ee co oe ee bd bd co ee ee So ee ee ee ee ee ee ee ee ee i i oe s o ee ee eo ee ee o oe ee oo eo oo oe oe co ee ee co ee oe oe oe oe oe oe oe oe oe i 6 y e e oe oo oo oo oo oo oo oo oo oe oo co eo EJ oo o ee 0 o so oo o oo o oe eo ee jj a ae isi Grifo Ap strofo Sinal de Mai scula Caixa alta oo oo 0000 000000 oo oo oe oe oe co oe 0000 000000
267. z diferentes a continuidade tanto em amplitude como frequ ncia espectral n o garantida nos contornos durante a concatena o As unidades s o frequentemente escolhidas tomando a amplitude espectral como crit rio reduzindo os problemas de continuidade espectral neste dom nio Entretanto a fase espectral mais complicada Unidades consistem frequentemente de per odos completos de pitch SHAUGHNESSY 2003 Para concatena o podem se usar fonemas dois fonemas s labas frases palavras frases etc Alguns trabalhos tem procurado usar unidades de tamanho vari vel O tamanho das unidades a serem guardadas no banco importante para a qualidade do resultado quanto maior o tamanho de uma unidade menor o n mero de jun es no 55 resultado logo melhor a qualidade resultante da menor gera o de pontos de concatena o O problema dos pontos de concatena o reside no fato de que poss vel que as unidades provenham de contextos fon ticos diferentes e quando as unidades prov m de diversas fontes ou sess es de grava o as unidades apresentam alto grau de descontinuidade nos contornos TABET 2011 AZUIRSON 2009 SHAUGHNESSY 2003 Se por um lado aumentar o tamanho dos seguimentos a serem concatenados pode melhorar a qualidade da voz sintetizada por outro o n mero de segmentos necess rios aumenta dramaticamente fazendo o espa o exigido para armazenamento tamb m crescer Al m disso o n mero de contextos a

universidade federal do ceará centro de tecnologia departamento

Contents

Download Pdf Manuals

Related Search

Related Contents

universidade federal do cear&aacute; centro de tecnologia departamento

Contents

Download Pdf Manuals

Related Search

Related Contents

universidade federal do ceará centro de tecnologia departamento