Home
        universidade federal do ceará centro de tecnologia departamento
         Contents
1.             Fonte   MACHADO  1997      Cada idioma possui suas especificidades com rela    o    sua estrutura sonora  A  unidade de fala b  sica da l  ngua chinesa  por exemplo     a s  laba  as s  labas s  o  compostas por vogais ou por uma vogal em conjunto com uma consoante  H   414  s  labas em chin  s  totalizando 1716 s  labas se incluir tamb  m tons  A l  ngua eslovaca  apresenta apenas 1550 d  fonos frequentes  KANG et  Al   2009  TALAFOV   et  al    2007     A l  ngua japonesa apresenta maior dificuldade no tocante    an  lise morfol  gica e  l  xica de palavras quando comparada com l  nguas europeias  A maioria dos caracteres  japoneses apresentam diversas pron  ncias diferentes  dependendo de seu significado e  contexto  A l  ngua japonesa cont  m 38 fonemas b  sicos  entretanto  no tocante    s  ntese    de voz  a qualidade da voz usando apenas esse limitado conjunto    bastante sofr  vel     KOBAYASHI et  al   1998      2 6 Caracter  sticas da voz   A voz humana pode ser caracterizada pelos seguintes atributos  tom  timbre  dura    o  e intensidade  O tom define a altura musical da voz e pode ser classificado em agudos e  graves  Vozes masculinas podem ainda ser classificadas em tenor  bar  tono e baixo   Para fins de acessibilidade  considera se mais agrad  vel o tom bar  tono  J   o timbre    o  matiz pessoal da voz  que    um par  metro complexo determinado pelo tom fundamental  e seus harm  nicos  podendo ser caracterizado como agrad  vel  rouco  chiado  etc 
2.            fags o   JTE  BO      lt config  default gt                                                     Figura 5 1  interface gr  fica do IDE NetBeans     Projetos     Arquivos     Servi  os El     P  gina Inicial se       WordTest java    E  ConnectDialog java s  EHE   worarestjava   Propriedades x    a g vco  Ce  sro GEOM u   Ars   GB Pacotes de C  digos fonte 20 assertEquals  w getSyllables     get  3   getSyllable     lo    a    Nome   WordTest  5 58 veo 81 assertEquals  w getSyllables   get 0  getTonicity    Tonicity ATONA   Eronia  A   8  ComectDialog java 82 assertEquals  w getSyllables    get  1   getTonicity    Tonicity TONICA  rotons Ares       DownloadingDialog java 83 assertEquals  w getSyllables   get  2   getTonicity    Tonicity ATONA   Tamanho de Arquivo   E Editor java es assertEquals  w getSyllables     get  3   getTonicity    Tonicity ATONA   Hora da Modifica    o  BB Emaiiclient java es   E Ciasspaths   B Lupa gif 86 w   new Word  quina      Compilar Classpath   Hb Lupa java 87 assertEquals  w getNumSyllables    2     Classpath de Runtime  E MessageDialog java lz es assertEquals  w getSyllables     get  0   getSyllable     qui       Classpath de Inicializa    o   E  MessagesTableModel java es assertEquals  w getSyllables   get  1   getSyllable     na   l   Ei Minibrowser java 90 assertEquals  w getSyllables   get  0   getTonicity    Tonicity TONICA   B SimpleChatClient  java 91 assertEquals  w getSyllables   get  1   getTonicity    Tonicity ATONA     B S
3.        Time    Time  Figura 3 8  fen  meno de coarticula    o para s  labas separadas  esq   e juntas  dir    Fonte   KANG et  Al   2009       KANG et  Al  2009  prop  e o seguinte algoritmo  mostrado na Figura 3 9  para  resolver problemas de coarticula    o  Aplica se uma transformada de Fourier sobre o  sinal a fim de calcular a energia desse espectro  Assim  o espectro de energia de um  fonema transita suavemente para o pr  ximo fonema por meio da modifica    o dos  coeficientes de energia  Ent  o  o resultado modificado sofre uma transformada inversa  de Fourier  passando novamente para o dom  nio de tempo e ent  o os sinais das formas  de onda s  o concatenados por meio do algoritmo PSOLA  Ou seja  a coarticula    o     sintetizada pela modifica    o do espectro de energia na banda transit  ria da fala  Tal    modifica    o    concatenada com a regi  o est  vel  seguindo ent  o com o processo normal    de concatena    o de forma de onda     67    Entrada de  Voz                   Ha  oarticulacao     Concatenacao direta  da forma de onda  Sim    Segmentacao  da Fala           salculo da energia do  espectro da slaba de  transicao             Sintese do segmento de voz  de transicao        Concantena    o com  segmento de voz est  vel    Figura 3 9  solu    o proposta por  KANG et  Al  2009  para resolver problemas de coarticula    o  Fonte    KANG et  Al  2009   Traduzido      No modelo coarticulat  rio mais b  sico  cada fonema tem um   nico    alvo     articulat  rio 
4.      Processamento    Transcri    o  Fon  tica       Figura 3 2  diagrama de blocos do bloco de processamento lingu  stico pros  dico  Fonte   AZUIRSON   2009      3 2 1 1 Pr   Processamento   Um texto pode conter diversos s  mbolos e caracteres  sendo necess  rio converter  tais s  mbolos em caracteres para que seja poss  vel ser processado pelos m  dulos  seguintes  Assim  caracteres especiais  como operadores aritm  ticos  sinais e outros  s  mbolos como       etc   siglas  abreviaturas e d  gitos s  o pr   processados em uma  etapa denominada normaliza    o  na qual caracteres s  o substitu  dos por sua forma  por  extenso     Em um texto gen  rico  a primeira tarefa consiste em tentar isolar as palavras  para que possam ser corretamente processadas nas etapas posteriores  principalmente as    woe woe woe io AU  yn  s    seguidas por sinais de pontua    o  como                    aspas e par  nteses  A  diferen  a entre senten  as exclamativas  interrogativas e declarativas    fundamental para  a entona    o  Embora possa parecer uma tarefa simples de substitui    o  supress  o e  expans  o de s  mbolos  pode ser extremamente complexa quando certas entradas s  o  dependentes de contexto  AZUIRSON  2009    3 2 1 2  An  lise Lingu  stica e Morfossint  tica   A an  lise morfossint  tica      til para resolver ambiguidades com rela    o     transcri    o fon  tica  Por exemplo a palavra piloto pode ser pronunciada com som aberto  ou fechado  dependendo de sua fun    o morfol 
5.     o na Internet  possibilitando novas formas  de navega    o  o reconhecimento de voz pode ser usado para controlar navegadores   applets  preencher formul  rios  etc  SUN MICROSYSTEMS  1998     Ademais  o reconhecimento de voz pode ser usado para refor  ar a seguran  a de um  sistema  admitindo que altera    es sejam feitas apenas ap  s ser realizada a identifica    o  do interlocutor por meio de voz  SUN MICROSYSTEMS  1998     A s  ntese de voz pode auxiliar na redu    o de espa  o armazenado em disco em  aplica    es que fa  am uso de sa  das de voz pr   gravadas em um fator de at   1000 vezes  menor no tamanho de espa  o de armazenamento exigido  al  m de remover as limita    es  impostas por senten  as pr   definidas  SUN MICROSYSTEMS  1998     Por fim  os comandos por voz s  o naturais e mais f  ceis de lembrar que a    localiza    o de fun    es em menus e caixas de di  logo  SUN MICROSYSTEMS  1998      3 2 Vis  o geral de um sistema TTS   O diagrama de blocos de um sistema TTS convencional    mostrado na Figura 3 1   Um sistema TTS    composto por duas partes  um front end e um back end  O front end   por vezes chamado de bloco de Processamento Lingu  stico Pros  dico     composto por  m  dulos NLP  Natural Language Processing  que correspondem aos blocos de An  lise  do Texto     e inclui as etapas de Pr   processamento e An  lise Lngu  stica e    Morfossint  tica  An  lise Fon  tica e An  lise Pros  dica  J   o back end  tamb  m chamado    44    de Bloco de Proces
6.     rg  os respons  veis pela fona    o    Figura A 6  esquema de produ    o da voz humana    Figura A 7  localiza    o das pregas vocais    Figura A 8  laringoscopia direta   pregas vocais na respira    o profunda   Posi    o respirat  ria    Figura A 9  laringoscopia direta   pregas vocais fechadas  Posi    o de  fona    o    Figura A 10  laringoscopia direta   Parte intercartilag  nea da glote aberta na  posi    o de cochicho     Figura A 11   a  Movimenta    o das pregas vocais durante a fona    o   b     xi    107    112    112    112    113    114    114    119    120    122    128    128    129    130    131    132    134    134    134    135    135    Imagem real de uma prega vocal durante a fona    o    Figura A 12  ciclo fonat  rio    Figura A 13  fluxo do processo de leitura e fala como um processo  retroalimentado    Figura A 14  diagrama de blocos de um sintetizador de voz gen  rico    Figura A 15  varia    o espectral do pitch da vogal A    Figura A 16  modelo de uma linha de transmiss  o    Figura A 17  modelo de linha de transmiss  o aplicado ao trato vocal    Figura A 18  diagramas esquem  ticos  de blocos e de fluxo de sinal  integrados para a modelagem do trato vocal    Figura A 19  modelagem do trato vocal    Figura A 20  modelo geom  trico gen  rico do trato vocal    Figura A 21  curva Frequ  ncia  Hz  x Intensidade  dB     Figura A 22  modelo do trato vocal baseado em tubos de dimens  es  diversas    Figura A 23  diagrama de fluxo de sinais para o modelo
7.    Com o aumento da press  o nos pulm  es  o ar flui para fora destes e atravessa as  pregas vocais  glote   De acordo com a lei de Bernoulli  quando um fluido se desloca  por um orif  cio  a press  o    menor na constri    o do que nas   reas adjacentes  Se a  tens  o nas pregas vocais for adequada  a press  o reduzida permite que as pregas vocais  se toquem  bloqueando completamente o fluxo de ar  Como resultado deste bloqueio no  fluxo de ar  a press  o sob as pregas vocais aumenta at   finalmente atingir um n  vel  suficiente para for  ar abertura das pregas vocais e  assim  permitir o fluxo de ar atrav  s  da glote  A press  o na glote cai novamente e o ciclo se repete  LOPEZ  2009     Desta forma  durante a fona    o  as pregas vocais entram em uma condi    o de  oscila    o sustentada  A taxa com que a glote abre e fecha    controlada pela press  o de  ar nos pulm  es  pela tens  o nas pregas vocais e pela rigidez das mesmas  al  m da   rea  de abertura da glote na condi    o de repouso  Estes s  o os par  metros de controle de um  modelo para o comportamento das pregas vocais  Tais modelos devem tamb  m conter a  influ  ncia do trato vocal  uma vez que as varia    es de press  o no trato vocal interferem    nas varia    es de press  o na glote  LOPEZ  2009      133    Tais ciclos vibrat  rios se repetem muitas vezes por segundo  dependendo da pessoa  e da tens  o aplicada nas pregas vocais  formando o sinal glotal  Tal frequ  ncia  corresponde    frequ  ncia fundament
8.    Desambigua    o Hom  grafa    Convers  o Grafema Fonema    Fonema com Marca    es    An  lise Pros  dica      Dura    o e Pach    Controles    Sintese de Voz  Voz Sintetizada     gt      Renderiza    o da Voz    Figura 3 1  diagrama de blocos de um sintetizador de voz  Fonte   SCHROETER  2005   Adaptado      O front end possui um conjunto de algoritmos que devem normalizar o texto     aplicar regras para convers  o grafema fonema  divis  o sil  bica e marca    o de s  laba    45    t  nica  Estas informa    es s  o utilizadas para determinar as caracter  sticas pros  dicas da  fala  No HTS  HMM Based Speech Synthesis System  por exemplo  as informa    es  pros  dicas s  o agrupadas em um arquivo chamado de r  tulo de contexto e cont  m  informa    es de diversos n  veis  como fonemas  s  labas  palavras  frases  etc   COSTA e  MONTE  2012     A pontua    o n  o    infal  vel  Em ingl  s  por exemplo  o ponto pode tanto  representar separador decimal como fim de frase  Mapeamento de abrevia    es e siglas  tamb  m podem ter resultados amb  guos  Por exemplo  DC pode significar Distrito de  Columbia  mas tamb  m Corrente Cont  nua em ingl  s  Assim  a normaliza    o de um  texto e o m  dulo de normaliza    o afetam fortemente a taxa de precis  o de um sistema  TTS  bem como a an  lise lingu  stica  que    respons  vel por determinar sentido de  palavras    nfase  estilo de fala  emo    es  SCHROETER  2005     A convers  o grafema para fonema envolve a pron  ncia de uma palav
9.    UNIVERSIDADE FEDERAL DO CEAR    CENTRO DE TECNOLOGIA  DEPARTAMENTO DE ENGENHARIA DE TELEINFORM  TICA  PROGRAMA DE P  S GRADUA    O EM ENGENHARIA DE TELEINFORM  TICA    N  COLAS DE ARA  JO MOREIRA    Proposta de um Front End em Java para Sintetizador de Voz Baseado no MBROLA    FORTALEZA  2015    ii    N  COLAS DE ARA  JO MOREIRA    Proposta de um Front End em Java para Sintetizador de Voz Baseado no  MBROLA    Disserta    o apresentada ao PPGETI    Programa de P  s Gradua    o em  Engenharia de Teleinform  tica da  Universidade Federal do Cear    como  requisito parcial    obten    o do t  tulo de  Mestre em Engenharia de  Teleinform  tica    rea de concentra    o   Sinais e Sistemas   Prof  Paulo Cesar    Orientador  Dr     Cortez     FORTALEZA    2015    ili    Dados Internacionais de Cataloga    o na Publica    o  Universidade Federal do Ceara  Biblioteca de P  s Gradua    o em Engenharia   BPGE       M838p    Moreira  Nicolas de Ara  jo    Proposta de um Front end em Java para sintetizador de voz baseado no MBROLA    Nicolas de Aratijo Moreira      2015    205 f    il  color    enc    30 cm     Disserta    o  mestrado      Universidade Federal do Cear    Centro de Tecnologia   Departamento de Engenharia de Teleinform  tica  Programa de P  s Gradua    o em  Engenharia de Teleinform  tica  Fortaleza  2015      rea de concentra    o  Sinais e Sistemas    Orienta    o  Prof  Dr  Paulo C  sar Cortez     1  Teleinform  tica  2  Inclus  o digital  3  Acessibilidade  4  Voz   
10.    o 20     t    Acoswt   Bsenwt   20    LIMA  2010     A Equa    o de Movimento de Euler para o movimento de um fluido ideal sob a  exist  ncia de uma for  a externa F em um meio fluido de densidade p    dada pela  Equa    o 21      v       vV v     0P     21   T ae     LIMA  2010      A 3 Modelagem matem  tica do trato vocal   Para intervalos curtos de tempo  de 3 a 40ms  pode se modelar a voz por meio de  tr  s par  metros   a  a sele    o de excita    o por sequ  ncia de impulsos peri  dica ou por  ru  do gaussiano   b  a frequ  ncia fundamental  pitch  da excita    o peri  dica  quando  utilizada e  c  os coeficientes de um filtro recursivo linear simulando o trato vocal  cujo  esquema    representado pelo diagrama de blocos ilustrado na Figura A 14  Pode se  ent  o  sintetizar voz atualizando se continuamente estes par  metros cerca de 40 vezes  por segundo  Embora a qualidade sonora desta aproxima    o seja baixa  soando    mec  nico em vez de humano  requer baixa taxa de atualiza    o de dados  LOPEZ e    FANGANIELLO  2007      Voz sintetizada    Greta    Gerador de Ruido    gt   Sons n  o voc  licos   LN 3  o Gaussian      Switch Filtro Digital    HE Resposta do Trato Vocal    Gerador de Impub os  Sons voc  licos    Figura A 14  diagrama de blocos de um sintetizador de voz gen  rico     Um modelo detalhado do sistema vocal deve envolver pulm  es  br  nquios  traqueia   glote e o trato vocal  O primeiro trabalho abrangente em busca de um modelo f  sico    detalhado pa
11.    o de fonemas e  amplitudes  A etapa seguinte monta as unidades de acordo com uma lista de alvos  fornecidos pelo front end  Tais unidades s  o selecionadas dentro do invent  rio de  unidades sonoras dispon  veis  SCHROETER  2005     3 3 1 Desvantagens   Se por um lado  a s  ntese concatenativa se destaca por gerar resultados com alta  qualidade e com baixo custo computacional  por outro  sua desvantagem reside no fato  de  por utilizar peda  os de fala  pode gerar descontinuidade espectral  resultando em voz  met  lica  Entretanto  tal efeito pode ser minimizado com a sele    o e constru    o mais  rigorosa do invent  rio  AZUIRSON  2009     Outra desvantagem reside no fato da falta de flexibilidade  Os segmentos de forma  de onda existentes no invent  rio s  o constru  dos a partir de um falante em particular   Caso se deseje uma nova voz  deve se construir um novo invent  rio de formas de onda  com um novo falante  MAEDA  1995     Al  m disso  devido ao fato do banco de dados ser de tamanho finito     imposs  vel    alcan  ar todas as poss  veis variantes existentes na fala natural  Para que seja poss  vel     54    tem se de lan  ar m  o de t  cnicas que modifiquem a voz gravada em termos de din  mica  articulat  ria  timbre  ritmo e entona    o  T  cnicas no dom  nio do tempo s  o utilizadas  para modificar o pitch e a dura    o  mas poucas t  cnicas concatenativas realizam alguma  modifica    o espectral nas unidades sonoras  Uma destas poucas modifica    es consiste 
12.    o dos mesmos  com base nos deslocamentos observados  Assim     poss  vel obter imagens nas quais os  pixels representam a elasticidade em cada ponto dos tecidos  BRAND  O  2011     Certas partes do sistema de produ    o de voz podem ser melhor modeladas ao  considerarmos o aspecto estoc  stico  atrav  s da modelagem de incerteza das presentes  nessas partes  Isto pode ser feito atrav  s da associa    o de vari  veis aleat  rias a  par  metros do sistema e construindo  para cada vari  vel aleat  ria  uma fun    o  densidade de probabilidade de acordo com uma certa estrat  gia  Em determinados  artigos  as fun    es de densidade de probabilidade foram constru  das com base no  Princ  pio da M  xima Entropia  construindo um sistema din  mico n  o linear estoc  stico  visando a gera    o de sons vozeados  BRAND  O  2011     A tarefa da modelagem 3D das pregas vocais envolve detalhes com a colis  o das  pregas vocais  movimenta    o do fluxo de ar  varia    o dos carregamentos para as  diferentes posi    es e pontos das pregas vocais  estima    o medi    o dos valores iniciais e  de contorno  BRAND  O  2011     A depend  ncia da   rea de se    o transversal ao longo do trato vocal    chamada  Fun    o   rea do trato vocal  A fun    o   rea para uma vogal  por exemplo     determinada  principalmente pela posi    o da l  ngua  mas as posi    es do maxilar  l  bios  e  em menor  propor    o  a do v  u palatino tamb  m influenciam no som resultante  BRAND  O   2011     A fun    o  
13.   Assistive Technology     Service Provider Interface  CDC   Context Dependent Culstering   CSS   Concatenative Speech Syntehsis   DAM   Diagnostic Acceptrability Measure   DRT   Diagnostic Rhyme Test   ECI   Eloquence Command Interface   FFT   Fast Fourier Transform   HMM   Hidden Markov Models   HMMSS   Hidden Markov Model based Speech System  HNM   Harmonic plus Noise Model   JSAPI   Java Speech API   JSML   Java Speech Markup Language   JVM   Java Virtual Machine   LPC   Linear Predictive Coding   MBROLA   Multi Band Resynthesis OverLap Add  MECC   Mel Frequency Cepstral Coefficients   MLLT   Maximum Likelihood Linear Transformation  MOS   Mean Opinion Score   MRTD   Modified Restricted Second Order TD   NLP   Natural Language Processor   OMS   Organiza    o Mundial de Sa  de   PSOLA   Pitch Synchronous Overlap and Add   SAPI   Microsoft Speech Application Programming Interface  SMG   Stochastic Markov Graphs   SPR     Symbolic Phonetic Representation   SSML   Speech Syntehsis Markup Language   STFT   Short Time Fourier Transform    STM   Spectral Transition Measure    TD   Temporal Decomposition   TD PSOLA   Time Domain Pitch Synchronous Overlap Add  TE   Tree Expansion   TTS   Text to Speech   WAR   Word Accuracy Rate   WER   Word Error Rate    xvi    SUM  RIO    1  INTRODU    O   1 1 Impactos da falta de acessibilidade na vida di  ria do deficiente visual  1 2 Solu    es existentes para a integra    o social dos deficientes visuais no  Brasil   1 3 Objetivos   1 4 Trab
14.   Esta  abordagem prop  e estrutura em cascata   para um f  cil controle dos sons vozeados  e  em paralelo para os sons fricativos  A estrutura em cascata    melhor para sons vozeados   aproximando seu envelope espectral e permitindo um   nico controle de amplitude   Ressonadores digitais de segunda ordem s  o usados em s  ntese de formantes porque  filtros de ordem superior requerem bits adicionais nos seus coeficientes multiplicadores  para atingir a mesma precis  o espectral    Os fonemas vozeados que dominam a fala  tanto em tempo como energia  s  o  excitados na glote  assim  o filtro modela todo o trato vocal    As obstrutivas excitam apenas uma pequena por    o do trato vocal  gerando ru  dos  obstrutores  Assim  para os obstrutores  o trato vocal fornece resson  ncias de frequ  ncia  maior e bem menos energia nas baixas frequ  ncias  Usar ressonadores em cascata     inadequado em tais circunst  ncias  uma vez que os par  metros devem mudar  abruptamente ao se mudar de sons vozeados para obstrutores  sendo mais conveniente  usar filtros de segunda ordem em paralelo com os mesmos par  metros dos filtros em  cascata  excetuando o controle de amplitude  Enquanto que para os sistemas em s  rie  apresentam um   nico controle de amplitude  na estrutura em paralela    variada  separadamente    Um banco de filtros paralelos pode ser usado para sons vozeados  mas cada  amplitude formante deve ser especificada individualmente  Tal controle de amplitude     essencial para os obst
15.   Ol    professor    gerada    por locutor humano     Um espectrograma  ou sonograma     a representa    o da varia    o tempo frequ  ncia  em que o valor em um dado ponto  isto     a pot  ncia de uma dada frequ  ncia num dado  instante de tempo    representado por um n  vel de uma cor em uma dada escala  crom  tica  Por fim  utilizando o comando specgram  do Matlab v  2013a  foi gerado o  espectrograma  gr  fico Frequ  ncia x Tempo  mostrado na Figura 6 3a  por meio dos    seguintes comando     Ly  fs  wavread  Teste wav      l   o arquivo de   udio   left y   1     fy   fft left     transforma forma de onda do dominio do tempo  para      o dominio da frequ  ncia usando FFT  figure     specgram fy    exibe espectrograma    Sendo o mesmo resultado comparado com o espectrograma da voz natural  mostrado    Figura 6 3b     114    Frequency       1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000  Time    Figura 6 3a  espectrograma obtido para a frase    Ol    professor    gerada pelo sintetizador     Frequency             Figura 6 3b  espectrograma obtido para a frase    Ol    professor    gerada por locutor humano     115    O que se pode observar nestes resultados    a aus  ncia dos pontos de concatena    o  na voz natural  Fato facilmente observado no espectrograma mais    suave    da voz  natural que mostra a varia    o gradual de pot  ncia  representado pela varia    o mais  cont  nua da cor   em compara    o com o resultado descont  nuo gerado pelo sintetizador    Pe
16.   On gt K    em que P    o instante do valor de pico e K o instante em que ocorre a oclus  o completa   O c  digo desenvolvido em Matlab mostrado abaixo gera sinais glotais  cujas    respostas s  o mostradas nas Figuras A 31 e A 32     P 35  K 40    for n 1 P 1  g n  0 5  1 cos pi  n 1  P      end   for n P 1 K 1  g n  cos pi  n 1 P  2  K P      end   plot  0 K  g    fs 8000   t 0 04   f0 100 TO fs fO    N floor fs t  K    x zeros 1 N     for i 1 TO N  x i  1    end   y conv x g    figure 2    plot  0 N K 1  y        na   Fa  0 8    0 7    0 6    0 5     0 47  0 3 F  0 2       0 17             Figura A 31  resposta obtida para o c  digo MATLAB para obten    o de sinais glotais     151    152       ogh   E            0 8 b                    oep          1  osk               o4t     l   l l    0 24 o py        014                        0 L T L E E L    0 50 100 150 200 250 300 350       Figura A 32  resposta obtida para o c  digo MATLAB para obten    o de sinais glotais     4 3 4 Modelo do Trato Vocal com Perdas  O grau de resist  ncia que o meio oferece ao movimento se traduz nos conceitos de  imped  ncia ac  stica  definida como o quociente entre as transformadas de Laplace da  press  o e a velocidade e no conceito dual de admit  ncia ac  stica  que    por sua vez o  quociente entre as transformadas da velocidade a press  o  A admit  ncia pontual    dada  por   Va  o  x S      VOS     i 3 Ppareae 0  x  s      50     em coordenadas cil  ndricas  0  x   sendo Pparede 0  x  S 
17.   Time  mS  Frequency  KHz     Figura 2 1  espectro de sons vozeados e sons n  o vozeados  Fonte   SPANIAS  1994      Para efeitos de an  lise  o sinal    considerado nulo fora da janela de observa    o  o  intervalo de 5 a 20 ms em que o sinal    considerado estacion  rio  ou seja  seja s n  sinal  de voz  o sinal observado x n     dado por x n    s n w n   em que      n     0 O lt n lt N 1  VU lo  n lt 00un gt N 1     A transformada localizada de Fourier X n  6   chamada tamb  m de STFT   Short     2     Time Fourier Transform  do sinal x n     a transformada de Fourier do sinal    x m w n     m  em que w n     uma janela de pondera    o    x n 0       x m w n   m esJ      g9 2nfT  3   m    e para um sinal amostrado  N 1  X n k    2 x m w n     m e IPMN    4   m 0    Fd    A transformada localizada de Fourier    uma fun    o da frequ  ncia f ou k e do    instante central de observa    o     38    Devido    natureza n  o estacion  ria do sinal de voz  a transformada localizada de  Fourier    uma das principais ferramentas de an  lise na frequ  ncia  O resultado que se  obt  m e a convolu    o da transformada do sinal com a transformada da janela    Para an  lise de um segmento longo n  o estacion  rio de sinal  usa se uma janela  deslizante no tempo e para cada posi    o da janela  determina se a transformada  localizada    2 6 2 Frequ  ncia Fundamental   Pitch    frequ  ncia fundamental de vibra    o das cordas vocais que produzem sons  vozeados que    a caracter  stica mai
18.   como a equa    o    de ordem p  temos ent  o p ra  zes caracter  sticas z   Geralmente  para  voz masculina  temos p   10 e as ra  zes formam pares complexos conjugados de forma  que todos os coeficientes     assumem valores reais  LOPEZ e FANGANIELLO  2007    A s  ntese de voz utilizando o modelo de equa    es de diferen  as requer que   primeiramente  um segmento de voz real seja analisado para que se possa determinar  quais coeficientes     s  o mais apropriados para cada segmento de 10ms  Para cada um  destes segmentos  deve se calcular um conjunto de coeficientes   j  O processo de  extra    o de um bloco de 10ms do sinal original    chamado janelamento  A fun    o de  janelamento mais comum    a Janela de Hamming  que apresenta transi    o mais suave   evitando problemas de an  lise  LOPEZ e FANGANIELLO  2007    Ap  s o janelamento  uma an  lise estat  stica dos dados que determina o grau de    correla    o entre as amostras adjacentes    utilizada para se calcular os coeficientes que    140    forne  a a melhor predi    o do sinal  isto     que minimize o erro de predi    o  Uma vez  encontrados estes coeficientes  pode se sintetizar voz aplicando se um sinal apropriado  de entrada ao modelo  No caso de sons vozeados  um bom modelo da fonte para o sinal  de entrada    um trem de impulsos ideais a uma dada frequ  ncia  sendo que a frequ  ncia  determina o pitch  J   no caso de sons n  o vozeados  um bom modelo de fonte para o  sinal de entrada    um ru  do branco gaus
19.   de grande utilidade para o processamento  pros  dico  O resultado da transcri    o fon  tica    dependente da l  ngua para o qual o  sistema    projetado  pois o conjunto de fonemas e o mapeamento entre letras e fonemas  varia bastante de uma l  ngua para outra  Algumas l  nguas s  o bastante fon  micas  ou  seja  a escrita    muito pr  xima da express  o oral  como o russo  italiano e espanhol   quando comparadas a outras mais irregulares  como ingl  s e franc  s  e nesse caso  a  dificuldade de realizar a transcri    o    bem menor  A l  ngua portuguesa    razoavelmente  fon  mica  entretanto  ainda assim  a transcri    o n  o    uma tarefa trivial  AZUIRSON   2009     A transcri    o fon  tica    realizada com base em um conjunto de regras  sendo que  algumas palavras fogem totalmente   s regras de transcri    o  algumas por serem  estrangeiras  Este problema  entretanto  pode ser facilmente contornado por meio de um  dicion  rio de exce    es  contendo a palavra com sua respectiva transcri    o fon  tica  A  busca pela palavra no dicion  rio de exce    es    a primeira tarefa realizada quando  iniciado o m  dulo de transcri    o fon  tica  Quando a palavra n  o    encontrada no  dicion  rio  ent  o se segue a divis  o sil  bica  identifica    o da s  laba t  nica e aplica    o  das regras de transcri    o  Para o portugu  s  a aplica    o direta das regras de transcri    o     adequada para boa parte dos casos  AZUIRSON  2009     A determina    o de s  labas t  nicas   
20.   entender  e naturalidade   o quanto a voz  se parece com a humana  A clareza e a compreens  o est  o relacionadas com todas as  etapas descritas no processo de s  ntese  uma vez que qualquer erro em uma delas poder    afetar a compreens  o de modo a n  o se fazer entender ou ser entendido erroneamente  A    naturalidade est   ligada mais pelos est  gios finais do processo  mais especificamente    73    pelo processo de m  trica e gera    o da forma de onda  PITT  1996  SCHUMACHER   1995  YANKELOVICH  1995        poss  vel se ter uma voz completamente artificial e completamente compreens  vel  bem como ter uma voz natural  mas que nem sempre seja poss  vel entender  embora  isso seja menos comum  SUN MICROSYSTEMS 1998     Abaixo s  o descritos algumas situa    es nas quais os sintetizadores podem gerar  resultados insatisfat  rios    3 4 1 Erros quanto    normaliza    o do texto   Mudan  a de pron  ncia de uma mesma palavra em diferentes contextos  Para este  caso a solu    o proposta    o uso de heur  sticas  estat  sticas de frequ  ncia de ocorr  ncia   examinando os vizinhos a fim de realizar a desambigua    o de hom  grafos    Recentemente tem sido usados t  cnicas com HMM  cuja taxa de erro tem sido  inferior a 5   Converter n  meros    um problema tamb  m frequente  pois a forma como  s  o lidas    dependente de contextos  podendo ser lidos um a um ou como um n  mero    nico  Por exemplo  123 pode ser lido como um dois tr  s ou cento e vinte e tr  s   Algarismos romano
21.   estar pr  ximo ao dispositivo  Al  m disso  o uso de sistemas baseados em voz admite a  intera    o atrav  s do telefone e garante acessibilidade aos deficientes visuais  Outras  aplica    es poss  veis s  o  ensino de l  nguas estrangeiras  livros e brinquedos falantes     AZUIRSON  2009      43    Em salas de cirurgia  onde cirurgi  es mant  m suas m  os ocupadas e o eventual  contato com teclados representam um risco    higiene  comandos de equipamentos  m  dicos por voz podem facilitar o andamento de um procedimento cir  rgico    Adicionalmente  os sistemas de voz t  m sido amplamente utilizados em call centers  de empresas  por oferecerem um meio de intera    o mais natural e substancialmente  mais eficiente e r  pido do que interfaces baseadas em digita    o  Aplica    es em  empresas de telefonia com hardware dedicado capazes de suportar um grande n  mero  de conex  es simult  neas por exemplo  usando cart  es DSP  com capacidades para  reconhecimento e s  ntese de voz podem ser substitu  das em parte por tais aplica    es    Tecnologias de voz t  m sido integradas em um grande n  mero de sistemas  embarcados de pequena escala como forma de reduzir mais ainda o tamanho  como  PDAs  Personal Digital Assistant   brinquedos e controles de dispositivos em geral   Intera    es via voz podem ser uma alternativa mais atraente como interface em  smartphones  ao inv  s da tecnologia touch screen  Al  m disso  podem permitir tamb  m  que seja melhorada a experi  ncia de navega
22.   fonos  uma vez  que semi fonemas permitem que o algoritmo de busca criem d  fonos que n  o foram  gravados a partir dos semi fonemas  A busca   tima pelas unidades    dependente de  fatores como a similaridade espectral nos contornos das unidades e r  tulos pros  dicos  configurados pelo front end  SCHROETER  2005     Durante o treinamento  as unidades s  o escolhidas para o banco de dados em fun    o  de dois custos a serem minimizados  o da escolha apropriada da unidade durante a  execu    o para um dado contexto fon  tico e a jun    o bem sucedida das unidades  Caso  as unidades armazenadas sejam de baixa qualidade ou redundantes  o resultado ser    ruim  Caso as unidades sejam boas  mas as transi    es ruins  a s  ntese apresentar   muitas  descontinuidades  O algoritmo deve examinar muitas frequ  ncias diferentes dentre as  unidades eleg  veis existentes no banco de dados  calculando os custos propostos para  cada unidade em termos de custo calculado para cada caracter  stica desejada da unidade  e o custo de concatena    o  Caso a distor    o seja excessiva  o banco de dados     atualizado  adicionando novas unidades ou atualizando o banco de dados  reduzindo a  distor    o m  dia  Tal solu    o pode ser aplicada tamb  m a distor    es intersegmentais e a  falhas ac  sticas causadas pela suaviza    o requerida pelas unidades na fun    o de  quadros temporais adjacentes  Embora se deseje minimizar todos os custos  ainda n  o  h   resultados claros sobre qual deve predo
23.   interaritendidea       Figura A 9  laringoscopia direta   pregas vocais fechadas  Posi    o de fona    o  Fonte   PUTZ  2001      135    Epiglote              Rima da glote     Prega vocal Parte intermembran  cea    Rima da glote            Prega vestibular    Parte intercartilaginea       Figura A 10  laringoscopia direta   Parte intercartilaginea da glote aberta na posi    o de cochicho  Fonte    PUTZ  2001          b     Figura A 11   a  Movimenta    o das pregas vocais durante a fona    o   b  Imagem real de uma prega    vocal durante a fona    o  Fonte  BRAND  O  2011      136    Cada prega ou corda vocal    uma dobra de tecidos que se comportam como um  conjunto mec  nico composto por m  sculo e ligamentos r  gidos e pesados revestidos por  um conjunto composto por tecido conjuntivo e epitelial flex  vel  O fluxo de ar     modulado    medida em que as pregas vocais abrem e fecham ciclicamente  A vibra    o  gotal ocorre de forma aproximadamente peri  dica  mas com velocidade de fechamento  maior que a de abertura em cada ciclo  que permite o aparecimento de uma componente    harm  nica al  m da fundamental  LIMA  2010   A din  mica das pregas vocais       mostrada na Figura A 12  na qual est   mostrado um ciclo completo  LIMA  2010         Ajustes fechada abertura fechamento fechada    Pr         rapido   A    fonat  rios  Figura A 12  ciclo fonat  rio  Fonte   LIMA  2010         Dependendo da frequ  ncia e intensidade do som que se deseja produzir  podem ser  realiza
24.   isto    chamado de mapeamento texto para fonema ou ainda mapeamento  letra para som e geralmente    feito por meio de    Lookup Tables     Um dicion  rio  tamb  m pode ser usado  incluindo todas as palavras  sua pron  ncia   com marca    o de  s  laba t  nica  categoria e informa    es sint  ticas e sem  nticas  Alguns sistemas tamb  m  possuem regras para prever a pron  ncia  por exemplo  na l  ngua inglesa  o som p     pronunciado como  p   exceto quando sucedido por h  Em certas l  nguas  como o  coreano e espanhol  tal mapeamento    simples  j   que a h   uma rela    o direta de um   para um entre letras e fonemas  Outras l  nguas s  o descritas por um pequeno conjunto  de regras  como o italiano e o alem  o  J   outras s  o mais complexas  como o ingl  s e o  chin  s  Nos sistemas TTS mais sofisticados  os erros se limitam a nomes pr  prios e  palavras estrangeiras n  o existentes no dicion  rio  SHAUGHNESSY  2003     3 2 1 m  dulo de processamento lingu  stico pros  dico  O objetivo da etapa de processamento lingu  stico pros  dico    obter uma sequ  ncia  de unidades sonoras correspondentes ao texto de entrada em conjunto com os    par  metros referentes    pros  dia     47    Os sub processos envolvidos nesta etapa est  o mostrados na Figura 3 4  que s  o   Pr   Processamento  An  lise Lingu  stica e Morfossint  tica  Transcri    o Fon  tica e    Processamento Pros  dico                     Processamento  Pros  dico    An  lise Lingu  stica  e Morfossint  tica    Pr
25.   m apresenta baixo   ndice de sucesso  As barreiras encontradas  pelos portadores de defici  ncia visual s  o  em larga escala  resultado direto de produtos  e servi  os que n  o foram projetados com o intuito de serem acess  veis  A fim de reduzir  essas barreiras     necess  rio adicionar suporte   s tecnologias assistivas    Aplica    es gr  ficas n  o s  o transformadas adequadamente em aplica    es de fala  por diversas raz  es  Primeiro  aplica    es gr  ficas nem sempre refletem o vocabul  rio   ou at   mesmo conceitos b  sicos  que duas ou mais pessoas usam enquanto est  o  falando  Por exemplo  ao se referir a um calend  rio  as pessoas costumam usar datas    33 66    relativas  como    daqui a uma semana        amanh          depois de amanh       etc    A organiza    o da informa    o    outro ponto importante a ser considerado   Apresenta    es que costumam funcionar bem em ambientes gr  ficos costumam fracassar  completamente em ambientes falados  Ler exatamente o que est   escrito na tela  raramente    efetivo  podendo soar at   mesmo estranho ao usu  rio  Como em um cliente  de e mail  em que  por exemplo  s  o mostradas informa    es de remetente  assunto  data  e hora e tamanho  Al  m de tomar tempo falar todas essas informa    es  nem todas s  o  necess  rias  como o tamanho  e soam pouco natural  Ap  s se ler dez mensagens  por  exemplo  o usu  rio j   esqueceu informa    es relevantes sobre o primeiro    Primeiramente     mais   til organizar os e mails p
26.   nasal  h   produ    o de sons nasais  como  m  ou  n   A cavidade oral  embora constrita   permanece acusticamente acoplada    faringe e  dessa forma  a boca atua como cavidade  ressonante  ou seja  sons nasais como  por exemplo  o  n   se devem devido ao  acoplamento ac  stico do trato nasal com o trato vocal  LOPEZ  2009  SPANIAS   1994     Sons pulsantes  como o  p  por exemplo  s  o produzidos ao soltar a press  o do ar  produzido atr  s do fechamento do trato vocal abruptamente  SPANIAS  1994     Com o intuito de uma vis  o global da complexidade da l  ngua portuguesa  seus    fonemas est  o mostrados na Tabela 2 5     Tabela 2 5  fonemas da l  ngua portuguesa                                                                                   S  mbolo Exemplo Transcri    o Fonol  gica   p  Paca  paka    b  Bula  bula    t  Tara  tara    d  Data  data    k  Cara  quero  kara   k  ro    g  Gola  guerra  g  la    g  Ra    f  Faca  faka   TAZ Vala  vala    s  Sola  assa  mo  a  sola    asa    mosa    a  Asa  zero  aza    z  ro   Ixl Mecha  x    m  xa    xa    j  Jaca  gela  jaka    jela    m  Mola  m  la    n  Nata  nata   my Ninho  nino   MV Lata  lata   IAI Calha  kaha   Irl Para  para    R  Rota  carro  a Ir  ta   KaRosa   Jal C    ka        Mel  m  l   lel Seda  seda   fil Rica frica    6  Mola  mola                 35    Tabela 2 5  fonemas da l  ngua portuguesa  continua    o                  S  mbolo Exemplo Transcri    o Fonol  gica   o  Tola  tola    u  Gula  gula  
27.   o    Formantes    Hrnacr  08     Fator de Amplitude g1    Digital  e  Digits        Filter       Filtro 2  Fator de Amplitude g2    Figura B 2  diagrama de blocos explicando a sintese baseada em formantes  Fonte   SCHROETER  2005      Adaptado e Traduzido      B 3 S  ntese baseada em sele    o autom  tica de unidades   Na s  ntese concatenativa  os d  fonos devem ser modificados por meio de t  cnicas de  processamento de sinais a fim de produzir a pros  dia desejada  Tal modifica    o pode  resultar em sons n  o naturais  A s  ntese de sele    o de unidades resolve este problema  armazenando no invent  rio m  ltiplas inst  ncias de cada unidade sonora  com diversas    pros  dias  A unidade se se adequa mais    pros  dia    ent  o selecionada por um    171    algoritmo de sele    o baseado na minimiza    o de fun    es custo  chamadas de fun    o   alvo e fun    o de concatena    o  e concatenada de tal forma que as modifica    es nas  unidades sejam m  nimas ou simplesmente n  o sejam necess  rias  TABET  2011     A s  ntese por sele    o unidades fornece grande naturalidade  pois h   pouca  necessidade de grandes altera    es na unidade gravada por meio de t  cnicas de  processamento digital de sinal  que tornam a voz menos natural  exceto  eventualmente  em alguns pontos de concatena    o  al  m de minimizar a descontinuidade espectral e  pros  dica  Assim  a sele    o autom  tica de unidades requer muito menos modifica    o  das unidades sonoras  o que leva a uma qualida
28.   o do MBROLA  os fonemas podem ser sintetizados  com uma dura    o m  xima que depende da frequ  ncia fundamental em que foram  produzidas  Maior a frequ  ncia  menor a dura    o  Para uma frequ  ncia de 133 Hz  a  dura    o m  xima    de 7 5 s  Para a frequ  ncia de 66 5 Hz  a dura    o    de 15 s  e para a  frequ  ncia de 266 Hz esse valor    de 3 75 s    Assim  o conjunto composto pelo front end e o MBROLA forma um sistema TTS  completo  capaz de converter texto em sinal de voz       importante frisar que  embora o foco desta Disserta    o seja a l  ngua portuguesa  o  uso do MBROLA permite que o sistema possa ser modificado para todas as l  nguas  dispon  veis para o mesmo  desde que se atente para as devidas modifica    es das regras  de transcri    o fon  tica e de pros  dia    O sistema n  o exige equipamentos robustos  muito menos hardware adicional   5 3 4 O pacote de softwares desenvolvido   O projeto    composto por um sintetizador de voz  editor de texto  cliente de e mails   chat  navegador web e lente de aumento  cujas respectivas interfaces s  o mostradas na  Figura 5 5  A escolha a respeito das ferramentas presentes no pacote de software  proposto deve se ao fato de serem as aplica    es mais comuns e   teis para usu  rios de  computador em geral e  embora j   existam algumas solu    es acess  veis para aplica    es  como lente de aumento e sintetizador de voz  n  o h   atualmente um pacote que integre  todas essas aplica    es  seja nativamente multiplatafor
29.   o dos par  metros  amostrais da voz  que ser   a entrada para um filtro MLSA  respons  vel por gerar  aproxima    es de voz baseado em par  metros amostrais  criando assim  voz sintetizada   COSTA e MONTE  2012     A etapa de treinamento    semelhante   quela existente em sistemas de  reconhecimento de voz  A principal diferen  a reside no espectro  coeficientes mel   cepstrais e sua din  mica  e par  metros de excita    o  Log fo  que s  o extra  dos a partir de  um banco de dados e modelado por HMMs dependentes de contexto   contextos  fon  ticos  lingu  sticos e pros  dicos s  o levados em considera    o  A modelagem dos  par  metros envolvem distribui    es de probabilidade multi espa  o  Log fo  e densidades  de dura    es de estado para modelar estruturas temporais da fala  Assim  o sistema    modela espectro  excita    o e dura    o     178    Os par  metros alterados na etapa de treinamento s  o os seguintes  fator alfa  ordem  de an  lise mel cepstral e frame shift    O fator alfa    relacionado    distor    o da fala e    diretamente dependente da  frequ  ncia de amostragem e tamb  m do locutor  J   a Ordem de an  lise mel cepstral  define a quantidade de padr  es que ser  o analisador por quadro  Assim  maior a ordem   melhor o resultado da an  lise  Por  m     importante observar que para baixas taxas de  amostragem pode ser at   prejudicial uma an  lise muito grande  pois aumentando a  an  lise  n  o estar   aumentando q quantidade de informa    o nos padr  es 
30.   o subnormal aquele que l    tipos impressos ampliados ou com aux  lio de recursos   pticos mais poderosos   INSTITUTO BENJAMIN CONSTANT  2015     De acordo com o Instituto Benjamin Constant  uma pessoa    considerada cega se  corresponde a um dos crit  rios seguintes  a vis  o corrigida do melhor dos seus olhos     de 20 200 ou menos  isto     se ela pode ver a 20 p  s  6 metros  o que uma pessoa de  vis  o normal pode ver a 200 p  s  60 metros   ou se o di  metro mais largo do seu campo  visual subentende um arco n  o maior de 20 graus  ainda que sua acuidade visual nesse  estreito campo possa ser superior a 20 200  INSTITUTO BENJAMIN CONSTANT   2015     Nesse contexto  caracteriza se como portador de vis  o subnormal aquele que possui  acuidade visual de 6 60 e 18 60 em escala m  trica e ou um campo visual entre 20 e 50       INSTITUTO BENJAMIN CONSTANT  2015      29    2 2 Inclus  o digital   Por inclus  o digital  entende se como a permanente busca por igualdade de  condi    es e oportunidades a fim de evitar situa    es de priva    o  Na pr  tica  isso  significa favorecer o acesso do cidad  o ao mundo virtual  reduzir o analfabetismo  digital por meio do fornecimento de conhecimento b  sico sobre inform  tica e melhorar  e adaptar a interface para o seu p  blico alvo  Em outras palavras  para pessoas com  necessidades especiais  a inclus  o digital envolve quebrar barreiras arquitet  nicas  de  comunica    o e de acesso f  sico a equipamentos e softwares adequados  e 
31.   rios gerais  afirmou que n  o usaria de forma alguma o sistema  baseado no FreeTTS  proposta B   ficando com as propostas A e C  informando ainda  que as op    es A e C apresentam s  ntese quase humanas   n  o deixando a desejar de  jeito nenhum   sic  quando comparado com todas as ferramentas as quais teve acesso   como  por exemplo  DOSVOX e NVDA  e disse que o projeto se encontrava  no rumo  certo     sic     O sistema foi testado tanto em ambientes GNU Linux como em Microsoft  Windows  apresentando em ambos a mesma qualidade    Al  m de servir de front end para o MBROLA  o sistema pode ser modificado  facilmente para prover suporte ao Java Speech API e API do Google Translator     fornecendo suporte para diversas l  nguas estrangeiras al  m do portugu  s     6 4 Testes em campo  an  lise quantitativa   Por se tratar de um crit  rio subjetivo do ouvinte  avaliar vozes e falar humanas     uma tarefa dif  cil de ser realizada  COSTA e MONTE  2012   Neste trabalho  foram  usadas como principais m  tricas o MOS e o WER WAR    O MOS  Mean Opinion Score     uma m  trica se baseia na m  dia de conceitos que  v  o de 1 a 5  obedecendo a seguinte escala    1   Muito ruim    2     Ruim    3     Razo  vel    4     Bom    5     Excelente    Assim  o MOS    utilizado para verificar  a naturalidade e a inteligibilidade da fala   No que diz respeito    naturalidade da fala  o ouvinte    convidado a identificar se uma  determinada fala que ouviu    natural e tentar distinguir se foi pro
32.   sculo A    o Principal  Cricotireoideo Estica e tensiona a prega vocal   Cricoariten  ideo posterior Abduz a prega vocal    Cricoariten  ideo lateral Abduz a prega vocal  por    o interligamentosa    Tireoariten  ideo Relaxa a prega vocal        Ariten  ideos obl  quo e transverso   Fecha a por    o intercartilag  nea da rima da glote           Relaxa a parte posterior do ligamento vocal enquanto mantendo    Vocal  ou aumentando a tens  o da parte anterior            Fonte   MOORE e DALLEY  2001      O trato vocal funciona como um guia de onda ou filtro ac  stico que deixa passar o  sinal sonoro produzido pela vibra    o das pregas vocais em determinadas frequ  ncias   enquanto atenua outras  Tal vibra    o das pregas vocais resulta na produ    o de voz e     resultante do fluxo de ar proveniente dos pulm  es  ocasionando o chamado Efeito    Bernoulli  mostrado na Figura A 4  BRAND  O  2011          Fluxo de ar  dos pulm  es       L  bios          A    Trato Vocal    Figura A 4  efeito de Bernoulli nas pregas vocais     No processo de emiss  o de voz  h   cinco fen  menos relacionados  a respira    o  a  fona    o  a resson  ncia  a articula    o e a pros  dia  Na respira    o  o f  lego e o controle  respirat  rio s  o importantes para que n  o ocorra interrup    o durante a fala  O fen  meno  da fona    o se refere    qualidade e   s caracter  sticas da voz produzida pela laringe  enquanto que a resson  ncia    a modifica    o seletiva da inflex  o na voz quando a  corren
33.   seja f  sica  sensorial  cognitiva ou outra   n  o    somente a habilidade reduzida que    afetada     necess  rio come  ar a atuar em um    mundo em que muitos aspectos da vida di  ria mudam radicalmente     1 2 Solu    es existentes para a integra    o social dos deficientes visuais no Brasil   Diversas medidas t  m sido adotadas por governos e pela sociedade a fim de  assegurar a integra    o social de pessoas com defici  ncia  Deficientes auditivos podem   por exemplo  acompanhar programa    o televisionada por meio de fun    es como Closed  Caption   legendas que transcrevem o que est   sendo falado  Institui    es de ensino tem  procurado difundir a Linguagem Brasileira de Sinais  LIBRAS  a fim de melhor  capacitar ouvintes e deficientes auditivos  permitindo que ambos possam se comunicar  por meio de uma linguagem padr  o  Nos setores da constru    o civil  arquitetura e  transporte  tem se difundido os conceitos de acessibilidade por meio da constru    o de  rampas e elevadores para garantir uma melhor mobilidade daqueles que apresentam  dificuldade de locomo    o    No caso de deficientes visuais  bibliotecas p  blicas t  m procurado disponibilizar  parte de seu acervo em Braille  Al  m disso  medidas de acessibilidade para deficientes  visuais t  m sido preocupa    es n  o s   a n  vel nacional como tamb  m internacional   Organismos respons  veis por estabelecer padr  es na internet teceram recomenda    es e  normas a fim de assegurar o acesso para aqueles que en
34.   tornam se imprescind  veis    Um outro problema que aparece nesse tipo de processamento    o serrilhado   aliasing   no momento seguinte    amplia    o da imagem  A solu    o desse problema   por  m     cr  tica  Seu custo computacional    alto e a aplica    o em quest  o    dependente  de respostas em tempo real  Assim  a pesquisa e ou desenvolvimento de um algoritmo  de anti aliasing eficiente torna se igualmente necess  rio    N  o basta aos ampliadores um tratamento baseado apenas no tamanho da letra  na  cor de fundo e ou no contraste da tela  H   mais par  metros em jogo nesse processo   profundidade  luminosidade  contorno  tanto da letra quanto do desenho exibido    Seguindo a necessidade de desenvolver facilmente uma interface gr  fica simples   o  que implica programa    o gr  fica  em um sistema que tem por objetivo ser port  vel  a    lente de aumento virtual foi desenvolvida tamb  m usando a linguagem Java e fazendo    109    uso da replica    o do vizinho mais pr  ximo por uma quest  o de simplicidade e  velocidade   5 3 4 2 Editor de Texto   O editor de texto desenvolvido apresenta uma interface simples e com poucas  funcionalidades  como abrir  salvar  sair  copiar  recortar e colar  semelhante ao Gedit  do Gnome ou Notepad do Microsoft Windows  trabalhando com textos simples  sem  imagens ou itens de formata    o  como cor  estilo do texto  etc  Ao salvar o arquivo  o  sistema l   o texto que foi digitado   5 3 4 3 Aplica    es de Chat   Foi desenvolvido ta
35.   vel por influenciar a dura    o do fone  Baseado na l  ngua  inglesa  estabeleceu se o seguinte conjunto de regras  cada segmento possui uma  dura    o intr  nseca  correspondente a um valor m  dio da distribui    o dos valores que  aquele segmento pode assumir e cada regra tenta prever a varia    o percentual a fim de  efetuar um aumento ou diminui    o na dura    o do segmento  Al  m disso  os segmentos  n  o podem assumir valores menores que uma certa dura    o m  nima  AZUIRSON     2009    A equa    o b  sica desse modelo pode ser expressa por  AZUIRSON  2009      N  D   Drin       kj Di     Din    5   j 1    Em que D    a dura    o calculada para o segmento  D     a dura    o intr  nseca para o  segmento  Dmin    a dura    o m  nima para o segmento  k     um fator de ajuste da  dura    o associada    regra j en    n  mero de regras aplic  veis ao contexto  Esta equa    o  expressa a contribui    o ponderada da diferen  a entre as dura    es intr  nseca e m  nima  para a dura    o de cada segmento  Este c  lculo    fundamental  pois uma dura    o correta    faz com que o resultado se aproxime o m  ximo poss  vel de um falante natural     51    As regras se aplicam a fonemas  s  labas  palavras  constituintes pros  dicos e  senten  as  salientando que essas regras espec  ficas para cada l  ngua  sendo no caso do  modelo de Klatt  a l  ngua inglesa  AZUIRSON  2009     Nas regras definidas por Klatt  n  o foram determinados os valores dos par  metros  associados a cada reg
36.   vogais s  o mais intensas que consoantes  e  obviamente  s  labas t  nicas mais  intensas que as   tonas    A dura    o est   fortemente ligada com fonemas  sendo que as vogais s  o mais longas  do que as consoantes  bem como s  labas t  nicas em rela    o   s   tonas  A frequ  ncia  fundamental ou pitch  Fo     o par  metro mais complexo  apresentando grandes  mudan  as em Fonas s  labas enfatizadas    Especificar uma entona    o natural    dif  cil  H   poucos indicadores confi  veis que  ajudam a especificar efeitos entonacionais  Sistemas de s  ntese de voz inserem pausas  ap  s pontos finais  de interroga    o  de exclama    o  dois pontos e ponto e v  rgula  Em  muitas l  nguas  uma pausa entonacional ocorre ap  s uma palavra de conte  do  aquelas  que cont  m informa    o  como substantivos  verbos  adjetivos e adv  rbios  e antes de  palavras de fun    o  como preposi    es  artigos  pronomes  etc  Em geral  locutores  destacam a palavra final em uma sequ  ncia de palavras de entona    o    Tradicionalmente  a entona    o    especificada por meio de regras baseadas em  informa    es sem  nticas fornecidas por um bloco de processamento denominado NLP   Natural Language Processor   a ser detalhado mais adiante  entretanto  obter  entona    o direta e automaticamente por meio de treinamento    mais vi  vel  n  o sendo    necess  rio que especialistas interpretem dados manualmente  SHAUGHNESSY  2003      41    3  VIS  O GERAL E PROJETO DE UM SISTEMA DE S  NTESE DE VOZ V
37.  2   N  o usar sinaliza    o ou textos brilhantes  objetos  ou outros       objetos tendo brilho com frequ  ncia superior a 2HZ e inferior  a 55Hz              Observa    o  N  o contempla aplica    es Web   Fonte   SANTOS  2010         204    ANEXO B  QUESTION  RIO DE TESTE DE QUALIDADE       UNIVERSIDADE FEDERAL DO CEAR    CENTRO DE TECNOLOGIA    PROGRAMA DE P  S GRADUA    O EM ENGENHARIA DE  TELEINFORM  TICA    QUESTION  RIO DE TESTE DE QUALIDADE  Aluno  Eng  N  colas de Ara  jo Moreira  Orientador  Prof  Dr  Paulo Cesar Cortez    O presente question  rio visa coletar resultados qualitativos a respeito do projeto  desenvolvido a partir de opini  es  depoimentos e sugest  es emitidos por volunt  rios  deficientes visuais para fins de teste e valida    o     1  NATURALIDADE DA FALA   A     produzido por voz humana pr   gravada ou sintetizada por computador       Voz humana pr   gravada     Sintetizada por computador   B  Qualidade da Voz     1  Muito Ruim  2  Ruim  3  Razo  vel  4 Bom  5  Excelente    2  TESTE DE INTELIGIBILIDADE  A respeito das frases a serem sintetizadas   Ol    seja bem vinda ao projeto LESC Vox  Obrigada por usar o nosso sistema     Seja bem vindo ao projeto de acessibilidade    Ver com os ouvidos     O que voc    gostaria de fazer     Quantas palavras n  o foram entendidas ou foram entendidas de forma errada     205    3  TESTE DE USABILIDADE     1  Abrir aplica    o de chat e interagir com outro usu  rio   2  Abrir editor de texto   digitar mensagem   
38.  Isto    um teste do editor de texto     salvar  fechar a aplica    o e abrir  o arquivo salvo     4  CONSIDERA    ES GERAIS             5  SUGEST  ES DE MELHORIAS                   
39.  MLLT    visa minimizar a perda na verossimilhan  a entre a fun    o de distribui    o de    182    probabilidade gaussiana covari  ncia completa e as diagonais  Na fase de treinamento   MLLT estima a matriz de covari  ncia completa a fim de garantir que cada caracter  stica     independente  Na fase de s  ntese  geram se caracter  sticas para os par  metros de  s  ntese de voz em cada estado  usando vetor m  dio e a matriz de correla    o das fun    es  de distribui    o de probabilidade dos estados  CHEN et  al   2013    B 4 3 Modelagem de matrizes de precis  o por Transforma    o Linear de M  xima  Verossimilhan  a   Correla    es entre todas as caracter  sticas n  o podem ser obtidas atrav  s de matriz de  covari  ncia diagonal  Entretanto  a fim de realizar uma aproxima    o adequada os  modelos de covari  ncia completa  MLLT    introduzido no est  gio de treinamento do  HMM  Cada matriz de precis  o da distribui    o Gaussiana para as fun    es de  distribui    o de probabilidades das sa  das de estado    igual ao inverso da matriz de  covari  ncia da j   sima distribui    o gaussiana  CHEN et  al   2013     P    ATA A   76   em que P     a distribui    o de probabilidades dos estados de sa  da  A representa a matriz  de transforma    o global  4 representa a matriz diagonal de distribui    o espec  fica cujos  elementos da diagonal principal s  o os inversos das vari  ncias no espa  o transformado   Aji   1 07     B 4 4 Gera    o de par  metros de fala com gera    o de
40.  O trato vocal   A 2 Modelagem matem  tica das ondas sonoras   A 3 Modelagem matem  tica do trato vocal   A 4 O sinal de voz do ponto de vista do processamento homom  rfico de    sinais    AP  NDICE B  ALGORITMOS DE S  NTESE DE VOZ  B 1 S  ntese articulat  ria   B 2 S  ntese de formantes  ou s  ntese baseada em regras   B 3 S  ntese baseada em sele    o autom  tica de unidades  B 4 S  ntese baseada em modelos de Markov ocultos   B 5 S  ntese baseada em grafos de Markov   B 6 S  ntese HNM   B 7 S  ntese LPC   B 8 Outras abordagens    xviii    95  95  96  98    110  111  111  115  117    121  122    123    138  128  137  138  159    162  165  166  170  175  183  184  186  187    AP  NDICE C  APIs PARA DESENVOLVIMENTO DE SOFTWARES  BASEADOS EM VOZ   C 1 GNOME   C 2 IBM ViaVoice TTS SDK   C 3 Java Accessibility API   C 4 Java Speech API    APENDICE D  ALGUMAS FERRAMENTAS NATIVAMENTE  ACESSIVEIS VOLTADAS PARA DEFICIENTES VISUAIS  D 1 APL   D 2 Orca   D 3 Speech Synthesis Markup Language   D 4 VoiceProxy e projeto NatalNet   D 5 XLupa    ANEXO A  CHEKLIST DE ACESSIBILIDADE PARA SOFTWARE IBM      VERSAO 3 6  ANEXO B  QUESTIONARIO DE TESTE DE QUALIDADE    XIX    192    192  193  194  196    198    198    199    200    200    201    202    204    20    1  INTRODU    O    Segundo a Organiza    o Mundial de Sa  de  OMS   em 2013 existiam  aproximadamente 39 milh  es de pessoas com defici  ncia visual  outros 246 milh  es  sofrendo de perda moderada ou severa de vis  o  nas quais 90  des
41.  Por  outro lado  a dura    o o som    a propriedade que permite que seja classificado em curtos   longos e toda gama de intermedi  rios  como semi longos  semi curtos  etc  Por fim  a  intensidade    a propriedade que se refere    maior ou menor for  a com que se produz  voz  podendo ser classificado como voz forte ou fraca    Para uma adequada s  ntese de voz     necess  rio equil  brio entre tipo de voz   intensidade  velocidade  frequ  ncia  pron  ncia  resson  ncia e articula    o  Quando tais  fatores n  o est  o em equil  brio  a voz resultante pode apresentar efeitos como    rouquid  o  aspereza  tens  o  hipersensibilidade  entre outros  MATUCK  2005         36    2 6 1 Propriedades Matem  ticas da Voz   A voz    um sinal essencialmente n  o estacion  rio  ou seja  se todas as caracter  sticas  de seu comportamento s  o alteradas no tempo  Entretanto  pode se aproximar a  condi    o de estacionaridade ao se observar localmente o sinal de voz em janelas  temporais de curta dura    o  tipicamente de 5 a 20ms  assim  as propriedades estat  sticas  e espectrais s  o definidos dentro destes segmentos  SPANIAS  1994     A voz humana pode produzir sons vozeados  como  por exemplo  a  e  i   e n  o  vozeados  como o  sh   por exemplo  que s  o quasi peri  dicos no dom  nio do tempo e  harmonicamente estruturados no dom  nio da frequ  ncia  enquanto que sons n  o  vozeados s  o aleat  rios  Al  m disso  a energia de sons vozeados    geralmente maior  que a energia dos segment
42.  Trabalho de Conclus  o de Curso em  Engenharia de Computa    o  64p  Universidade Federal de Pernambuco  Recife  2009     BIDARRA  Jorge  DI  GENES  Carlos Eduardo Rodrigues  XLUPA   Uma lente de  aumento digital inteligente para pessoas com baixa vis  o  In  III Semin  rio e II  Oficina  Acessibilidade  TI e Inclus  o Digital   S  o Paulo  2005     BLACK  Alan W   ZEN  Heiga  TOKUDA  Keiichi  Statistical parametric speech  synthesis  In  ICASSP 2007  2007     BORGES  Jos   Ant  nio  Manual do Sistema Operacional Dosvox  Vers  o 3 2   N  cleo de Computa    o Eletr  nica   Universidade Federal do Rio de Janeiro  Rio de  Janeiro  2005     BRAND  O  Alexandre de Souza  Modelagem ac  stica da produ    o da voz  utilizando t  cnicas de visualiza    o de imagens m  dicas associadas a m  todos  num  ricos  Tese de doutorado em Engenharia Mec  nica  172p  Universidade Federal  Fluminense  Niter  i  2011     BRASIL     CONSTITUI    O FEDERAL  Dispon  vel em   lt   http   www planalto gov br ccivil_03 constituicao constituicaocompilado htm gt    Acesso  Janeiro 2015     CHEN  Yan You  KUAN  Ta Wen  TSAI  Chun Yu  WANG  Jhing Fa  CHANG   Chia Hao  Speech variability compensation for expressive speech synthesis     COSTA  Ericson Sarmento  MONTE  Anderson de Oliveira  NETO  Nelson   KLAUTAU  Aldebaro  Um sintetizador de voz baseado em HMMs livre  dando  novas vozes para aplica    es livres no portugu  s do Brasil  In  Workshop de Software  Livre  2012     COSTA  Rodrigo Carvalho Souza  
43.  a 10  horas  e contempla v  rias ocorr  ncias de cada unidade sonora  capturada em v  rios  contextos  como fonemas vizinhos diferentes  pitch  dura    o  posi    o na s  laba  etc    TABET  2011     A disponibilidade de boas ferramentas de rotula    o autom  tica de voz e a  disponibilidade de diversas inst  ncias de um tipo de unidade espec  fico  com diferen  as    de pitch  dura    o  contexto  lingu  stico  permitiu que a s  ntese por sele    o de unidade se    172    tornasse uma solu    o vi  vel  Tal m  todo permite que se use grandes bancos de dados de  voz gravados usando estilos de fala espec  ficos e cuidadosamente controlados  como  felicidade  alegria  etc  Al  m de  evidentemente  poder ser usado com banco de dados  pequenos para aplica    es espec  ficas  Para aplica    es gerais  como ler e mails e  not  cias     exigido em geral 10h de grava    es a fim de se atingir uma qualidade  desej  vel e v  rias d  zias para se obter uma grava    o  natural   Ao contr  rio da s  ntese  concatenativa  a sele    o autom  tica de unidades seleciona as unidades de s  ntese   timas  a partir de um invent  rio que pode conter uma diversidade de tokens de uma unidade  espec  fica a fim de concatenar para produzir a s  ntese  Tal t  cnica tem se mostrado bem  sucedida  O processo de sele    o da sequ  ncia   tima    automatizada por meio de search  queries nas strings das tags do fonemas  SCHROETER  2005     Alguns trabalhos tem preferido o uso de semi fonemas ao inv  s de d
44.  a de press  o entre dois pontos  equivale    corrente el  trica  que surge quando h      diferen  a de potencial el  trico entre dois pontos  Assim  nos primeiros trabalhos  era    141    definido um sistema de equa    es de malha de circuitos el  tricos para representar o  conjunto de sess  es cil  ndricas atrav  s do qual o trato vocal foi modelado  As se    es    cil  ndricas s  o representadas por linhas de transmiss  o  BRAND  O  2011      R1 L1 L1 R1   ANAN a TVA KAA  Ci    ji luF    Figura A 16  modelo de uma linha de transmiss  o  Fonte   BRAND  O  2011   Adaptado      A irradia    o do som pela boca    modelada como uma imped  ncia de radia    o de  forma similar    modelagem de uma antena em sistemas el  tricos  formada por uma  resist  ncia R  e por uma indut  ncia L  em paralelo  O som sintetizado corresponde     diferen  a de press  o entre os terminais dessa imped  ncia  Modelando matematicamente  as fun    es dos quatro grupos do sistema fonador humano  chegou se ao circuito  equivalente ac  stico mostrado nas Figuras A 17 e A 18  BRAND  O  2011     A solu    o num  rica das equa    es correspondentes ao circuito  para cada instante da  amostragem  gera uma sequ  ncia de valores que representa a voz sintetizada  Mojhatari  construiu um modelo de trato vocal em linhas de transmiss  o quer permite a inclus  o de  um n  mero indefinido de ramifica    es para representar reentr  ncias do trato vocal e do    trato nasal  BRAND  O  2011                        Pulm  
45.  a partir  das m  ltiplas unidades selecionadas s  o usadas nos segmentos n  o adjacentes  E  finalmente ent  o  a forma de onda    sintetizada usando tais formas de onda   BRAUNSCHWEILER  2010     Na etapa de regenera    o de pros  dia  dura    es e contornos da frequ  ncia  fundamental s  o geradas a partir das unidades  A dura    o para segmentos n  o  adjacentes s  o geradas a partir da m  dia das dura    es das unidades selecionas e    calculadas pela express  o     N  E  dim    gt   di   80   n 1    em que diy      dy representam a dura    o gerada e a dura    o da n   sima unidade    selecionada para o i   simo segmento  respectivamente  Para os contornos da frequ  ncia    fundamental  estes s  o gerados mapeando frames da frequ  ncia fundamental de cada    190    unidade e realizando a m  dia deste mapeamento para cada frame  Ou seja  o contorno    da frequ  ncia fundamental    dado por     di            N  1  fla   wD  fo  81     diyn  em que Pos  t  e fon  t  representam o fo gerado e o fo da n   sima unidade escolhidas  para o i   simo segmento no tempo t  respectivamente     O Pos  t  para o i   simo segmento    dado por     Foon  t    f  n t    offset   82   O valor do f    m  dio do ponto final do semi fonema esquerdo fosyn  T  e o in  cio do    semi fonema direito foca  0  s  o calculados  O valor do offset    determinado como se    segue     offset    0 5  fiyn  T    FEO    fim  MD   83     offseti   0 5  ria  1    fig  Teo  84     para os fonemas esquerdo e d
46.  a press  o sobre a parede do  trato vocal e V  0 x s  a velocidade de deslocamento da parede normal    superf  cie   LIMA  2010     Um condutor real exibe ao menos dois fen  menos  a viscosidade e a absor    o nas  paredes  Sendo u x t  a velocidade volumetria e U x  s sua transformada de Laplace   ent  o   LIMA  2010  mostra que U x  s     dada pela Equa    o 51    U x s    alias  bks     51   Pos  ARL Ox Ox    em que 4    a   reas  po   a densidade do ar  g e A s  o solu    es linearmente    independentes da solu    o geral P x s    ag x s    bh x s  da Equa    o 52     153       vo A x  o     E  y P 59  Ax pos   AR   x   poc   aa     Em que c    a velocidade do som no ar  P    a press  o e Y    a imped  ncia ac  stica   A 3 5 Modelo Fone Filtro   O modelo fone filtro    constru  do atrav  s dos formantes   valor nominal da  frequ  ncia central da zona de resson  ncia em quest  o  Nessa zona de frequ  ncia central  se encontra a maior concentra    o de energia  LIMA  2010     O modelo Fone Filtro da produ    o de voz pode ser subdividido em tr  s etapas  distintas  fone  filtro  trato vocal  e a irradia    o  BRAND  O  2011      Seus efeitos ac  sticos podem ser visualizados por meio do diagrama de blocos    mostrado na Figura A 33     Resson  ncia    dB  6 dB Oit          dB    W dB Oit       Hz F F  F  F     Hz    Hz F  F  FF  Hz  Group 1    Signal 1 Int Outi Highpass  Fonte  Sinal Glotal  Filtro  Trato Vocal  Irradia    o Saida  Sinal de Voz     Figura A 33  diagrama de
47.  a serem processados  um  filtro passa alta e uma pr     nfase  Em seguida  o sistema passa por uma etapa de  quantiza    o  que    feito encontrando se o   ndice k que minimiza E   Y y      P    em  que y     o sub vetor de erro residual e 7     o vetor quantizado para o indice k  Por fim      realizada a extra    o do pitch e a constru    o da excita    o    Em termos de complexidade computacional  o algoritmo de extra    o de par  metros  AMR WB apresenta alta complexidade  entretanto  tal complexidade    compensada  pela alta qualidade do resultado  quase n  o apresentando diferen  as  tanto no dom  nio  do tempo como da frequ  ncia  com rela    o a um sinal de voz amostrado   SHU  et  al     2011      187    B 8 Outras abordagens   A s  ntese de formantes e a s  ntese articulat  ria s  o menos usados atualmente  sendo  utilizados mais atualmente t  cnicas como a s  ntese de sele    o de unidades combinado  com HNM  representando o sinal como a soma de harm  nicos com ru  do  uma vez que  a decomposi    o do sinal de voz nessas duas partes permite modifica    es mais naturais  da fala  al  m de suavizar as descontinuidades das unidades ac  sticas  A maior limita    o  dessa combina    o reside no elevado custo computacional  TABET  2011     Esta combina    o tem produzido resultados satisfat  rio e consumindo pouca  mem  ria para armazenar par  metros quando combinada com HMM  permitindo  al  m  disso  maior variabilidade  TABET  2011     J   outros trabalhos tem procurad
48.  apresenta tags para  defini    o de l  nguas  defini    o de par  grafos e senten  as  personaliza    o de pron  ncias   defini    o de fonemas  configura    o do tipo de voz  pros  dia    nfase e inser    o de    arquivos de   udio     D 4 VoiceProxy e projeto NatalNet   O Projeto NatalNet  www  natalnet br  prev   a implementa    o de um sistema leitor  de p  ginas HTML  cujo objetivo    sintetizar   udio a partir do processamento de p  ginas  HTML  Uma vez pronto  o sistema permitir   que deficientes visuais naveguem atrav  s  da internet escutando o conte  do das p  ginas  VoiceProxy    um sistema em    desenvolvimento no contexto deste projeto  SANTOS      201    D 5 XLupa   O XLupa    uma lente de aumento  ampliador de tela  digital inteligente para pessoas  portadoras de defici  ncia  particularmente  pessoas com baixa vis  o  Trata se de um  projeto em conformidade com a filosofia de software livre    O desenvolvimento do XLupa justifica se por sua natureza inclusiva  digital e   portanto  social    O XLupa    um software desenvolvido em Java  a fim de tirar proveito da  portabilidade e produtividade disponibilizadas pela linguagem  e que se encontra em  desenvolvimento desde o final de 2004  por pesquisadores do N  cleo de Inova    es  Tecnol  gicas  NIT  e do Programa Institucional de A    es Relativas   s Pessoas com  Necessidades Especiais  PEE   ambos vinculados    UNIOESTE  em parceria com a  Secretaria Estadual de Educa    o do Paran       CETE   SEED   PR  a 
49.  blocos para o modelofone filtro  Fonte   BRAND  O  2011   Adaptado      O fluxo de ar    modulado pelo movimento vibrat  rio das pregas vocais  Gra  as ao   efeito Bernoulli   os pulsos de ar gerados possuem forma assim  trica  devido ao  fechamento mais r  pido  de modo que o sinal glotal    formado por uma s  rie de  harm  nicos a ser filtrada  na etapa do trato vocal  gerando o som das vogais  Numa voz  normal  a pot  ncia dos harm  nicos do sinal glotal se reduz  em m  dia  a uma taxa de  12dB por oitava  Isso gera o efeito do filtro glotal  que reduz as altas frequ  ncias  Na  etapa de filtragem  a forma da estrutura do filtro  trato vocal   pode ser modificada  de  modo a alterar suas formantes ou frequ  ncias de resson  ncia da estrutura supra glotal   Para uma dada forma  o sinal glotal    filtrado criando o som da respectiva vogal  Na  etapa de irradia    o  as baixas frequ  ncias   comprimento de onda maior  sofrem  difra    o nos l  bios  enquanto as altas frequ  ncias   comprimento de onda menor   possuem maior diretividade  sendo mais suscet  veis ao efeito de reflex  o  Resumindo  a    etapa de irradia    o amplifica as altas frequ  ncias com ganho m  dio de 6dB por oitava     154    J   foi demonstrado que  no modelo fonte filtro  o trato vocal pode ser considerado um  sistema ac  stico linear  Logo  pode tamb  m ser caracterizado por uma fun    o de  resposta em frequ  ncia  O fato de ser poss  vel obter o sinal glotal atrav  s de filtragem  inversa garante q
50.  de objetos do que classes  a tarefa de    105    classifica    o pode ser implementada de forma l  gica  empregando uma base de regras  de decis  o  expressando a classifica    o de cada fonema como a descri    o de uma  express  o l  gica    Em uma   rvore de decis  o  o conhecimento    representado em cada n   que  ao ser  testado  pode conduzir a busca a um de seus filhos  Deste modo  descendo da raiz em  dire    o   s folhas da   rvore  pode se selecionar a configura    o do sistema  e deste modo  comportamento associado    A   rvore de decis  o implementada    de classe discreta  categ  rica n  o ordinal  que  assume um conjunto finito de valores que n  o podem ser ordenados     O algoritmo heur  stico mais conhecido para a escolha do melhor atributo    o ID3 e  se baseia na escolha inicial de atributos que minimizem a entropia    Se a informa    o    uma medida da quantidade de incerteza de um processo que  ocorre com alguma probabilidade  I a        loga p    Ent  o a quantidade m  dia de  informa    o de uma fonte A    denominada entropia e esta    dada por  H A         EK o PrlOJa  Pr     O algoritmo continua at   que uma das condi    es seja satisfeita  todos os atributos  foram inclu  dos no caminho da raiz at   as folhas ou os exemplos de treinamento  associados com dado ramo apresentam o mesmo valor da sa  da    O ID3    um algoritmo pioneiro em indu    o de   rvores de decis  o  sendo um  algoritmo recursivo de busca gulosa  procurando sobre um conjunto de atri
51.  de vocabul  rio limitado  AZUIRSON  2009     Armazenar todas as palavras    impratic  vel tamb  m devido    enorme demanda  exigida para o locutor que dever   ler centenas de milhares de palavras de uma forma    consistente  E mesmo que tal tarefa fosse realizada em m  ltiplas sess  es ao longo de    56    semanas  a falta de coarticula    o e os contornos das palavras resultaria em uma fala  pouco natural   SCHROETER  2005     S  labas t  m sido sugeridas como unidades  por  m as desvantagens superam as  eventuais vantagens  Em ingl  s  por exemplo  s  o necess  rios em torno de 10000  s  labas para que seja poss  vel formar todas as palavras  Adotando se 10 frames por  s  laba  o espa  o para armazenamentos cresce substancialmente  SHAUGHNESSY   2003     Na l  ngua chinesa  por exemplo  em s  ntese baseadas em s  labas  o fen  meno de  coarticula    o aparece apenas quando uma s  laba termina em vogal e a seguinte inicia  em vogal ou som aspirado  KANG et  Al  2009     Utilizar fonemas como unidades pode fornecer grande flexibilidade e economia   entretanto pode apresentar problemas de coarticula    o  tornando a inteligibilidade muito  baixa  Sons das l  nguas podem ser descritos por apenas aproximadamente 100 fonemas  e 30 diacr  ticos  A l  ngua inglesa  por exemplo  possui 40 fonemas  SCHROETER   2005  SHAUGHNESSY  2003  AZUIRSON  2009  MAEDA  1995     Entretanto  descrever senten  as por fonemas    muito pouco pr  tico  Al  m disso   todos os esfor  os para concatenar
52.  evidenciando o    intervalo de ataque  o per  odo est  vel e o intervalo de queda       Ataque  0 Periodo Est  vel Qed     Figura 2 2  envelope de uma onda sonora  Fonte   LIMA  2010   Adaptado      39    O timbre    determinado pelas cavidades   sseas  cavidades nasais  boca  garganta   traqueia e pulm  es  al  m da pr  pria laringe  MATUCK  2005     2 6 4 Pros  dia   A pros  dia    uma interpreta    o r  tmico mel  dica da sintaxe e da sem  ntica  Uma  das fun    es da pros  dia    fornecer indica    es sobre a localiza    o de acentos  criando  uma sensa    o de ritmo  A pros  dia determina como uma senten  a    falada em termos  de melodia  ritmo  sotaque e emo    es e pode carregar significados at   mesmo em  l  nguas n  o tonais    A pros  dia    um processo de natureza supra segmental que atua em s  labas   palavras  ora    es  etc   Os tr  s principais par  metros pros  dicos s  o  dura    o   frequ  ncia fundamental e intensidade  sendo os dois primeiros os mais importantes  A  modelagem da intensidade n  o produz ganhos significativos de qualidade da s  ntese de  voz  AZUIRSON  2009     Uma pros  dia errada pode prejudicar severamente a inteligibilidade   compreens  o   assim uma modelagem adequada dos par  metros pros  dicos  dura    o e frequ  ncia  dos  fonemas pode melhorar significativamente a inteligibilidade e a naturalidade do  resultado de um sintetizador de voz  Assim  a pros  dia afeta a naturalidade e  inteligibilidade e est   relacionada com a presen  
53.  fatores que degradam a qualidade  vocoder  precis  o na modelagem e suaviza    o  excessiva  Para o primeiro problema  alguns trabalhos prop  em esquemas de excita    o  multi banda ou STRAIGHT  Para o segundo problema  tem sido usados t  cnicas como  HSMM  grafos estoc  sticos de Markov  crit  rio de erro de gera    o m  nima  MGE    Minimum Generation Error  e abordagem Bayesiana variacional  Em um sistema  b  sico  o algoritmo de gera    o de par  metros    usado para gerar par  metros espectrais e  de excita    o a partir do HMM  Levando em conta restri    es entre caracter  sticas  est  ticas e din  micas  o HMM pode gerar suaviza    es  Entretanto  os par  metros  espectrais e de excita    o frequentemente s  o excessivamente suavizados  A fim de  reduzir este efeito e melhorar a qualidade da fala  p  s filtragem  algoritmos de gera    o  de par  metros considerando vari  ncia global ou algoritmos de gera    o de par  metros de  voz condicionais podem ser utilizados  BLACK  2007     B 4 2 Estudos sobre variabilidade da voz em HMM   No HMM  modelos estat  sticos do espectro e das caracter  sticas pros  dicas s  o  usadas para gerar uma voz sint  tica  Em sistemas HMM  vetores m  dios de modelos  estat  sticos s  o usados para gerar vozes sint  ticas por  m mon  tonas  No mundo real      poss  vel observar diferen  as sens  veis na voz mesmo de um mesmo falante em  diferentes instantes de tempo  Em termos t  cnicos  isto significa que a vari  ncia da  distribui    o    r
54.  feita tamb  m por um conjunto de regras  sendo  vital para o estudo da pros  dia  Para palavras acentuadas  a identifica    o da s  laba  t  nica    evidente  Sendo que a dificuldade ocorre na identifica    o de ox  tonas n  o  acentuadas  uma vez que todas as proparox  tonas s  o acentuadas e a maioria das  palavras n  o acentuadas no portugu  s s  o parox  tonas  Assim  algumas regras podem    ser aplicadas para a identifica    o de ox  tonas n  o acentuadas  como palavras terminadas    49    em  im  e  um   palavras terminadas em  ar    er  e  or   palavras terminadas em z  antecedidas por vogais  Deve se observar que essas regras n  o se aplicam a todos os  casos  mas apresentam bom   ndice de precis  o  AZUIRSON  2009     A transi    o entre palavras    um fator importante para assegurar a naturalidade da  pron  ncia  Um dos fen  menos a serem tratados no que diz respeito    co articula    o    o   s  ndhi externo    que ocorre na jun    o de palavras em que a   ltima vogal da primeira  palavra    igual    primeira vogal da segunda palavra  Neste caso  a coarticula    o  transforma a jun    o em uma vogal apenas  Outro fen  meno a ser observado    o fonema   s   uma fricativa sonora surda  exceto quando seguida por palavra iniciando por vogal  ou consoante sonora  AZUIRSON  2009    3 2 1 4  Processamento Pros  dico   O processamento pros  dico    a   ltima etapa do bloco de processamento lingu  stico   pros  dico  tendo como entrada a informa    o supra segmental e segm
55.  gica  verbo ou substantivo   respectivamente  O mesmo acontece com as palavras  molho  e  seco   No portugu  s   muitas palavras s  o hom  grafas mas n  o s  o hom  fonas  em outras palavras   apresentam exatamente a mesma grafia  por  m s  o pronunciadas de forma diferente   Isto torna a etapa de An  lise Lingu  stica e Morfossint  tica muito importante  pois a  estrutura pros  dica de uma senten  a est   ligada    an  lise morfossint  tica  AZUIRSON   2009      H   casos em que a an  lise gramatical    insuficiente para resolver ambiguidades     neste caso  a an  lise sem  ntica  significado das palavras  e pragm  tica  inten    o do    48    falante   se faz necess  ria para a pron  ncia correta  Entretanto  s  o poucos os sistemas  que realizam an  lise sem  ntica pragm  tica    A an  lise morfossint  tica    realizada por um parser  O parser  que    um analisador  morfol  gico sint  tico     um m  dulo extremamente importante para assegurar a  qualidade da s  ntese  uma vez que o mesmo    que permite a infer  ncia dos constituintes  pros  dicos de uma senten  a a partir de sua an  lise morfossint  tica  AZUIRSON  2009    3 2 1 3  Transcri    o Fon  tica   A etapa de transcri    o ortogr  fico fon  tica consiste em representar uma sequ  ncia  de palavras em uma sequ  ncia de s  mbolos fon  ticos  Tal etapa    precedida por outras  duas  a separa    o sil  bica e a determina    o de s  labas t  nicas  Esta   ltima  al  m de  ajudar a assegurar uma correta transcri    o   
56.  laborat  rio  CTS da Facult   Polytechnique de Mons  na B  lgica     obter um conjunto de  sintetizadores de voz para a maior quantidade de l  nguas poss  vel e disponibiliz   las  para aplica    es livres n  o comerciais e n  o militares  al  m de impulsionar pesquisas  sobre s  ntese de voz  particularmente  gera    o de pros  dia  um dos maiores desafios    atuais a respeito da s  ntese de voz  MBROLA  2014                              E ESSES     Eile Edit Settings Sampa insert About     HAE a BAE   13 v  bi3        i     Type of file    pho C phs  Pitch factor   7 Time factor   7 Frequency  16000 7   1     1   gt       J  gt   I Output format   Way     c c                           Figura 4 4  interface Grafica do MBROLA     O ponto central do MBROLA    o um sintetizador baseado na concatena    o de  d  fonos que usa como entrada uma lista de fonemas juntamente com informa    es sobre  pros  dia  como dura    o dos fonemas e tom  e produz amostras de 16 bits  Assim  por  n  o aceitar como entrada texto puro  o MBROLA n  o    considerado um sistema TTS     MBROLA 2014  DUTOIT 1993  DUTOIT 1997      90    O projeto MBROLA est   dispon  vel para diversas plataformas como Microsoft  Windows  GNU Linux  MacOSX  NetBSD  FreeBSD  Solaris  BeOS  QNX  Symbian   etc    Oficialmente  o projeto MBROLA disponibiliza 3 vozes diferentes para o portugu  s  brasileiro  brl  b2 e b3  sendo todas as tr  s masculinas  Um grupo liderado por  pesquisadores do SERPRO e da UFRJ disponibilizara
57.  largura do modelo  A  decomposi    o do sinal de voz    baseado na modelagem da fala como um sinal peri  dico  perfeito  com per  odo do pitch To  Tal sinal corresponde a uma transformada de Fourier  com valores n  o nulos em pontos m  ltiplos da frequ  ncia fundamental fo   1 To  Na    nota    o complexa  s n     aproximado pela express  o mostrada na Equa    o abaixo   L    Sin    ax exp j2rk fon    10   2    em que L    o n  mero de harm  nicos e o n  mero complexo ay representa a amplitude e o  deslocamento de fase do k   simo harm  nico  Note que   n     real se a  e a p s  o  complexos conjugados  A s  ntese senoidal pode ser realizada de diversas formas  As  amostras sintetizadas   n  podem ser calculadas usando a express  o acima enquanto se  interpola os pontos entre ax    Uma das desvantagens do modelo senoidal consiste no fato dos par  metros n  o  serem diretamente relacionados   s frequ  ncias formantes e largura de banda  tornando o  dif  cil de formular mudan  as baseadas em informa    es a respeito dos formantes   WOUTERS et  al  2000     A forma mais simples de modificar a frequ  ncia fundamental    truncar cada  per  odo  removendo algumas amostras finais caso se deseje encurtar o per  odo  Para o  caso contr  rio  deve se ou interpolar per  odos adjacentes ou extrapolar as amostras  finais  SHAUGHNESSY  2003     3 3 7 Marca    o de Pitch   Em  KOBAYASHI et  al   1998     poss  vel ver a aplica    o da an  lise de wavelets  para uma marca    o de pitch adeq
58.  lt  P  componente causal devido ao trato e g  n    n   kP  componente devido    excita    o peri  dica py  n     As duas primeiras componentes decrescem muito mais depressa que a   ltima  o que  significa que a aplica    o de uma janela no cepstro permite separar as duas  contribui    es  e ao se calcular o cepstro inverso  pode se determinar p n  e h n     O cepstro    ent  o dado por    2 n    In X e   S     In X    jB 2nf    70   sendo ent  o necess  rio conhecer a fase de X e 271   As implementa    es de FFT  normalmente apenas fornecem a parte principal da fase  IB Qnf    lt m  pois     necess  rio efetuar a opera    o de desenrolamento de fase  phase unwraping   que  consiste em somar  27 nos pontos de descontinuidade  Na pr  tica  usa se apenas o  cepstro real    A an  lise cepstral    frequentemente usada em an  lise e processamento de sinais de  voz por que    capaz de separar as caracter  sticas da excita    o do trato vocal  Baixas  frequ  ncias no cepstro representam caracter  sticas do trato vocal  enquanto que altas    frequ  ncias representam a excita    o  JUNG  2001      162    AP  NDICE B  ALGORITMOS DE S  NTESE DE VOZ    Em 1779  o cientista dinamarqu  s Christian Kratzenstein  trabalhando para a  Academia Russa de Ci  ncias  desenvolveu modelos do trato vocal humano para  produzir as vogais  sendo posteriormente desenvolvidos sistemas mec  nico ac  sticos  que modelavam l  ngua e l  bios capazes de reproduzir tamb  m consoantes  Em 1930  o  Bell Labs dese
59.  mais naturais sob v  rias    modifica    es da pros  dia  TABET  2011      B 7 S  ntese LPC   A s  ntese de formantes prov   uma arquitetura flex  vel  mas requer a especifica    o  de diversos valores para modelar a coarticula    o  exigindo especialistas capazes de  manipular todos os par  metros de s  ntese  A s  ntese LPC apresenta o uso de uma  estrutura mais simples  todos os detalhes da voz modelados  exceto intensidade e  periodicidade  s  o inclusos nos coeficientes dos filtros LPC  Filtros digitais s  o evitados  devido    sensibilidade ao ru  do de quantiza    o e o risco de instabilidade   SHAUGHNESSY  2003     Atualmente  a s  ntese baseada em codifica    o preditiva  LPC   Linear Predictive  Coding  tem chamado aten    o por sua baixa taxa de dados  baixa complexidade e baixo  custo  entretanto  devido os par  metros extra  dos a partir de um modelo original     simples demais para produzir resultados de alta qualidade    B 7 1 Aplica    o do algoritmo AMR WB para s  ntese LPC   A tecnologia de codifica    o de voz AMR WB  Adaptative Multi Rate Wideband    usando Predi    o Linear Excitada de C  digo Alg  brico  ACELP   Algebric Code  Excited Linear Prediction  e combina    o de t  cnicas ara calcular o atraso do pitch no  est  gio de extra    o de par  metros tem se apresentado como uma alternativa vi  vel e de  alta qualidade para melhoria do LPC  A s  ntese realiza uma etapa de pr   processamento  que inclui decima    o a fim de reduzir a quantidade de dados
60.  mostrada na Figura A 2  e cavidade nasal  tendo in  cio  portanto na  abertura entre as pregas vocais  uma fibra el  stica com duas pregas que se distende ou    relaxa pela a    o de m  sculos no interior da laringe  glote  e terminando nos l  bios        Osso frontal    Meato superior  Osso nasal  gt           Concha superior  Foncha ed a Sino esfenoidal  Concha inferior  Vest  bulo      Palato duro              Canal incisivo  M  sculo Superior Longitudinal    Apex da lingua  Dobra sub lingual    Mandibula    M  sculo Genioglossus  M  sculo Geniohi  ide  M  sculo Miohi  ide  Osso hi  ide  Cartilagem tir  ide    Cavidade lar  ngea  glote     Cartilagem ariten  ide  Corda vocal inferior  Traqu  ia   Esofago                           Dente incisivo      Palato duro                        Palato mole                      o Arco palatoglosso  Tonsila palatina                    a a i we A cu a Arco palatofaringeo  Uvula palatina                   74 3                  Dorso da l  ngua  L  bio inferior                 Figura A 2  cavidade pr  pria da boca  Vista ventral  Fonte   PUTZ  2001      129       Figura A 3  anatomia da garganta  Fonte   MATUCK  2005      O comprimento m  dio do trato vocal masculino    de aproximadamente 17 cm   sendo que este valor praticamente n  o varia  com   rea de se    o transversal determinada  pela posi    o da l  ngua  l  bios  maxilar e v  u palatino  variando entre zero  o fechamento  completo  at   20 cm     assumindo  portanto  diferentes 
61.  na determina    o do sucesso de uma aplica    o de voz    quando ou  n  o h   um benef  cio claro ao se usar voz  Uma interface baseada em   udio tende a ser  mais agrad  vel por simular uma conversa homem homem  ao inv  s de um objeto  inanimado  Entretanto  por se tratar de um meio natural de comunica    o  a expectativa  do usu  rio tende a ser extremamente alta  Isto significa que a voz    melhor usada  quando a necessidade    clara  quando por  exemplo  as m  os do usu  rio est  o ocupadas   ou quando permite que alguma tarefa seja realizada de maneira que de outra forma n  o  seria poss  vel  como acessar e mails ou calend  rios eletr  nicos pelo telefone    Deve se usar o reconhecimento de voz por voz quando o teclado n  o est    dispon  vel  as m  os do usu  rio estiverem ocupadas de tal forma que n  o seja poss  vel  usar mouse ou teclado  os comandos est  o em uma estrutura de menu com muitos  n  veis  usu  rios n  o conseguem ou n  o se sentem confort  veis com digita    o ou  possuem algum impedimento motor  Deve se evitar  entretanto  em ambientes muito  barulhentos ou quando a tarefa for realizada mais facilmente por meio de mouse ou  teclado  SUN MICROSYSTEMS  1998     Deve se usar a s  ntese de voz quando os olhos do usu  rio estiverem focando sua  aten    o para outras tarefas mais cr  ticas  como ao dirigir ou ao executar tarefas de  manuten    o ou reparo  situa    es que chamem aten    o do usu  rio ou em situa    es em  que o usu  rio    portador de algu
62.  na normaliza    o das diferen  as ac  sticas existentes entre diferentes sess  es de  grava    o  al  m da suaviza    o de erros existentes durante a concatena    o  como a  t  cnica LPC excitada residual  que usa filtragem inversa e permite a perfeita  reconstru    o de sinal  Entretanto  esta t  cnica tamb  m apresenta suas falhas  No  trabalho  WOUTERS et  al  2000     poss  vel encontrar um estudo acerca de uma das  estrat  gias para lidar com esta situa    o    Outro ponto negativo    o fato de ser mais dif  cil modificar a pros  dia  al  m de  apresentar problemas de descontinuidade nas extremidades das unidades  podendo gerar  resultados pouco naturais  Suavizar formas de onda    geralmente mais simples que uma  suaviza    o espectral  entretanto  o resultado soa mais descont  nuo  TABET  2011   SHAUGHNESSY  2003     Em resumo  embora extremamente eficiente e amplamente usado     poss  vel ouvir  os pontos de concatena    o  uma vez que o algoritmo n  o apresenta uma forma de  suavizar as transi    es  que ocorrem abruptamente  pois as muitas mudan  as de tom  acompanham concatena    es  SCHROETER  2005  SHAUGHNESSY  2003     3 3 2 A escolha das unidades e difonos   Como falado anteriormente  a s  ntese concatenativa explora vozes gravadas que  comp  em um invent  rio  SCHROETER  2005     Ao se concatenar unidades sonoras  a sucess  o de tais unidades deve ser cont  nua   Uma vez que as unidades sonoras ao longo do treinamento s  o extra  das a partir de  sinais de vo
63.  nima  deve conter ao menos 30 minutos de vozes faladas  dado  que tais unidades devem ser modificadas por meio de processamento de sinal a fim de  se adequarem de acordo o requerido pelo front end e apresentar pontos de concatena    o  suaves  Sistemas de alta qualidade podem apresentar um banco de dados com horas de  grava    es  n  o necessitando de modifica    es por j   conterem em seu invent  rio um  fragmento adequado  SCHROETER  2005     Experts s  o respons  veis por rotular espectrogramas e formas de onda  baseados em  habilidades de escuta sofisticadas a fim de produzir anota    es que incluem  marca    es    temporais  fim de palavras  representa    es para s  labas t  nicas  melodias  fonemas     64    pausas  etc  Experimentos mostram que tais profissionais precisam de aproximadamente  de 100 a 250 segundos de tempo de trabalho para rotular um segundo de fala   Entretanto  a realiza    o de tal tarefa manual    impratic  vel para grandes bancos de  dados  que podem conter at   d  zias de horas de grava    es  sendo necess  rio fazer uso  de sistemas automatizados  alguns inclusive baseados em sistemas de reconhecimento  de voz  A vantagem    que tais sistemas de reconhecimento tem atingido alto grau de  confiabilidade a ponto de apresentarem resultados at   mesmo superiores que aquele  feito por profissionais especialistas  As ferramentas de rotula    o autom  tica podem ser  classificadas e duas categorias  ferramentas de rotula    o fon  tica autom  tica   res
64.  operacionais livres  COSTA e MONTE  2012    4 1 10 Liane TTS   O LianeTTS    um compilador que analisa texto e o traduz em texto compilado no  formato de d  fonos para processamento e s  ntese de voz pelo MBROLA  Este realiza a    tarefa de concatenar d  fonos  Al  m disso  consiste em um front end para o MBROLA e    88    scripts para integra    o ao leitor de tela ORCA por meio do driver speech dispatcher e  incluiu ao MBROLA uma voz feminina chamada br4  COSTA e MONTE  2012     O LianeTTS passou a ser utilizado em larga escala em info centros atrav  s de  projetos governamentais de inclus  o digital  COSTA e MONTE  2012     O LianeTTS    uma aplica    o de software livre voltado para o sistema operacional  GNU Linux  permitindo que deficientes visuais utilizem computadores  O sistema     escrito em linguagem C e produz s  ntese de voz em Portugu  s do Brasil com sotaque  carioca  tendo sido produzido pelo Servi  o Federal de Processamento de Dados   SERPRO  e do N  cleo de Computa    o Eletr  nica da Universidade Federal do Rio de  Janeiro  NCE UFRJ   Apesar dos esfor  os  o LianeTTS n  o tem recebido boas cr  ticas  por parte de seus usu  rios  LIANETTS  2014     4 1 11 Nambiquara   Trata se de um sistema TTS livre  baseado em s  ntese concatenativa  servindo de  front end para o MBROLA  sendo programado em PHP sobre um servidor apache   auxiliado por formul  rios HTML e scripts em JavaScript com banco de dados de siglas  desenvolvido em MySQL  Como em quase todos os sis
65.  pela Bell Labs nos anos de 1960 e 1970 por  Paul Mermelstein e Cecil Coker  O sistema mais not  rio desenvolvido foi um sistema  baseado no NeXT da Trilllum Sound Research  uma compania originada na  Universidade de Calgary e publicado com licen  a GNU e usava um modelo baseado em  guias de onda e linhas de transmiss  o anal  gicas dos controles dos tratos vocal e nasal    A s  ntese articulat  ria gera fala a partir da modelagem direta do comportamento do  sistema articulat  rio humano  usando modelos computacionais dos articuladores   l  ngua  l  bios  etc   e glote para sintetizar voz  Ao inv  s de descrever o sinal  propriamente dito  a s  ntese articulat  ria emprega par  metros de controle como posi    o  e movimento das l  nguas  abertura glotal e outros par  metros significantes para a  produ    o de voz  assim  a s  ntese articulat  ria tenta simular o aparelho fonador humano  e mimetizar a din  mica dos articuladores  l  ngua  mand  bula  l  bios  osso hi  ide  v  u  palatino  etc    objetivando construir o modelo mais realista poss  vel a fim de se obter  uma fala exatamente igual    humana  Matematicamente  a s  ntese articulat  ria pode ser  t  o simples quanto descrever o trato vocal como tubos de se    o transversal vari  vel ou  t  o complicado quanto resolver equa    es de Navier Stokes  TABET  2011   AZUIRSON  2009  SCHROETER  2005     Uma s  ntese articulat  ria altamente precisa  teoricamente  seria capaz de produzir  uma s  ntese completamente configur  
66.  perdem detalhes  como pequenas deforma    es  protuber  ncias e assimetrias naturais dos tratos vocais    reais  BRAND  O  2011      A 4 O sinal de voz do ponto de vista do processamento homom  rfico de sinais  Seja x um sinal de sa  da de um sistema linear invariante no tempo resultante da  convolu    o de uma excita    o u com sua resposta impulsional h   x ux h   55   Um sinal de voz pode ser considerado como     x n     p n    g n  h n    n n   w n    56     x   PPS 3 1  em que p n      para sons vozeados  um trem de impulsos peri  dicos de per  odo P   A    p n    X    n     kP    57   k    Em que g n     uma onda glotal de dura    o finita composta por duas partes  uma de  m  nima fase g4  n  e outra de m  xima fase g2  n   sendo g n    g  n    92  n   he n      a resposta impulsional do trato vocal  excetuando os sons nasais  O trato vocal    bem  representado por um modelo de fase minima s   com polos  r  n     a resposta  impulsional que traduz a radia    o nos l  bios e cujo efeito de radia    o pode ser    representado por um sistema com um zero  R  z    1  27     e w n     uma janela  temporal  Considerando que     h n    g n    hm    n n    58     Ent  o     x n     p n     h n  w n    59     160    Como x n  n  o    uma convolu    o   e para poder efetuar a desconvolu    o seria  necess  rio que o fosse  pode se tomar janelas suficientemente grandes  de dimens  o M   cobrindo um n  mero significativo de per  odos do fundamental P  o que fornece a    seguinte ap
67.  preservarem a informa    o da transi    o  entre os fonemas  sendo guardados em um banco de unidades  Entretanto  ainda se faz  necess  rio o uso de t  cnicas para suavizar a concatena    o entre as unidades  Devido ao    fato da s  ntese de d  fono preservar os detalhes ac  sticos da fala natural  a s  ntese    58    2    baseada em d  fonos    geralmente bastante intelig  vel  AZUIRSON  2009   SCHROETER  2005     Se por um lado  os d  fonos apresentam mesmo tamanho de um fonema  sejam N o  n  mero de fonemas de uma l  ngua  teoricamente s  o necess  rios N  d  fonos para  construir um banco de dados de d  fonos  Entretanto  todas as l  nguas apresentam  restri    es sobre quais sons s  o poss  veis ou n  o de acontecer  o que torna o n  mero de  d  fonos em cada l  ngua muito menor que N     como no caso do espanhol  que apresenta  800 d  fonos aproximadamente  enquanto que o alem  o apresenta em torno de 2500   Desta forma  um banco de dados de d  fonos    bastante vi  vel  sendo necess  rio apenas  alguns milhares janelas de dados espectrais  TALAFOV   et  al   2007     A lista completa de d  fonos    denominada de invent  rio de d  fonos  Para construir  um invent  rio de d  fonos deve se gravar todos os fonemas em todos os contextos  poss  veis  e ent  o tais d  fonos s  o rotulados e segmentados    Uma s  ntese baseada em d  fonos usa um banco de dados m  nimo contendo todos os  d  fonos existentes em uma l  ngua  A pros  dia    determinada por meio de t  cnicas de  p
68.  propaga atrav  s  destes tubos  o espectro de frequ  ncia    moldado de acordo com a seletividade de  frequ  ncia do tubo  produzindo um efeito semelhante    resson  ncia observada em  instrumentos de sopro  A frequ  ncia de resson  ncia do trato vocal    chamada de  frequ  ncia formante ou simplesmente formante    As frequ  ncias formantes dependem do formato e das dimens  es do trato vocal  pois  formatos diferentes implicam diferentes conjuntos de frequ  ncias formantes  podendo   se produzir diferentes sons por meio da altera    o do formato do trato vocal  Assim  as    propriedades espectrais dos sinais de voz variam com o tempo conforme o formato do    trato vocal se altera              Figura A 20  modelo geom  trico gen  rico do trato vocal  Fonte  Google Images     Para o referente modelo  deve se inicialmente pressupor que as seguintes  aproxima    es s  o v  lidas   1  o trato vocal    um tubo ac  stico linear   2  a onda sonora     uma onda plana   3  o meio de propaga    o    uniforme  p constante    4  as paredes  s  o sem perdas  A partir destas aproxima    es     poss  vel demonstrar que as ondas  ac  sticas dentro de um tubo satisfazem as seguintes equa    es diferenciais parciais    mostradas nas Equa    es 24 e 25        u x  t   dp    g Ge 5   24   ax  Pg  o Op x t  _ 1 a uG  t A x  t   a OA x  t   25   Ox pe Ot ot        em que p x t     a press  o ac  stica no ponto x e no instante t  u x t     o fluxo no    ponto x e no instante t  A x t     a   rea da
69.  proposto    Figura A 24  modelo de tubos semi infinitos    Figura A 25  modelo de circuito para a glote    Figura A 26  diagrama de Sinais    Figura A 27  diagrama de fluxo de sinais para o caso discreto    Figura A 28  diagrama de fluxo de sinais para o caso discreto    Figura A 29  diagrama de fluxo de sinais para o caso discreto    Figura A 30  modelo discreto completo para a produ    o de voz    Figura A 31  resposta obtida para o c  digo MATLAB para obten    o de  sinais glotais    Figura A 32  resposta obtida para o c  digo MATLAB para obten    o de  sinais glotais    Figura A 33  diagrama de blocos para o modelofone filtro    Figura A 34  modelo massa mola amortecedor    Figura A 35  modelo massa mola com duas massas    Figura A 36  fun    o   rea do trato vocal    Figura A 37  an  lise cepstral     Figura B 1  classifica    o e aplica    o dos tipos de sistemas de s  ntese de voz     xii    136  137    138  140  141  141  142    142  143  145  145    146  147  147  148  148  149  150  150  151    152    153  155  155  158  161  162    Figura B 2  diagrama de blocos explicando a s  ntese baseada em formantes   Figura B 3  banco de dados como uma rede de transi    o de estados    Figura B 4  vis  o geral de um sistema de s  ntese de voz baseado em HMM   Figura B 5  solu    o apresentada em  CHEN et  al   2013  para garantir  variabilidade na voz    Figura B 6  Funcionamento da s  ntese SMG    Figura B 7  solu    o proposta por  BRAUNSCHWEILER  2010     Figura B 8  algo
70.  rea do trato vocal  mostrada na Figura A 36  fornece a   rea da se    o  transversal em rela    o ao eixo do trato vocal para cada ponto localizado nesse eixo a    uma determinada dist  ncia da glote  BRAND  O  2011      158    6  s 5  E  24      2     3  o  ca  em  5  He   0    2 5 5 7 5 10 12 5 15 17 5  Comprimento do Trato Vocal  cm        Figura A 36  fun    o   rea do trato vocal  Fonte   BRAND  O  2011   Adaptado      A fun    o   rea    especificada por um n  mero fixo de se    es nos quais a k   sima  se    o    definida por uma se    o transversal A kn  e comprimento x kn   O   ndice n  denota um tempo discreto  Uma transi    o suave entre uma a se    es transversais entre  um fone e outro    um item importante a ser observado  MAEDA  1995     A fun    o   rea interpolada    alimentada no modelo do trato vocal  A varia    o da   rea  vocal  geometria dos pulsos vocais parametrizados representado a oscila    o quasi   peri  dica das pregas vocais para sons vozeados e um processo de abertura fechamento  lento da glote durante consoantes para suprimir um fluxo de ar suficiente    tamb  m  calculado por meio de esquema de interpola    o e usado pelo sintetizador  O ru  do  fricativo    automaticamente gerado pelo sintetizador  Ru  do rosa     na realidade  uma  sequ  ncia de n  meros aleat  rios que passaram por um filtro pasa baixas aplicada na  se    o de constri    o  A amplitude do ru  do    modulada por uma fun    o da se    o  transversal da constri    o e estimul
71.  sec    o do tubo ac  stico no ponto x e no    144    instante t  e p    a densidade do ar no interior do tubo e c a velocidade de propaga    o do    som no ar  O sistema acima tem como solu    o     u x  t   a   t     z      u     t       26     p x t    eus  t     2   u     t   5   27     em que u   t   z  eu  t      representam duas ondas progressivas com dire    es de  propaga    o opostas    Supondo a uma onda plana dada por u x  t    U x  t e    te impondo as condi    es  de contorno u x t    U 0  t e       excita    o do tubo por uma onda plana  e p l  t    0   ou seja  a press  o na sa  da do tubo  ou seja  nos l  bios     nula   sendo l o comprimento  do tubo  chega se na seguinte solu    o     cosw  l     x  c     Us coswl c    U 0  wet   28        pc sinw   l     x  c       jot  29  p x t  Ja ENE U 0  we  29     O fluxo na sa  da do tubo    dado pela Equa    o 30        1  u l  t              U  0  w e      U l  w e    t   30   coswl c  A rela    o de amplitudes ser   dado pela Equa    o 31   U l  w  1  V w       31     U 0 w  coswl c  Sendo esta rela    o a resposta na frequ  ncia do tubo  Para l  17 5cm e c     350m s obt  m se a resposta mostrada na Figura A 21     145    100    0 1000 2000 E 3000 4000 5000    Figura A 21  curva Frequ  ncia  Hz  x Intensidade  dB   Fonte  Google Images     Os p  los ocorrem   s frequ  ncias f       2i     1  i 1 2        Um modelo muito   til consiste em considerar o trato vocal composto por uma s  rie    de tubos ac  sticos uni
72.  segmentos do tamanho de um fonema t  m mostrado  resultados insatisfat  rios  Isto resulta do fato da manifesta    o ac  stica dos fonemas  depender fortemente do contexto segmental     importante frisar tamb  m que a  intensidade deve ser ajustada quando se concatena fonemas  MAEDA  1995   SHAUGHNESSY  2003     Outra desvantagem    que  na concatena    o por fonemas  ao se observar o espectro  da voz  percebe se que a quase totalidade da energia de uma palavra se encontra nas  vogais  dificultando a inteligibilidade das consoantes quando armazenadas em separado   A s  ntese por d  fonos contorna este problema  al  m de evitar problemas causados pela  variabilidade de contexto  MACHADO  1997     D  fono    uma unidade sonora que come  a na metade de um fonema e se estende at    a metade do fonema seguinte  A metade de um fonema tende a ser a regi  o mais est  vel  acusticamente  Assim  o d  fono representa a transi    o ac  stica da metade est  vel de um  fonema  Uma vez que os limites de um d  fono est  o na metade dos fonemas  seu  comprimento    o mesmo de um fonema  e n  o o dobro como inicialmente se possa  esperar  TABET  2011  SCHROETER  2005  TALAFOV   et  al   2007     A ideia b  sica consiste em concatenar partes apenas est  veis do som  fazendo uso    da regi  o de transi    o entre as mesmas  como o meio de uma vogal e armazenar essas    57    informa    es em um invent  rio  Exemplo   Paris     resultado da concatena    o de seis  difonos   lt  p gt  lt pa gt  l
73.  telas para  pessoas com vis  o reduzida  programas educacionais para crian  as  clientes para acesso     internet  como cliente de correio eletr  nico  Telnet  FTP  p  ginas Web  aplicativos  multim  dia  leitor de telas para Windows  etc    O sistema foi desenvolvido pelo N  cleo de Computa    o Eletr  nica da Universidade  Federal do Rio de Janeiro  sob a supervis  o do prof  Ant  nio Borges  da Divis  o de  Assist  ncia ao Usu  rio  em conjunto com Marcelo Pimentel  Da equipe de  desenvolvimento participam tamb  m programadores deficientes visuais  AZUIRSON   2009     Ao contr  rio do que consta no manual  o DOSVOX n  o    um sistema operacional   uma vez que necessita de uma plataforma operacional para ser executada e n  o     respons  vel por tarefas de gerenciamento de hardware   incluindo mem  ria e E S   processos ou sistemas de arquivos  O sistema em sua maior parte    baseado em vozes  pr   gravadas   o que limita as possibilidades de intera    o com o sistema  portanto n  o     s  ntese em si  o DOSVOX n  o realiza processamento lingu  stico nem processamento  pros  dico  AZUIRSON  2009     Por ter sido desenvolvido em Pascal  n  o faz proveito da portabilidade oferecida  pelo Java  O sistema foi desenvolvido nativamente para Windows  e embora possa ser  usado por meio do Wine no GNU Linux  tal solu    o pode tornar o sistema inst  vel    O projeto gratuito LINVOX    a implementa    o do DOSVOX em Linux  ao  executar o mesmo no referido ambiente usando o Wine e co
74.  ticas e pros  dicas que s  o  utilizadas como entrada para o Gerador de Lista de Segmentos  Este   ltimo tamb  m faz  uso de segmentos de voz pr   gravados e armazenados em um banco de dados  Tais  segmentos sofrem um processo de compress  o e codifica    o quando armazenados e  descompress  o  equaliza    o para a pros  dia correspondente e decodifica    o  Por fim     tais segmentos s  o concatenados  gerando uma fala sintetizada  que    a sa  da do sistema     92    Fonema Pros  dia    Speech Segmenta    o  Corupus Seletiva  Banco de  dados de  Segmentos  de Voz    Gerador de Lista de  Segmentos    Banco de An  lise da  Dados de Voz    Segmentos  Pragm  ticos a acts  Equalizacao  Codifica    o    Banco de  Dados de ificac   Correspond  ncia  Dan  o de Pros  dia    Sintese de    Segmentos  Concatena    o de  Segmentos    S  ntese do Sinal       Figura 4 6  diagrama esquem  tico para o MBROLA     O processo de s  ntese de voz pode ser modelado pelas Equa    es 11  12 e 13     o nT  1 T    wj n    wy To Fa   11   sj n    s n w  nn       12      n     gt  si n     n       13   j  00    em que w     um valor de peso que varia dentro do intervalo  0 1  e 7     um valor  denominado pitch marker  Fr tem valor padr  o unit  rio  Nesse caso  o somat  rio possui    no m  ximo quatro termos  com o fator de pitch     a raz  o entre per  odo de pitch de    93    5 sat T      s    s  ntese local e o original   Fp   E variando no intervalo  0 5 2   A precis  o de  0    aproxima    o depe
75.  um um zero  ao  inv  s de  cento e dez  ou 1kg ser sintetizado como  um k g   ao inv  s de  um quilo    etc  Al  m disso  embora existam alguns sistemas de acessibilidade e s  ntese de voz  a  maior parte deles apresentam vozes n  o naturais ou n  o s  o livres    Palavras novas  como nomes pr  prios de pessoas  empresas e produtos podem gerar  pron  ncias amb  guas  embora os sintetizadores possam pronunciar centenas ou at    milhares de palavras  Pronunciar corretamente uma frase ou senten  a com a melodia  correta requer um entendimento do significado de uma frase que o computador n  o     capaz de processar  como tom de raiva  d  vida e afins  o que resulta em respostas pouco  naturais  artificiais e por vezes at   mesmo rob  ticas  pouco agrad  veis de ouvir por  longos per  odos de tempo  o que n  o    desej  vel    O ouvido humano    muito sens  vel pra pequenas mudan  as na qualidade da voz   Uma pessoa pode detectar mudan  as que indiquem o estado emocional  sotaques   problemas de fala  entre outros  A qualidade da s  ntese de voz atual ainda permanece  abaixo da de uma voz real  assim  ouvintes devem fazer um esfor  o maior do que o  normal para compreender vozes sintetizadas e devem ignorar eventuais erros  Para  novos usu  rios  escutar uma voz sintetizada por longos per  odos de tempo podem se  tornar uma tarefa insatisfat  ria    Assim  o desenvolvedor deve considerar duas coisas a respeito da qualidade do som   clareza e compreens  o   o quanto o usu  rio ir 
76.  uma l  ngua  Diferentes l  nguas t  m diferentes conjuntos de sons  ou seja  diferentes  fonemas  Por exemplo  a l  ngua inglesa apresenta aproximadamente 45 fonemas   incluindo sons de consoantes e vogais  enquanto que a l  ngua japonesa apresenta menos  fonemas e inclui sons n  o encontrados na l  ngua inglesa    Ao realizar a transcri    o fon  tica  o sistema deve utilizar a mesma nota    o  padronizada utilizada pelo MBROLA  de forma que sua sa  da seja uma entrada  adequada e compat  vel com o MBROLA  Tal representa    o    mostrada na Tabela 5 1     que mostra a lista de fonemas seguidos por seus respectivos exemplos de ocorr  ncia     103    Tabela 5 1  representa    o dos fonemas utilizados para o MBROLA                                      Z Silencio i Irm   O Opera u Utiliza   a Ave in Indica On Onde um Umbigo  an antigo j joaquim Oo   culos v Valor     h  o k Casa P Papa w wellington  b baba l Luso R Real x Xarope   d Dado lh Lhama r2 Carta y ionosfera  e Episcopal   m mesmo Rr rapadura Z Zebra   Ee Era m2 castram S Sapato u Utiliza   G Gato n Nada s2 Casca um umbigo   H Habib nh nhoque T Taubat   v Valor                            Durante a etapa de transcri    o     realizado um mapeamento por meio de Look up  Tables e   rvores de decis  o para a obten    o da representa    o fon  tica a partir do texto  utilizando a representa    o fon  tica mostrada na Tabela 5 1  sendo aplicadas as regras de  transcri    o de fonemas estudadas nos Cap  tulos iniciais desta D
77.  vetores aleat  rios  correlacionados   No est  gio de treinamento  a matriz de covari  ncia completa    estimado via MLLT   No est  gio de s  ntese  ap  s a senten  a HMM ser constru  da  a sequ  ncia de estados     obtida    q    q q2 gr   17   em que q  indica o t   simo estado da sequ  ncia q  Cada estado q  consiste de um vetor  m  dio M dimensional da caracter  stica est  tica c    c  1   c  2           M  7  A matriz  de transforma    o global 4 MxM  A  a matriz de covari  ncia diagonal MxM  e os vetores  m  dios M dimensionais das caracter  sticas din  micas Ac     Ac    0 5 Cr41     Ct 1    78    Como a matriz de covariancia do vetor de par  metros est  ticos    uma matriz  positiva semi definida  ent  o Y  pode ser expresso como X   UT DU    VDUJT NDU    A decomposi    o de Cholesky de X   XY   CTC   CHEN et  al   2013  mostra ent  o que           VA A   4A   o que nos d   ent  o C    TA   Sendo o vetor    183    aleat  rio x   C   r   p reescrito como cj    VAA  tr   c  em que r    o vetor    aleat  rio M dimensional e u    o vetor m  dio da distribui    o Gaussiana     B 5 S  ntese baseada em grafos de Markov   A vantagem de usar Grafos Estoc  sticos de Markov  SMG   Stochastic Markov  Graphs  ao inv  s de HMMs em s  ntese de voz param  trica reside na capacidade  melhorada dos SMGs modelarem trajet  rias em um espa  o de caracter  sticas   Sintetizadores baseados em SMGs requerem menos espa  o de armazenamento do que a  s  ntese concatenativa  Embora a s  ntese b
78.  z     1 Tg  ha   aa mn e er   lo   46     Que    um polin  mio em z   de grau N   Isto significa que o trato vocal pode ser representado por um sistema linear com    N 2 zeros em z   0 e N p  los   Va Z       se DF  47     Que pode ser representado pelo diagrama de Fluxo de sinal mostrado na Figura A 29     150       u   z     Figura A 29  diagrama de fluxo de sinais para o caso discreto  Fonte  Google Images     Observando o fato de que zeros na origem n  o afetam a resposta em frequ  ncia  o    modelo que se usa para o trato vocal    o modelo s   com p  los ou atoregressivo     H           48   A Z  1    Dif Az    Um modelo discreto completo para a produ    o de voz    mostrado na Figura A 30     Gerador de Ruido         Ng Int Outi Inf Outi      o    I i 4    Ganho para Sons N  o Vazeados ven  Sein Modelo do Trato Vocal Modelo de Radia    o    Gerador de Impulsos Modelo de impulsos Glotais  pitch f0    Ganho pars Sons Vozeados    Figura A 30  modelo discreto completo para a produ    o de voz     Sons vozeados s  o produzidos por uma excita    o constitu  da por impulsos  produzidos nas pregas vocais e sons friccionais resultam da excita    o do trato vocal por  um fluxo turbulento de ar  Assim  a fonte de excita    o para os sons friccionais pode ser  um gerador de ru  do e a fonte para sons vozeados pode ser um gerador de impulsos    peri  dicos de forma apropriada  Uma express  o muito usada    dada por     05 1 cos 1    0 lt n lt P    g n    cos  ur    lt n lt k       
79. 5 60 2540 33  fil 361 90 2583 89 3378 14 297 80 2150 85 2925 14   E  715 34 1073 27 2981 69 580 15 947 25 2525 52  lol 444 89 914 26 2899 80 411 62 832 84 2376 13  ful 461 82 763 41 2902 55 345 27 799 51 2351 50       Fonte   GON  ALVES et  al   2009            32    Tabela 2 3  m  dia dos valores das intensidades dos harm  nicos  em dB  e respectivos desvios padr  o     para cada vogal  para ambos os sexos                                            Mulheres Homens  X DP X DP   al 42 92 9 48 36 91 11 02  lel 45 04 6 88 39 37 9 27  lel 43 88 8 32 38 85 10 3  fil 41 49 10 7 36 73 10 97   E  39 94 11 56 36 33 11 63  lol 36 5 13 25 33 84 12 91  ful 35 29 13 56 32 78 13 02             Fonte   GON  ALVES et  al   2009      As consoantes podem ser classificadas quanto ao modo de articula    o   indicando o  tipo de obst  culo encontrado pelo fluxo de ar ao passar pela boca  sendo oclusivas ou  constritivas  Nas oclusivas  h   total constri    o do ar  enquanto que nas constritivas  a  constri    o    parcial  As constritivas se subdividem em fricativas  laterais e vibrantes   Nas fricativas  o ar sofre fric    o  enquanto que nas laterais o ar passa pelos lados da  cavidade bucal  J   nas vibrantes  a l  ngua ou o v  u palatino vibram    Quanto ao ponto de articula    o   indicando o ponto da cavidade bucal onde se  encontra o obst  culo    corrente de ar  as consoantes podem ser classificadas em  bilabiais  labiodentais  alveolares  palatais e velares  Nas bilabiais  os l  bios ent
80. 7     simplificado para 3 tubos     U pol               w t  uj  t   u t  u  t T  u t     Figura A 27  diagrama de fluxo de sinais para o caso discreto  Fonte  Google Images     Ao se aplicar um impulso unit  rio na entrada  o sistema responder   com um impulso  ap  s Nt  Como na sa  da de cada tubo haver   um impulso refletido que se propagar    para a entrada e ser   refletido novamente para a sa  da  novos impulsos aparecer  o       sa  da cada 2t  Pode se dizer ent  o que a resposta ao impulso do sistema    dado por     us ac   Ne     2ke    41     Uma vez que a resposta ao impulso    formada por impulsos igualmente afastados de 2T    1    no tempo  se aplicarmos na entrada um sinal amostrado    frequ  ncia f     gt  impondo    3  T         ae ee f     obviamente que o sinal tenha sua descri    o na frequ  ncia limitada a A o sistema se    comportar   como um sistema digital causal com resposta ao impulso dada por     0  n  lt  N 2    wD S aaa nD N Z  42     149    Lembrando que um atraso de t que    metade do per  odo de amostragem corresponde   no dom  nio da transformada z    multiplica    o por z   1 2 podemos representar o sistema    discreto pelo seguinte diagrama mostrado na Figura A 28        Figura A 28  diagrama de fluxo de sinais para o caso discreto  Fonte  Google Images     Cuja fun    o de transfer  ncia    dada por     Valz      43     at       Z  N z   Valz    D z      44   Com   N 2  0 5 1 15  1 1r   1 ry   1  ERR Dei  45   E    a 1 TY 1 Ty 1 1 Tab   1  D
81. Associa    o de  Deficientes Visuais   ACADEVI  o Centro de Atendimento Especializado    Crian  a      CEACRI e o Centro de Apoio Pedag  gico    Pessoa com Defici  ncia Visual     CAP   BIDARRA  2005      VERS  O 3 6    Tabela AN1   Checklist de acessibilidade para Software IBM   Vers  o 3 6    202    ANEXO A  CHEKLIST DE ACESSIBILIDADE PARA SOFTWARE IBM                                                                    1 Acesso ao Teclado S  o N  o Coment  rios  Planejado  N A  1 1   Fornecer equival  ncia no teclado para todas as a    es   1 2   N  o interferir nas funcionalidades na acessibilidade do teclado  incorporadas pelo sistema operacional   2 Informa    es do Objeto S  o N  o Coment  rios  Planejado  N A  2 1   Fornecer um indicador de foco visual que se move entre os  objetos interativos conforme o foco de entrada vai mudando   Este indicador de foco deve ser programaticamente exposto  pela tecnologia assistiva   2 2   Fornecer informa    o sem  ntica sobre objetos de interface do  usu  rio  Quando uma imagem representa m elemento do  programa  a informa    o veiculada pela imagem tamb  m deve  estar dispon  vel no texto   2 3   Associar r  tulos com controles  objetos    cones e imagens  Se  uma imagem    usada para identificar os elementos  program  ticos  o significado da imagem deve ser consistente  em todo aplicativo   2 4   Quando formul  rios eletr  nicos s  o utilizado  deve permitir  que as pessoas que utilizam a tecnologia assistiva para acessar  as info
82. BRASIL  Dispon  vel em   lt http   www onu org br oms   afirma que existem 39 milhoes de cegos no mundo  gt   Acesso em  Junho 2014     OPPENHEIM  Alan v   WILLSKY  Alan S   NAWAB  S  Hamid  Signals and  Systems  2a Edi    o  Prentice Hall  1997     OPPENHEIM  Alan V   SCHAFER  Ronald W  Digital Signal Processing  Prentice  Hall International  1975     OPPENHEIM  Alan V   SCHAFER  Ronald W  Discrete Time Signal Processing   Prentice Hall  2009     O SHAUGHNESSY  Douglas  Interacting with compters by voice  automatic speech  recognition and synthesis  In  Proceedings of the IEEE  Vol  91  No  9  Setembro de  2003     PHUNG  Trung Nghia  LUONG  Mai Chi  AKAGI  Masato  A concatenative speech  synthesis for monosyllabic languages with limited data     126    PITT  Ian J   and ALISTAIR DN Edwards  Improving the usability of speech based  interfaces for blind users  In  Proceedings of the second annual ACM conference on  Assistive technologies  ACM  1996     PUTZ  R  e PABST  R  Sobotta   Atlas de Anatomia Humana  Volume 1   Cabe  a   pesco  o e extremidade superior  21a Edi    o  Guanabara Koogan  2001     S  NCHEZ  Jaime  AGUAYO  Fernando  APL  Audio Programming Language for  Blind Users  In  VII Congresso Iberoamericano de Inform  tica Educativa  2004     SANTOS  Andr  a dos  FRAN  A  Halisson Fabr  cio de Carvalho  GOMES    talo  Herbert Santos e  TEIXEIRA  Wander Glayson Fernandes  FILHO  Guido Lemos de  Souza  Desenvolvimento de aplica    es para Deficientes Visuais  Uma disc
83. Erros na convers  o texto para fonema   A s  ntese de voz apresenta duas abordagens b  sicas para a pron  ncia de uma  palavra  em um processo denominado convers  o texto para fonema ou grafema para   fonema  A abordagem mais simples    a baseada em um dicion  rio contendo todas as  palavras e suas respectivas pron  ncias armazenadas  A outra abordagem    baseada em  regras de pron  ncia  Cada abordagem apresenta suas vantagens e desvantagens  a  abordagem baseada em dicion  rio    r  pida e precisa  por  m falha quando a palavra n  o  se encontra no dicion  rio  Al  m disso     medida que o dicion  rio aumenta  os requisitos  de espa  o na mem  ria aumentam  Quanto    baseada em regras  dependendo da l  ngua   estas podem ser muito complexas e irregulares   3 4 3 Erros de pros  dia e conte  do emocional   Um estudo da Universidade de Portsmouth  no Reino Unido  liderado por Amy  Drahota e publicado na Speech Communication  mostrou que ouvintes podem  determinar quando um determinado locutor estaria sorrindo  A identifica    o das  caracter  sticas vocais que transmitem dados emocionais pode ser usada para tornar a    fala mais natural  Uma destas caracter  sticas    o pitch  que auxilia a determinar se a    75    frase    afirmativa  interrogativa ou exclamat  ria  Uma das t  cnicas que modificam o    pitch envolve a transformada discreta cosseno     3 5 Particularidades sobre a engenharia de software envolvendo aplica    es faladas  e com comandos por voz   Um fator crucial
84. Grammar Format Specification  Vers  o  1 0  Sun Microsystems  Palo Alto  Outubro de 1998     SUN MICROSYSTEMS  Java Speech Markup Language Specification  Vers  o 0 5   Sun Microsystems  Mountain View  Agosto de 1997     127    TABET  Youcef  BOUGHAZI  Mohamed  Speech synthesis techniques  A survey  In   7th International Workshop on Systems  Signal Processing and Their Applications   WOSSPA   2011     TALAFOVA  R   ROZINAJ G   CEPKO  J  Speech synthesis for mobile phone  In  49  International Symposium ELMAR 2007  Zadar  Croatia  2007     TAMURA  Masatsune  BRAUNSCHWEILER  Norbert  KAGOSHIMA  Takehiko   AKAMINE  Masami  Unit selection speech synthesis using multiple speech units at  non adjacente segments for prosody and waveform generation  In  ICASSP 2010   2010     WALKER  Mark R   LARSON  Jim  HUNT  Andrew  A new W3C markup standard  for text to speech synthesis  2001     WOUTERS  Johan  MACON  Michael W  Spectral modification for concatenative  speech synthesis  2000     YANKELOVICH  Nicole  LEVOW  Gina Anne  e  MARX  Matt  Designing  SpeechActs  Issues in speech user interfaces  Proceedings of the SIGCHI conference    on Human factors in computing systems  ACM Press Addison Wesley Publishing Co   1995     128    AP  NDICE A  MODELAGEM MA TEM  TICA DO TRATO VOCAL    A 1 O trato vocal   O trato vocal  mostrado nas Figura A 1 e A 3     composto pela laringe e faringe  ou  cavidades lar  ngea e far  ngea  respectivamente  cavidades oral  tamb  m chamada de  cavidade bucal e
85. IA  SOFTWARE  ASPECTOS QUALITATIVOS E PROBLEMAS RELATIVOS    O presente Cap  tulo visa discutir o funcionamento geral de um sistema TTS   detalhando suas etapas de funcionamento  bem como as principais falhas realizadas por  estes sistemas atualmente  Al  m disso     apresentada a t  cnica de s  ntese de voz baseada  em concatena    o de unidades sonoras pr   gravadas  t  cnica esta utilizada nesta  Disserta    o  sendo discutidas de forma detalhada seu funcionamento  vantagens e  desvantangens    A voz    um dos melhores meios de interface  pois n  o requer treinamento  uma vez  que    uma forma de comunica    o natural  AZUIRSON  2009     A s  ntese de voz    a gera    o de um sinal de voz  podendo partir de uma transcri    o  fon  tica acompanhada da pros  dia associada  Tal s  ntese    geralmente uma etapa de um  sistema TTS  cuja entrada    um texto convencional  Assim  a s  ntese de voz    a  produ    o artificial da voz humana  podendo ser implementada via hardware ou  software  Muitos sistemas operacionais incorporaram sintetizadores de voz no in  cio dos  anos 90    Sintetizadores de voz em geral requerem uma sa  da de   udio  A maioria dos  desktops e notebooks vendidos atualmente disp  e de um suporte de   udio satisfat  rio   Evidentemente  quanto maior a qualidade da placa de som  melhor    o resultado da  s  ntese  uma vez que  para que sejam executados de modo mais efetivo  alguns  sintetizadores podem exigir configura    es mais robustas  necessitando de mais 
86. N  o Encontrado   capas      Encontrado    Busca por fones   sequ  ncia misturada        N  o Encontrado  Encontrado    N  o Encontrado d Sele    o da fones  Busca por fones    t   siso    Encontrado             Escolha de fones similares e  unidades por regras    Sele    o de Fones                                                                 E    Verdadeiro  Modifica    o o aa   Verdadeiro jiodificacao inter    Modifica    o inter   inter fones Sele    o de Fones E usto somado  lt     D    unidades ambas    Falso man Modifica    o inter     Verdadeiro fones unidades  ater v     Sintese STRAIGHT    Modifica    o inter fones t  ais ie soe   Sintese STRAIGHT     Sintese STRAIGHT  e Verdadeiro    gt    L  Modifica    o inter  E  rsrs Sintese STRAIGHT     1        t   t  Sintese STRAIGHT    is   Concatenar siabas   __Concatenar senten  as       Senten  as    Sintetizadas  yo Set       Figura B 8  algoritmo de s  ntese proposto em  PHUNG et  al    Traduzido      Para se determinar a posi    o e a dura    o dos n  cleos e dos intervalos de transi    o  dentro de uma s  laba  usou se a medida de transi    o espectral  STM   Spectral  Transition Measure   Para interpolar a fala e modificar a jun    o dos intervalos de  transi    o usou se TD de segunda ordem restrito modificado  MRTD   Modified  Restricted Second Order TD   O STM no tempo t   o local do frame no dom  nio do    tempo     dado por  PHUNG et  al     p    1  STM t     gt  a    86   p L  i 1  em que   us Ci  n n      N
87. NetBeans    interface gr  fica do software MATLAB    interface gr  fica do editor de   udio Audacity     arquitetura proposta     21    24  37  38  45  47    53  57  60  60  63  66    67    70    71    84  87  88  89  91  92  96  97  98  100    Figura 5 5  interface do  a  Sintetizador de Voz   b  Aplica    o de Chat   c   Navegador de Internet   d  Lente de Aumento   e  Cliente de E mail   f   Editor de Texto    Figura 6 1a  resultado da forma de onda no dom  nio do tempo para a frase     Ol    professor    gerada pelo sintetizador    Figura 6 1b  resultado da forma de onda no dom  nio do tempo para a frase     Ol    professor    gerada por locutor humano    Figura 6 2a  resultado da forma de onda no dom  nio da frequ  ncia para a  frase    Ol    professor    gerada pelo sintetizador    Figura 6 2b  resultado da forma de onda no dom  nio da frequ  ncia para a  frase    Ol    professor    gerada por locutor humano    Figura 6 3a  espectrograma obtido para a frase    Ol    professor    gerada pelo  sintetizador    Figura 6 3b  espectrograma obtido para a frase    Ol    professor    gerada por  locutor humano    Figura 6 4  resultados para o MOS    Figura 6 5  resultados parao WAR    Figura 7 1  solu    o proposta em  TALAFOV   et  al   2007  para aplica    o  em dispositivos m  veis    Figura A 1  Trato vocal em detalhes    Figura A 2  cavidade pr  pria da boca  Vista ventral    Figura A 3  anatomia da garganta    Figura A 4  efeito de Bernoulli nas pregas vocais    Figura 2 5
88. O    Treinamento do HMM com  matrizes de co vari  ncia    completa        R  tulos Contextuais                    Etapa de Treinamento  CD HMMS e modelos de    dura    o E  Texto Etapa de S  ntese      R  tulos Contextuais               Constru    o da Senten  a    og i limped  An  lise do Texto  gt  HMM  a aptas  t  sticas              Gera    o de par  metros do         Voz Sintetizada   o Vocoder        HMM a partir de    caracter  sticas din  micas             Par  metros espectrais e FO gerados    Figura B 5  solu    o apresentada em  CHEN et  al   2013  para garantir variabilidade na voz  Fonte    CHEN et  al   2013   Traduzido      Infelizmente  o modelo de distribui    o tradicional da s  ntese de voz n  o    preciso o  suficiente porque uma distribui    o gaussiana multivariada com matriz de covari  ncia  diagonal    geralmente utilizada ignorando a correla    o das dimens  es por raz  es de  baixo custo computacional e armazenamento de dados  Entretanto  ignorar correla    es  dimensionais resulta em um modelo de distribui    o impreciso  Assim  a fim de  aprimorar o modelo de distribui    o  a matriz de covari  ncia completa deve ser  considerada  Entretanto  uma matriz de covari  ncia completa    dif  cil de estimar devido  ao grande n  mero de par  metros livres  Para resolver este problema  usa se ent  o a  Transforma    o Linear de M  xima Verossimilhan  a  MLLT   Maximum Likelihood  Linear Transformation  a fim de estimar as matrizes de covari  ncia completas 
89. OIT 1997      O formato de um arquivo  pho para a palavra noite    mostrado na Figura 4 5     91    Fonema  Dura    o  ms   Pros  dia  pos  freq  amp      n 102 O 121 0 40 116 0 81 111 0   o 105 20 106 0 60 101 0   y 84   t71   i57 097 0 19 99 0 40 100 0 79 102 0    Figura 4 5  formato de um arquivo  pho para a palavra    noite        O MBROLA  atrav  s de uma lista de fonemas de entrada em conjunto com dados  de pros  dia  pitch e dura    o de fonemas em milissegundos   gera vozes de 16 bits e  pode gerar arquivos  wav  au  raw e aiff  AZUIRSON  2009     Os pontos de pitch s  o determinados pela posi    o relativa em percentual da  mudan  a da entona    o e o pitch em Hertz  AZUIRSON  2009     O MBROLA Faz uso de um banco de dados de d  fono especialmente adaptado aos  requisitos do sintetizador ap  s passar por um processo de an  lise s  ntese  harm  nico estoc  stico a partir de um banco de dados de d  fono original  um banco de  dados composto por amostras  tirando vantagem da flexibilidade do modelo param  trico  enquanto que mant  m a simplicidade computacional dos modelos no dom  nio do tempo   O algoritmo apresenta baixo custo computacional  com 7 opera    es por amostra em  m  dia enquanto permite ao sintetizador uma suaviza    o espectral no dom  nio do tempo  nas vizinhan  as do segmento  tornando o resultado mais fluido  MBROLA 2014     A Figura 4 6 mostra o diagrama de blocos do MBROLA de forma detalhada  O  algoritmo MBROLA recebe como entrada informa    es fon 
90. S  ntese  I  T  tulo     CDD 621 38       iv    UNIVERSIDADE FEDERAL DO CEAR    CENTRO DE TECNOLOGIA  PROGRAMA DE P  S GRADUA    O EM ENGENHARIA DE TELEINFORM  TICA    CAMPUS DO PICI  CAIXA POSTAL 6007 CEP 60 738 640  FORTALEZA   CEAR     BRASIL  FONE   55  85 3366 9467     FAX   55  85 3366 9468    N  COLAS DE ARA  JO MOREIRA    PROPOSTA DE UM FRONT END EM JAVA PARA SINTETIZADOR DE VOZ  BASEADO NO MBROLA    Disserta    o submetida    Coordena    o do Programa de P  s   Gradua    o em Engenharia de Teleinform  tica  da Universidade  Federal do Cear    como requisito parcial para a obten    o do grau  de Mestre em Engenharia de Teleinform  tica      rea de concentra    o  Sinais e Sistemas     Aprovada em  02 09 2015     BANCA EXAMINADORA       Universidade Federal do Cear      4      i tebow Wrcelo  Profa  Dra  MARIA ELIZABETH SUCUPIRA FURTADO  Universidade de Fortaleza    A Deus    Aos meus Pais  Professores e Amigos    A Sebasti  o de Ara  jo  In memorian     A Alexandre M  de Morais  In    memorian     vi    AGRADECIMENTO       CAPES  pelo apoio financeiro com a manuten    o da bolsa de aux  lio   bem como    Siemens   Unify    Ao Prof  Dr  Paulo Cesar Cortez  pela excelente orienta    o e aos professores  participantes da banca examinadora Prof  Dr  Jos   Marques Soares  Prof  Dr  Danielo  Gon  alves Gomes e Profa  Dra  Maria Elizabeth Sucupira Furtado pelo tempo  pelas  valiosas colabora    es e sugest  es    Aos professores do Programa de P  s Gradua    o em Engenharia 
91. Um novo algoritmo para intera    o homem   dispositivo port  vil multiplataforma baseado em fluxo   ptico  Tese de doutorado   Universidade Federal do Cear    Fortaleza  2012     DUTOIT  T   An Introduction to Text To Speech Synthesis  Kluwer Academic  Publishers  Dordrecht Hardbound  ISBN 0 7923 4498 7  312 pp  1997     DUTOIT  T   H  LEICH  H   MBR PSOLA  Text To Speech Synthesis based on an  MBE Re Synthesis of the Segments Database  In  Speech Communication  Elsevier  Publisher  vol  13  n03 4  1993     EICHNER  Matthias  WOLFF  Matthias  OHNEWALD  Sebastien   HOGGMANN Riidiger  Speech synthesis using stochastic markov graphs  2001     124    ESPEAK   SITE OFICIAL  Dispon  vel em   lt http   espeak sourceforge net  gt   Acesso  em  Junho de 2014     FESTIVAL     SITE OFICIAL  Dispon  vel em    lt http   www cstr ed ac uk projects festival  gt   Acesso em  Junho de 2014     FULKERSON  Michael S   BIERMANN  Alan W  Javox  A Toolkit for Building  Speech Enabled Applications     GON  ALVES  Maria In  s Rebelo  PONTES  Paulo Augusto de Lima  VIEIRA   Vanessa Pedrosa  PONTES  Ant  nio de Lima  CURCIO  Daniella  DE BIASE  Noemi  Grigoletto  Fun    o de transfer  ncia das vogais orais do Portugu  s brasileiro   an  lise ac  stica comparativa  Brazilian Journal of Otorhinolaryngology  Vol  75  ed  5   setembro   outubro   2009     HAYKIN  Simon S   VEEN  Barry Van  Sinais e Sistemas  Bookman  2001     HUNT  Andrew J   BLACK  Alan W  Unit selection in a concatenative speech  synthe
92. a    o da concatena    o de segmentos n  o adjacentes mantendo a qualidade  Ent  o  a pros  dia    regenerada a partir de uma   nica  ou m  ltiplas  unidade s  a fim de reter as    express  es pros  dicas da fala original  Finalmente  a pros  dia das unidades       188    modificada de acordo com a pros  dia regenerada e ent  o as unidades geradas s  o  concatenadas a fim de produzir uma fala  BRAUNSCHWEILER  2010     A Figura B 7 mostra um diagrama de blocos para a solu    o proposta  O banco de  dados de unidades sonoras cont  m informa    es sobre forma de onda dos segmentos   marcadores de pitch  atributos pros  dicos  atributos de contextos fon  ticos e atributos  de contextos gramaticais  S  o usados semi fonemas como as menores unidades sonoras   A sequ  ncia de fonemas  a pros  dia gerada no m  dulo de gera    o de pros  dia  juntamente com informa    es de atributos para a sele    o de unidades s  o usadas como    entradas  BRAUNSCHWEILER  2010      Sequ  ncia de  fonemas  pros  dia                   Sele    o de Unidades    Busca   tima por  sequ  ncia de unidades    Regenera    o de Pros  dia    Fus  o de pros  dia Unidades de pros  dia    Concatena    o de pros  dia  SS  Gera    o de Forma de Onda    Fus  o da forma de Unidade de forma de  onda onda        Concatena    o das unidades    Voz sintetizada    Figura B 7  solu    o proposta por  BRAUNSCHWEILER  2010   Fonte   BRAUNSCHWEILER  2010    Traduzido      189    Tal t  cnica faz uso dos custos alvo e dos custo
93. a ascendente  bottom up  iniciando com a entrada de dados e  reescrevendo a at   o s  mbolo inicial  tentando localizar os elementos mais b  sicos  Em  conjunto com tokens e regras gramaticais  gera se ent  o a   rvore sint  tica da estrutura  de entrada    Para os casos em que este    insuficiente  s  o necess  rias e realizadas as an  lises  sem  nticas e pragm  ticas conforme o contexto   5 3 2 5 Separa    o sil  bica e identifica    o das s  labas t  nicas   Antes de iniciar a transcri    o fon  tica     realizada a separa    o sil  bica e a  identifica    o das s  labas t  nicas por meio da acentua    o  Para a identifica    o de  ox  tonas n  o acentuadas podemos aplicar as seguintes regras j   mencionadas conforme  explicado no trabalho  AZUIRSON  2009   palavras terminadas em  im  e  um    palavras terminadas em  ar    er    ir  e  or   devido    forma infinitiva dos verbos  apresentarem a sua   ltima s  laba t  nica  e palavras terminadas em z antecedidas por  vogais  Vale ressaltar que embora essas regras n  o sejam verdadeiras para todos os  casos  elas abrangem a maioria deles  apresentando um bom   ndice de acerto  conforme  explicado em  AZUIRSON  2009    5 3 2 6 Convers  o texto para fonema e transcri    o fon  tica   Os passos restantes s  o os respons  veis por converter o texto falado em fala  propriamente dita  A convers  o texto para fonema  como o pr  prio nome sugere   converte cada palavra em fonema  lembrando que um fonema    a menor unidade sonora  de
94. a e dura    o de pausas  o pitch  o valor  da frequ  ncia fundamental  bem como dura    o e amplitude dos fones  SCHROETER   2005  AZUIRSON  2009  MAEDA  1995     Uma modelagem apropriada da pros  dia    essencial para produzir falas com alto  grau de naturalidade  Detalhes fon  ticos  como nasaliza    o de vogais  e melhorias nas  fontes de excita    o tamb  m s  o necess  rias para obter uma  fala  natural  Muitas vezes   tais melhorias s  o feitas com base em experimenta    es de tentativa e erro  MAEDA   1995     Devido ao alto n  vel dos sistemas de processamento ac  stico existentes atualmente   a maior parte das pesquisas tem se voltado para modelagem lingu  stica e pros  dica   AZUIRSON  2009     A pros  dia pode fornecer pistas sobre a estrutura sint  tica  resolvendo  ambiguidades  Permite ainda a segmenta    o de enunciados longos em unidades  menores  No caso da pron  ncia  a pros  dia    dependente do falante  incluindo g  nero     tarefa espec  fica  etc   AZUIRSON  2009  SCHROETER  2005      40    2 6 5 Entona    o e Dura    o   A especifica    o autom  tica da entona    o a partir de um texto comum continua  sendo um desafio para os sistemas de s  ntese de voz  Os sistemas de s  ntese de voz  devem produzir uma entona    o apropriada  Tr  s par  metros din  micos pros  dicos  ou  suprassegmentais  contribuem para a entona    o  pitch  dura    o e amplitude  No n  vel  segmental  fonema   a amplitude varia muito de acordo com a forma de articula    o  Em  geral
95. a um pacote de  softwares acess  veis  livre  gratuito  de c  digo aberto  nativamente multiplataforma  dispon  vel para falantes do portugu  s brasileiro  contendo aplica    es mais comuns no  dia a dia de um usu  rio integradas a um sistema de s  ntese de voz    Por fazer uso da tecnologia Java  a arquitetura proposta    nativamente  multiplataforma   ao contr  rio do DOSVOX  que foi desenvolvido nativamente para o  Windows e que    executado no GNU Linux apenas se houver o Wine instalado  ou do  ADRIANE  que    um ambiente puramente GNU Linux  Embora solu    es baseadas em  plataformas livres sejam as ideais  tanto por ter uma filosofia de desenvolvimento  colaborativo   e consequentemente mais r  pido  como pelo baixo custo  n  o se pode  for  ar os usu  rios a adotarem um sistema operacional com o qual os usu  rios  possivelmente n  o estejam habituados a usar    Aplica    es como JAWS e Virtual Vision custam aproximadamente US  1 200 00 e  US  2 500 00  respectivamente  o que os torna invi  veis para usu  rios com condi    es  financeiras restritas  Al  m disso  alguns dos sistemas que foram apresentados  anteriormente apresentam s  ntese sofr  vel para o idioma portugu  s brasileiro e n  o    fornecem a seus usu  rios ferramentas acess  veis integradas     6 2 Resultados da s  ntese  an  lise quantitativa   Os testes iniciais tiveram por objetivo analisar  no dom  nio do tempo e da  frequ  ncia  as diferen  as entre a voz sintetizada e a voz natural  de forma a esclare
96. ada em geral  pois  n  o faz uso de grandes bancos de dados com amostras de voz  TABET  2011     Outra vantagem desta t  cnica    que os par  metros est  o altamente correlacionados  com a produ    o e propaga    o de som no trato vocal  assim  apresenta grande  flexibilidade quanto ao tipo e a qualidade das vozes geradas por meio de mudan  a nas  regras ou nos valores para os par  metros  TABET  2011  AZUIRSON  2009     A s  ntese baseada em regras     tamb  m  bastante intelig  vel mesmo quando o  resultado    reproduzido em alta velocidade  TABET  2011  SCHROETER  2005     Par  metros como frequ  ncia fundamental  n  vel de ru  dos s  o variados ao longo do  tempo para gerar formas de onda  A maioria destes sistemas geram vozes muito  artificiais  rob  ticas n  o atingindo naturalidade  Entretanto  a m  xima naturalidade nem  sempre    um objetivo prim  rio dependendo do sistema  E a s  ntese de formantes pode  apresentar certas vantagens sobre sistemas como os concatenativos  A s  ntese de  formantes    intelig  vel mesmo em altas velocidades  Al  m disso  costumam ser  programas menores que aqueles baseados em concatena    o por n  o precisarem de um  banco de dados de amostras  podendo ser usados em sistemas embarcados com recursos  de mem  ria e processamento limitados  TABET  2011        muito mais f  cil modificar os par  metros em s  ntese de formantes para simular  diversas vozes sint  ticas que em outras t  cnicas  mas infelizmente    mais dif  cil a obter  e dete
97. ada pelo fluxo de ar usando tanto lei quadr  tica como  c  bica  Por meio desse modelo     poss  vel sintetizar v  rios fricativos e pausas n  o  vozeadas em diversos contextos em conjunto com vogais  MAEDA  1995     Os c  lculos baseados em modelos unidimensionais dependem das fun    es de   rea  do trato vocal e da limita    o da faixa de frequ  ncia em um certo valor  A se    o  transversal do trato vocal deve ser menor que a metade de um comprimento de onda  para que o modelo de onda plana possa ser utilizado  A partir deste valor de frequ  ncia  come  am a surgir modos de propaga    o adicionais  n  o descritos pelos modelos  unidimensionais  Por isso  para altas frequ  ncias  n  o    v  lido considerar a onda    ac  stica que se propaga pelo trato vocal como uma onda plana  BRAND  O  2011      159    Um modelo 2D apresenta precis  o similar ao modelo 1D  por  m  apresenta maior  realismo  BRAND  O  2011     A fun    o   rea    importante nas simula    es 1D do trato vocal e para s  ntese de voz   J   foram combinadas imagens de tomografia com dados ac  sticos e da geometria dos  l  bios procurando melhorar a confiabilidade na obten    o da fun    o   rea  BRAND  O   2011     Story criou um modelo param  trico para controlar a fun    o   rea do trato vocal  permitindo a simula    o de consoantes e vogais  BRAND  O  2011     A dificuldade em se modelar a complexa estrutura dos   rg  os do corpo humano   especialmente a laringe e o trato vocal     que as formas aproximadas
98. ados nesse est  gio  como v  rgula  ponto e v  rgula e ponto final e  ponto par  grafo  Por se tratar de um prot  tipo  n  o foi agregado ao sistema um  dicion  rio de abreviaturas e siglas   5 3 2 3 Pr   processamento   O pr   processamento do texto analisa a entrada do texto buscando por constru    es  especiais da linguagem  como acr  nicos  abrevia    es  datas  horas  n  meros  medidas   valores monet  rios  endere  os de e mails  entre outros    O resultado dessas duas primeiras etapas    a forma falada do texto escrito  por  exemplo    R  M  rio Mamede  455  Bl  A  Ap  203         Rua M  rio Mamede  n  mero quatrocentos e cinquenta e cinco  bloco A  apartamento  duzentos e tr  s         Depositar R  1 500 00 na minha conta        Depositar mil e quinhentos reais na minha conta        Nasci no dia 11 02 1988        Nasci no dia onze de fevereiro de mil novecentos e noventa e oito     5 3 2 4 An  lise morfossint  tica e lingu  stica   A fim de eliminar qualquer ambiguidade na pron  ncia das palavras  em especial de   hom  grafos n  o hom  fonos     realizada a an  lise morfossint  tica por meio de um    parser n  o determin  stico     102    O parser usa a sequ  ncia de entrada para determinar a estrutura gramatical  conforme a gram  tica formal definida  transformando a em uma   rvore para  processamento posterior e captura da hierarquia impl  cita na entrada    O parser decomp  e o texto em unidades estruturais a fim de que sejam organizadas  dentro de um bloco de form
99. agem mais promissora  atualmente  a abordagem concatenativa produz resultados de s  ntese superiores  pois usa    grava    es de vozes humanas  Esta usa segmentos reais curtos de vozes gravadas que s  o    53    cortadas durante grava    es e armazenadas em um invent  rio  um banco de dados de  voz  tanto como formas de onda ou codificados por meio de um codificador adequado   SCHROETER  2005     A Figura 3 3 mostra o diagrama de blocos de um sistema baseado em s  ntese    concatenativa gen  rico             O front end deve ser  modificado para cada    idioma  Entrada An  lise do Texto  Montagem das unidades Sintese e modifica    o da Sa  da   Texto  convers  o letra som  de acordo com alvos forma de onda com a  Voz Sintetizada   pros  dia adequados com entrada fala              O banco de dados de  unidades deve ser  modificado para cada  idioma    eso e Arazenamento  eg de unidades    sonoras       i        2 S  mbolos Fon  ticos  Caracteres Alfab  ticos Alvos Pros  dicos    Figura 3 3  diagrama de blocos da s  ntese concatenativa  Fonte   SCHROETER  2005   Traduzido      O front end de um sistema concatenativo deve converter uma entrada de texto em  cadeia de caracteres  string  de s  mbolos fon  ticos e informa    es de pros  dia  como a  frequ  ncia fundamental  dura    o e amplitude  O front end emprega um conjunto de  regras e ou um dicion  rio de pron  ncia  Juntamente com uma string de s  mbolos  fon  ticos  produz valores para frequ  ncia fundamental  pitch   dura 
100. al  tamb  m chamada de pitch  e representa o  per  odo de interrup    o do fluxo de ar que excita o trato vocal causado pela vibra    o das  pregas vocais quando passado pela glote    Considerando que a cada ciclo a glote abre devagar e fecha muito r  pido  isso deve  fazer com que o trem de pulsos de onda de press  o tenha um ataque lento e uma queda    r  pida  No dom  nio do tempo  a press  o P t     definida por  LIMA  2010     a    P t    Py     sen   x      1     em que T    o per  odo  a nos diz se o ataque    lento ou r  pido  Quanto maior alfa  mais  inclinado    o pulso  caso a seja nulo  n  o h   inclina    o    Conforme dito anteriormente  a frequ  ncia de vibra    o das pregas vocais durante a  fona    o pode ser modificada pelos m  sculos lar  ngeos e press  o do ar gerada pelos  pulm  es  Em resposta    varia    o de tens  o dos m  sculos  as pregas vocais vibram a  frequ  ncias de 50 a 1000Hz  resultando em sopros de ar injetado na traqueia  Quanto  maior for esse per  odo  menor    o espa  o entre as harm  nicas e  consequentemente  menor    o seu per  odo fundamental  resultando em um som mais grave  Por outro lado   se esse per  odo for muito pequeno  a frequ  ncia fundamental    alta  logo  produzindo  som mais agudo  BRAND  O  2011  LOPEZ  2009     A altera    o da frequ  ncia fundamental    realizada de tal forma que as informa    es  lingu  sticas s  o fornecidas ao interlocutor atrav  s da entona    o  indicando perguntas   afirma    es ou estados emoc
101. alhos aceitos em congressos relacionados    1 5 Estrutura    o do trabalho    2  CONCEITOS B  SICOS E FUNDAMENTOS  2 1 Defini    o de defici  ncia visual   2 2 Inclus  o digital   2 3 Acessibilidade   2 4 Tecnologias assistivas   2 6 Fon  tica e especificidades de cada l  ngua    2 7 Caracter  sticas da voz    3  VIS  O GERAL E PROJETO DE UM SISTEMA DE S  NTESE DE VOZ  VIA SOFTWARE  ASPECTOS QUALITATIVOS E PROBLEMAS  RELATIVOS   3 1 Aplica    es das tecnologias de voz e vantagens   3 2 Vis  o geral de um sistema TTS   3 3 S  ntese de voz baseada em concatena    o   3 4 Erros e dificuldades mais comuns gerados pelo processo de s  ntese   3 5 Particularidades sobre a engenharia de software envolvendo aplica    es    faladas e com comandos por voz    4  TECNOLOGIAS DE S  NTESE DE VOZ E ACESSIBILIDADE  EXISTENTES NO MERCADO E O MBROLA  4 1 Sistemas de acessibilidade e s  ntese de voz existentes no mercado    4 3 O MBROLA    xvii    20  21  23    25  26  26    28  28  29  29  30  30  35    41    42  43  52  71  75    81    81  89    5  SISTEMA DESENVOLVIDO  5 1 Teste de di  logo natural  5 2 As ferramentas utilizadas    5 3 O sistema desenvolvido    6  TESTES E RESULTADOS OBTIDOS   6 1 Compara    o com outros sintetizadores de voz  6 2 Resultados da s  ntese  an  lise quantitativa   6 3 Testes em campo  an  lise qualitativa    6 4 Testes em campo  an  lise quantitativa    7  CONCLUS  O  7 1 Trabalhos futuros    REFER  NCIAS    AP  NDICE A  MODELAGEM MATEM  TICA DO TRATO VOCAL  A 1
102. alidade j   existentes   com SDK dispon  vel para teste  Apresenta suporte para at   33 l  nguas  100 vozes e  plataformas ARM  MIPS e Intel x86  entretanto  n  o se trata de uma solu    o livre e   como dito  voltado apenas para sistemas GNU Linux  ACAPELLA 2014     4 1 2 ADRIANE   O projeto ADRIANE  Audio Desktop Reference Implementation And Networking  Environment     Ambiente de Rede e Refer  ncia para Implementa    o de Desktop  Auditivo  visa prover uma interface de usu  rio passo a passo e linear  f  cil de usar e  organizada em menus que priorizam os aplicativos e tarefas mais usadas pelo usu  rio  A  primeira linha do ADRIANE diz    Enter para ajuda  seta para baixo o pr  ximo menu     O  sistema cont  m leitores de tela  sintetizadores de voz  drivers Braille  navega    o pelo  teclado e programas que podem ser inteiramente utilizado por meio de intera    es n  o  gr  ficas  Al  m disso  com o GSM  o usu  rio do ADRIANE consegue baixar mensagens  SMS para o computador e respond   las com uso de um editor e um teclado normal  em  vez de pequenas telas do telefone    A equipe do ADRIANE procurou desenvolver softwares que se adaptassem   s  capacidades e limita    es dos usu  rios  ao inv  s de adaptar uma interface pr   existente  cujo desenvolvimento inicial n  o previa oferecer suporte aos deficientes visuais  A  pedido especial de usu  rios e programadores cegos mais experientes  depois foi  acrescentado um item Shell ao primeiro menu    O sistema ADRIANE est   dis
103. alta  qualidade de s  ntese  Modelos HNM s  o modelos param  tricos e apresentam facilidade    para modificar caracter  sticas pros  dicas como entona    o  estresse ou ritmo  TABET     2011      185    HNM assume que o sinal de fala    composto por uma parte harm  nica e uma parte  de ru  do  A parte harm  nica corresponde aos componentes quasi peri  dicos da fala e o  ru  do corresponde aos componentes n  o peri  dicos  Tais componentes s  o separadas no  dom  nio da frequ  ncia por um par  metro chamado frequ  ncia m  xima vozeada Fm  A  largura de banda at   Fm    representada por senoidais harm  nicas e a largura de banda a  partir de Fm    representada por componentes de ru  do modulados  Sons n  o vozeados  s  o representados apenas pela parte do ru  do  O sinal de voz    ent  o obtido a partir da  soma das harm  nicas com ru  do    A parte harm  nica cont  m apenas m  ltiplos da frequ  ncia fundamental  A parte do  ru  do pode ser modelada a partir de um envelope usando filtro AR  no qual a s  ntese     realizada por meio da filtragem de ru  do branco pelo filtro AR  A fase dos ru  dos     ajustada aleatoriamente devido ao fato do ru  do ser um sinal estoc  stico  TABET   2011     A parte peri  dica  ou quasi peri  dica     considerada harm  nica  Nas primeiras  implementa    es do HNM  a parte harm  nica designava a soma de componentes  senoidais harmonicamente relacionadas com amplitudes constantes dentro de cada  quadro  A fase    modelada por um polin  mio de prim
104. analisados  O  frame shift  quando alterado na etapa de treino pode melhorar parte do resultado do  modelo gerado  Na etapa de s  ntese     o respons  vel por determinar a velocidade da fala   COSTA e MONTE  2012     Em geral  quanto maior for a frequ  ncia de amostragem usada para gravar as  senten  as que comp  em a base de treino  melhor    o resultado final  A explica    o se  deve pelo fato do modelo gerado pelo processo de aprendizagem conter mais  informa    es    A parte da s  ntese realiza a opera    o inversa do reconhecimento de voz   inicialmente o texto    marcado de acordo com r  tulos dependentes de contexto  Em  seguida  as dura    es dos estados do HMM s  o determinados de acordo com as fun    es  de densidade de probabilidade das dura    es dos estados  Ap  s esta etapa  o algoritmo  de gera    o de par  metros gera uma sequ  ncia de coeficientes mel cepstrais e os valores  de log fo que maximizam suas probabilidades de sa  da  Finalmente  a forma de onda da  fala    sintetizada diretamente a partir dos coeficientes mel cepstrais gerados e os valores    de fo usando um filtro MLSA com pulso bin  rio ou ru  do de excita    o  BLACK  2007      179        Sinal de Voz              Extra    o do  par  metro de  excita    o               Parm  metros    espectrais    Par  metros de  excita    o    R  tulo    Etapa de S  ntese    An  lise do Texto    HMMs dependentes de contexto  e modelos de dura    o        R  tulo Gera    o de Par  metros  a partir do HMM    Pa
105. anco de dados de voz como uma rede de transi    o de  estados  Os estados  caixas  representam todos os fonemas no banco de dados   organizados de acordo com a identidade fon  tica  e as linhas representam as transi    es     que s  o todas as sequ  ncias de concatena    o poss  vel        Figura B 3  banco de dados como uma rede de transi    o de estados  Fonte   HUNT  1996      Dada a especifica    o alvo  a sequ  ncia t     t      tn   precisa se selecionar o  conjunto de unidades uf    u      Un  mais pr  xima ao alvo  minimizando o esfor  o    de computacional de se aplicar t  cnicas de processamento de sinais para produzir as    174    caracter  sticas pros  dicas exigidas bem como minimizar as distor    es das formas de  onda  O banco de dados contendo as unidades candidatas pode ser visto como uma rede  de transi    o de estados  com cada unidade representando um estado  O custo de  perman  ncia em um estado pode ser visto como o custo alvo e o custo de transi    o de  estados pode ser visto como o custo de concatena    o  Como qualquer unidade pode ser  potencialmente concatenada com qualquer outra  a rede    completamente conectada  O  fonema alvo    sempre sintetizado por uma unidade do banco de dados com a mesma  identidade fon  tica  HUNT  1996     Cada alvo possui um pitch  dura    o e pot  ncia desejada  A tarefa    achar um  caminho pela rede de transi    o de estados  a sequ  ncia no banco de dados de unidades   com custo m  nimo  HUNT  1996     Cada fonema a
106. antagens e desvantagens     interessante observar que as solu    es apresentadas   em geral  n  o apresentam voz natural  n  o s  o nativamente multiplataformas   apresentam suporte para um n  mero restrito de idiomas e   ou n  o s  o livres ou custam  valores elevados para camadas populares  Al  m disso  a maioria apresenta apenas  sintetizador de voz  n  o provendo um pacote contendo as aplica    es mais usadas no dia   a dia de um usu  rio comum    Vale ressaltar ainda que esta lista apresenta apenas algumas das solu    es existentes   e n  o todas  deixando de lado softwares como o JAWS e Virtual Vision  que custam   respectivamente  US  1 200 00 e US  2 500 00 e s  o dispon  veis apenas para  plataforma Microsoft Windows  tornando se proibitivos para usu  rios que n  o  disponham de tais recursos financeiros ou n  o usem esta plataforma    Vale ressaltar que  excetuando se o ADRIANE  DOSVOX LINVOX  LianeTTS e  NVDA  os demais sistemas s  o apenas sintetizadores de voz  n  o englobando solu    es  de acessibilidade  Ademais  s  o poucos os sistemas que realizam uma an  lise  sem  ntica pragm  tica de textos e quando o fazem     comum os algoritmos do parser    produzirem estruturas sint  ticas incorretas  AZUIRSON  2009      82    4 1 1 Acapella   Acapella TTS    um sintetizador de voz projetado para desenvolvedores integrarem  a capacidade de s  ntese de voz para suas aplica    es nos dispositivos baseados em  GNU Linux embarcado  Apresenta uma das s  nteses com maior qu
107. ante na determina    o das vari  veis aerodin  micas associadas com a qualidade  vocal  Para um maior realismo     necess  rio considerar sua elasticidade em cada ponto  da estrutura  e n  o considerar o mesmo m  dulo de elasticidade para a estrutura inteira    Dois problemas principais impedem a modelagem precisa das pregas vocais  O  primeiro problema    relativo    sua forma exata  na qual os modelos massa mola  conseguem fazer simula    es razo  veis  mas ainda n  o s  o adequados  O segundo  problema    relativo    elasticidade dos tecidos  a qual varia para diferentes pontos das  pregas vocais e ainda em fun    o das contra    es musculares  o que deveria ser refletido  tamb  m nos modelos  BRAND  O  2011     4 3 7 Modelagem Baseada em Imagens M  dicas   Com as t  cnicas de imageamento por resson  ncia magn  tica  IRM     poss  vel  resolver o problema da forma da estrutura na modelagem tridimensional  pois elas  permitem a visualiza    o espacial da maioria dos tecidos  Assim     poss  vel obter malhas    individualizadas para modelagem  restando apenas o problema da determina    o das    157    caracter  sticas do tecido em cada ponto  o qual pode ser resolvido atrav  s da t  cnica de  imageamento por elastografia  BRAND  O  2011     A elastografia por resson  ncia magn  tica  ERM     uma t  cnica que permite obter as  propriedades mec  nicas dos tecidos e consiste em provocar ondas mec  nicas nos  tecidos e usar um equipamento de RM para medir as varia    es na posi 
108. aramente examinada  gerando um problema de estabilidade excessiva  A  variabilidade na voz humana  portanto     um empecilho para os sistemas baseados em  HMM convencional  Em  CHEN et  al   2013     proposta uma solu    o para lidar com a  variabilidade da fala  que raramente recebe aten    o nos estudos sobre o tema  O  trabalho prop  e um m  todo capaz de gerar vozes humanas variantes no tempo e uma  fala expressiva e diversa  diferente dos sistemas tradicionais que geram vozes  por vezes  considerada por seus usu  rios como fria e mon  tona  Assim  Um tradeoff entre  estabilidade e variabilidade deve ser considerado a fim de garantir uma melhor  naturalidade    Um diagrama de blocos de um sistema HMM tradicional combinado com a  estrat  gia apresentada no trabalho    mostrado na Figura B 5  Durante a fase de  treinamento  o espectro e os par  metros de excita    o s  o extra  dos e modelados por  HMMs dependentes de contexto  Durante a fase de s  ntese  um texto dado    convertido    em uma sequ  ncia de r  tulos dependentes de contexto por um analisador de texto     181    A solu    o apresentada no trabalho citado apresentado considera que cada vetor da  distribui    o de estados    provavelmente um vetor de caracter  sticas da fala se o modelo  de distribui    o    preciso o suficiente e que a probabilidade de sa  da de um vetor com a    dist  ncia m  nima do vetor m  dio    maior     Sinal de Voz       Extra    o de Caracter  sticas          Par  metros espectrais e F
109. arte dos volunt  rios est   na descontinuidade inerente     t  cnica de concatena    o    Pode se afirmar que o sistema proposto  embora ainda n  o t  o natural quanto se  deseje  apresenta boa inteligibilidade  Tal conclus  o tem como base a compara    o entre  a voz produzida artificialmente por meio do sintetizador proposto e uma voz produzida  por um locutor  natural  tanto no dom  nio do tempo como da frequ  ncia  considerando   se depoimento de usu  ria portadora de defici  ncia visual e o resultado dos testes de  usabilidade bem como os resultados dos testes MOS e WER com volunt  rios    O resultado mais inesperado residiu no depoimento da usu  ria deficiente visual   embora o resultado obtido com a API do Google Translator fosse mais natural  o tom  grave do resultado obtido neste trabalho mostrou se mais agrad  vel  confort  vel e  adequado para uso a longo prazo  um resultado n  o muito comentado em trabalhos  envolvendo acessibilidade    Embora haja v  rios projetos com caracter  sticas semelhantes  a flexibilidade do  projeto  tanto pelo fato de atuar como front end para diversas APIs de s  ntese de voz   prover suporte para diversas l  nguas e diversas plataformas operacionais e ser livre  bem  como o fato de j   fornecer ao usu  rio um pacote de softwares mais utilizados  torna a  solu    o proposta uma contribui    o importante ao processo de integra    o digital de    deficientes visuais     121    7  CONCLUS  O    Programadores e engenheiros de software envol
110. arted  Name    Value    Warning  Name is nonexistent or not a directory  C  Xilinx 13 4 ISE_DS ISE sysgen util  Warning  Name is nonexistent or not a directo  C  Xilinx 13 4 ISE_DS ISE sysgen util nt  Warning  Name is nonexistent or not a directory  C  Xilinx 13 4 ISE_DS ISE sysgen hwcosim xtre   Warning  Name is nonexistent or not a directory  C  Xilinx 13 4 ISE_DS ISE sysgen hwcosim xtr  Warning  Name is nonexistent or not a directory  C  Xilinx 13 4 ISE_DS ISE sysgen hwcosim jtag         w   A  conversawav     Ei  deploytool bat  Warning  Name is nonexistent or not a directory  C  Xilinx 13 4 ISE_DS ISE sysgen hwcosim jtag     E  a  Warning  Name is nonexistent or not a directory  C  Xilinx 13 4 ISE_DS ISE sysgen hwcosim netw   E  Iedataxsd Warning  Name is nonexistent or not a directory  C  Xilinx 13 4 ISE_DS ISE sysgen hwcosim netw  E  ledata_utf8 xml Warning  Name is nonexistent or not a directory  C  Xilinx 13 4 ISE_DS ISE sysgen hwcosim pp_e  E  matlab bat Warning  Name is nonexistent or not a directory  C  Xilinx 13 4 ISE_DS ISE sysgen hwcosim pp e  A matlab exe Warning  Name is nonexistent or not a directory  C  Xilinx 13 4 ISE_DS ISE sysgen plugins bin       mbuild bat Warning  Name is nonexistent or not a directory  C  Xilinx 13 4 ISE_DS ISE sysgen examples dem  F  mec bat Warning  Name is nonexistent or not a directory  C  Xilinx 13 4 ISE_DS ISE sysgen bin        MemShieldStarter bat   Name is nonexistent or not a directory  C  Xilinx 13 4 ISE_DS ISE sysgen bin n
111. as  ADRIANE Sintese Nao Sim Sim C Linux  JAWS   N  o N  o N  o   Windows  Virtual   N  o N  o N  o   Windows  Vision  MBROLA S  ntese Sim Livre com Sim C Windows   restri    es Linux   MacOS  etc   Festival S  ntese N  o Sim Sim C   Windows   Linux e  Mac OS  IBM Via S  ntese Sim N  o Sim   Windows e  Voice Mac OS  eSpeak S  ntese Sim Sim Sim C Windows   Linux   Solaris   Android e  Mac OS  Acapella S  ntese Sim N  o N  o C Linux  Liane S  ntese Sim Sim Sim C Windows e  Linux       Fonte  Pr  prio autor        95    5  SISTEMA DESENVOLVIDO    O presente Cap  tulo visa apresentar o sintetizador de voz proposto  citando suas  caracter  sticas gerais  suas vantagens  metodologia de desenvolvimento  detalhando seu  funcionamento e as ferramentas acess  veis desenvolvidas    O projeto desenvolvido    um front end para o MBROLA desenvolvido em Java a  fim de poder ser executado em diferentes ambientes operacionais  com GNU Linux   Mac OS e Microsoft Windows  por exemplo  O projeto segue o modelo de software  livre e gratuito   em oposi    o a algumas das interfaces atuais que s  o fechadas e  apresentam alto custo financeiro  Este projeto     portanto  de c  digo aberto e de livre  distribui    o para que os interessados possam fazer modifica    es e uso de acordo com  suas necessidades  facilitando e acelerando ainda mais o processo de inclus  o digital de  deficientes visuais  Apesar da exist  ncia de v  rios sistemas de acessibilidade e s  ntese    de voz  a maioria deles aprese
112. as assistivas  como leitores de tela e lentes de aumento virtuais  Tal  interface    chamada de Assistive Technology Service Provider Interface  AT SPI   que  fornece uma ponte entre o AT SPI e as aplica    es baseadas em Java que fazem uso de  componentes de interface com o usu  rio Swing    A Figura C 1 mostra a arquitetura geral do GNOME no que diz respeito a algumas    solu    es voltadas para desenvolvimento de aplicativos acess  veis     193    ARQUITETURA DE ACESSIBILIDADE DO DESKTOP GNOME    Camada de Ferramentas Accessibility Helper       Figura C 1  arquitetura do GNOME 2 0  Fonte  SUN MICROSYSTEMS  2003   Traduzido      C 2 IBM ViaVoice TTS SDK   O IBM ViaVoice TTS SDK fornece aos programadores as ferramentas necess  rias  para o desenvolvimento de aplica    es que incorporam a tecnologia de voz  incluindo  um conjunto da APIs e utilit  rios que permitem ao desenvolvedor grande capacidade de  padroniza    o e gerenciamento do processo de s  ntese de voz acessado por uma  aplica    o  Este SDK permite aos desenvolvedores a escolha entre duas APIs distintas   Eloquence Command Interface  ECI  e Microsoft Speech Application Programming  Interface  SAPD  O IBM ViaVoiceTTS SDK  juntamente com o IBM ViaVoice TTS  Runtime  fornecem todos os softwares e arquivos de suporte para as duas APIs  ECI     uma API propriet  ria e independente de plataforma  que permite acesso direto a toda a  funcionalidade do IBM ViaVoice TTS  Como caracter  sticas desta API destacam se o  seu s
113. as estimadas  A s  ntese articulat  ria gera voz a partir de  modelos do comportamento articulat  rio do trato vocal humano  A s  ntese  concatenativa produz fala por meio da concatena    o de pequenas unidades de fala  gravadas previamente  sejam fonemas  d  fonos ou tr  fonos  A s  ntese por sele    o de  unidades ao inv  s de gravar apenas uma unidade sonora  grava diversas   at   centenas   de ocorr  ncias da mesma unidade  TABET  2011     A forma mais simples de um sistema TTS    utilizar um  Look up Table      simplesmente reproduzindo vozes pr   gravadas e codificadas  Tal abordagem    utilizada  em aplica    es com poucas mensagens  SHAUGHNESSY  2003     M  todos de s  ntese baseados em manipula    o do espectro do sinal de voz   como  s  ntese de formantes ou s  ntese por codifica    o preditiva linear  produzem uma sa  da  compreens  vel  por  m pouco natural  Essa falta de naturalidade prov  m de modelos  muito simplificados  invent  rios com poucas unidades sonoras ou controle de pros  dia  ruim  KOBAYASHI et  al      Para o portugu  s brasileiro  as t  cnicas mais empregadas s  o a s  ntese concatenativa  e a s  ntese baseada em formantes  COSTA e MONTE  2012     Em sistemas que exigem apenas um vocabul  rio limitado  baseados em palavras ou  frases previamente gravadas     poss  vel gerar pequenas frases com alta naturalidade e  inteligibilidade  uma vez que    poss  vel gravar todas as palavras ou trechos necess  rios  para s  ntese em seus mais variados contex
114. as sofram    nfase   de maneira que os fonemas sejam caracterizados  Tal  fen  meno    realizado pelo grupo de resson  ncia  composto pela faringe  cavidades oral  e nasal  e ocorre na passagem do ar impulsionado nos pulm  es pelo trato vocal  Al  m  disso  filtra os pulsos de ar gerados pela vibra    o das pregas vocais  J   o sistema  articulador modifica as propriedades de filtragem dos   rg  os de resson  ncia sobre o  sinal glotal  irradiando o som para o meio externo  cuja frequ  ncia dos pulsos de ar que  passam pelo trato vocal determina basicamente o qu  o agudo ou grave    uma voz  Ao  chegar    boca  tais as ondas de press  o s  o irradiadas  sendo esta tarefa realizada pelo    grupo de irradia    o  LIMA  2010  MACHADO  1997      132         onda ac  stica  filtrada  voz        Grupo de Articula    o    Grupo de Resson  ncia                M  sculos  e paredes  peitorais  2y f    J Pulm  es a   E Grupo de Vibra    o    Disrama     Grupo de Respira    o          M  sculos abdominais    Figura A 6  esquema de produ    o da voz humana  Fonte   BRAND  O  2011      A produ    o da voz se inicia  portanto  com uma contra    o expans  o dos pulm  es   criando assim  uma diferen  a de press  o entre o ar nos pulm  es e o ar na frente da boca   causando um deslocamento de ar  Tal deslocamento passa pela laringe  transformando   se em uma s  rie de pulsos  o sinal glotal  que chegam    boca e    cavidade nasal  sendo  modulados pelas l  nguas  dentes e l  bios  LIMA  2010  
115. aseada em SMGs n  o apresente a mesma  qualidade que a s  ntese baseada em concatena    o atualmente  espera se que a qualidade  de ambos deva se equiparar em um futuro pr  ximo  EICHNER  2001     Seja y U  Yyy  um grafo dirigido com estados  v  rtices  U    u  u     Uy ea  rela    o de incid  ncia Yyy  UxU  gt   6 1   Denotamos uma aresta entre dois estados u  e  Uz como  u   gt  ug   Uma aresta    definida unicamente pela rela    o de incid  ncia  A  probabilidade de transi    o do arco  u   gt  ug   estimado no processo de treinamento        escrito como P          A sequ  ncia de sucessivas arestas em um grafo    chamado de    caminho q  O i   simo estado do caminho q    denotado por q  i   EICHNER  2001     Come  a se o treinamento com uma estrutura HMM convencional  No est  gio de  inicializa    o  cada estado    assinalado com uma distribui    o Gaussiana  Ap  s o  treinamento  cada estado do modelo    dividido em dois  Ent  o  as arestas e os caminhos  improv  veis s  o removidos do SMG  Tal processo    realizado em dois est  gios  no  primeiro  todas as arestas com probabilidade de transi    o inferior a um dado limiar p  s  o removidos do grafo  Tais procedimentos s  o repetidos at   que se atinja um n  mero  m  ximo total de estados ou o n  mero de estados descartados no   ltimo est  gio da  itera    o seja maior que 0 3  2   em que J    o n  mero de divis  es de estados desde o  in  cio  EICHNER  2001     A s  ntese    realizada por meio das seguintes etapas  sele
116. butos aqueles  que melhor dividem os exemplos  gerando sub   rvores  A principal limita    o do ID3     que ele s   lida com atributos categ  ricos n  o ordinais  n  o sendo poss  vel apresentar  conjunto de dados com atributos cont  nuos  devendo  portanto  atributos cont  nuos  serem discretizados previamente   5 3 2 7 Entona    o e pros  dia   Por fim  a entona    o    realizada por meio de sinais de ponto  exclama    o e  interroga    o    A an  lise da pros  dia    respons  vel por processar a estrutura da senten  a  palavras  e fonemas para determinar a pros  dia adequada  Conforme j   dito  a pros  dia inclui  muitas das caracter  sticas da fala al  m dos sons produzidos  como melodia  ritmo   pausas  velocidade e   nfases  Uma pros  dia apropriada    importante para uma produ    o  de som mais natural    A dura    o dos d  fonos    baseada em valores estat  sticos de acordo com o valor    m  dio da distribui    o dos valores que estes podem assumir acompanhados de uma    106    varia    o percentual  desvio padr  o  a fim de efetuar o aumento ou diminui    o na  dura    o do segmento  Al  m disso  tais valores devem ser maiores ou iguais a um  determinado limiar  Eventuais ajustes emp  ricos foram realizados    medida que o  sistema foi testado    Al  m disso  a dura    o    influenciada pelo contexto fon  tico anterior e posterior   sendo limitada pelos segmentos vizinhos  ressaltando que palavras de conte  do  apresentam maior   nfase    Por uma quest  o de limita  
117. c  stico correspondente    sequ  ncia de fonemas fornecida pelo m  dulo de transcri    o  ortogr  fico fon  tico e aplicar os par  metros pros  dicos fornecidos pelo m  dulo de  processamento pros  dico  AZUIRSON  2009     Sintetizadores de voz podem apresentar erros em qualquer uma das etapas de s  ntese  descritas anteriormente  O sistema auditivo humano    sens  vel a esses erros  de tal  forma que os desenvolvedores devem minimizar esses erros e melhorar a qualidade do    som resultante na sa  da     52    3 3 S  ntese de voz baseada em concatena    o   A s  ntese de voz baseada em concatena    o    gerada a partir da concatena    o de  segmentos de voz armazenados em um banco de dados de refer  ncia  Geralmente    a  t  cnica que produz resultado mais natural  SHAUGHNESSY  2003     A principal limita    o para a s  ntese de formantes e s  ntese articulat  ria    gerar voz  a partir de representa    o param  trica  principalmente no que diz respeito a encontrar  trais par  metros  a partir do resultado do processo de an  lise do texto  A s  ntese  concatenativa adota uma abordagem orientada a dados    Nos anos de 1970 e 1980  computadores eram capazes de realizar boas s  nteses   mas as limita    es de mem  ria permitiam que apenas pequenas unidades sonoras fossem  armazenadas e concatenadas  Assim  se at   recentemente os m  todos espectrais eram as  t  cnicas dominantes  a simplicidade de se concatenar unidades de formas de onda aliado     capacidade de armazenamento do
118. cer  quais par  metros matem  ticos influenciam na qualidade do resultado produzido a fim  de que  posteriormente  possam ser realizados estudos com o intuito de melhorar a  qualidade da s  ntese    A forma de onda da frase    Ol    professor     no dom  nio do tempo    mostrada na  Figura 6 1a  O arquivo gerado  no formato     wav    e de tamanho 45 6Kb apresenta taxa  de amostragem de 256 kbps  O resultado foi obtido com aux  lio do software Audacity   v  2 0 5     O resultado foi comparado com uma grava    o da mesma frase realizada por um  locutor humano em ambiente livre de ru  do  sendo a forma de onda no dom  nio do    tempo mostrado na Figura 6 1b        Figura 6 1a  resultado da forma de onda no dom  nio do tempo para a frase    Ol    professor    gerada pelo    sintetizador        Figura 6 1b  resultado da forma de onda no dom  nio do tempo para a frase    Ol    professor    gerada por    locutor humano     Por meio do mesmo software  foi poss  vel obter o espectro no dom  nio da    frequ  ncia em dB x Hz  usando janela de Hanning  mostrado na Figura 6 2a           AA ee                       m       Figura 6 2a  resultado da forma de onda no dominio da frequ  ncia para a frase    Ol    professor    gerada    pelo sintetizador     113        30dB      36dB               42dB                                                     1000Hz 3000Hz 5000Hz 7000Hz       10000Hz 15000Hz 20000Hz    Figura 6 2b  resultado da forma de onda no dom  nio da frequ  ncia para a frase  
119. cionar uma sequ  ncia de  estados usando SMG de acordo com a dura    o do fonema alvo  comprimento da  sequ  ncia solicitada  e a modelagem da dura    o de cada estado no caminho  montagem  da sequ  ncia de vetores caracter  sticos para o caminho escolhido por meio de extra    o  das m  dias das Gaussianas correspondentes  gera    o de sinal de voz usando filtro    MLSA  EICHNER  2001      184    No primeiro est  gio  transforma se os SMGs treinados gama em uma apresenta    o  alternativa gama  por meio da transforma    o TE  Tree Expansion   EICHNER  2001    VU gy    TE y U  Yyy     79   Entretanto  os SMGs cont  m la  os  sendo ent  o necess  rio modificar a expans  o em    rvore  utilizando o algoritmo explicado em  EICHNER  2001    A Figura B 6 mostra o fluxograma do algoritmo proposto em  EICHNER  2001         e o o q q q q Qi q    Paraleliza    o             O SS ee    Tm    t   i   Estados de          Divis  o o    7  H coo         Caracter  sticas Ac  sticas   fClusteriza    o   1  Caracteristicas menos significantes    Km  dias  PENSE eon Caracter  sticas N  o Ac  sticas     Busca Viterbi   2  Estatistica de re entrada  H casar ds TA a 3  Estatistica do comprimento do fone  ae   T 4  Estat  stica do comprimento do caminho  i 7 Corte  1  todo   oe 4      mn  LAS   Modelo SMG        00    Figura B 6  Funcionamento da s  ntese SMG  Fonte   EICHNER  2001   Traduzido      B 6 S  ntese HNM  Modifica    es pros  dicas da fala s  o necess  rias para se produzir sistemas com 
120. controle pros  dico  MAEDA  1995     O PSOLA modifica o pitch conforme    mostrado nas Figuras 3 5 e 3 6  Uma janela  pequena de tempo    aplicada    forma de onda original a cada an  lise de instante de  tempo  per  odos de pitch   A s  ntese    ent  o feita simplesmente colocando essas janelas  sobre essas formas de onda  wavelets   A modifica    o da dura    o    feita por meio da  duplica    o de uma ou mais wavelets para aumentar a dura    o ou eliminando   descartando  uma ou mais wavelets para encurtar a dura    o  Deve se observar que este  m  todo funciona apenas no dom  nio do tempo  O intervalo de modifica    o de pitch  varia de 0 5 a 2  suficiente para aplica    es TTS  uma vez que o alcance do pitch    um    falante    inferior a uma oitava  MAEDA  1995      60    Forma de onda original         dada    AE    0015               5000   a        O 1000 2000 3000 4000 5000 6000 7000 8000        b        0005 001 0015 002 0025 003 0055 0 1000 2000 3000   4000 5000 6000 7000 8000    Figura 3 6  esquerda  dom  nio do tempo  direita  espectro  Fonte   SCHROETER  2005      Uma vez que o m  todo PSOLA processa o sinal no dom  nio do tempo  o algoritmo  melhora o erro de modelagem da produ    o da voz e a distor    o do espectro  Al  m  disso     mais adequado para o controle de pros  dia em tempo real por apresentar menor  tempo de processamento  Entretanto  esta t  cnica causa degrada    o da qualidade    quando se combinam dados de s  labas extra  dos de uma palavra dif
121. de  Teleinform  tica  Dr  Carlos Est  v  o Rolim Fernandes  Dr  Charles Casimiro  Cavalcante  Dr  Guilherme de Alencar Barreto  Dr  Jo  o Cesar Moura Motta  Prof  Dr   Tarcisio Marciel     Secretaria de Acessibilidade da Universidade Federal do Cear     pelo aux  lio nos testes em campo    Aos meus excelentes colegas e amigos do Laborat  rio de Engenharia de  Sistemas de Computa    o e Siemens   Unify  Prof  MSc  Eng  Alexandre Augusto da  Penha Coelho  Cincinato Furtado  Eng  F  bio Ribeiro  Prof  Dr  Helano de Souza  Castro  Eng  Jacques Henrique Bessa  Eng  Jefferson Figueiredo  Luan Pinheiro  Eng   Ridley Gadelha  Tiago Gomes  Victor Fernandes  Eng  Eduardo Gabriel Bregant e Eng   Henrique Ashihara    Aos meus grandes amigos que estiveram juntos nessa mesma caminhada e  que sem a ajuda  teria sido imposs  vel chegar aqui  Ant  nio Alencar  David Coelho   Delano Klinger  Ednardo Rodrigues  Franco Marques Pilloto  Henriques Zacarias  Igor  Osterno  Jos   Wilker Lima  Keuliane Nogueira  Luiza Helena F  lix  Marcelo Marques  Sim  es de Souza  Mairton Barros Junior  Marciel Barros  Reda Belkebir Mrani  R  gia  Talina Ara  jo  Meu muito obrigado pela ajuda e pelo companheirismo  E a Germano  Fronza pelo esclarecimento de d  vidas    Aos meus irm  os de Dharma do Shiwa Gonpa Guru Ling e em especial ao  Lama Chimed Rigdzin  Aos amigos do Waai Dojo  em especial ao Sensei Sebastien  For  t    Aos meus tios Tamara Duarte de Ara  jo e Hindemburgo Duarte de Ara  jo  pelo apoio e supor
122. de 20  usu  rios  Por fim  o sistema se mostrou vi  vel  vindo a preencher uma lacuna existente  no mercado brasileiro de softwares  permitindo maior inclus  o dos deficientes visuais    aos meios digitais     Palavras chave  S  ntese de voz  Sistemas multiplataforma  Inclus  o digital e    acessibilidade  Defici  ncia visual     1X    ABSTRACT    It is estimated that  in Brazil  about 3 46  of population presents difficulty to see and  1 6  is blind  The lack of adequate inclusive tools imposes many restrictions on the life  of these people  in other words  non accessible hardware and software create a negative  impact on academic  professional and personal life  In this context  the present thesis  aims to develop a an accessible system for digital inclusion of blind users  since the  existing systems present many disadvantages as low quality or cost that make  impossible the daily use  The system is composed by a multiplatform Java front end  In  addition  the system is free to reach the maximum numbers of users as possible and to  be modified and improved by the community  The developed solution was tested   presenting a medium intelligibility rate of 79  and naturalness classified as   reasonable  by a group of 20 users  In the end  the system proved to be feasible  filling  an existing gap on Brazilian software marked  allowing greater inclusion of blind users    to digital resources     Keywords  Voice synthesis  Multiplatform systems  Digital inclusion and accessibili
123. de geral maior e mais natural quando  comparada com s  ntese baseada em d  fonos  Apesar disso  a s  ntese por sele    o de  unidades apresenta uma s  rie de desvantagens como custo e tempo de desenvolvimento  para coletar e rotular dados  TABET  2011     Para se atingir a m  xima naturalidade  indistingu  vel da voz humana  s  o  necess  rios  por  m  bancos de dados da ordem de gigabytes de dados pr   gravados  o  que significa d  zias de horas de grava    o  Recentemente  pesquisadores tem focado em  m  todos autom  ticos para detectar segmentos n  o naturais durante a sele    o das  unidades    Durante a cria    o do banco de dados  s  o gravadas uma das unidades  fonemas   d  fonos  semi fonemas  s  labas  morfemas  palavras  frases e senten  as  A divis  o em  segmentos    feita usando reconhecedores de palavras aplicados em representa    es  visuais como formas de onda ou espectogramas e um   ndice das unidades no banco de  dados    criado baseado na segmenta    o e em par  metros ac  sticos como frequ  ncia  fundamental  dura    o  posi    o na s  laba e fonemas vizinhos  Em tempo de execu    o  a  unidade    escolhida determinando o melhor candidato  Tal escolha geralmente    feita  usando uma   rvore de decis  o    A sele    o de unidades usa grandes bancos de dados com vozes pr   gravadas  No  caso de uma sele    o autom  tica de unidade  a influ  ncia coarticulat  ria n  o    limitada  ao   ltimo fonema  O banco de dados    muito maior  com dura    o variando de 1
124. determinar os pesos das fun    es custo w  e wr    O treinamento de regress  o envolve a compara    o exaustiva das unidades do banco  de dados e regress  o linear m  ltipla  A tarefa do treinamento    determinar os pesos que  minimizem a diferen  a entre a forma de onda natural e a forma de onda gerada pelo  sintetizador dada a especifica    o alvo  HUNT  1996     A desvantagem do treinamento em busca no espa  o de pesos    que o custo  computacional cresce exponencialmente com o n  mero de pesos a serem treinados e  com o n  mero de valores a serem usados com o peso  o que pode exigir mais de 150  horas de treino para um banco de dados de 40 000 unidades  aproximadamente 1 hora  de di  logo   HUNT  1996     A regress  o determina os pesos dos custos de concatena    o e alvo separadamente   HUNT  1996     Estudos t  m mostrado que a combina    o linear da dist  ncia cepstral e a diferen  a da  pot  ncia no ponto de concatena    o    um preditor razo  vel para a qualidade da  concatena    o  HUNT  1996     As vantagens da regress  o s  o  capacidade de gerar de forma eficiente e separada  pesos para diferentes classes de fonemas cujos contextos pros  dicos s  o diferentes  e  maior efici  ncia computacional  Entretanto  o treinamento pode levar de 1 a 10 horas     dependendo do banco de dados  HUNT  1996      B 4 S  ntese baseada em modelos de Markov ocultos   A abordagem concatenativa se limita a recriar o que j   foi pr   gravado  Uma  alternativa    usar t  cnicas de s  nt
125. dos baseados em  frames em geral tentam suavizar as descontinuidades nos pontos de concatena    o  mas  nenhum deles prop  e corrigir de forma eficiente erros gerados por sele    o inadequada  de unidade em decorr  ncia de contextos  especialmente quando os dados para  concatena    o s  o limitados  Tais problemas geralmente s  o gerados ou por efeitos  contextuais ou coarticula    o  PHUNG et  al      Uma vez que a s  ntese baseada em concatena    o    limitada ao tipo de voz que foi  usado na constru    o do banco de dados     desej  vel modificar as unidades de fala a fim  de remover descontinuidades e criar novas formas de fala  Entretanto  modificar a  estrutura espectral geralmente conduz    degrada    o da qualidade do resultado  Em   WOUTERS et  al  2000     poss  vel encontrar estudos sobre o uso de filtragem inversa  e modelagem senoidal a fim de modificar a estrutura espectral e mantendo a qualidade    da voz sintetizada  O resultado apresentou voz modificada de alta qualidade     69    O modelo senoidal    uma representa    o atrativa da fala  por  m o n  mero de  par  metros a serem ajustados    alto e o modelo ainda n  o apresenta controles sobre a  frequ  ncia dos formantes e largura de banda  No referido trabalho  o sinal    decomposto  como soma de senos  As amplitudes complexas do modelo senoidal de um espectro  discreto s  o aproximadas por meio de um modelo  Ent  o    usado um modelo que se  adequa    magnitude a fase e modifica a frequ  ncia dos polos e a
126. dos em vozeados  aqueles em que as  pregas vocais vibram durante a produ    o  e n  o vozeados  aqueles em que as pregas  vocais n  o vibram durante a sua produ    o  MACHADO  1997     As vogais s  o distinguidas pela posi    o da l  ngua e dos l  bios e se classificam  quanto    zona de articula    o  regi  o da boca em que se d   a maior eleva    o da l  ngua   podendo ser anterior  central e posterior  pela eleva    o da regi  o mais alta da l  ngua   podendo ser classificadas em altas  m  dias e baixas  e quanto ao timbre  podendo ser  aberta ou fechada  MACHADO  1997     A classifica    o das vogais da l  ngua portuguesa  os valores das frequ  ncias dos seus  tr  s primeiros harm  nicos  os formantes  em Hz  e a intensidade m  dia dos harm  nicos  em dB com seus respectivos desvios padr  o  para ambos os sexos s  o mostrados    respectivamente nas Tabelas 2 1  2 2 e 2 3     Tabela 2 1  classifica    o das vogais                          Anteriores Centrais Posteriores  Altas hil fal  M  dias Fechadas lel  o   Abertas       6   Baixas  al                Fonte   MACHADO  1997      Tabela 2 2  m  dia dos valores das frequ  ncias dos harm  nicos correspondentes aos tr  s primeiros    formantes  F1  F2  F3   em Hz  para cada vogal  para ambos os sexos                                                     Mulheres Homens  F1 F2 F3 F1 F2 F3  lal 1002 90 1549 95 2959 70 753 87 1278 70 2483 44  lel 672 45 2242 93 3018 60 688 44 1745 11 2566 00  lel 437 03 2429 76 3087 09 406 63 195
127. dos ou n  o ajustes de press  o pr   fonat  rios abaixo da glote e provocada pelo ar  dos pulm  es  denominada press  o subl  tica  pela tens  o longitudinal  pela aproxima    o  da parte posterior das pregas vocais e da for  a de compress  o na parte medial  Com o  esfor  o expiat  rio e com a glote fechada ainda  a press  o intragl  tica aumenta enquanto  que as bordas inferiores se afastam e acumulam energia potencial el  stica na camada de  abertura  Tal aumento da press  o intragl  tica faz com que as bordas superiores se  separem  permitindo que o ar flua pela glote  Tal fluxo leva a uma queda da press  o   que ocorre em um momento em que as bordas inferiores est  o comprimidas  resultando  em um fechamento mais r  pido que a abertura  ocasionando a assimetria em um ciclo  que se repete na frequ  ncia fundamental  LIMA  2010     O processo de fala    um processo retroalimentado  mostrado na Figura A 13  no  qual  para que haja uma correta fala     necess  rio realimentar o aparelho fonador com o    som produzido a fim de que possa realizar eventuais ajustes biomec  nicos necess  rios     137       Figura A 13  fluxo do processo de leitura e fala como um processo retroalimentado  Fonte   DUTOIT     1997      A 2 Modelagem matem  tica das ondas sonoras   A propaga    o de uma onda ac  stica pode ser aproximada considerando a  propaga    o de perturba    es infinitesimais em um fluido compress  vel sem viscosidade   A equa    o de onda descreve o movimento da onda em um me
128. dos tem  procurado formas de selecionar automaticamente unidades sonoras a partir de grandes  bancos de dados de vozes naturais  se tornando uma t  cnica de s  ntese dominante   criando solu    es baseadas em esquemas de treinamento e com aplica    es em diversas  l  nguas  Tal estrat  gia tem levado os sistemas comerciais a um outro n  vel  Embora o  cen  rio seja bastante promissor  as t  cnicas de s  ntese de voz ainda apresentam falhas      imposs  vel garantir que n  o haja concatena    es ruins ou sele    o inapropriada de  unidades sonoras devido ao grande n  mero de combina    es poss  veis existentes   Entretanto  para determinadas aplica    es   limitadas a aplica    es espec  ficas     poss  vel  quase sempre  evitar falhas  BLACK  2007     Atualmente  sele    o de unidades e a concatena    o s  o uma das formas de s  ntese de  voz mais usadas no mundo  tanto para aplica    es acad  micas como comerciais   Algumas dessas t  cnicas n  o realizam modifica    es na pros  dia  enquanto outras geram  forma de onda modificando os contornos da frequ  ncia fundamental e a dura    o das  unidades selecionadas de acordo com a pros  dia    Os dois sistemas de s  ntese mais bem sucedidos atualmente s  o a s  ntese  concatenativa  CSS   Concatenative Speech Syntehsis  e o baseado em Modelo de  Markov Oculto  HMMSS   Hidden Markov Model based Speech System   O CSS     baseado na concatena    o de segmentos de voz gravados  Nas primeiras vers  es de  sistemas CSS simples  unidade
129. duzida artificialmente  ou por um ser humano  Caso identifique ser artificial  pergunta se o qu  o perto do  natural a fala sintetizada se aproxima  Quanto    inteligibilidade da fala  o ouvinte     convidado a ouvir uma frase  devendo se ent  o verificar se o mesmo compreendeu o  que foi dito  se a mensagem foi clara o suficiente e o qu  o dif  cil ou n  o foi a  compreens  o   Um teste MOS geralmente envolve de 12 a 24 usu  rios  SPANIAS  1994    Juntamente com o MOS  outras duas m  tricas complementares entre si  s  o usadas em    testes para assegurar a qualidade de plataformas de s  ntese de voz  o WAR  Word    118    Accuracy Rate  e o WER  Word Error Rate   O ouvinte deve expressar quantas palavras   n  o  consegue entender  acertou  ou errou  ou apresentou grande facilidade   dificuldade  para entender  podendo ser expresso em porcentagem do total da frase o  n  mero de palavras que  n  o  compreendeu    O WER representa o n  mero de palavras n  o entendidas em rela    o ao total de  palavras em termos percentuais  O WAR representa o n  mero total de palavras  entendidas em rela    o ao total de palavras da frase  assim  WER   WAR   100    COSTA e MONTE  2012     Al  m do MOS  podem ser usadas as m  tricas DAM  Diagnostic Acceptrability  Measure  e o DRT  Diagnostic Rhyme Test   O DRT    um teste de inteligibilidade cuja  tarefa    reconhecer uma de duas palavras dentre o conjunto de pares com sons  semelhantes    Assim  para o presente trabalho  realizou se uma bater
130. e  em coopera    o com empresas  de tecnologias de voz e define uma interface de software que permite desenvolvedores  tirarem vantagem das tecnologias de voz tanto para computa    o empresarial e pessoal    A Java Speech API define um padr  o de interface de software multi plataforma   f  cil de usar e que  em sua   poca  foi o estado da arte na tecnologia de voz  Duas  tecnologias principais s  o suportadas pela JSAPI  reconhecimento e s  ntese de voz  A  Java Speech API foi desenvolvido por meio de um processo de desenvolvimento aberto   Com o envolvimento ativo de companhias l  deres em tecnologias de voz   desenvolvedores de software  sob meses de revis  o p  blica e atendendo a diversas  sugest  es  a especifica    o atingiu um alto grau de excel  ncia t  cnica    Os principais objetivos da Java Speech API incluem  prover suporte a sintetizadores  de voz e reconhecedores de voz para comando e controle  prover uma interface multi   plataforma robusta para s  ntese e reconhecimento de voz  permitir acesso ao estado da  arte em tecnologia de voz  fornecer suporte    integra    o com outras funcionalidades da    plataforma Java  incluindo Java Media API  ser simples  compacto e f  cil de aprender     197    A Java Speech API oferece portabilidade  um ambiente compacto e poderoso   suporte    rede e seguran  a  Quanto    portabilidade  a linguagem de programa    o Java   as APIs e a m  quina virtual Java est  o dispon  veis para uma ampla variedade de  plataformas de hardwar
131. e cada per  odo de pitch e 2   o sinal de voz  janelado  deve preservar  as propriedades espectrais    Marcar manualmente os per  odos de pitch  como ocorria no algoritmo PSOLA  original    impratic  vel para os sistemas modernos e modelos como harmonic plus noise    tem sido propostos para minimizar erros de fase  SHAUGHNESSY  2003      3 4 Erros e dificuldades mais comuns gerados pelo processo de s  ntese  O maior desafio da pesquisa em s  ntese de voz    obter maior aproxima    o poss  vel  com a voz humana enquanto se minimizam os custos  sejam de mem  ria     computacionais  treinamento  etc   SHAUGHNESSY  2003      12    O objetivo final de um sistema de s  ntese de voz    n  o apenas produzir fala  facilmente compreens  vel  mas indistingu  vel da fala humana  com o mesmo  desempenho  Assim  as duas qualidades que se esperam de um sistema TTS s  o a  inteligibilidade e a naturalidade  TABET  2011     Entender as limita    es das solu    es de acessibilidade atuais    uma das chaves para se  projetar melhores softwares para usu  rios portadores de necessidades especiais    Apesar do investimento substancial em pesquisa de tecnologias de voz nos   ltimos  40 anos  as tecnologias de s  ntese de voz ainda apresentam limita    es significativas   quase sempre n  o atingindo a expectativa dos usu  rios  apresentando pron  ncias  inadequadas  voz pouco natural  entona    o incorreta e dificuldade de reconhecer  contextos  como  por exemplo  o n  mero 110 ser sintetizado como 
132. e concatenativa como back end do projeto     28    2  FUNDAMENTOS E CONCEITOS B  SICOS    Este Cap  tulo visa apresentar os conceitos b  sicos relacionados    tem  tica da  presente Disserta    o  cobrindo conceitos relacionados    acessibilidade  anatomia   fisiologia e din  mica do trato vocal  no    es b  sicas de fon  tica da l  ngua portuguesa e    caracter  sticas da voz humana     2 1 Defici  ncia visual   A classifica    o entre os grupos de defici  ncia visual  cegos e portadores de vis  o  subnormal se d   por meio de duas escalas oftalmol  gicas  acuidade visual e o campo  visual  O primeiro se refere    capacidade de se enxergar a uma determinada dist  ncia  O  segundo se refere    amplitude da   rea alcan  ada pela vis  o  INSTITUTO BENJAMIN  CONSTANT  2014     O termo cegueira n  o significa necessariamente a total incapacidade de ver  mas sim  o preju  zo dessa capacidade para o exerc  cio de tarefas rotineiras  Denomina se cegueira  parcial  tamb  m chamada de cegueira legal ou cegueira profissional  aquela cujos  indiv  duos s  o capazes apenas de contar os dedos a curta dist  ncia e que percebem  apenas vultos  A cegueira total    a completa perda de vis  o  chamada de vis  o nula  a  qual n  o h   sequer percep    o luminosa  sendo chamada pelos oftalmologistas de vis  o  zero  INSTITUTO BENJAMIN CONSTANT  2015     Pedagogicamente  define se cego  o indiv  duo que necessita de instru    o em Braille   mesmo que possua vis  o subnormal e como portador de vis
133. e determinam a dura    o de um fone s  o divididos em tr  s grupos  os  de natureza segmental  os de natureza coarticulat  ria e os de natureza supra segmental     Os de natureza segmental s  o aqueles relacionados ao tipo de segmento  J   os de    50    natureza supra segmental dependem do efeito pros  dico desejado no instante em que o  segmento ocorre  Os fatores de natureza coarticulat  ria ser  o discutidos no item 4 2 5  da presente Disserta    o  AZUIRSON  2009     A dura    o de unidades fon  ticas pode ser influenciada tanto pelo contexto fon  tico  anterior como posterior  ou seja  a dura    o    calculada com base nos limites impostos  pela concatena    o com os segmentos vizinhos  Geralmente os falantes tendem a  enfatizar palavras de conte  do e colocar palavras funcionais em segundo plano   influenciando a dura    o dos fonemas  AZUIRSON  2009     A gera    o autom  tica da dura    o de segmentos pode seguir dois modelos   estat  sticos e baseados em regras  AZUIRSON  2009   Os modelos estat  sticos usam  uma base de dados um dicion  rio de dura    o ou modelos baseados em clustering n  o  hier  rquico  Devido    coarticula    o  por vezes    dif  cil saber onde come  a e onde  termina um segmento  sendo complexo marcar as fronteiras automaticamente   AZUIRSON  2009     O modelo de Klatt faz parte da classe dos modelos multiplicativos baseados em  regras  Nos modelos multiplicativos  a dura    o de um fone    uma fun    o de v  rias  vari  veis  cada uma respons
134. e e sistemas operacionais al  m de ser suportado pelo pela  grande maioria dos navegadores Web  no que diz respeito ao ambiente compacto e  poderoso  a plataforma Java prov   aos desenvolvedores uma linguagem poderosa   orientada a objeto  com garbage collector  coletor de lixo   que permite um r  pido  desenvolvimento e maior confiabilidade  alto n  vel de toler  ncia a falhas   Por fim  no  tocante ao suporte a rede e seguran  a  existente desde sua concep    o  a plataforma Java  tem sido voltada para aplica    es em rede  com robustez e seguran  a    Os recursos de internacionaliza    o oferecidos pela linguagem de programa    o Java  aliado aos caracteres Unicode simplificam o desenvolvimento de aplica    es de voz em  diversas l  nguas    A JSAPI n  o exige necessidade de hardware espec  fico  apenas dispositivos de  entrada e sa  da de   udio comuns    O Java Speech API em conjunto com o Java Speech Markup Language  JSML   fornecem diversas formas para o desenvolvedor de aplica    es melhorarem a qualidade  do sinal gerado por um sintetizador de voz  O JSML  descrito detalhadamente em uma  especifica    o pr  pria  define marcadores com informa    es que permitem ao sintetizador  melhorar a qualidade da sa  da resultante  que incluem  marcar o in  cio e o fim de  par  grafos e senten  as  especificar pron  ncias de qualquer palavra  acr  nimo   abrevia    o ou representa    es textuais especiais e explicitar controle de pausas    nfases   entona    es  velocidade  volu
135. e o contrato entre os componentes de interface do  usu  rio e uma tecnologia assistiva para o acesso a esse aplicativo Java  Se um aplicativo  Java suporta por completo a API Java Accessibility  ent  o o mesmo    compat  vel com  as tecnologias assistivas  como leitores e ampliadores de tela  etc    Al  m da API de acessibilidade  existem tamb  m o Java Accessibility Utilities   fornecendo suporte necess  rio para as tecnologias assistivas na localiza    o dos objetos  que implementam a API Java Accessibility  SANTOS  2010     No que diz respeito a Java Accessibility Bridge  esta funciona como uma ponte entre  a JVM e o ambiente nativo  Para que as tecnologias assistivas dispon  veis nos sistemas  operacionais possam fornecer acesso aos aplicativos Java  eles precisam de alguma  forma para se comunicar com o suporte de acessibilidade Java  O Java Accessibility  Bridge suporta essa comunica    o  SANTOS  2010     A Figura C 2 mostra como    feita a comunica    o entre O Java Accessibility Bridge     a aplica    o Java  as classes utilit  rias de acessibilidade e outras tecnologias assistivas     Java Virtual Machine    Java    Application Java    Accessibility Native Assistive Technology    Utility Classes    A    Java Bridge Class Native Bridge DLL    Java Accessibility Bridge       Figura C 2  diagrama de Funcionamento do Java Accessibility Brige  Fonte   SANTOS  2010    Adaptado      Para que uma aplica    o possa ser considerada acess  vel  existe um conjunto de  crit  rio
136. e se identificar tr  s partes  b  sicas do processo TTS  Text Analysis  Linguistic Analysis e Waveform Generation    O processo Text Analysis  An  lise do Texto  tem como prop  sito colocar e  organizar as ora    es em uma lista de gerenciamento de palavras  identificar n  meros   abrevia    es e acr  nimos  transformando as em texto por extenso  por exemplo     Sr         transformado em    Senhor     quando necess  rio  utilizando uma gram  tica regular como    base para solucionar alguns problemas  Tamb  m    respons  vel por determinar a classe    86    de casa palavra  individualmente  analisando a ortografia das mesmas e organizando  uma lista de categorias e fazer a flex  o e a deriva    o das palavras  quando necess  rio   decompondo as em unidades gramaticais elementares atrav  s da an  lise de suas ra  zes  l  xicas e seus afixos   prefixos e sufixos  Al  m disso  analisa as palavras observando o  contexto em que est  o inseridas  ou seja  analisando a palavra em quest  o associada aos  seus vizinhos  possibilitando assim uma melhor identifica    o e diminui    o da lista de  categorias    Linguistic Analysis    o processo respons  vel pelo gerenciamento e produ    o da  pros  dia utilizada na gera    o dos sons  Conforme dito anteriormente  a pros  dia se  refere a certas propriedades de sinais da fala que est  o relacionadas    mudan  a de  entona    o da voz  sonoridade e dura    o do som das s  labas  A pros  dia influi  diretamente na comunica    o por voz e te
137. e ter uma pequena distor    o no espectro     dif  cil de manter a  fase  Por outro lado  a modifica    o do pitch no dom  nio da frequ  ncia pode manter a  fase mas causar uma grande distor    o no espectro devido    mudan  a na estrutura dos  formantes  JUNG  2001     Al  m disso  a t  cnica PSOLA convencional cria trem de pequenos trechos de um  sinal de voz original por meio da multiplica    o do per  odo de pitch decomposto com a  fun    o janela ap  s decompor o sinal de voz  A fala    sintetizada a partir de uma unidade  controlada ap  s o controle da pros  dia  Entretanto  a t  cnica PSOLA convencional  adapta uma janela sim  trica mesmo em um sinal assim  trico  causando desequil  brio de    energia  em outras palavras  ao aplicar uma fun    o janela sim  trica para uma forma de    62    onda assim  trica ocasiona o fen  meno de desbalanceamento de energia  sendo  necess  ria uma normaliza    o para manter a energia constante  JUNG  2001     O espectro do trato vocal representa a frequ  ncia de resson  ncia e    o mesmo  espectro formante  JUNG  2001     O sinal de voz    sintetizado a partir da convolu    o da caracter  stica do trato vocal a  baixas frequ  ncias com a excita    o a altas frequ  ncias  O pitch pode ser alterado por  meio da modifica    o da excita    o caracter  stica  JUNG  2001     Em  JUNG  2001     apresentada uma solu    o para o problema do  desbalanceamento de energia causada pela modifica    o do pitch no PSOLA  iniciando  com a convers  o t
138. e tom  dimens  es do cr  nio  rouquid  o  respira    o  flutua    o do tom  velocidade  e volume podem ser modificados com um conjunto de marca    es de carater  sticas de  voz    O IBM ViaVoice TTS permite que se especifique pron  ncias expl  citas para  palavras abreviaturas e acr  nimos  por meio de dicion  rios voltados para casos  espec  ficos  Dicion  rio de Palavras Especiais  Dicion  rio de Abreviaturas e Dicion  rio    de Radicais     C 3 Java Accessibility API   A maioria das tecnologias de voz est  o implementadas em C e    e s  o voltadas  para plataformas espec  ficas  como a Apple Speech Manager e Microsoft s Speech API   SAPI  ou outras APIs propriet  rias   SUN MICROSYSTEMS  1998     Sintetizadores e reconhecedores de voz escritos em Java podem beneficiar da  portabilidade da plataforma Java e das suas melhorias cont  nuas principalmente com  rela    o    velocidade de execu    o da Java Virtual Machine  JVM    SUN  MICROSYSTEMS 1998     A API Java Accessibility cont  m classes e interfaces que  quando aplicadas   garantem ao software tornar se acess  vel   s tecnologias assistivas  SANTOS  2010     A tecnologia Java conta com recursos que fornecem suporte    acessibilidade  tendo    sido introduzida na linguagem a partir de mar  o de 1996 e est   apoiada em quatro   reas     195    API Java Acessibility  Java Acessibility Utilities  Java Accessibility Bridge e Pluggable  Look and Feel do Java Foundation Classes  SANTOS  2010     A API Java Accessibility defin
139. eeTTS e o   ltimo a  implementa    o proposta pela presente Disserta    o  nesta sequ  ncia   de tal forma que a  usu  ria n  o tinha consci  ncia de qual sintetizador estava sendo testado no momento  O  teste em campo seguiu tr  s etapas  descritas no question  rio exibido no    Anexo B      descritos a seguir     1  Naturalidade da fala  foi questionado    volunt  ria se a voz a qual escutava era   um   udio pr   gravado ou se era voz sintetizada por computador  Al  m disso  foi   solicitado que  em uma escala de 1  muito ruim  a 5  excelente   fornecesse uma    pontua    o sobre a qualidade da voz     116     2  Teste de Inteligibilidade  Foi solicitado que a usu  ria escutasse duas frases    Ol    seja bem vinda ao projeto LESC Vox  Obrigada por usar o nosso sistema   e   Seja bem vindo ao projeto de acessibilidade    Ver com os ouvidos     O que voc    gostaria de fazer    Pediu se ent  o que a usu  ria enumerasse quantas palavras n  o  conseguiu entender ou entendeu errado  ap  s ser informada o que de fato tinha sido   falado    de tal forma que a usu  ria n  o tinha conhecimento pr  vio do que viria  escutar     3  Teste de Usabilidade  Foi solicitado que a usu  ria usasse o sistema de forma  independente para abrir aplica    es espec  ficas  Ao inicializar o sistema  a usu  ria  deveria ser capaz de abrir as aplica    es como editor de texto  cliente de chat  ou    qualquer outra aplica    o de sua vontade e utilizar sem necessidade de aux  lio     Por fim  foi solic
140. eio de uma fonte vozeada ou gerador de ru  do a fim de se obter o  espectro desejado  controlando a fonte de excita    o  simulando sons vozeados ou n  o  vozeados  A adi    o de um conjunto de anti ressonadores permite tamb  m a simula    o  de efeitos do trato nasal  fricativos e pulsantes  A especifica    o de 20 par  metros resulta  em um sinal de fala satisfat  rio  TABET  2011     Um conjunto de par  metros caracterizando um envelope espectral em um curto  espa  o de tempo    armazenado para cada n  mero de unidades sonoras  Uma excita    o  simplificada    convolu  da com a resposta ao impulso de um filtro  A fonte de excita    o  pode ser um trem de pulsos peri  dicos vocais  simulando a vibra    o glotal  ou ru  do  branco  simulando sons fricativos resultantes da constri    o do trato vocal ou aspirativos  ou ainda ambos  ou seja  a excita    o peri  dica    geralmente um trem de pulsos  peri  dicos para simular sons vozeados e ru  do pseudo aleat  rio para sons n  o vozeados   SCHROETER  2005     Enquanto que pulsos glotais para excita    es vozeadas decrescem em intensidade  com a frequ  ncia  a excita    o de ru  do para sons n  o vozeados    melhor modelado por  um espectro plano  As intensidades de um ru  do natural se aproximam da distribui    o  gaussiana  Amostras de ru  do de excita    o geralmente se originam de um gerado e de  n  meros pseudo aleat  rios que levam a um espectro cont  nuo em distribui    o uniforme   Entretanto  ao se somar diversos n  mer
141. eira ordem   por exemplo   pressup  e se que seja linear  Vers  es posteriores consideravam a parte harm  nica  tamb  m como a soma de componentes senoidais harmonicamente relacionadas por  m  com amplitudes complexas variando linearmente  Outras implementa    es usavam um  polin  mio de grau p com coeficientes reais para as amplitudes harm  nicas e assumiam  que as fases eram lineares    Dada a parte harm  nica  a parte aperi  dica    obtida subtraindo a parte harm  nica do  sinal de voz original  A parte aperiddica   ou sinal residual     considerada em todos os  sinais n  o descritos por componentes harm  nicas  Isto inclui ru  dos fricativos   flutua    es entre per  odos produzidos pela turbul  ncia do fluxo de ar glotal  etc    TABET  2011     A qualidade do resultado gerado por HMM n  o    t  o alta quanto na s  ntese por  sele    o de unidades  A precis  o da modelagem pode ser melhorada usando t  cnicas  como Modelos semi Markov Ocultos e grafos estoc  sticos de Markov  por exemplo ou  ent  o integrar sistemas HTS  Hidden Markov Model based Speech Synthesis System  ao  HNM  Tal integra    o reduz o tempo de desenvolvimento e custo em compara    o com  t  cnicas do estado da arte baseado em sele    o autom  tica e s  ntese concatenativa     produzindo resultados melhores quando comparado ao HTS  Tal qualidade    alcan  ada    186    substituindo a abordagem da modelagem do filtro da fonte usada no HTS com pelo  modelo HNM  conhecido por ser capaz de produzir respostas
142. empo frequ  ncia de uma forma de onda assim  trica para uma forma  de onda sim  trica  JUNG  2001     TD PSOLA  Time Domain Pitch Synchronous Overlap Add  consiste em cortar  exatamente dois per  odos de pitch de um sinal de voz  realizando janelamento a cada  segmento com uma janela de Hanning centrada no ponto de fechamento glotal  m  xima  excita    o   SCHROETER  2005     O TD PSOLA realiza uma sincroniza    o do pitch automaticamente  per  odos do  pitch s  o extra  dos  sobrepostos e somados a diferentes taxas a fim de produzir a sa  da   Ou seja  o sinal original s n     decomposto e uma sequ  ncia de curtos sinais  sobrepostos Sm n  usando uma janela de Hanning Am n   centrada na origem n 0   KOBAYASHI et  al   1998     Uma variante do TD PSOLA pode apresentar um filtro LPC  que permite suavizar  o envelope espectral nos pontos de concatena    o  SCHROETER  2005   H   outras  variantes que usam modifica    es do modelo baseado em LPC  ou ainda modelos  h  bridos como o Harmonic plus Noise Model  HNM   mostrado na Figura 3 7  Este    ltimo faz uso do fato do espectro da voz em geral ser composto de duas partes  distintas  a harm  nica  peri  dica    cuja maior parte est   nas baixas frequ  ncias e     altamente relevante para um locutor espec  fico  e a parte estoc  stica  ru  do   existente  nas frequ  ncias mais altas  Assim  dois sintetizadores separados s  o podem ser usados   um sintetizador harm  nico e um sintetizador baseado em LPC com uma excita    o  estoc  s
143. ental obtida pelas  etapas anteriores  como as marcas pros  dicas e transcri    o fon  tica  a fim de traduzir  varia    es de dura    o do segmento  ritmo  frequ  ncia fundamental  entona    o  e inser    o  de pausas nas fronteiras pros  dicas  AZUIRSON  2009     A pros  dia    dividida em dois n  veis  segmental e supra segmental  O n  vel  segmental se ocupa com a observa    o da varia    o dos par  metros pros  dicos  como a  dura    o  frequ  ncia fundamental e amplitude  a n  vel de segmento  e supra segmental   Esse n  vel foca na intera    o do segmento om seus vizinhos e a interfer  ncia dos  vizinhos sobre o segmento observado  J   o n  vel supra segmental se utiliza da  estrutura    o da senten  a a n  vel de s  labas  palavras  frases  Nesta etapa s  o usadas as  seguintes informa    es dos m  dulos anteriores  determina    o da s  laba t  nica da  palavra  da estrutura pros  dia a partir da estrutura sint  tica  das pausas e da an  lise  morfossint  tica das palavras  AZUIRSON  2009     O m  dulo de processamento pros  dico    o   ltimo m  dulo antes do processamento  ac  stico  sendo respons  vel por tratar a informa    o de m  dulos anteriores e fornecendo  uma lista de fonemas em conjunto com par  metros pros  dicos  AZUIRSON  2009     Um destes par  metros pros  dicos    a dura    o  que mede a dist  ncia temporal do  in  cio ao t  rmino de um segmento fon  tico e que pode ser da ordem de dezenas a  centenas de milissegundos  AZUIRSON  2009     Os fatores qu
144. erente  Ademais     61    causa um desequil  brio de energia devido    aplica    o de uma janela sim  trica em um  sinal de voz assim  trico  JUNG  2001     Se o sinal de voz    vozeado  o sinal de voz    feito por meio de um trem de sinais  curtos ap  s a multiplica    o de uma fun    o janela por um per  odo de pitch decomposto   Se o som    n  o vozeado  este    analisado com 10ms  Pode se usar as janelas de Hanning    e de Hamming     Equa  oes 6 e 7  respectivamente  JUNG  2001         wm  gt  1 cos SEBo lt n lt n 1  6        2 1  W  n    0 54     0 46  cos   N    A osnsN 1  7    O per  odo de pitch decomposto    obtido pela multiplica    o do sinal de voz pela  fun    o janela com propriedade sim  trica mostrada na Equa    o 8  JUNG  2001     San  tise n    Wanatise  M     n S n   8   Em que San  tise N     o pequeno sinal do per  odo de pitch  Wan  tise N     uma fun    o  Janela  m    o m   simo pitch e    S n   sinal de voz original    A fim de modificar o pitch  o per  odo do pitch    rearranjado por meio da altera    o  do seu per  odo  JUNG  2001     SsinteseM    Sandtise n     Ma    9   em que Ssintese n     o per  odo do pitch do sinal amostrado  mg    o per  odo do pitch a  ser alterado    A modifica    o do pitch    necess  ria para o controle da pros  dia e para fornecer  uma variedade de vozes e garantir uma maior qualidade na sa  da  JUNG  2001     Em geral  a modifica    o do pitch no dom  nio da frequ  ncia degrada a qualidade  devido ao fato de  apesar d
145. es Glote Trato Vocal Boca    Figura A 17  modelo de linha de transmiss  o aplicado ao trato vocal  Fonte   BRAND  O  2011    Adaptado      142    Narinas  Fossa piriforme esquerda Trato nasal v      gt           Poi    Ums MU   Uy at            Labios    Figura A 18  diagramas esquem  ticos  de blocos e de fluxo de sinal integrados para a modelagem do    trato vocal  Fonte   BRAND  O  2011      4 3 2 Modelo de Tubos  Caso Cont  nuo  O modelo Kelly Lochbaum    um modelo unidimensional que aproxima o trato vocal  como sendo uma sequ  ncia de tubos  conforme mostrado na Figura A 19  representados    por guias de onda digitais  BRAND  O  2011      DO ae     lt     SO agg     Area   cm         0 Curmprimento du Lratu vocal  cm     SS Sa  Conama  Glote L  bios    Figura A 19  modelagem do trato vocal  Fonte   BRAND  O  2011      Como dito anteriormente  sons produzidos pelo ser humano s  o resultantes da  vibra    o das pregas vocais para fontes vocais ou pelo fluxo de ar turbulento por meio de  constri    o para fontes de ru  do  Tais fontes sofrem modifica    o espectral por meio das  caracter  sticas ressonantes do trato vocal  Uma vez que o trato vocal humano pode ser  considerado um tubo  a maior resson  ncia ocorre ao longo do comprimento da glote at      os l  bios  ou cavidade nasal no caso de sons nasais   MAEDA  1995      143    Pode se modelar o trato vocal e nasal como tubos de sec    o transversal n  o  uniforme  conforme mostrado na Figura A 20     medida que o som se
146. escolhida  AZUIRSON  2009     O processamento do texto    um processo mais pr  ximo da modelagem da l  ngua do    que processamento de sinais propriamente dito  Como dito anteriormente  o    46    processamento de texto    feito por meio de um front end  A entrada de texto     transformada em representa    es que permitam acesso   s unidades armazenadas em um  banco de dados juntamente com informa    es adicionais de controle de entona    o   Deve se conhecer a sequ  ncia de fonemas  d  fonos ou palavras  a serem pronunciados   quais s  labas s  o mais fortes  onde deve haver pausas entonacionais  etc    SHAUGHNESSY  2003     Embora certos princ  pios do NLP possam parecer universais  l  nguas usam alfabetos  diferentes  e cada l  ngua tem um conjunto de fonemas  Especialistas em fon  tica  estabeleceram um conjunto de fonemas universais  caracterizados pelo alfabeto fon  tico  internacional  a partir do qual cada l  ngua seleciona um subconjunto com pequenas  diferen  as articulat  rias e ac  sticas  SHAUGHNESSY  2003     A t  cnica de s  ntese baseada em formantes  ver Ap  ndice B  pode ser facilmente  modificada para uma nova l  ngua  ajustando par  metros fon  ticos  Entretanto  sistemas  baseados em concatena    o ou LPC s  o menos flex  veis com rela    o ao ajuste de tais  par  metros  SHAUGHNESSY  2003     O passo inicial do NLP no TTS    a convers  o de uma entrada de texto em um  c  digo que permita acesso ao banco de dados  No caso comum das unidades serem  fonemas
147. ese de par  metros estat  sticos para inferir  especifica    es  Tais t  cnicas apresentam duas vantagens  exige se menos mem  ria para  armazenar os par  metros dos modelos do que os dados propriamente ditos  A outra    vantagem reside no fato de garantir maior variabilidade  uma voz  por exemplo  pode    ser convertida em outra  TABET  2011      176    S  ntese de voz de par  metros estat  sticos tem crescido em popularidade nos   ltimos  anos  a t  cnica consiste  basicamente  em gerar a m  dia de um conjunto de segmentos  de voz similares  Os resultados obtidos tanto em termos de naturalidade como grau de  entendimento do que foi dito s  o bastante interessantes  O algoritmo se baseia na no    o  de custo alvo  uma medida do qu  o adequado    um determinado candidato existente no  banco de dados quando comparado com a unidade desejada  Juntamente com o custo do  alvo     definido tamb  m o custo de concatena    o  O custo alvo entre uma unidade u  e    uma unidade desejada t     dado por   p  Ct  tpu     gt  wt  C t  up   74   j 1  e o custo de concatena    o    definido por     q  C u  q Uu     a W   COMU ui    75   k 1    em que wy e w    s  o pesos que podem ser definidos por uma combina    o de treino e  ajustes manuais  Unidades do mesmo tipo s  o agrupadas em uma   rvore de decis  o   BLACK  2007     S  ntese de voz de par  metros estat  sticos oferece uma ampla gama de t  cnicas para  melhorar a qualidade da voz  Seus modelos mais complexos   quando comparado com  
148. esentam  solu    es de como ajustar as jun    es por meio de otimiza    o da  dist  ncia de  similaridade     a fim de reduzir as descontinuidades  Tais dist  ncias devem contemplar    n  o apenas o envelope espectral  mas tamb  m a continuidade de fase     65    3 3 4 1 Compress  o do banco de dados   Uma vez que o modelo TD PSOLA n  o requer nenhum est  gio de estima    o de  par  metros  exceto marca    o de pitch  este n  o est   ligado a nenhum algoritmo de  redu    o de dados  ou  em outras palavras  o TD PSOLA pode ser  a priori  associado a  qualquer t  cnica de codifica    o e compress  o de voz  Deve se levar em conta   entretanto  o equil  brio entre a redu    o de espa  o utilizado realizado por determinada  t  cnica de compress  o e a distor    o que o mesmo insere no processo de s  ntese  Este  equil  brio pode ser medido pelo custo computacional  Tal equil  brio reduz  significativamente o n  mero de algoritmos de compress  o aplic  veis    T  cnicas de codifica    o de formas de onda tipicamente requerem pouco poder  computacional  entretanto  oferecem baixas taxas de compress  o  O codificador DPCM  tem se mostrado o mais adequado para trabalhar com o TD PSOLA  DUTOIT  1997    3 3 5 Problemas de Coarticula    o   Coarticula    o    um fen  meno fonol  gico que ocorre em todas as l  nguas sempre  que h   uma sequ  ncia de sons n  o separadas por pausas  referidas como a sobreposi    o  de gestos articulat  rios  sendo um fen  meno da ocorr  ncia de dois ou mai
149. face de texto direta se concentra no conte  do  n  o  no layout ou intui    o visual    3 5 1 Desafios envolvendo desenvolvimento de softwares com interface por voz   Ao desenvolver aplica    es com interface por voz  que inclui tanto o  reconhecimento como a s  ntese  depara se com diversas peculiaridades inerentes  exclusivamente a essa interface  que por vezes  tornam se desafios e dificuldades a  serem contornados pelos engenheiros de software e programadores    A primeira peculiaridade    o fato de a voz ser transit  ria  Uma vez voc   ou  a algo   a informa    o deixa de estar presente  ao contr  rio dos gr  ficos  que s  o persistentes   Uma interface gr  fica tipicamente permanece na tela at   que o usu  rio fa  a alguma  coisa    A mem  ria de curto prazo    utilizada durante a audi    o  Como a voz    transit  ria   usu  rios podem lembrar apenas de um n  mero limitado de itens de uma lista e pode  acabar por perder informa    es importantes do come  o de uma longa senten  a  Por  exemplo  ao falar para um sistema  o usu  rio frequentemente esquece as palavras exatas  que falou    Em geral transit  rio significa que a fala n  o    um meio adequado para entregar  grandes quantidades de informa    o  Neste caso  por exemplo  listas devem ser listadas  elemento a elemento em resposta ao comando    pr  ximo    ao inv  s de fornecer uma lista    completa  SUN MICROSYSTEMS  1998      79    Mas a natureza transit  ria da fala tamb  m fornece benef  cios  A fala    ideal pa
150. formas  A modifica    o da forma  do trato vocal permite a diversifica    o do som e    realizado pela l  ngua  BRAND  O   2011  LIMA  2010     O trato nasal inicia se no v  u palatino e termina nas narinas  Quando o v  u palatino  baixa  o trato nasal    acoplado acusticamente ao trato vocal  cujas cavidades constituem  a estrutura ressoadora do   rg  o da voz  tendo fun    o semelhante    dos ressonadores de  instrumentos musicais  BRAND  O  2011  LIMA  2010     A teoria aerodin  mica mioel  stica postula que o movimento de abrir e fechar as  pregas vocais s  o regidos por propriedades mec  nicas dos tecidos musculares que  constituem  principalmente  as pregas vocais e pelas for  as aerodin  micas que se  distribuem ao longo da laringe durante a fona    o  A a    o neural consiste apenas em  aproximar as pregas vocais de tal forma que a superf  cie destas vibre  LIMA  2010     O conjunto de m  sculos respons  veis pela movimenta    o das pregas vocais     mostrado na Tabela A 1  Os movimentos de eleva    o e de depress  o da laringe s  o  controlados respectivamente pelos m  sculos extr  nsecos elevadores e depressores  Por  sua vez os m  sculos intr  nsecos controlam a posi    o e a tens  o das pregas vocais  para  depois  o sinal deve ser amplificado pelo trato vocal que pode ser analisado a partir de    um modelo de tubos simples  LIMA  2010      130    Tabela A 1  m  sculos respons  veis pela movimenta    o das pregas vocais e   rg  os relacionados                    M
151. formes acoplados tal como se representa na Figura A 22        Figura A 22  modelo do trato vocal baseado em tubos de dimens  es diversas  Fonte  Google Images     Introduzindo o tempo de atraso do tubo de ordem como sendo     l  eae  32     c J  E o coeficiente de reflex  o r  na jun    o entre os tubos de ordem k e k   1   Ak     Ak     Ty            Ax   Axum     33      note que   1  lt 7   lt  1      146    Efetuando algumas manipula    es matem  ticas  chega se   s seguintes    express  es     Uk 1 t    uk  t     Te      Tk      HU  D   34    Uz  t   Te    rku   t    T     1   Up  0    35    Estas equa    es mostram que cada onda que chega    jun    o k se decomp  e em   duas  uma que    transmitida para a se    o seguinte e outra que    refletida  que pode ser    representado por um diagrama de fluxo de sinal mostrado na Figura A 23                u t   atraso    By  tt  7 Ui  atraso    et  D     u wo  Tk TH Irs      I  Ty          ui  ty u KO WC  U lb    Figura A 23  diagrama de fluxo de sinais para o modelo proposto  Fonte  Google Images     A partir de analogias entre o modelo de propaga    o de ondas num tubo ac  stico e o  modelo de propaga    o de ondas eletromagn  ticas numa linha de transmiss  o  pode se  estabelecer algumas rela    es de equival  ncia  Pode se definir uma imped  ncia ac  stica  pela rela    o   p   t   P      ut  U x w      Usando esta analogia  pode se definir a imped  ncia caracter  stica de um tubo uniforme    Z x w           36     e sem pe
152. ft Windows   Speak  Pause  Stop  skp fo    Speak wav  Voice eSpeak PT ind  Reset  Rate     Gune Save to wav     Show all events    Format 16kHz 16 Bt Mono X About  Process XML  i                    cs                 Figura 4 1  interface gr  fica do eSpeak     Dentre suas principais caracter  sticas  pode se citar  disponibilidade para diversas  plataformas como Android  Mac OSX e Solaris  apresentando alta compatibilidade com  o sistema ADRIANE  disponibilidade de diferentes vozes  cujas caracter  sticas podem  ser alteradas  possibilidade de produzir sa  da no formado WAV  suporte para HTML   tamanho compacto  possibilidade de ser utilizado como front end para o MBROLA     por  m  n  o    acess  vel  n  o fornece pacotes de softwares acess  veis e n  o possui    possibilidade de atuar como front end para outras engines  escrito em linguagem C e    85    dispon  vel para mais de 30 idiomas  incluindo ingl  s  franc  s  alem  o  russo  espanhol e  inclusive portugu  s brasileiro  ESPEAK  2014    4 1 6 Festival   O Festival    um sistema TTS desenvolvido inicialmente pela Universidade de  Edimburgo  sendo um front end para o MBROLA e outras engines  n  o possuindo um  cliente TTS stand alone  Possui uma vers  o em portugu  s n  o livre baseado em s  ntese  de formantes  COSTA e MONTE  2012     Festival oferece um framework geral para o desenvolvimento de sistemas de s  ntese  de voz por meio de APIs  interpretadores de comando  bibliotecas em C   e Java  e  interface para o E
153. gia Assistiva  AT SPI     200    na abrevia    o em ingl  s   O Orca envia r  tulos de texto de menus  bot  es e   reas de  texto misto  como o painel principal do navegador web  para um dispositivo Braille e  sintetizador de voz  O Orca ainda possui um recurso de ampliador de telas  embora  em  alguns teste  n  o tenha funcionado de forma confi  vel    O Orca possibilita o trabalho com o OpenOffice org 2 3 e vers  es posteriores com    udio e Braille  contado que o usu  rio conhe  a todas as abrevia    es de teclado  necess  rias para ativar fun    es normalmente selecionados com o mouse  O Orca n  o  apenas l   o texto    visual    aparente  mas tamb  m oferece dicas e metainforma    es como  fam  lia e renderiza    o da fonte  tipos de elementos de formul  rio e assim por diante   Apesar de estar sendo desenvolvido primariamente para o ambiente GNOME  ele  funciona bem com todos os gerenciadores de janela contanto que o aplicativo individual  suporte o AT SPI  Estes incluem o Firefox  OpenOffice org  Pidgin e at    parcialmente     Gimp     D 3 Speech Synthesis Markup Language   Em  WALKER et  al  2001     poss  vel encontrar uma especifica    o para linguagem  de marca    o de texto baseada em XML a fim de possibilitar a intera    o via voz com  sites da internet  denominada SSML  Speech Syntehsis Markup Language   Seu projeto     baseado nos seguintes conceitos  consist  ncia  interoperabilidade  generalidade   internacionaliza    o  facilidade de implementa    o  O SSML
154. gras    Para maior parte da hist  ria da s  ntese de voz  1965 1995   a abordagem usando  filtro de envelope espectral orientados a excita    o era a t  cnica dominante    A s  ntese por formantes n  o usa qualquer amostra de voz humana  mas apenas em  regras definidas por linguistas para gerar os par  metros e as transi    es de um fonema  para outro  coarticula    o   Tais regras s  o resultado de profunda an  lise e estudo de  espectogramas e da evolu    o dos formantes realizados por linguistas  Assim  este  m  todo    por vezes chamado de s  ntese baseada em regras  Por  m  ainda n  o se conhece  uma regra   tima  TABET  2011     O modelo de formantes    baseado tamb  m no modelo fone filtro  sendo necess  rio   modelar a fonte de excita    o  determinando seus par  metros como amplitude   presen  a aus  ncia de ru  do durante aspira    o e per  odo  e os filtros capazes de simular o  trato vocal  e sua configura    o como frequ  ncia  amplitude  largura de banda dos  formantes e presen  a de zeros e polos nasais  por meio de fun    es de transfer  ncia  A  s  ntese de formantes    usada em sistemas como MITalk  KlatTalk e DECTalk  TABET   2011     Sua vantagem reside no fato de utilizar uma representa    o mais econ  mica   exigindo pouca mem  ria  uma vez que armazena apenas um conjunto de par  metros    juntamente com conjunto de regras de transcri    o  o que torna tal solu    o interessante    167    para sistemas embarcados e sistemas com recursos de mem  ria limit
155. ia de testes MOS e WAR   envolvendo 20 volunt  rios videntes de ambos os sexos com idade entre 17 e 31 anos no  Centro de Humanidades da Universidade Federal do Cear    cujos resultados s  o    mostrados na Tabela 6 1     Tabela 6 1  valores MOS e WAR                                                  Volunt  rio Idade Sexo MOS WAR  Volunt  rio 1 30 F 3 100   Volunt  rio 2 29 M 2 100   Volunt  rio 3 26 M 2 50   Volunt  rio 4 26 F 3 90   Volunt  rio 5 20 F 4 70   Volunt  rio 6 21 F 4 90   Volunt  rio 7 20 M 3 40   Volunt  rio 8 18 M 2 100   Volunt  rio 9 18 M 3 90   Volunt  rio 10 18 M 4 80   Volunt  rio 11 19 M 4 70   Volunt  rio 12 28 M 3 90   Volunt  rio 13 20 M 3 50   Volunt  rio 14 17 M 3 80                          119    Tabela 6 1  valores MOS e WAR  Continua    o                              Volunt  rio 15 22  F 3 70   Volunt  rio 16 20 F 3 75   Volunt  rio 17 26 F 3 100   Volunt  rio 18 30 F 3 100   Volunt  rio 19 19 F 3 40   Volunt  rio 20 18 F 3 100   Valor M  dio 22 25   3 05 79                    Fonte  Pr  prio autor     Os gr  ficos para o MOS e WAR s  o mostrados respectivamente nas Figuras 6 4 e  6 5           uu    N Ww    o E   b  OUNFUN Uw    123 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20       Figura 6 4  resultados para o MOS        120    100   90   80   70     123 45 6 7 8 9 101112 13 1415 16 17 18 19 20       Figura 6 5  resultados para o WAR     O resultado apresentou desvio padr  o de 0 60 para o MOS e 0 20 pra o WAR  A  principal reclama    o por p
156. ideal para cada articulador independente dos fonemas vizinhos  Do ponto  de vista coarticulat  rio  a transi    o entre dois fonemas    descrita como o movimento  entre dois  alvos  ideais de dois fonemas  A transi    o compartilha ambas as  caracter  sticas articulat  ria e ac  stica de ambos os alvos dos dois fonemas e  gradualmente muda  estando inicialmente predominantemente semelhante ao primeiro  at   predominantemente semelhante ao segundo fonema alvo posteriormente  Embora a  coarticula    o cause a transi    o na fala  trabalhos mostraram que existe um n  cleo  estacion  rio em vogais  fricativas e semi vogais  Em tais fonemas  os n  cleos s  o  estacion  rios e as transi    es formantes entre tais fonemas  que realmente ocorrente entre  os alvos nos contornos dos intervalos estacion  rios  s  o suaves  PHUNG et  al      Cada fonema pode ser dividido em um intervalo de n  cleo e dois intervalos de  transi    o em ambos os lados  O trabalho proposto em  PHUNG et  al   tenta determinar  as posi    es e dura    es do n  cleo de dos intervalos de transi    o dentro de uma s  laba    A exist  ncia de intervalos estacion  rios e quasi estacion  rios dentro de vogais     semi vogais e consoantes j   foi demonstrada em trabalhos  A estabilidade dos intervalos    68    estacion  rios e quasi estacion  rios sob efeito de coarticula    o resulta que estas partes  s  o insens  veis a contexto  de tal forma que tais partes podem ser preservadas para  serem concatenadas em diferen
157. intetizador java 92     VCO java 93 w   new Word   exce    o    a    S VerySimpleChatServer java     94 assertEquals  w getNumSyllables    3   f  Navegador   al 95 assertEquals  w getSyllables   get 0  getSyllable     ex     PEES DEFA w 2 assertEquals  w getSyllables     get  1   getSyllable     ce    E  IL 37 assertEquals  w getSyllables     get  2   getSyllable         o    WordTestjava o     Connectdialog    Dialog      98 assertEquals  w gerSyllables     get  0   getTonicity    Tonicity ATONA           ConnectDialog Frame parent     actionCancel E     p actionComectO PA x   String Saida x a  6  typeComboBox   JC     amp  DDBEB e sE        89175  INs    97    5 2 3 MATLAB  O MATLAB  mostrado na Figura 5 2     um ambiente de desenvolvimento integrado    para o desenvolvimento de algoritmos e modelagem de sistemas  sendo considerado    produto l  der no mercado em c  lculo num  rico e de f  cil uso                              H P E x E  Ed 1  Blend ris       HE Lid New Variable Lg Analyze Code  es  ES 49  Preferences  2   3 Community  E Edita Li  Open Variable   E   Run and Time  3 set Path Fi    S  Request Support  Script     Data Workspace  7 Clear Workspace      Clear Commands   Library    i Parallel w   GpAddOns         FIE VARIABLE CODE SIMULINK ENVIRONMENT RESOURCES     gt  CE  b gt  G  gt  ProgramFiles    MATLAB  gt  R2013a  gt  bin  gt    o  Current Folder  Sig Command Window TE Workspace              New to MATLAB  Watch this Video  see Examples  or read Getting St
158. io atrav  s da evolu    o da  press  o ac  stica p  ou da velocidade u  da part  cula em fun    o da posi    o r    x  y Z     e do tempo t sendo dada pelas Equa  oes 16 e 17     3 PCr t  om  16   edi E V p r t    0    ulr  t  so      aie c   V u r  t    0   17     em que p r t   u r t   p e c s  o perturba    es na press  o est  tica e na velocidade da  part  cula de ar  a densidade do ar e a velocidade do som no ar  respectivamente  em um  ponto r    x y z  do espa  o tridimensional no instante de tempo t  BRAND  O   2011      A velocidade c da propaga    o ac  stica no ar    dada pela Equa    o 18     Re YPo  18   p       C EM   EA aes    em que y   ms    a raz  o entre os calores espec  ficos do ar a press  o e volume  v    constantes  p    e p s  o a press  o atmosf  rica e a densidade do ar  respectivamente   BRAND  O  2011     Para este estudo  podemos desconsiderar eventuais varia    es da temperatura do ar  no interior do trato vocal por serem muito pequenas  bem como densidades  Estudos  mostram que a turbul  ncia do fluxo de ar que passa pelo trato vocal durante a  vocaliza    o pode ser desconsiderada  BRAND  O  2011     A equa    o da onda na forma cl  ssica    dada pela Equa    o 19     92P   TA c2V2P    19        138    em que c    a velocidade de propaga    o de um som no fluido e P       uma pequena  perturba    o no fluido  cuja solu    o pode ser obtida por meio de separa    o de vari  veis  chegando se    equa    o escalar de Helmholtz e    dada pela Equa 
159. io interface  command list   lista de  comandos a serem escolhidos  como loop  condi    o  entrada  sa  da  e vari  veis  e query   e program logic  executar  finalizar loop ou condi    o  deletar  salvar comando  verificar  pr  ximo passo  e possui dois modos  programmer e running  A interface    mostrada na    Figura D 1     199       Figura D 1  interface do APL  Audio Programming Language for Blind Learners  Fonte   S  NCHEZ   2004      A linguagem foi desenvolvida para e por deficientes visuais  sendo testado por  programadores inexperientes durante e despois do desenvolvimento  Os testes de  usabilidade consistiam na proposi    o de problemas com grau de complexidade  crescente e por meio de question  rios  Os usu  rios se mostraram satisfeitos e motivados  para interagir com APL  demonstraram interesse e entusiasmo quando programando    Assim  o APL mostrou ao mercado que    poss  vel construir uma linguagem de  programa    o baseada em   udio que seja capaz de atender usu  rios deficientes   contribuindo para a inser    o destes na   rea de desenvolvimento de software     S  NCHEZ  2004      D 2 Orca   O leitor de tela ORCA    considerado por seus usu  rios um dos melhores leitores de  tela livres para ambiente gr  fico  sendo usado pelas distribui    es Ubuntu  OpenSUSE   Fedora  Mandriva e Knoppix  COSTA e MONTE  2012     O Orca    um leitor de tela escrito em Python para aplicativos gr  ficos e usa a    biblioteca GTK2 e Interface de Provedor de Servi  o de Tecnolo
160. ionais  As componentes de frequ  ncia do sinal de voz que  s  o enfatizadas para uma determinada configura    o do trato vocal s  o denominadas de  formantes  um conjunto composto por quatro ou cinco resson  ncias importantes que  formam uma zona de alta concentra    o de energia ac  stica  Diferentes combina    es de  frequ  ncias formantes s  o geradas conforme formato assumido pelo trato vocal   gerando diferentes sons vozeados  BRAND  O  2011  LIMA  2010     A frequ  ncia natural da voz    influenciada tamb  m pelo comprimento das pregas  vocais  mulheres e crian  as apresentam vozes mais agudas porque suas pregas vocais  s  o mais curtas  MATUCK  2005   cuja movimenta    o durante a fona    o    mostrada  nas Figuras A 7 at   A 11  Na Figura A 10    poss  vel observar o abaulamento da prega    vestibular     134       Figura A 7  localiza    o das pregas vocais  Fonte   LOPEZ e FANGANIELLO  2007         Epiglote                       Rima da glote  Prega vocal                       Prega vestibular  Cartilagem aritendidea             Cartilagem corniculada              Incisura  Recesso piriforme             interariten  idea    Figura A 8  laringoscopia direta   pregas vocais na respira    o profunda  Posi    o respirat  ria  Fonte      PUTZ  2001      Epiglote          Ventr  culo da laringe                Rima da glote   Prega vocal               Prega vestibular  Prega ariepigl  tica          Cartilagem aritendidea            Cartilagem corniculada           Incisura
161. ireito  respectivamente    A suaviza    o dos contornos    feita minimizando a fun    o erro definida por    E   plly    s      1    p s   Prs   85   em que y  S p  D  representam o contorno de f    suavizado  o contorno da entrada fo   par  metro de suaviza    o e uma matriz que fornece uma fun    o diferencial de k   sima  ordem  BRAUNSCHWEILER  2010     B 8 2 A abordagem proposta em  PHUNG et  al     Sele    o de unidades requer uma grande quantidade de dados para concatena    o  O  trabalho de  PHUN et  al   prop  e decomposi    o temporal para modelar efeitos  contextuais inter e intra s  labas  adequando a modifica    o e sele    o das unidades de  acordo com o contexto aplicado a l  nguas monossil  bicas  mais especificamente  o  idioma vietnamita  O algoritmo de s  ntese    mostrado na Figura D 8    O m  todo apresenta uma proposta para estimar as posi    es e a dura    o do n  cleo e  os intervalos de transi    o dentro de cada fonema  Em seguida     aplicado um modelo  para coarticula    o ac  stica que representa os efeitos contextuais inter e intra s  labas   Ap  s esta etapa  usando o referido modelo  um m  todo de modifica    o de unidades para    2    adequar ao contexto    aplicado em conjunto com m  todo de sele    o de unidades    191    sens  vel a contexto  Por fim  a solu    o    integrada a um sistema CSS para l  nguas    monossil  bicas  PHUNG et  al       Sequ  ncia de  Texto  hd    N  o Encontrado sabido ai    Encontrado        n  Busca por semi      
162. isserta    o  Nesta etapa  tamb  m n  o foi implementado dicion  rio de exce    es para pron  ncia correta de  palavras estrangeiras  Quando implementado  a busca no dicion  rio de exce    es deve  preceder a transcri    o fon  tica  Caso a palavra n  o seja encontrada no dicion  rio  ent  o  se segue a divis  o sil  bica  identifica    o da s  laba t  nica e aplica    o das regras de  transcri    o    O sistema realiza a transcri    o fon  tica conforme as regras explicadas no item  3 2 1 3  Transcri    o Fon  tica  da presente Disserta    o  Al  m disso  aplicam se as  seguintes regras j   mencionadas  As vogais apresentam som aberto quando acento     agudo e fechado quando circunflexo  A letra x  a mais problem  tica     transcrita como    TF og FE     x  em in  cio de palavras  depois de  n  e depois de  ai           ei  ou  ou   como  z  em  palavras iniciadas com  ex  seguido de vogal  e  s  quando seguido de consoante    Para a sele    o dos fonemas  foi utilizado um classificador  cuja tarefa    realizar o  mapeamento dos atributos para classifica    o dos fonemas  No caso  o classificador  adotado foi a   rvore de decis  o com base no algoritmo ID3  Foi utilizada a modelagem  descritiva  um modelo de classifica    o    utilizado como ferramenta para distinguir    diferentes fonemas de diferentes classes        104    Uma   rvore de decis  o representa uma fun    o discreta para representar dados a  serem classificados  Uma   rvore de decis  o classifica as inst  ncia
163. itado que a usu  ria tecesse coment  rios gerais e sugerisse    melhorias no sistema  A seguir    descrito o comparativo entre os tr  s sistemas     A  Sistema baseado no Google API  a usu  ria classificou o som como sintetizado e  atribuiu conceito  razo  vel     qualidade do som  Considerou som muito agudo   sugerindo alterar o tom e a velocidade  Informou ainda que tons muito agudos s  o  desagrad  veis quando escutados por muito tempo  Informou ainda que apresentou  entona    o errada por vezes mas em nada afetou a compreens  o  apresentando 100   de entendimento    B  Sistema baseado no FreeTTS  a usu  ria classificou o som como sintetizado e  atribuiu conceito  muito bom  quanto    qualidade da s  ntese  Entretanto  notou que  o sistema faz uso da fon  tica do ingl  s e  embora as frases fossem em portugu  s   isto tornou a escuta inintelig  vel  A usu  ria acredita que se houvesse modifica    o  da fon  tica  apresentaria   ndice de inteligibilidade consider  vel  mas o sistema  como foi apresentado recebeu conceito  muito ruim   Informou ainda que acredita  que o sistema se mostrava bastante adequado para l  ngua inglesa    C  Sistema proposto  a usu  ria classificou o som como sintetizado e atribuiu  conceito  muito bom   entendendo as frases em sua totalidade  Afirmou que o  sistema apresenta tonalidade grave muito pr  ximo do que julga ideal  Sugeriu  apenas que fosse fornecida ao usu  rio uma forma de modificar a velocidade e o tom    de voz     117    Como coment
164. lulares que  quebrem as barreiras  seja adaptando hardware  seja utilizando softwares apropriados  ou ambos  SANTOS  2010     Ainda segundo  SANTOS  2010      A acessibilidade digital s   pode ser    proporcionada por meio de combina    o entre hardware e software que oferecem     30    respectivamente  mecanismos f  sicos para superar barreiras de percep    o e o acesso a    fun    es e informa    es        2 4 Tecnologias assistivas   Tecnologia assistiva    aquela que prov   suporte a portadores de necessidades  especiais  adaptando e ou fornecendo dispositivos necess  rios para que essas pessoas  possam realizar atividades da forma mais independente poss  vel  Este tipo de tecnologia  proporciona    s pessoas com necessidades especiais  maiores independ  ncia e qualidade  de vida  refletindo se nas rela    es sociais  no trabalho e tamb  m na fam  lia  SANTOS   2010     A tecnologia assistiva  quando corretamente aplicada     fundamental para garantir  acessibilidade   s mesmas atividades realizadas pelas pessoas sem necessidades  especiais  Essas t  cnicas podem eliminar ou minimizar as limita    es funcionais   permitindo seu desempenho e intera    o nas mais diversas situa    es cotidianas  como   por exemplo  o acesso    informa    o e    comunica    o  SANTOS  2010     Como a informa    o processada por um computador    exibida em monitores de  v  deo  pessoas com defici  ncia visual total ou parcial precisam recorrer a outros  dispositivos para obter as informa    e
165. lvo    um candidato no banco de dados e    caracterizado por um vetor  de caracter  sticas multidimensional  HUNT  1996     O treinamento possui muitas similaridades como a s  ntese HMM  HUNT  1996     O treinamento para os custos alvo e o custo de concatena    o podem ser realizados  ou com busca no espa  o de pesos ou por regress  o  Ambos os m  todos usam vozes  naturais e fornecem bons resultados  pesos  que quando treinados manualmente   Entretanto  entre essas duas t  cnicas  a regress  o apresenta maior flexibilidade e menor  custo computacional  HUNT  1996     O m  todo tem sido aplicado para uma variedade de bancos de dados  incluindo para  idiomas japon  s e ingl  s e tanto para vozes masculinas como femininas  HUNT  1996     Cada custo alvo    calculado como a soma ponderada das diferen  as entre os vetores  de caracter  sticas dos alvos e candidatos  O peso em geral varia de 20 a 30  HUNT     1996    p  C t us    X WEOE  ti wi    71   j 1  O custo de concatena    o    dado de forma semelhante  HUNT  1996    q  C    uiz Uj     gt   wy CF  Uia  Ui    72   j 1    Assim  o custo total para uma sequ  ncia de n unidades    a soma dos custos alvo e    de concatena    o  HUNT  1996      175    n n  CCR UM    X CH ui     Cour mi    CS ty    CCS    73   i 1 i 2    em que S denota o sil  ncio  e C  S  u  e Cf  un  S  definem as concatena    es de in  cio  e fim dadas pela concatena    o da primeira e da   ltima unidade com sil  ncio  HUNT   1996     A parte mais complexa    
166. m melhor    59    efeitos de coarticula    o quando comparadas com d  fonos  elas apresentam menos  problemas de concatena    o  SCHROETER 2005     Uma generaliza    o dos d  fonos s  o os polifones  que s  o unidades que v  o desde a  regi  o est  vel de um primeiro fonema at   a regi  o est  vel de um outro fonema   juntamente com a realiza    o ac  stica completa de fonemas intermedi  rios   AZUIRSON  2009     3 3 3 PSOLA   TD PSOLA   PSOLA  Pitch Synchronous Overlap and Add     uma t  cnica de processamento  digital de sinais usada para s  ntese de voz criado em 1986 utilizado para modificar o  pitch e a dura    o de um sinal de voz  com baixa complexidade computacional e no  dom  nio do tempo    PSOLA funciona dividindo a forma de onda em segmentos sobrepostos  Para  modificar o pitch  os segmentos s  o afastados para diminuir o pitch ou aproximados  para aumentar o pitch  Para modificar a dura    o do sinal  os segmentos s  o repetidos  diversas vezes para aumentar a dura    o ou s  o eliminados para diminuir a dura    o   portanto  trata se de uma t  cnica para escalonamento de tempo  dura    o  e  escalonamento de pitch  MAEDA  1995     Os segmentos s  o combinados usando a t  cnica  overlap add   PSOLA pode ser  usado para modificar a pros  dia do sinal de voz  MAEDA  1995   sendo a t  cnica n  o   param  trica mais conhecida para este fim    O m  todo se baseia no uso de pontos de excita    o de voz encontrados como  m  todo para an  lise de instantes de tempo para 
167. m recentemente uma voz feminina  denominada br4  COSTA e MONTE  2012     4 2 1 O Algoritmo   O MBROLA  Multi Band Resynthesis OverLap Add     um algoritmo para s  ntese  de voz no dom  nio do tempo baseado em d  fonos que usa uma variante do m  todo  PSOLA  uma patente da France Telecom e permite uma grande qualidade no som  gerado  Assim como ocorre no PSOLA  h   um baixo custo computacional  Entretanto   ao contr  rio do PSOLA  o MBROLA n  o exige marca    o preliminar de per  odos de  pitch  Embora seja baseado em d  fonos  a qualidade da s  ntese do MBROLA     considerada superior aos demais sintetizadores baseados nesta t  cnica uma vez que h    um pr   processamento dos d  fonos impondo fases de modifica    o de tom e harm  nicos  a fim de melhorar a concatena    o  O MBROLA disp  e de um grande banco de dados  contendo conjuntos de d  fonos para diversas l  nguas e vozes  auxiliado por empresas   laborat  rios e volunt  rios ao redor do mundo  embora ainda tenha algumas l  nguas  importantes em falta como o chin  s     um sistema muito r  pido e que usa pouca  mem  ria  sendo adequado para execu    o em m  quinas modestas  ou em ambientes com  grande quantidade de s  nteses de voz por segundo  O arquivo de extens  o  pho usado  como entrada pelo MBROLA cont  m uma lista de d  fonos a serem concatenados   contendo informa    es com nome dos fonemas  dura    o em milissegundos e curva de  pros  dia contendo posi    o em porcentagem e pitch  MBROLA 2014  DUTOIT 1993   DUT
168. m substancialmente mais  espa  o em disco e limitam as possibilidades de intera    o  SUN MICROSYSTEMS   1998     No contexto de inclus  o digital  os requisitos de acessibilidade n  o devem ser um  b  nus disponibilizado no software  mas sim  colocado como prioridade  pois a  acessibilidade vem sendo apoiada por leis federais e internacionais  SANTOS  2010     Para aplica    es acess  veis  o sucesso na intera    o deficiente   computador consiste  basicamente em ser o mais simples e amig  vel poss  vel  oferecendo uma ponte atrav  s  da qual as peculiaridades individuais s  o contempladas  Ao se desenvolver produtos  voltados para deficientes visuais  o projetista deve privilegiar o uso de som  fontes com  tamanho grande e  se poss  vel  usar teclados e impressoras em Braille  monitores de  tamanho maior  sens  vel ao toque e sistema de som completo  placa de som  microfone   caixa de som ou fone de ouvido  Ao mesmo tempo  deve se evitar excesso de op    es   uso excessivo de cores    cones e letras pequenas e uso de mouse  SANTOS  2010     O desafio para desenvolvedores  que t  m pouco ou nenhum conhecimento sobre  quest  es de acessibilidade ou acerca da comunidade de pessoas com defici  ncias      aprender como projetar de forma eficiente e desenvolver solu    es que atendam aos  requisitos necess  rios       cr  tico que desenvolvedores de software desprendam tempo projetando  adequadamente aplica    es voltadas para portadores de defici  ncia visual  uma vez que o  sof
169. m uma fun    o bastante espec  fica e  fundamental nesse tipo de comunica    o    Por fim  o processo Waveform Generation    respons  vel pelo controle din  mico de  articula    es e controle da frequ  ncia vibrat  ria das dobras vocais  que possibilitam a  produ    o de sinais de voz exigidos    O Festival est   em constante desenvolvimento e pretende incluir diversos outros  m  dulos  Aperfei  oamentos j   est  o sendo considerados em v  rios est  gios de  implementa    o  como t  cnicas podem se citar s  ntese baseada em sele    o  especifica    o  l  xica independente do dialeto  dentre outras  FESTIVAL  2014     Entretanto  criar um banco de dados e um conjunto de regras de fala para o Festival  n  o    f  cil  pois usa uma sintaxe semelhante    linguagem de programa    o Lisp e requer  um banco de dados de d  fonos com aproximadamente 3 mil trechos de   udio  cortados e  estendidos por pontos de entona    o  H   somente algumas poucas vozes gratuitas  gravadas para o Festival no momento  dificultando seu empego em larga escala ou a sua  populariza    o em massa    4 1 7 FreeTTS   FreeTTS    um sistema de s  ntese de voz escrito inteiramente em Java  Free TTS  inclui uma engine de s  ntese de voz com suporte para vozes  masculina em ingl  s  americano de 8 e 16 KHz e para voz MBROLA masculina e feminina a 8 e 16 Khz e  suporte para importar vozes do FestVox  Al  m disso  possui compatibilidade parcial  com JSAPI e ampla documenta    o incluindo diversas aplica    es demo
170. ma  livre e voltado para falantes  da l  ngua portuguesa  Al  m disso  as aplica    es desenvolvidas visam validar o uso do    sintetizador de voz com outras aplica    es de forma a torna las acess  veis     107          E  Hb  x   Gs  Il  e          Ol    essa    a interface de teste do sintetizador de voz                            Ol    essa    a aplica    o de chat    Enviar                          b                                                                                               Nova Mensagem    Emails  Sender Sumea Date          Salvar arquivo   e   f     Figura 5 5  interface do  a  Sintetizador de Voz   b  Aplica    o de Chat   c   Navegador de Internet   d  Lente de Aumento   e  Cliente de E mail   f  Editor de  Texto     O cliente de e mail e o navegador web ainda se encontram em fase de  desenvolvimento   5 3 4 1 A lente de aumento virtual  A baixa vis  o corresponde a um comprometimento importante da fun    o visual   por  m n  o equivale    cegueira  Baixa vis  o e ou vis  o subnormal s  o termos  usualmente empregados para definir a situa    o em que o olho est   com uma de suas  vias de condu    o do impulso visual alterada de maneira irrevers  vel  cuja perda visual  constitui um obst  culo para o desenvolvimento normal da vida do indiv  duo e que    precisa de corre    o especial     108    Uma das maiores dificuldades enfrentadas no desenvolvimento de softwares  voltados para esse grupo est   no tratamento de imagens que propicie aos usu  rios 
171. ma defici  ncia f  sica  Deve se evitar o seu uso quando  uma grande quantidade de informa    es    apresentada  ao se mostrar dados que devem  ser comparados ou quando a informa    o exposta    pessoal ou confidencial  SUN  MICROSYSTEMS  1998     Aplica    es de voz s  o como conversas entre o usu  rio e o computador  Conversas  s  o caracterizadas por retornos verbais e n  o verbais para indicarem o entendimento  O  maior benef  cio de incorporar fala em uma aplica    o    que a fala    algo natural  pessoas  acham falar f  cil  conversar    uma habilidade que a maioria aprende desde cedo e que  praticam com frequ  ncia    Uma aplica    o eficiente de voz    uma que simule alguns dos aspectos principais da    conversa entre seres humanos  Interfaces bem projetadas devem se basear no    76    entendimento das diferentes formas da linguagem com que as pessoas se comunicam   Aplica    es de voz devem adotar uma linguagem que ajude as pessoas a saberem o que  elas devem fazer em seguida e tentar evitar padr  es de conversa    o que violem a  educa    o e o comportamento cooperativo  SUN MICROSYSTEMS  1998     Ap  s definir se a fala    uma interface apropriada  deve se considerar como a fala  ser   integrada na aplica    o  Geralmente  uma aplica    o de voz    desde seu in  cio  voltada para fala  S  o poucas as vezes em que a fala quando acrescentada a uma  aplica    o pr   existente    efetiva  Traduzir uma aplica    o gr  fica para somente voz sem  a devida adapta    o tamb
172. macs  Est   dispon  vel em ingl  s  brit  nico e americano  e espanhol  O  sistema    escrito em C   e usa a biblioteca Edinburgh Speech Tools  Trata se de um  software livre  distribu  do sob licen  a X 11 permitindo uso irrestrito comercial e n  o   comercial  A vers  o est  vel atual    a 2 1 e apresenta as seguintes caracter  sticas   FESTIAL  2014   integra    o de API de s  ntese baseado em modelos de Markov   suporte para GCC 4 3  4 4 e 4 5  suporte a   udio nativo do Apple OS X   retrocompatibilidade com Festival 1 4 3  suporte    base de dados do MBROLA    O Festival    tido como um sistema de s  ntese de voz para pelo menos tr  s n  veis de  usu  rios  No primeiro n  vel     destinado para aqueles usu  rios que simplesmente  querem uma alta qualidade de voz de textos arbitr  rios com o m  nimo de esfor  o  No  segundo     dirigido para aqueles que est  o desenvolvendo sistemas de idioma e desejam  incluir sa  da sintetizada  Neste caso     desejado e necess  rio uma certa quantidade de  padroniza    o  assim como vozes diferentes  etc  O terceiro n  vel consiste em  desenvolver e testar novos m  todos de s  ntese    A filosofia adotada por sistemas como o Festival permite a adi    o e teste de novos  m  dulos de voz sem a necessidade de gastar esfor  os significativos para construir um  sistema inteiro ou adaptar um j   existente    Este    um sistema TTS inteiramente apropriado para ser utilizado em outros  projetos que necessitem de sa  da de voz  al  m disso  pod
173. mb  m um cliente e um servidor de chat bastante simples   baseado em socket Java  sendo necess  rio informar o IP da m  quina com a qual se  deseja conectar  Ao pressionar a tecla    Enter     o cliente    l    e envia a mensagem  digitada ao destinat  rio  Quando a mensagem chega ao   ltimo  o sistema    l       a    mensagem para o destinat  rio     110    6  TESTES  RESULTADOS OBTIDOS E DISCUSSOES    Esta Capitulo visa apresentar e discutir a metodologia dos testes realizados com a  ferramenta desenvolvida bem como os seus resultados    Certamente o fator que mais pesa na aceita    o por parte dos usu  rios de  sintetizadores de voz    a qualidade na sa  da resultante  Saber como avaliar a qualidade  da s  ntese e os fatores que influenciam nesta s  o pondera    es muito importantes no  processo de desenvolvimento de softwares de acessibilidade  A qualidade de um  sistema de s  ntese de voz    julgada de acordo com sua similaridade com a voz humana    Um sistema de s  ntese de voz    comumente avaliado sob tr  s aspectos  precis  o no  tratamento do texto de entrada  inteligibilidade     o percentual do resultado que foi  corretamente entendido  e naturalidade   o qu  o parecido    a sa  da com uma voz  humana real do resultado  SCHROETER 2005     Por precis  o entende se a habilidade de ler uma entrada de texto da mesma forma  que um ser humano leria  estando relacionado com o funcionamento correto do front   end  Projetistas de sintetizadores baseados em formantes devem 
174. me a fim de melhorar a m  trica  SUN MICROSYSTEMS   1998      198    AP  NDICE D  ALGUMAS FERRAMENTAS NATIVAMENTE ACESS  VEIS  VOLTADAS PARA DEFICIENTES VISUAIS    D 1 APL   As linguagens de programa    o atuais s  o baseadas em uma interface de linhas de  comando interpretadas pelo computador  Tais comandos devem ser corretamente  escritos e bem definidos  de tal forma que  caso haja algum erro  seja de sintaxe ou de  l  gica  o computador ser   incapaz de compreender as instru    es ou as tarefas desejadas  n  o ser  o realizadas de forma correta  Isto significa que o programador deve memorizar  um grande n  mero de instru    es  Em resumo  as linguagens de programa    o atuais s  o  focadas em usu  rios videntes  pois s  o fortemente baseadas em interfaces visuais    Sistemas TTS que leem comandos e vari  veis s  o inadequados para usu  rios  deficientes visuais que desejam programar  sendo o maior problema a verifica    o de  erros  A linguagem APL vem preencher uma lacuna existente entre as linguagens de  programa    o    APL    uma linguagem de programa    o com interface baseada em   udio a fim de  auxiliar estudantes deficientes visuais na   rea de desenvolvimento de software    APL foi desenvolvida em Java e se baseia no FreeTTS para a realiza    o da s  ntese  de voz  No APL  o programador n  o escreve comandos  ele os seleciona a partir de uma  lista classificada por categorias  garantindo sem  ntica e sintaxe corretos    O sistema    composto por duas camadas  aud
175. mem  ria  ou maior poder de processamento    O objetivo da s  ntese TTS    converter uma entrada de texto para uma sa  da de voz  natural e intelig  vel para transmitir a informa    o da m  quina para uma pessoa  A  metodologia usada no TTS    explorar representa    es ac  sticas da fala para s  ntese   juntamente com an  lise do texto a fim de obter pron  ncias corretas e pros  dia de acordo  com o contexto  SCHROETER  2005     Alguns sistemas TTS convertem textos convencionais diretamente para formas de  onda  enquanto que outros se baseiam em representa    es simb  licas lingu  sticas  como  transcri    o fon  tica  para tal  Alguns sistemas se baseiam na concatena    o de trechos de  voz pr   gravados e armazenados em um banco de dados  enquanto que outros se  baseiam na modelagem do trato vocal  Tais sistemas inicialmente realizam um    processamento lingu  stico  produzindo a convers  o  letra para som  a fim de gerar a    42    transcri    o fon  tica correspondente ao texto de entrada  al  m das etapas de gera    o de  pros  dia e entona    o  Tais etapas agem como um front end geralmente     SHAUGHNESSY  2003      3 1 Aplica    es das tecnologias de voz e suas vantagens   As tecnologias de voz est  o se tornando cada vez mais importantes  tanto na  computa    o pessoal como empresarial  e t  m sido usadas para melhorar interfaces para  os usu  rios j   existentes e proverem suporte   s novas formas de intera    es homem   m  quina  Estas permitem o uso de computadore
176. minar    Um exemplo de treinamento    a    clusteriza    o    de   rvore de decis  o  na qual  unidades de contextos fon  ticos s  o escolhidas por seus efeitos similares nos par  metros  ac  sticos ou fonemas individuais    rvores de decis  o s  o constru  das sem interven    o    humana para maximizar a similaridade ac  stica dentre as classes selecionadas  Apenas    173    um pequeno subconjunto do espa  o de busca te  rica    de fato usada Assim  sistemas  tendem a sintetizar uma ampla quantidade de falas durante o treinamento a fim de  descobrir quais unidades e jun    es s  o mais adequadas geralmente usando t  cnicas de  programa    o din  mica  SHAUGHNESSY  2003     B 3 1 O trabalho de  HUNT  1996    O uso de um banco de dados com uma grande quantidade de unidades dispon  vel  com pros  dia e caracter  sticas espectrais diversificadas permite que se sintetize uma voz  mais natural que podem ser produzidas por meio de uma pequena quantidade de  unidades controladas  HUNT  1996     O primeiro est  gio    transformar a entrada em especifica    o alvo  os fonemas  solicitados em conjunto com caracter  sticas pros  dicas  como pitch  dura    o e pot  ncia   HUNT  1996     A sele    o de unidades    baseada em duas fun    es custo  custo alvo C  u  t    a  estimativa da diferen  a entre a unidade do banco de dados u  e o alvo t  que  supostamente se deseja representar e o custo de concatena    o C    u  4 u   de unidades  sucessivas  HUNT  1996     A Figura B 3 ilustra um b
177. nde do valor do per  odo do pitch  Quando Fp  gt  1  a s  ntese tende a  falhar  se Fp  lt  1  o valor de K se torna altamente dependente do fator de pitch  Em  1989 foi proposto um modelo que prop  e que cada amostra de s  ntese seja multiplicado  por dois fatores de normaliza    o  Tal modelo    mostrado na Equa    o 14    si n     7      i  14   w  n     n       S n    a    em que q     introduzido para compensar a depend  ncia de K em Fp e o denominador  atua como fator de compensa    o din  mica que contrabalanceia as varia    es de K com  n  Entretanto  trabalhos publicados por Dutoit mostraram que n  o h   degrada    o    significante quando o denominador n  o    usado  eliminando o e adotou tamb  m  1       DUTOIT  1997     O MBROLA e o TD PSOLA podem ser vistos ent  o como intermedi  rios entre  duas situa    es extremas  nas quais nenhum deles oferece resultados de s  ntese  satisfat  rios  se Fp    muito grande  as linhas espectrais aparecem no espectro de s  n   o  que evita a reharmoniza    o de s n   se Fr    muito pequeno  uma harmoniza    o  grosseira ser   produzida  Al  m disso  a aproxima    o n  o ser   v  lida  O caso  intermedi  rio fornece uma qualidade muito boa para certos valores de Fr  se Fp   1 0  espectro de s  n  aproxima se do envelope do espectro de s n  e a opera    o de  reharmoniza    o altera o pitch sem afetar as frequ  ncias formantes e a largura de banda     DUTOIT  1997      Sinal reconstru  do    aproximadamente igual ao sinal da voz h
178. no caso do Festival  n  o serem gratuitos ou n  o  serem livres  como Acapella  Virtual Vision e Jaws  por exemplo  Adicionalmente  tais  sistemas ainda n  o serem um sistema TTS completo  como o MBROLA  ou se  basearem em vozes pr   gravadas  como o DOSVOX  por exemplo  o que limita as  possibilidades de intera    o    Diante deste cen  rio  percebe se a necessidade de um sistema que garanta aos  deficientes visuais amplo acesso aos recursos oferecidos pela inform  tica  que gere  maior impacto na integra    o social desse grupo  ou em outras palavras  que promova de  fato a inser    o digital por meio de um pacote de softwares  Neste caso  que inclui n  o  somente um sintetizador de voz  mas tamb  m um editor de texto  cliente de e mails e  chat  lente de aumento  etc  Todas estas ferramentas voltadas para usu  rios com  problemas visuais em seus mais diversos graus   desde a dificuldade de enxergar a curta  dist  ncia  que exigiria o uso de uma lente de aumento virtual  at   cegueira plena  por  meio do uso de um sintetizador de voz para que seja poss  vel a intera    o do usu  rio    com o computador     1 3 Objetivos  1 3 1 Geral   Esta Disserta    o tem por objetivo principal propor um Front End em Java para  Sintetizador de Voz Baseado no MBROLA a fim de promover a inclus  o digital de  deficientes visuais   1 3 2 Espec  ficos   Durante o desenvolvimento desta Disserta    o  outros objetivos foram atingidos  tais  como  teste de usabilidade dos principais sintetizadore
179. nstrativas     Apesar da facilidade de uso  n  o apresenta suporte para portugu  s  FREE TTS  2014      87    4 1 8 Furbspeech   O TTS Furb Speech foi um front end para o MBROLA desenvolvido em Java pela  Faculdade de Blumenau  Aparentemente o projeto foi descontinuado  pois a   ltima  atualiza    o do projeto foi realizado em 2009  n  o sendo integrado tamb  m a nenhum  sistema de acessibilidade  COSTA e MONTE 2012    4 1 9 IBM Via Voice   O IBM Via Voice    uma plataforma propriet  ria   o que impede que o usu  rio  adapte o programa conforme suas necessidades  n  o s   de s  ntese  mas tamb  m de  reconhecimento de voz  Voltado tamb  m para sistemas embarcados  apresenta vers  es  para Microsoft Windows e Mac OS X  A   ltima vers  o est  vel foi a 9 0 Em 2003  a  IBM vendeu o ViaVoice para a ScanSoft  sendo agora chamado Nuance  IBM VIA  VOICE  2015     Sua tela principal    mostrada na Figura 4 2  Observa se que as l  nguas s  o    limitadas  n  o contemplando a l  ngua portuguesa  entre outras             S          US English    German    Italian C Japanese       UK English    French    Spanish    Initialize TTS Engine                                        Figura 4 2  IBM Via Voice     Posteriormente  surgiu o Projeto Voxin  uma parceria com a IBM  para a aquisi    o  do sistema TTS IBM ViaVoice  que    um sistema TTS n  o livre que pode ser usado em  diversas aplica    es  como leitores de tela  de boa qualidade  podendo ser tamb  m  integrado a ferramentas e sistemas
180. nt  m um pacote de  aplicativos nativos open source que possibilitam acessibilidade ao Linux baseado no  DOSVOX  O sistema conta com um sintetizador de voz em portugu  s e um leitor de    tela open source   devido    grande tend  ncia na   poca de sua cria    o na utiliza    o do    84    Linux  que possui acesso completo ao ambiente gr  fico do Linux  funciona em modo  texto e gr  fico e compat  vel com v  rias distribui    es    O projeto tem como objetivo facilitar a produ    o cultural de portadores deficientes  visuais  permitir a alfabetiza    o em todos os n  veis  fundamental  m  dio e superior  e  fornecer suporte   s profiss  es j   existentes    4 1 5 eSpeak   O eSpeak  mostrado na Figura 4 1     um software sintetizador de voz para ingl  s e  outras l  nguas  incluindo portugu  s brasileiro  para GNU Linux e Microsoft Windows   O sistema prov   um programa em linha de comando que gera falas a partir de textos ou  entradas padr  o e bibliotecas compartilhadas por programas  como por exemplo as  DLLs do Microsoft Windows    Como    poss  vel perceber  n  o se trata de um sistema de acessibilidade  propriamente dito  sendo apenas um sintetizador de voz  n  o possuindo uma interface    que permita a intera    o direta com um usu  rio deficiente visual                                                  Pare g   gt    mi  Mouth Position E    7 Options  O eSpeak    um software sintetizador de voz  para ingl  s e outras linguas estrangeiras para fisiiha  GNU Linux e Microso
181. nta uma s  rie de desvantagens como j   foi abordado     5 1 Teste de di  logo natural   A fim de assegurar a qualidade do software  ap  s determinar os requisitos do  sistema  foram iniciados os primeiros testes  Aplica    es acess  veis requerem testes  especiais a fim de garantir se o mesmo atende   s especifica    es  O primeiro teste    o  chamado  Estudo de Di  logo Natural   dois usu  rios devem completar uma  determinada tarefa  Um usu  rio deve possuir um computador e um telefone  O outro  deve possuir apenas um telefone  O primeiro representa o software e o segundo  representa o usu  rio final do produto  Ent  o  deve se observar o di  logo entre as duas  pessoas  analisando as ordens dadas pela pessoa que representa o usu  rio e as  mensagens fornecidas pela pessoa que representa o sistema  Esta t  cnica    utilizada para  coletar vocabul  rio e estabelecer um padr  o de gram  tica  fornecendo ideias para  mensagens e respostas  Trata se de um teste barato  r  pido e que n  o requer um grande  n  mero de pessoas e muito menos uma implementa    o pr  via do sistema  Uma vers  o  mais sofisticada do teste envolve v  rios volunt  rios atuando como usu  rios  Com base  nessa an  lise  foi desenvolvida uma interface linear e objetiva  semelhante    existente  no ADRIANE  em que s  o apresentadas inicialmente as op    es de programas  dispon  veis e letras de atalho no teclado correspondentes  com a op    o para repeti las    sempre que se deseje     96    5 2 As ferrame
182. ntas utilizadas  5 2 1 Linguagem JAVA   A linguagem Java foi escolhida por ser uma linguagem de alto n  vel orientada a  objeto  que apresenta uma ampla documenta    o e uma grande variedade de APIs e    Zz    frameworks para as mais diversas aplica    es e que    constantemente atualizada   Entretanto  o principal motivo pelo qual a linguagem foi escolhida foi pela portabilidade  oferecida pela linguagem    Devido    exist  ncia da JVM  Java Virtual Machine   que atua como uma camada de  software entre o sistema operacional e a aplica    o desenvolvida  n  o h   necessidade de  recompilar o projeto para cada plataforma operacional  uma vez que a JVM     respons  vel por fazer a ponte entre os bytecodes Java e o sistema operacional    5 2 2 IDE NetBeans   O Netbeans  mostrado na Figura 5 1     um ambiente de desenvolvimento integrado  livre  gratuito  com suporte a diversas linguagens  como Java  C C   e PHP  e  dispon  vel para plataformas Microsoft Windows e GNU Linux  Seu editor de c  digo   fonte possui destaque de sintaxe  destaque de elementos selecionados  fechamento  autom  tico de delimitadores  identa    o autom  tica  auto completar  marca    o de  imports n  o utilizados e integra    o com Javadoc  Al  m disso  possui designer de  interface gr  fica  debugger  recursos de refatora    o  suporte a controle de vers  o e    JUnit        O irbspeech   Net    Arquivo Editar Exibir Navegar C  digo Fonte Refatorar Executar Depurar Perfil Equipe Ferramentas Janela Ajuda  
183. nte na dire    o transversal  O movimento das duas pregas    vocais    considerado sim  trico  assim  somente    equacionado o movimento de uma    156    delas  Os deslocamentos x  t  de cada uma das massas s  o regidos pelo sistema de  equa    es seguinte     M X1   Si x1    By   1    ke  41     x2    Fy  M X   S2 X2    Bo   2    ke  x2     x1    Fz  54     em que S  e Sz s  o as rela    es das molas n  o lineares dadas por S  x    K x 1  n jx      para j   1 2  Os coeficientes K  representam a rigidez linear e n  s  o coeficientes  positivos que caracterizam a n  o linearidade das molas  As for  as F  e F  dependem da  press  o subglotal  do fluxo glotal e da   rea da regi  o entre as pregas vocais    Apesar dos modelos massa mola amortecedor serem capazes de capturar as  propriedades b  sicas do movimento das pregas vocais  muitos detalhes desse  movimento s  o desconsiderados devido    sua representa    o matem  tica simplificada   As pregas vocais s  o mais espessas na regi  o posterior do que na regi  o anterior  logo   sob a a    o do fluxo de ar  elas se abrir  o primeiro na parte anterior indo em dire    o     parte posterior  formando uma onda  que    a onda mucosa  a qual percorrer   a extens  o  das pregas vocais    medida que o fluxo de ar    mantido  como indicam as setas  Tais  modelos simplificados n  o conseguem recriar o sistema de forma satisfat  ria   BRAND  O  2011      BRAND  O  2011  tamb  m conclui que as for  as el  sticas desempenham um papel  import
184. nvolveu o vocoder  Durante os anos de 1980 e 1990  o sistema MITalk   baseado no trabalho de Dennis Klatt  no MIT e o sistema da Bell Labs foram um dos  sistemas multil  ngues independentes de l  nguas que se tornaram refer  ncias na   poca   usando t  cnicas de processamento da linguagem natural    Os m  todos de s  ntese de fala podem ser classificados em  concatena    o de forma  de onda  usando unidades sonoras  t  cnicas baseadas em par  metros  s  ntese de  formantes  s  ntese articulat  ria e s  ntese HMM  Tal classifica    o pode ser vista na  Figura B 1  Todas as t  cnicas apresentam suas respectivas vantagens e desvantagens  De  todos os tr  s  a concatena    o de forma de onda tem apresentado a maior naturalidade e  seu algoritmo    bastante simples  entretanto  ainda apresenta problemas de coarticula    o     KANG et  Al  2009  TALAFOVA et  al   2007         Vocabul  rio    Limitado             Vocabul  rio  limitado  Sintese  Artiulat  ria  Sintese de  Formantes  Sintese por  Concatena    o        Mensagens  Pre Gravadas            Figura B 1  classifica    o e aplica    o dos tipos de sistemas de s  ntese de voz  Fonte   AZUIRSON  2009    Adaptado      Dentre as t  cnicas citadas  tr  s s  o as principais  s  ntese de formantes  s  ntese    articulat  ria e s  ntese concatenativa  A s  ntese de formantes modela as frequ  ncias do    163    sinal de voz  Formantes s  o as frequ  ncias de resson  ncia do trato vocal  A s  ntese     realizada usando tais frequ  nci
185. o 2   nacn n     87     Ci n     o coeficiente espectral de i   sima ordem  1  lt  i  lt  p  no n   simo frame dentro  da janela centrada em t  com     n   lt n lt mn   O coeficiente de regress  o aj   corresponde    varia    o linear do padr  o do envelope espectral em uma unidade de  tempo  Assim  STM t   que    a o valor quadr  tico m  dio de a  corresponde    varoa    o  do envelope espectral suavizado  Como o pr  prio nome indica  STM t  apresenta a    medida da transi    o espectral em uma fala cont  nua  PHUNG et  al       192    AP  NDICE C  APIs PARA DESENVOLVIMENTO DE SOFTWARES  BASEADOS EM VOZ    C 1 GNOME   GNOME    um sistema de Desktop avan  ado para usu  rios voltado para alguns  sistemas derivados do Unix  como GNU Linux e Solaris  Trata se de um projeto open  source e que segue o modelo de software livre     um ambiente f  cil de usar e altamente  personaliz  vel    O projeto GNOME foi desenvolvido pensando no usu  rio  incluindo portadores de  necessidades especiais  com problemas de vis  o  surdez ou motores  O GNOME oferece  uma plataforma robusta e confi  vel para desenvolver aplica    es acess  veis e interfaces  para tecnologias assistivas e inclui leitor de tela  lente de aumento  etc    O GNOME foi projetado desde seu in  cio levando em considera    es quest  es de  acessibilidade e fornece um framework robusto que torna o desenvolvimento de  aplica    es acess  veis muito mais f  cil  Al  m disso  prov   uma interface padr  o para  integrar tecnologi
186. o conciliar HNM e HMM a fim de reduzir custos e  tempo de desenvolvimento  TABET  2011     B 8 1 A abordagem proposta em  BRAUNSCHWEILER  2010    Nos modelos cl  ssicos  mesmo com grandes bancos de dados  descontinuidades e  pros  dias pouco naturais causadas por escolhas inadequadas entre o alvo e a unidade  selecionada s  o inevit  veis  Por outro lado  os m  todos que modificam a frequ  ncia  fundamental geram pros  dia precisa para sotaques e entona    es  mas podem produzir  vozes pouco naturais  rob  ticas  degradando a qualidade devido a modifica    es  pros  dias  BRAUNSCHWEILER  2010     O algoritmo descrito em  BRAUNSCHWEILER  2010  visa reduzir a degrada    o  por modifica    es pros  dicas e descontinuidades por meio de um m  todo de s  ntese que  combina concatena    o de formas de onda naturais e uma t  cnica pr  pria de sele    o  plural e fus  o de unidades  modificando a frequ  ncia fundamental a e dura    o dos  fones  capaz de regenerar a pros  dia a partir das unidades selecionadas e usando  m  ltiplas unidades em segmentos n  o adjacentes  reduzindo as descontinuidades   apresentado resultados superiores aos m  todos convencionais  A entrada do sistema     uma sequ  ncia de fonemas e a pros  dia    O m  todo consiste em selecionar m  ltiplas unidades de voz para cada segmento de  semi fonemas  e ent  o gerar formas de onda que representam as m  ltiplas unidades  realizando uma m  dia das formas de onda em um ciclo de pitch  Tal solu    o permite a  suaviz
187. o de um  dicion  rio  inserindo tamb  m meios de modificar velocidade e tom de voz por parte do  usu  rio  Como forma de melhorar a qualidade da voz sintetizada  prop  e se  implementar a solu    o proposta em  KANG et  al   2009  para melhorar a coarticula    o   conclus  o da implementa    o de algumas ferramentas  como navegador web  sistema de  Voz sobre IP e agenda  portar o sistema para plataformas m  veis baseadas no sistema  Android    A s  ntese de d  fonos tem apresentado resultados superiores em dispositivos m  veis  quando comparados com outras t  cnicas de s  ntese de voz   TALAFOV   et  al   2007   apresenta uma primeira aplica    o de s  ntese de d  fonos em ambiente m  vel  cujo  diagrama de funcionamento    mostrado na Figura 7 1  Neste trabalho  ao receber uma  mensagem SMS  por exemplo  o sistema concatena amostras de voz pr   gravadas e    armazenadas em um banco de dados     o                 bad    IH Es        i Eai          Sinal de Voz  Amostras de voz  Saida   Pr   Gravadas   gt     Banco de Dados Sintetizador de Voz       Figura 7 1  solu    o proposta em  TALAFOVA et  al   2007  para aplica    o em dispositivos m  veis   Fonte   TALAFOV   et  al   2007   Traduzido      123  REFER  NCIAS    ACAPELA   SITE OFICIAL  Dispon  vel em   lt http   www acapela group com acapela   for linux embedded  gt   Acesso em  Outubro 2014     AZUIRSON  Gabriel de Albuquerque Veloso  Investiga    o da modelagem lingu  stica  e pros  dica em sistemas de s  ntese de voz 
188. o que  nem sempre pode ser uma tarefa f  cil  uma vez que o usu  rio tender   a repetir a mesma  frase  podendo ocasionar o mesmo erro novamente    Neste caso  a melhor forma de lidar com isso    evitar repetir a mesma mensagem de  erro  Repeti    es de mensagens de erro  al  m de n  o ajudarem o usu  rio  tendem a  parecer hostis ao usu  rio  devendo se ent  o recorrer    assist  ncia progressiva  primeiro  com um    O que      seguido de um    Desculpe  poderia repetir     e por fim  orientar o  usu  rio     Tente falar pausadamente  mas sem muita   nfase       Outra t  cnica    explicitar as possibilidades  do tipo sim n  o  ou fornecer uma  entrada de dados alternativa  SUN MICROSYSTEMS 1998     3 5 3 Desafios envolvendo sistemas multi modal   Sistemas multi modais incluem outros tipos de entrada e sa  da al  m do som  No  caso da lat  ncia  indicadores na interface gr  fica podem indicar o estado do  reconhecedor  como processando ou aguardando entrada  ao contr  rio do que ocorre do  tipo speech only  al  m de mostrar o resultado do reconhecimento  possibilitando que o  usu  rio veja a resposta    Pode se mostrar tamb  m  ao longo da etapa de processamento  os resultados  preliminares da an  lise do que foi dito pelo usu  rio  que v  o mudando    medida que o  usu  rio continua a falar  ou estes podem ser ocultados ou mostrados em uma janela a  parte a fim de n  o confundir o usu  rio  O que n  o se deve    n  o mostrar resultado  algum  para que o usu  rio pense que o 
189. o um ou uma  Abreviaturas s  o geralmente    74    sequ  ncias de caracteres terminados por ponto e que necessitam ser substitu  dos por sua  forma  por extenso   Entretanto  algumas abreviaturas n  o s  o seguidas por ponto   Al  m disso  o n  mero que antecede a abreviatura dever   ser colocada no plural ou no  singular  Outras vezes  uma abrevia    o pode ter mais de uma transcri    o   cap   pode  ser capit  o ou cap  tulo  de acordo com o contexto  Siglas s  o sequ  ncia de letras  mai  sculas delimitadas ou n  o por ponto  Neste caso  a dificuldade se encontra em  saber se a sigla deve ser lida ou soletrada  Ademais  certos casos fogem    regra a  apresentam pron  ncia pr  pria  como IEEE   i tr  s e    AZUIRSON  2009    3 4 1 2 Erros de transcri    o fon  tica   As principais dificuldades encontradas nesta etapa s  o  a determina    o se as vogais   e  e  o  n  o acentuadas s  o abertas ou fechadas e a transcri    o fon  tica da letra X  A  consoante X    uma das mais problem  ticas durante o mapeamento  sendo que nem  sempre    poss  vel realizar a transcri    o correta por meio de regras e nesse caso   novamente deve se lan  ar m  o do uso de um dicion  rio de exce    es  Ainda assim   podemos aplicar a seguinte regra  v  lida para boa parte dos casos  o fonema  x  ocorre  em in  cio de palavras  depois de  n    ai    ei  ou  ou   o fonema  z  ocorre em palavras  iniciadas com  ex  seguido de vogal e o fonema  s  quando seguido de consoante   AZUIRSON  2009    3 4 2 
190. ocal varia de uma pessoa a outra  cada fonema possui um conjunto de  formantes acrescidos dos formantes caracter  sticos de cada trato vocal  MACHADO   1997     Vogais diferem das consoantes de acordo com o grau de abertura do trato vocal  Se  o trato vocal est   aberto o suficiente para o ar pulsado pelos pulm  es fluir sem encontrar  obst  culos  uma vogal    produzida  A atua    o da boca    ent  o reduzida a simplesmente  modificar o timbre vocal  caso contr  rio    produzida uma consoante  DUTOTT  1997     Sons vozeados  como os produzidos por uma vogal  por exemplo  ocorrem quando o  ar    for  ado pelos pulm  es  atrav  s das pregas vocais  em dire    o    boca ou nariz  por  onde escapa  ou seja  Sons vozeados s  o produzidos pela excita    o do trato vocal  gerado por pulsos de ar glotal quasi peri  dicos resultantes da vibra    o das pregas vocais   LOPEZ  2009  SPANIAS  1994     Quando ocorre a constri    o de algum ponto do trato vocal  geralmente em dire    o     boca  sons fricativos ou n  o vozeados s  o originados  for  ando o ar passar pela  constri    o com uma velocidade suficientemente grande para gerar uma turbul  ncia e  consequentemente um ru  do que excita o trato vocal  Sons fricativos incluem  ch    f     s   lvl   x  e  z   ou seja  sons n  o vozeados s  o produzidos for  ando o ar ao longo de    uma constri    o do trato vocal  LOPEZ  2009  SPANIAS  1994         34    Quando h   a total obstru    o de algum ponto ao longo da passagem de ar no trato
191. odelo fonte filtro  Monografia em F  sica  Universidade  Estadual do Cear    Fortaleza  2010     LOPEZ  Fernando Carrara  FANGANIELLO  Renato Dalto  S  ntese e predi    o de  sinais de voz  Trabalho de Gradua    o Interdisciplinar em Engenharia El  trica   Universidade Presbiteriana Mackenzie  55p  S  o Paulo  2009     MACHADO  Cristiano Gaspar  Um sistema de s  ntese de voz para a l  ngua  portuguesa  Universidade Federal do Rio de Janeiro  1997     MAEDA  Shinji  Vocal tract acoustics and speech synthesis  1995     MARANGONI  Josemar Barone  PRECIPITO  Waldemar Barilli  Reconhecimento e  Sintetiza    o de Voz Usando Java Speech  In  Revista Cient  fica Eletr  nica de  Sistemas de Informa    o  ISSN 1807   1872   Ano 2  N  mero 4  2006     MATUCK  Gustavo Ravanhani  Processamento de sinais de voz padr  es  comportamentais por redes neurais artificiais  Relat  rio Final de Projeto de Inicia    o  Cient  fica  56p  Instituto Nacional de Pesquisas Espaciais  S  o Jos   dos Campos 2005     MBROLA     SITE OFICIAL  Dispon  vel em    lt http   tcts fpms ac be synthesis mbrola html gt   Acesso em  Junho de 2014     MONTILHA  Rita de Cassia Ietto  TEMPORINNI  Edm  a Rita  NOBRE  Maria In  s  Rubo  JOSE  Newton Kara  Percep    es de escolares com defici  ncia visual em  rela    o ao seu processo de escolariza    o  In  Paideia  vol  19  No  44  2009     MOORE  Keith L   DALLEY II  Arthur F  Anatomia orientada para cl  nica  4a  edi    o  Guanabara Koogan  2001     NA    ES UNIDAS NO 
192. oe oo oo oo 00  ee co      006060 so oe oe 0000  Sinal de N        x divis  o     Expoente Grau    oe oo oo oo oo oo 000 e oo oo  oe ee oo co ee oo 0006 oo oe ee eo  ee co ee ee oe ee o oe ee 000  R    gt  Se x            oe eo 00  o oe co oe co oe oo co 00 oo  00 ee oe oe o o oe ee ee oe eo oe eo  00 00 of    o oe oe o ee ee oo eo 0000  1 2 3 4 5 6 7 8 9  e ee e o   e oo e oo e o   e oo e oo ee e a  o q e ee e e e    e e o   e oo e oo e o    ee ee ee ee ee ee ee ee ee ee    Figura 1 2  alfabeto Braille para portugu  s  Fonte  Google Images     Sistemas TTS  Text to Speech  s  o sistemas que transformam um texto simples em  voz falada  sendo  atualmente  importantes ferramentas para a intera    o homem   computador  podendo ser utilizados como leitores de tela para deficientes visuais   COSTA e MONTE  2012     Dentre os sistemas de acessibilidade e ou s  ntese de voz existentes atualmente   podem se destacar como principais  os seguintes  ADRIANE  Acapella  DOSVOX   eSPEAK  Festival  Jaws  LianeTTS  MBROLA e Virtual Vision    Embora estes sistemas apresentem desempenho considerado adequado aos seus    prop  sitos  possuem caracter  sticas que  de uma forma ou de outra  limitam o seu uso a    25    um grupo menor de usu  rios  seja por serem exclusivos para uma determinada  plataforma operacional  como ADRIANE  exclusivo para GNU Linux  ou simplesmente  n  o serem nativamente multiplataformas   neste caso  todos esses citados  n  o possuir  suporte    l  ngua portuguesa  como 
193. olaridade m  dia  das pessoas com defici  ncia    um ano menor que do grupo de pessoas sem defici  ncia   consequ  ncia da n  o inser    o destes na escola ou da evas  o  As taxas daqueles que  nunca frequentaram a escola s  o 16 3   21 6  e 33 7  para a popula    o em geral  para  grupo de pessoas com vis  o limitada e para pessoas com total incapacidade de enxergar   respectivamente  Um estudo realizado entre estudantes a partir de 12 anos  com 26  alunos   46 2  com vis  o subnormal e 53 8  com cegueira  com idade m  dia de 17 1  anos da rede p  blica de ensino do Estado de S  o Paulo revelou que mostrou que 73 1   dos estudantes repetiram o ano  Entre as dificuldades encontradas  sobressa  ram se a  leitura de livros did  ticos e  dentre os que possuem vis  o subnormal  a dificuldade para  visualizar a lousa  BRASIL  2015  MONTILHA  2009     Nesse contexto  softwares de acessibilidade inadequados para deficientes visuais    n  o apenas tornam espa  os de trabalho ineficientes e frustrantes como tamb  m perdem    22    muita produtividade por subestimarem as capacidades dos funcion  rios  Para pessoas  com defici  ncia  os resultados podem ser ainda piores  como dificuldade para se inserir  no mercado de trabalho e dificuldade de aprendizagem  Um deficiente visual que use  hardware e software apropriados consegue trabalhar pelo menos t  o r  pido quanto ou    s vezes at   mais r  pido do que algu  m sem defici  ncia visual  entretanto  a maioria dos  softwares e sistemas o
194. ont End Java    An  lise ds Estrutura i  re Difonos e  do Texto Informa    es de    Convers  o de Texto Prosodia  para Donos    An  lise ds Pros  dia    Suporte ao       JSAPI      Google  Translator API    Suporte a mais  de 30 linguas    Microsoft Windows  GNU Linux  MacOSX  NetBSD  FreeBSD  Solaris  BeOS  QNX  Symbian       Figura 5 4  arquitetura proposta     5 3 2 O front end desenvolvido   O front end tem por objetivo converter texto contendo s  mbolos  n  meros e  abrevia    es em sua forma por extenso  em um processo chamado de tokeniza    o e   posteriormente  realizar a transcri    o fon  tica e fornecer informa    es de pros  dia a  serem utilizados pelo back end    O front end possui algoritmos para normaliza    o do texto baseado nas regras de  convers  o grafema fonema  divis  o sil  bica e marca    o de s  laba t  nica  De fora geral   os principais passos realizados pelo front end desenvolvido s  o  An  lise da Estrutura   Pr   Processamento do Texto  Convers  o Texto para Fonema e An  lise da Pros  dia   5 3 2 1 Entrada e Sa  da   O sistema recebe como entrada texto simples  sem elementos gr  ficos ou sinais de  formata    o de texto  e gera um arquivo  pho que informa ao MBROLA a lista de  d  fonos a serem concatenados e que cont  m os fonemas  conforme a representa    o  mostrada na Tabela 5 1  com suas respectivas dura    es em milissegundos e curva de  pros  dia  esta   ltima  por sua vez     composta por um percentual indicador de posi    o   pitch   fre
195. or assunto ou remetente  por  exemplo  Ler esses dados s  o mais naturais  Por exemplo    A mensagem 2    de Paulo  Cesar Cortez   cujo assunto    entrega do artigo     No caso de sistemas que envolvam  comandos por voz tamb  m  os comandos geralmente usados em interfaces gr  ficas  soam igualmente estranhos  como    Mover  Spam     Embora seja um pouco mais longo  dizer    Mover para a pasta spam       mais natural  e  consequentemente  mais f  cil de  lembrar     Os sintetizadores atuais ainda n  o soam de forma completamente natural  A escolha    entre usar voz sintetizada  gravada ou simplesmente n  o fazer uso de recursos de voz    77    nem sempre    f  cil  Embora uma voz pr   gravada seja muito mais f  cil e agrad  vel para  o usu  rio     menos efetiva quando a informa    o a ser apresentada    din  mica  Usar  vozes gravadas    melhor para mensagens que n  o mudam  enquanto voz sintetizada     melhor para textos din  micos    Misturar vozes sintetizadas com gravadas  por  m  n  o costuma trazer resultados  satisfat  rios  Embora  usu  rios relatem n  o gostarem de som sintetizado  elas s  o  de  fato  eles s  o mais adapt  veis quando n  o misturados com vozes pr   gravadas  Escutar     consideravelmente mais f  cil quando a voz    consistente    Usam se mensagens gravadas quando todo o texto a ser falado    conhecido de  antem  o  caso contr  rio  ou caso o espa  o em disco seja limitado  recomenda se o uso  de sintetizadores de voz  Mensagens pr   gravadas requere
196. os aleat  rios nos aproximamos de uma amostra  de ru  do gaussiano via teorema do limite central da probabilidade  SHAUGHNESSY   2003     S  ntese de formantes emprega se    es de filtros de segunda ordem em cascata  s  rie   ou em paralelo  O sistema    composto pela fun    o de transfer  ncia do trato vocal que  relaciona o fluxo de volume de ar nos l  bios  sa  da  e o fluxo do volume de ar na glote   entrada   A tarefa    aproximar todas as resson  ncias do trato vocal  picos na fun    o de  transfer  ncia  os formantes  por uma rede de filtros de segunda ordem  SCHROETER   2005     Pode ser demonstrado que a representa    o por filtros em s  rie aproxima    razoavelmente bem o trato vocal n  o nasal  Nesta abordagem  especificamos apenas as    169    frequ  ncias dos formantes  a largura de manda e o fator de ganho  SCHROETER   2005     Tipicamente  o filtro    especificado em termos de frequ  ncia central de resson  ncia   formante  e largura debanda  sobre um intervalo de frequ  ncia de aproximadamente 5  kHz    Na s  ntese baseada em formantes  as quatro frequ  ncias centrais mais baixas dos  formantes variam dinamicamente de frame a frame juntamente com as tr  s menores  bandas  Os par  metros de ordem mais elevada s  o geralmente mantidos fixos  uma vez  que sua varia    o apresenta muito pouco efeito percentual    A abordagem cl  ssica proposta por Klatt envolve tanto estruturas de filtros de  segunda ordem em cascata e paralelos  cada um simulando uma resson  ncia
197. os de voz n  o vozeados  SPANIAS  1994     A distribui    o das frequ  ncias  espectro  da voz    caracterizada por sua estrutura  harm  nica e formante  A estrutura harm  nica    uma consequ  ncia da quasi   periodicidade e pode ser atribu  do    vibra    o das pregas vocais  A estrutura formante   envelope espectral  deve se    intera    o entre a fonte e o trato vocal  SPANIAS  1994     O envelope espectral    caracterizado por um conjunto de picos chamados de  formantes  Os formantes s  o os modos ressonantes do trato vocal  Em m  dia  o trato  vocal apresente de 3 a 5 formantes abaixo de 5 kHz  As amplitudes e localiza    es dos  tr  s primeiros formantes  que geralmente ocorrem abaixo de 3 kHz  s  o muito  importantes tanto na s  ntese quanto na percep    o  Altos formantes s  o tamb  m  importantes para representa    es de sons com grande largura de banda e vozeados    A diferen  a entre os espectros de sons vozeados e n  o vozeados est   mostrada na  Figura 2 1  Os dois gr  ficos    esquerda desta Figura mostra os sinais no dom  nio do  tempo e os sinais    direita s  o os respectivos espectros de frequ  ncia  sendo que o  primeiro sinal    vozeado e o segundo n  o vozeado  A diferen  a entre os dois est    evidente no envelope e na magnitude dos componentes de frequ  ncia de cada um dos    sinais e na periodicidade     37    Time domain speech segment    TAPE TIME  BOM    16  Time  mS        Time domain speech segment      TAPE TIVE  3340       0 8 16 24 32 0 1 2 3 4
198. os tem mostrado ser bastante  efetiva  gerando resultados satisfat  rios  A t  cnica de s  ntese baseadas em HMMs tem  recebido grande aten    o tamb  m pela facilidade de aplica    o e qualidade dos resultados  dentre as t  cnicas mais recentes  Para aplica    o de HMMs  podem ser usadas bases de  voz com baixa qualidade   caseiras   e poucas amostras e ainda assim  obter resultados  satisfat  rios  BLACK  2007  COSTA e MONTE  2012     Na s  ntese por sele    o de unidades  m  ltiplas inst  ncias de cada fone em diferentes  contextos s  o armazenadas em um banco de dados  Construir tal banco de dados    uma  tarefa custosa  al  m de resultar em um banco de dados grande  TABET  2011     O diagrama de blocos de um sistema baseado em HMM    mostrado na Figura D 4   O sistema    divido em duas partes  treinamento e s  ntese    Na etapa de treinamento  um conjunto de HMMs  um por fonema     treinado com  par  metros amostrais da voz e par  metros contextuais pros  dicos  a fim de gerar um  modelo que relaciona regras contextuais pros  dicas  com par  metros amostrais da voz   Esta etapa inclui os seguintes sub processos  gera    o de r  tulos de contexto para cada  frase da base  alinhamento for  ado a n  vel de monofone para cada frase da base   reamostragem dos arquivos de   udio  se necess  rio  e convers  o para o formato RAW    Na etapa de s  ntese  m  dulos de NLP ser  o utilizados para gerar informa    es  pros  dicas de contexto  a fim de que as mesmas determinem a gera  
199. peracionais permanece n  o acess  vel a este tipo de usu  rio e  quando existem s  o disponibilizados em ingl  s  SANTOS  2010     Em um ambiente escolar  por exemplo  quando s  o detectados alunos que  apresentem algum grau de redu    o visual  a conduta mais indicada deve ser  sempre  no  sentido de buscar e garantir os recursos did  ticos e pedag  gicos que melhor atendam   s  necessidades destes indiv  duos    A educa    o especial visa desenvolver tecnologias de hardware e software   adaptando os para auxiliar na solu    o do problema do processo de aprendizagem de  pessoas que n  o possuem o seu desenvolvimento cognitivo normal  tais como os  deficientes visuais  entre outros  Atrav  s da explora    o dos recursos das novas  tecnologias da informa    o    poss  vel criar ambientes de aprendizagem  visando o  desenvolvimento cognitivo dos portadores de necessidades especiais    Diante deste problema  a interface do software educacional deve ser projetada de  forma a melhor responder   s necessidades do usu  rio  Com rela    o aos deficientes  visuais  destacam se alguns requisitos que devem ser atendidos pela interface  tais como  a utiliza    o de sons para intera    o usu  rio m  quina e privilegiando o uso do teclado  atrav  s de teclas de atalho  evitando mensagens visuais e intera    o atrav  s do mouse   SUN MICROSYSTEMS  1998     Considere algu  m em idade economicamente ativa e que sofreu uma perda da vis  o   Tarefas como ler um jornal  parte do ritual matinal  
200. pete novamente  o que falou  Isso pode tanto fazer com que o usu  rio perca a resposta ao falar ao mesmo  tempo que o dispositivo como pode causar uma falha de reconhecimento ou resposta  errada    Dessa forma     conveniente deixar claro as seguintes informa    es durante a  intera    o homem m  quina  o reconhecedor est   aguardando uma resposta ou est    processando a entrada de   udio  O reconhecedor ouviu o usu  rio  Caso afirmativo   interpretou corretamente o que o usu  rio disse       importante  em alguns momentos  realizar confirma    o de ordens expressas pelo  usu  rio seja de forma impl  cita  repetindo o comando entendido  ou expl  cita   perguntando se o usu  rio deseja mesmo realizar a a    o que o sistema entendeu  como  em caso de exclus  o de dados  por exemplo    Ao se exibir mensagens referentes a um conjunto de dados de uma mesma natureza     pode se remover informa    es redundantes e ou desnecess  rias     A temperatura em    80    Fortaleza    de trinta graus Celsius  no Rio de Janeiro  trinta e cinco     n  o sendo  necess  rio repetir as palavras temperatura nem graus Celsius    Na necessidade de repetir informa    es  pode se fazer de forma cada vez mais curta       Ap  s o bipe  grave sua mensagem e aperte parar         Grave sua mensagem ap  s o bipe         Grave sua mensagem       Em caso de detec    o de erro  seja por parte do usu  rio  seja por parte do pr  prio  software     importante prover um ou mais mecanismos para corre    o de erros  
201. pon  vel no Live CD ou DVD do Knoppix desde a  vers  o 5 3 por meio da op    o de inicializa    o Adriane  Tamb  m    poss  vel remasterizar  o CD ou DVD para usar o ADRIANE como op    o padr  o    Como desvantagem  pode se afirmar o fato do projeto ADRIANE ser exclusivo  para ambiente GNU Linux  que restringe o campo de uso para apenas os usu  rios deste  sistema operacional  KNOPPER  2009     4 1 3 Aiuruet     Iniciado em 1991 pelo Laborat  rio de Fon  tica e Piscolingu  stica  LAFEPE  em  conjunto com o Instituto de Estudos da Linguagem  TEL  da Universidade Estadual de  Campinas  UNICAMP   Trata se de um projeto acad  mico baseado em s  ntese    concatenativa de polifones capaz de diferenciar maior ou menor abertura voc  lica por    83    meio da identifica    o da classe gramatical  O sistema foi desenvolvido em C   e  Delphi e    voltado apenas para plataforma Microsoft Windows  AZUIRSON  2009    4 1 4 DOSVOX e LINUXVOX   De acordo com o manual de usu  rio do sistema  o DOSVOX    um sistema para  microcomputadores da linha PC que se comunica com o usu  rio mediante s  ntese de  voz  viabilizando o uso de computadores por deficientes visuais  O programa     composto de     sistema operacional    que cont  m os elementos de interface com o  usu  rio  sistema de s  ntese de fala para l  ngua portuguesa  editor  leitor e  impressor formatador de textos  impressor formatador para Braille  programas de uso  geral adaptado a cegos  como agenda  calculadora  jogos  ampliador de
202. pons  veis por rotular fonemas de forma adequada  e ferramentas de rotula    o  pros  dica autom  tica  respons  veis por rotular tons e tonicidade bem como pausas de  forma adequada     importante que tanto o sistema TTS baseado banco de dados a ser  rotulado como a ferramenta de rotula    o sigam uma conven    o comum  SCHROETER   2005     O sinal de voz    armazenado em um formato comprimido de tal forma que o banco  de dados de voz pode ser usado em sistemas com limita    es de mem  ria  de prefer  ncia  com codificadores e decodificadores de baixo custo computacional  transparentes ao  usu  rio e que permitam acesso aleat  rio  SCHROETER  2005     Deve se tomar alguns cuidados ao se gravar vozes para o banco de dados   qualidade da grava    o  escolha adequada da voz  defini    o e marca    o adequada dos  limites dos d  fonos e equaliza    o apropriada  TALAFOVA et  al   2007     Sele    o adequada de locutor  com fala correta e consistente  e equipamento de  grava    o  em um ambiente livre de ru  dos e reflex  es ac  sticas  garante um banco de  dados com qualidade boa o suficiente para realizar s  nteses intelig  veis  SCHROETER   2005        dif  cil para um locutor manter um estilo de fala uniforme por mais que algumas  centenas de unidades  geralmente seleciona se apenas algumas unidades desej  veis ao  longo de diversas sess  es de grava    o  Assim  para tornar isto poss  vel  algumas  solu    es apresentam sele    o autom  tica de unidades  Outros trabalhos apr
203. possibilita o r  pido aprimoramento das ferramentas oferecidas pelo  pacote desenvolvido  ao contr  rio do que costuma acontecer com sistemas fechados  O  fato do sistema ser multiplataforma garante que usu  rios dos principais sistemas  operacionais possam fazer uso dos benef  cios pelo sistema  n  o for  ando o usu  rio a  adotar um sistema operacional com o qual esteja pouco habituado muito menos um que  seja propriet  rio    Os testes realizados abordaram tanto aspectos quantitativos como qualitativos  e em  ambos  provou se que  embora ainda haja trabalho a ser feito no tocante a tornar a voz  mais natural  devendo ainda eliminar descontinuidades  o resultado    bastante intelig  vel  e causa menos cansa  o aos usu  rios que determinados outros sistemas com s  ntese mais  semelhante    voz humana    Diante do exposto  pode se afirmar que o projeto proposto neste trabalho se    apresenta como uma solu    o vi  vel como forma de integrar socialmente deficientes    122    visuais e contribuindo para a diminui    o da sua exclus  o digital  quebrando barreiras e  assegurando assim  um direito que    garantido pela constitui    o  o acesso livre a    informa    o para todos os brasileiros de forma igualit  ria     7 1 Trabalhos futuros   Dentre os trabalhos futuros que podem dar continuidade ao presente trabalho   podem se citar  melhorias na qualidade da s  ntese de voz  incluindo pros  dia e melhor  reconhecimento de contexto para valores num  ricos e abrevia    es  por mei
204. qu  ncias fundamentais  e amplitude    Em outras palavras  cada linha cont  m um fonema  a dura    o em milissegundos e a  s  rie de pitch do alvo composto por dois n  meros em ponto flutuante  um representa a  posi    o em um percentual da dura    o total e o valor seguinte representa o valor em  Hertz do pitch na referida posi    o  Por exemplo  a linha    _ 51  25 114   informa que o sintetizador deve produzir um sil  ncio de 51 ms com um pitch de 114 Hz    a 25  desses 51 ms  As frequ  ncias fundamentais dos alvos definem a curva do pitch     101    A curva de entona    o    cont  nua  uma vez que o MBROLA realiza um decaimento  autom  tico da frequ  ncia ao se sintetizar fonemas n  o vozeados    Os dados no arquivo s  o separados ou por espa  os em branco ou por tabula    es   Eventuais coment  rios podem ser inseridos nos arquivos  pho por meio de ponto e   v  rgula       importante frisar que o MBROLA    respons  vel por gerar o d  fono  produzindo  uma sa  da de   udio de 16 bits baseado no banco de dados br3 e que tamb  m pode ser  redirecionada para um arquivo no formato  wav    O front end desenvolvido permite que seja definido tanto o local onde ser   salvo o  arquivo  wav como qual ser   o banco de dados de d  fonos e onde o mesmo se encontra   5 3 2 2 An  lise da estrutura   A an  lise da estrutura processa a entrada em texto a fim de determinar onde  par  grafos  frases e outras estruturas come  am e terminam  Dados sobre a pontua    o e a  formata    o s  o us
205. que s  o  necess  rias ferramentas que adaptem e adequem o equipamento de tal forma que o  usu  rio o use satisfatoriamente  SANTOS  2010     Inclus  o digital    um processo muito mais profundo que permitir acesso a um  computador  envolvendo tamb  m capacitar o indiv  duo a operar um computador com  autonomia  SANTOS  2010     A quest  o da inclus  o digital ganha uma dimens  o ainda mais complexa quando o  usu  rio    portador de necessidades especiais  As pessoas com defici  ncia passaram a  receber maior aten    o por meio de pol  ticas espec  ficas voltadas para a qualifica    o e a  habilita    o de tal forma que as capacite e as integre    sociedade  Entretanto  ainda  existem barreiras f  sicas que dificultam o acesso do usu  rio ao computador e nesse caso   os obst  culos para este acesso n  o se restringe apenas a quest  es socioecon  micas  mas    tamb  m quest  es f  sicas  SANTOS  2010      2 3 Acessibilidade   O Decreto 5 296 de 2 de dezembro de 2004 define acessibilidade como    condi    o  para utiliza    o  com seguran  a e autonomia  total ou assistida  dos espa  os   mobili  rios e equipamentos urbanos  das edifica    es  dos servi  os de transporte e dos  dispositivos  sistemas e meios de comunica    o e informa    o  por pessoa portadora de  efici  ncia ou com mobilidade reduzida       SANTOS  2010     O conceito de acessibilidade se aplica aos sistemas de informa    o por meio de  dispositivos eletr  nicos  incluindo computadores desktops  notebooks  ce
206. r  metros de Par  metros  espectrais    excita    o  Gera    o de Filtro de  excita    o s  ntese    Figura B 4  vis  o geral de um sistema de s  ntese de voz baseado em HMM  Fonte   BLACK et  Al  2007    Traduzido             VOZ SINTETIZADA    Em s  ntese baseado em HMM  distribui    es para o espectro  f    e dura    o s  o  agrupados independentemente  tendo portanto  para cada um deles  uma   rvore de  decis  o diferente  As   rvores de decis  o para os dois   ltimos s  o equivalentes a   rvores  de regress  o existentes nos sistemas de sele    o de unidades sonoras  BLACK  2007        poss  vel tamb  m adotar abordagens h  bridas  Algumas abordagens usam  par  metros espectrais  valores de f    e dura    es  ou parte deles  gerados a partir de  HMM para calcular custos alvos em sele    o de unidades  BLACK  2007     B 4 1 Vantagens e desvantagens   As vantagens da s  ntese de voz baseado no HMM s  o  1   as caracter  sticas vocais  s  o facilmente modific  veis  utilizando  por exemplo  interpola    o  2   pode ser  aplicado para diversas l  nguas  como japon  s mandarim  coreano  ingl  s  alem  o   portugu  s  sueco  esloveno  croata    rabe  etc   com poucas modifica    es  3   varia    es  de estilos de fala ou emo    es podem ser facilmente sintetizadas a partir de uma pequena  quantidade de dados por meio de re estima    o da m  dia dos modelos de voz existentes     BLACK  2007      180    A maior desvantagem dos algoritmos de s  ntese baseado em HMM s  o os tr  s 
207. r aos deficientes visuais dos mais  diferentes n  veis sociais amplo acesso aos recursos oferecidos pela inform  tica  gerando  alto impacto na integra    o social desse grupo    Quanto    s  ntese  observou se apesar de que ainda rob  tico  procurou se  desenvolver um voz com tom grave e lento a fim de evitar o cansa  o por exposi    o  durante longos per  odos de tempo e para garantir a clareza  respectivamente  O processo  de s  ntese  apesar de pouco natural e apresentar complexidade computacional  consideravelmente maior  foi escolhido em detrimento do uso de vozes pr   gravadas por  este ocupar um consider  vel espa  o em disco  o que poderia inviabilizar o    port    do  projeto para plataformas embarcadas  Outrossim  vozes pr   gravadas s  o adequadas  apenas quando j   se conhece previamente o texto a ser falado  o que limita as  possibilidades de intera    o com o usu  rio    Com rela    o   s etapas de s  ntese discutidas no Cap  tulo 3  coube ao front end  desenvolvido as quatro primeiras etapas  an  lise da estrutura  pr   processamento do  texto  convers  o de texto para d  fonos e an  lise da pros  dia   deixando para o  MBROLA apenas a etapa de produ    o de forma de onda a partir dos dados providos  pelo sistema desenvolvido  d  fonos e dados de pros  dia   A arquitetura do sistema  proposto pode ser vista na Figura 5 4  Nesta Figura  os blocos em azul representam as    entradas e sa  das e o que foi efetivamente desenvolvido nesta Disserta    o     100    Fr
208. ra  Tais valores de k s  o determinados por meio de ajustes  emp  ricos sucessivos  AZUIRSON  2009     A determina    o dos par  metros pros  dicos n  o    uma tarefa simples e n  o possui  uma   nica solu    o poss  vel  j   que a pros  dia    a marca da individualidade do falante   Isto explica o porqu   do fato de uma senten  a poder ser lida corretamente de v  rias  formas diferentes  AZUIRSON  2009     Uma dura    o correta faz com que o resultado se aproxime o m  ximo poss  vel de  um falante natural  AZUIRSON  2009     3 2 2 m  dulo de processamento ac  stico   A produ    o da forma de onda  o passo final  utiliza as informa    es sobre a fon  tica  e a pros  dia para produzir a forma de onda do som de cada senten  a  H   diversas  formas nas quais o som pode ser produzido a partir dessas informa    es  A maioria dos  sistemas atuais faz uso de uma das duas formas seguintes  concatena    o de trechos de  falas pr   gravadas  que pode consumir um grande espa  o em disco  al  m de limitar as  possibilidades de intera    o apenas ao que foi gravado anteriormente  ou usando  algoritmos de processamento de sinais  por meio de modelos matem  ticos baseados no  conhecimento a respeito dos fonemas e m  trica  SUN MICROSYSTEMS  1998    O m  dulo de processamento ac  stico    tamb  m chamado de processador digital de  sinais ou motor de s  ntese     a   ltima etapa do processo TTS  AZUIRSON  2009     Todos os modelos de s  ntese de voz tem o mesmo objetivo  que    gerar sinal  a
209. ra  chamar aten    o ou prover um mecanismo de retorno alternativo     poss  vel receber  notifica    es sem que o usu  rio mude de contexto de janela  Por exemplo  enquanto se  trabalha na su  te de escrit  rio  o usu  rio pode receber a notifica    o da chegada de um e   mail e pode responder  sem mudar para o cliente de e mail  se deseja responder ou n  o a  mensagem  ou ainda mover para a pasta spam    Outra caracter  stica reside no fato da fala    assim  trica  ou seja  pessoas podem  falar mais rapidamente e facilmente  mas nem sempre compreendem com a mesma  facilidade e velocidade  Essa assimetria tamb  m significa que pessoas podem falar mais  rapidamente do que digitar  mas escutar mais lentamente do que ler  Uma interface  baseada em fala deve fazer o equil  brio entre um grande n  mero de informa    es para o  usu  rio com a capacidade do usu  rio de absorver informa    es verbais    3 5 2 Desafios envolvendo sistemas speech only   Um sistema do tipo speech only    aquele cuja entrada e sa  da por voz s  o as   nicas  op    es de intera    o dispon  veis para o usu  rio  A maioria desses sistemas s  o  implantados na telefonia atualmente    Em uma conversa  o tempo de reprodu    o    cr  tico  Infelizmente o atraso em  decorr  ncia do processamento em aplica    es de voz frequentemente causam pausas em  momentos que n  o s  o naturais  Por exemplo  o usu  rio responde a uma sa  da e por n  o  ouvir uma resposta imediata o mesmo acredita que n  o se fez ouvir e re
210. ra  cujo  mapeamento de sua ortografia para fonemas pode ser dif  cil por conta da depend  ncia  com o contexto em que se encontra  Em geral  tal problema    tratado com um  treinamento de classifica    o e   rvores de regress  o  tamb  m chamadas de   rvores de  decis  o  que capturam as probabilidades de convers  es espec  ficas  dado o contexto  caso uma palavra seja uma homomorfa  Tamb  m s  o usadas regras letra para som   Nomes em geral costumam apresentar problemas tamb  m  SCHROETER  2005     Em resumo  a s  ntese de voz a partir de texto pode ser dividida em duas etapas  a  primeira etapa corresponde    an  lise do texto e consiste em obter a representa    o  fon  tica com base na ortografia do texto  e a etapa de s  ntese  que    a gera    o do sinal  ac  stico associado    representa    o fonol  gica obtida no processo anterior  A etapa de  an  lise do texto pode ser subdividida em subprocesos como o pr   processamento e o  processamento pros  dico  AZUIRSON  2009     O front end tem a fun    o de processar o texto e gerar como sa  da os fonemas  correspondentes em conjunto com as suas respectivas informa    es a respeito da  pros  dia  dura    o e frequ  ncia  O front end pode ser subdividido em outros m  dulos  cuja sa  da de um serve de entrada para o bloco seguinte  Cada l  ngua possui seu  conjunto de fonemas b  sico  o que implica que a constru    o dos m  dulos que fazem  parte do bloco de processamento lingu  stico e pros  dico s  o dependentes da l  ngua  
211. ra a gera    o de som no trato vocal foi realizado no final da d  cada de 1960     139    Pesquisas subsequentes produziam um modelo mais refinado  fornecendo representa    o  mais detalhada do processo de gera    o de sons vozeados e n  o vozeados  Tal modelo se  baseia em mec  nica cl  ssica e mec  nica dos fluidos  LOPEZ e FANGANIELLO   2007     Utilizam se duas aproxima    es para gera    o de voz  grava    o digital e simula    o  do trato vocal  No caso de grava    o digital  a voz de um falante humano    digitalizada e  armazenada  geralmente sob uma forma comprimida  Durante a reprodu    o  os dados  armazenados s  o descomprimidos e convertidos em sinal anal  gico  J   a simula    o do  trato vocal    mais complexa  pois tenta imitar o mecanismo f  sico pelo qual a voz  humana    gerada  Podemos tomar inicialmente um sinal S n  que se trata de um  determinado sinal s n  amostrado  Seja x n  a entrada e G o ganho  podemos adotar o    seguinte modelo mostrado na Equa  ao 22     p  s   gt  am    6x00   22     Tipicamente  os coeficientes     variam a cada 10 a 20ms de acordo com mudan  as do  trato vocal para a produ    o dos diferentes sons  Para a s  ntese  aplica se uma sequ  ncia  de excita    o ao modelo que cont  m os coeficientes apropriados para cada intervalo de  tempo a fim de se gerar a sequ  ncia de sons desejada  Para o caso  temos o seguinte    polin  mio caracter  stico mostrado na Equa    o 23     p    p 1  Q z  1      gt  azt      z zi    23   Ee    i 1
212. ram em  contato  enquanto que nas labiodentais o l  bio inferior toca os dentes incisivos  superiores  J   nas alveolares  a l  ngua toca os alv  olos dos incisivos superiores e nas  palatais a l  ngua toca o palato duro  o    c  u da boca      Nas velares  a l  ngua toca o palato  mole     v  u palatino    As consoantes podem ainda ser classificadas de acordo com a vibra    o das  pregas vocais  surdas ou sonoras  e ainda de acordo com a participa    o das cavidades    bucais e nasal para a sua produ    o  as orais e nasais  MACHADO  1997      33    Tabela 2 4  classifica    o das consoantes                                      Cavidades Bucal e Nasal Orais Nasais  Modo de Articula    o Oclusivas Constritivas  Fricativas Laterais   Vibrantes  Pregas vocais Surdas   Sonoras   Surdas   Sonoras   Surdas Sonoras Sonoras  Ponto de Bilabiais  p   b   m   Articula    o Labiodentais  f  Iv  Linguodentais  t   d   n   Alveolares  s  Izl A Irl  Palatais  x   j  IM my  Velares  k   g   R                                Fonte   MACHADO  1997      Para a forma    o de fonemas existem dois conjuntos de par  metros que determinam  o som produzido  as frequ  ncias de resson  ncia do trato vocal  os formantes  e a  frequ  ncia dos pulsos de ar produzidos pelo conjunto composto por pulm  es e pregas  vocais  Tais par  metros s  o respons  veis tanto pela diferencia    o entre fonemas quanto  por locutores  Como os par  metros que diferenciam fonemas entre si s  o os formantes e  como o trato v
213. rcebe se tamb  m que a voz natural apresenta muito mais conte  do em termos de  informa    o  pois sua forma de onda    mais    cheia     Isto    resultado da modelagem da  voz  que n  o considera todos os par  metros para a produ    o de voz  e da compress  o  realizada para armazenamento de d  fonos no banco de dados  Tal fato    confirmado pela  an  lise do espectro no dom  nio da frequ  ncia  no qual se percebe a maior presen  a de  harm  nicos na voz natural pela largura do espectro  tanto na intensidade como na    largura do espectro     6 3 Testes em campo  an  lise qualitativa   O estudo de usabilidade garante que o usu  rio consiga completar tarefas b  sicas  Tal  estudo exige uma vers  o preliminar do software   a fun    o principal do sistema deve  estar completamente implementada  O teste deve ser conduzido em um laborat  rio e em  um ambiente semelhante   quele em que o usu  rio final deve usar o sistema  Um  question  rio pode ser usado a fim de coletar sugest  es  coment  rios e opini  es    Com base nisso  foram realizados diversos testes tendo como usu  rios portadores de  defici  ncia visual  Um dos testes contou com participa    o de uma deficiente visual de  40 anos  usu  ria de softwares de acessibilidade desde 1994  usando atualmente o  DOSVOX  O teste foi realizado na Secretaria de Acessibilidade da Universidade  Federal do Cear    Foram comparados incialmente tr  s sintetizadores de voz  o primeiro  baseado em uma API da Google  o segundo baseado no Fr
214. rdas como      37     O papel da glote e dos l  bios pode ser modelado usando tubos  semi infinitos  sem  perdas  conforme mostrado na Figura A 24  Num tubo destes uma onda aplicada    sua    entrada se propagar   sem reflex  es     147     gt                   E E     tubo     tubo     glotal labial  1   tubo N   simo  vocal tubo vocal    Figura A 24  modelo de tubos semi infinitos  Fonte  Google Images     Define se coeficiente de reflex  o labial por     Ziab     ZoN      EEEN 38  Ziab   Zon ee     flab    Para estudar o modelo da glote  pode se recorrer ao modelo de circuito mostrado na    Figura A 25     Modelo    do tracto  vocal       Figura A 25  modelo de circuito para a glote  Fonte  Google Images     Fazendo uma analogia da velocidade u t  com a intensidade de corrente  tem se     0 t  u 0 t    ug t       Qd   39   Zg  Considerando   Z Z  AG 0 1  o  ZA  40     Esses resultados nos permitem construir o diagrama de sinal mostrado na Figura A 26     148    u KU       u et      l r gi2  r              gt  t   u  t T         uj  t t   Figura A 26  diagrama de Sinais  Fonte  Google Images     A 3 3 Modelo de Tubos  Caso Discreto    Considere o caso particular em que o trato vocal    composto por N tubos de    l l z es l  comprimento ly   T O tempo de propaga    o em cada se    o    igual a T   oa O Trato  vocal pode ser modelado ent  o por um conjunto de tubos iguais cujo diagrama de fluxo  de sinais neste modelo pode ser representado pelo diagrama mostrado na Figura A 2
215. ritmo de s  ntese proposto em  PHUNG et  al    Traduzido    Figura C 1  arquitetura do GNOME 2 0    Figura C 2  diagrama de Funcionamento do Java Accessibility Brige    Figura D 1  interface do APL  Audio Programming Language for Blind    Learners     xiii    170  173  179  181    184  188  191  193  195  199    LISTA DE TABELAS    Tabela 2 1  classifica    o das vogais    Tabela 2 2  m  dia dos valores das frequ  ncias dos harm  nicos  correspondentes aos tr  s primeiros formantes  Fl  F2  F3   em Hz  para cada  vogal  para ambos os sexos    Tabela 2 3  m  dia dos valores das intensidades dos harm  nicos  em dB  e  respectivos desvios padr  o  para cada vogal  para ambos os sexos    Tabela 2 4  classifica    o das consoantes    Tabela 2 5  fonemas da l  ngua portuguesa    Tabela 4 1  compara    o entre as diversas plataformas de acessibilidade e  sintetizadores de voz existentes    Tabela 5 1  representa    o dos fonemas utilizados para o MBROLA   Tabela 6 1  valores MOS e WAR    Tabela A 1  m  sculos respons  veis pela movimenta    o das pregas vocais e    rg  os relacionados     Tabela AN1  Checklist de acessibilidade para Software IBM   Vers  o 3 6    XIV    31  31    32    33    34    94    103    118    130    202    XV    LISTA DE ABREVIATURAS E SIGLAS    ACELP   Algebric Code Excited Linear Prediction  ADRIANE   Audio Desktop Reference Implementation and Networking Environment  AMR WB   Adaptative Multi Rate Wideband   API   Application Programming Interface   AT SPI 
216. rma    es  elementos de campo e funcionalidade  necess  ria para o preenchimento e envio do formul  rio   incluindo todas as dire    es e sugest  es   3 Sons e Multim  dia S  o N  o Coment  rios  Planejado  N A  3 1   Fornecer uma op    o de sinaliza    o visual para todos os alertas  de   udio   3 2   Fornecer alternativas acess  veis para   udio e v  deo  significativos  3 3   Fornecer uma op    o para ajuste de volume   4 Tela S  o N  o Coment  rios  Planejado  N A  4 1   Fornecer texto atrav  s de sistema padr  o de chamada de  fun    es ou atrav  s de uma API que suporta a intera    o com  tecnologia assistiva   4 2   Uso da cor como um acess  rio e n  o como uma   nica forma  de transmitir informa    es ou indicar uma a    o   4 3   Suporte a configura    es do sistema para alto contraste para  todos os controles de interface do usu  rio e   rea de conte  do  do cliente   4 4   Quando a personaliza    o de cores    suportada  fornecer uma  variedade de sele    es de cores capazes de produzir uma  variedade de n  veis de contraste   4 5   Herdar configura    es do sistema para a fonte  tamanho e cor  para todos os controles de interface do usu  rio   4 6   Fornecer uma op    o para exibir uma anima    o em modo de       apresenta    o n  o animada                 203                5 Tempo de Resposta S  o N  o Coment  rios  Planejado  N A  5 1   Fornecer uma op    o para ajustar o tempo de resposta de  instru    es cronometradas ou permitir persistir as instru    es   5
217. rma    es sobre a pros  dia  Assim  a proposta apresentada por esta Disserta    o     atuar como um font end para o MBROLA  provendo para este   ltimo  as informa    es  sobre d  fonos e pros  dia a partir de texto puro  Contudo  o sistema foi desenvolvido de  tal forma que possa prover suporte para outras APIs  como Java Speech API e Google  Translator API  e consequentemente suporte para outras l  nguas  com pouca altera    o  de c  digo  Sendo necess  rio apenas uma linha de c  digo para sintetizar uma frase    Uma vez que o sistema foi desenvolvido com base na tecnologia Java  sua execu    o       poss  vel em todas as plataformas que oferecem suporte a Java Virtual Machine e ao       99    MBROLA  como GNU Linux e Microsoft Windows sem necessidade de recompila    o   pois o sistema operacional    que se deve adaptar ao sistema  garantindo que a JVM e o  MBROLA estejam instalados para a perfeita execu    o do software    O sistema    totalmente baseado na filosofia de software livre  com c  digo fonte  aberto e de livre distribui    o  para que a comunidade possa colaborar abertamente no  desenvolvimento do projeto al  m de abrir possibilidade de personaliza    o e  modifica    o para aplica    es espec  ficas para eventuais interessados  Al  m disso   espera se que as limita    es apresentadas pelo sistema possam ser resolvidas ao longo do  tempo em um prazo muito menor do que se o projeto proposto fosse propriet  rio   Ademais  o mesmo ser   gratuito  de forma a garanti
218. rminar par  metros adequados  sendo necess  rio um estudo do espectro da fala  natural  uma tarefa muitas vezes dif  cil tanto em trechos est  veis como transit  rios da  fala  SHAUGHNESSY  2003  AZUIRSON  2009     Determinar com precis  o os momentos de fechamento glotal  o fechamento da  prega vocal causa maior excita    o do trato vocal e define o in  cio de um per  odo de  pitch  tamb  m    dif  cil  Assim  encontrar regras para sintetizar voz    o principal  problema na s  ntese de formantes  As regras para especificar os timings da voz   vozeados   n  o vozeados  e os valores din  micos de todos os par  metros dos filtros     tamb  m uma tarefa dif  cil de fazer manualmente  at   mesmo para palavras simples  A  obten    o dessas regras pode ser feito po meio de an  lise por s  ntese  Da mesma forma   t  cnicas autom  ticas para especificar os par  metros formantes ainda n  o apresentam  bons resultados  devendo  muitos deles serem otimizados manualmente   SHAUGHNESSY  2003  SCHROETER  2005  TABET  2011     Ademais  a s  ntese de formantes requer esfor  o computacional moderado     SCHROETER  2005      168    Na s  ntese por formantes  assume se que a fun    o transfer  ncia do trato vocal pode  ser satisfatoriamente modelada por meio de simula    o das frequ  ncias e amplitudes  formantes  ou seja  a s  ntese consiste em por meio da reconstru    o artificial das  caracter  sticas formantes a serem produzidas  o que    feito por meio da excita    o de  ressonadores por m
219. rocessamento digital de sinais como codifica    o preditiva linear  PSOLA  MBROLA  ou t  cnicas mais recentes como a modifica    o do pitch por meio da transformada  cosseno discreta  A s  ntese de d  fono apresenta as mesmas defici  ncias presentes nas  t  cnicas concatenativas  resultando em vozes pouco naturais e rob  ticas  Na s  ntese  baseada em d  fonos  apenas um exemplar de cada d  fono    armazenado no banco de  dados    Uma vez constru  do o invent  rio  o pitch e a dura    o de cada d  fono deve ser  modificado a fim de atender    pros  dia especificada  TABET  2011     Em certos casos     dif  cil determinar a parte est  vel em um fonema  Nesses casos   podem se usar d  fonos sil  bicos ou tr  fonos  Neste   ltimo caso  Paris seria resultado da  seguinte concatena    o   lt  pa gt  lt arl gt  lt is  gt     Por exemplo  para a l  ngua inglesa  o n  mero de fonemas  d  fonos e tr  fono      respectivamente 40  1600  64000 aproximadamente  MAEDA  1995     A desvantagem da s  ntese por d  fonos    que a coarticula    o    apenas dada apenas  pelos fonemas precedentes e seguintes  Nesse caso  as semi s  labas s  o uma alternativa  interessante de serem consideradas  A semi s  laba  como o pr  prio nome j   sugere     a  metade de uma s  laba  compreendendo a parte inicial da primeira metade no do n  cleo  da s  laba ou a por    o final da segunda metade do n  cleo da s  laba  Devido ao fato de    semi s  labas serem unidades sonoras mais longas que d  fonos  e permite
220. roxima    o     x n     p n w n     h n    py n    h n    60   Fazendo   M 1  Pw n    pn w n     gt  w kP S n    kP   61   k 0  E   P e 2nf    W ejnPr    END   62   Bim    9  5   es    O processamento homom  rfico se baseia no c  lculo do logaritmo de uma  transformada do sinal  Ao se considerar um sinal amostrado  temos ent  o o logaritmo da  transformada de z    X z    InX z    64    Define se ent  o cepstro complexo do sinal x como a transformada inversa de z de    X z      X z     gt   EAR  65   i  Esta opera    o n  o linear ser   chamada de H  Nestas condi    es tem se     h   66     O cepstro real de um sinal    a transformada inversa de Fourier do logaritmo de sua  transformada de Fourier  Para sinais amostrados numa janela de dura    o finita  0  N        1      N 1  1    Xk    gt   x n e Teen   67   n 0  N 1  E  gt   InlX eitn2mn   68     k 0    161    x n  DFT In xx  DFT Inversa Cn    Figura A 37  an  lise cepstral     O cepstro  a transformada inversa do logaritmo do espectro  complexo vale      n    py  n    h n    69    O cepstro    composto por uma parte correspondente    resposta impulsional do  sistema ac  stico que conta com as contribui    es causais de g    n   h n  e n n  e a  contribui    o n  o causal de g gt  n   al  m de outra parte resultante da excita    o  modificada pela janela e constitu  da por um trem de impulsos espa  ados de P amostras   O cepstro apresenta tr  s regi  es       P  lt  m  lt  0  componente n  o causal devido a g  n    0  lt n 
221. rutores  por  m desnecess  rio para os vozeados  Filtros paralelos  criam flexibilidade para aproximar qualquer espectro  mas requerem ganhos individuais   al  m de frequ  ncias de formantes e larguras de banda  Uma outra desvantagem da    abordagem unicamente paralela    a ocorr  ncia n  o intencional de zeros espectrais entre    170    as frequ  ncias formantes  mas que podem ser canceladas por meio de filtros de corre    o  especiais  SCHROETER  2005     Entretanto  para sons nasais bem como sons fricativos  a representa    o por filtros de  segunda ordem pode n  o ser boa o suficiente  Sons nasais apresentam estrutura de  formantes similares  um formante por quilohertz em m  dia para um homem adulto   Quando o trato nasal    envolvido  por  m  o trato naso vocal    maior e apresenta uma ou  duas resson  ncias a mais  al  m de zeros espectrais  sendo usados ent  o cinco  ressonadores de segunda ordem em cascata com um ressonador extra e um anti   ressonador em cascata  Nasais velares apresentam mais de um zero espectral  mas  geralmente    modelado apenas um  uma vez que os outros zeros adicionais apresentam  pouca import  ncia percentual  SCHROETER  2005  SHAUGHNESSY  2003     A Figura A 2 mostra o diagrama de blocos de um sistema gen  rico baseado em    s  ntese de formantes  exibindo o caso para filtros em s  rie e para filtros em paralelo        Digital Digital  Filter Filter   z Pp Entrada E z Saida  Fun    o de Transfer  ncia Filtro 1 Filtro 2    do Trato Vocal      
222. s    A qualidade da voz sintetizada depende tamb  m do dicion  rio de unidades  A  necessidade de um conjunto suficientemente grande para produzir uma sa  da de alta  qualidade deve ser equilibrada com o tamanho do dicion  rio  Para esta tarefa  foi  utilizado o algoritmo CDC  context dependent culstering   determinando o conjunto de  unidades a serem instaladas no dicion  rio     As tr  s principais etapas no processo TTS desenvolvido    mostrado na Figura 3 11     71               Texto com Dicion  rio  Kanji de    Palavras    An  lise do  Texto    Sintese por Sele    o de Dicion  rio  ser da Unidades Baseado em de  rosodia Ambiente Fon  tico Unidades        Gera    o da  Forma de  Onda    Voz  Sintetizada    Figura 3 11  etapas principais para o processo TTS proposto em  KOBAYASHI et  al   1998   Fonte    KOBAYASHI et  al   1998   Traduzido      A convers  o TTS come  a com a an  lise morfol  gica na entrada   a segmenta    o do  texto em palavras e a an  lise l  xica a fim de determinar a correta leitura  A segunda  etapa  um parser    utilizado para realizar o controle da pros  dia  para uma determinada  frase  o sistema deve escolher um dentre quatro conex  es  A etapa final usa uma vers  o  modificada do TD PSOLA a fim de produzir uma sa  da mais suave  as janelas s  o  determinadas de forma a minimizar distor    es espectrais de acordo com dois crit  rios  1    a janela de an  lise deve ser rigorosamente sincronizada com os instantes de excita    o  principal dentro d
223. s  caracter  sticas fon  ticas afetadas antes ou depois dos fonemas durante a articula    o   Portanto  trata se de um processo relativamente comum durante a fala  Coarticula    o     um problema para unidades sonoras de qualquer tamanho  entretanto  ao se concatenar  unidades como palavras ou frases  h   muito menos jun    es  SHAUGHNESSY  2003    Nas t  cnicas de concatena    o de formas de onda atuais  para algumas l  nguas  como o  Chin  s  o tal efeito n  o    considerado  o que resulta em uma s  ntese da coarticula    o  ineficiente na jun    o das s  labas  reduzindo a naturalidade da fala sintetizada    Por meio de um espectrograma    poss  vel ver o deslocamento suave da energia  durante a coarticula    o  mostrado na Figura 3 8  A fala durante a coarticula    o pode ser  dividida em duas partes  banda transit  ria e regi  o est  vel  O espectro de energia na  regi  o est  vel permanece basicamente invari  vel  e o espectro de energia na banda  transit  ria transita suave e continuamente at   o in  cio da pr  xima s  laba  KANG et  Al   2009     Se todas as transi    es poss  veis fossem armazenadas em um banco de dados   estas poderiam ser recuperadas de tal forma a reduzir o problema  entretanto  isto  exigiria uma grande capacidade de armazenamento para o banco de dados  Uma solu    o  alternativa consiste na modifica    o do espectro de energia nas transi    es  KANG et  Al     2009      66          Amplitude  Amplitude             time       Frequency  Frequency
224. s  o imposs  veis sem aux  lio de uma  ferramenta de inclus  o de deficientes visuais  A pessoa n  o pode mais ver as horas no  mostrador de um rel  gio digital ou ajustar o alarme do mesmo sem aux  lio  Tamb  m  n  o pode ler e mails  fax  correspond  ncias sem assist  ncia  N  o    poss  vel reconhecer  o rosto das pessoas com quem convive e muitos equipamentos se tornam imposs  veis de  serem usados porque simplesmente o projeto assume que todos os usu  rios possuem as  mesmas habilidades    As barreiras encontradas pelos usu  rios portadores de defici  ncia visual afetam    reas como emprego  educa    o e a possibilidade de uma vida independente  Se uma    pessoa n  o consegue usar um telefone  atividades s  o severamente restritas porque at      23    mesmo comunica    es b  sicas se tornam dif  ceis  Se uma pessoa n  o consegue usar um  computador  conseguir uma vaga de emprego ou frequentar uma universidade se tornam  atividades desafiadoras  ou at   talvez imposs  veis  Se as pessoas desejam ter acesso     internet  mas n  o conseguem ler o conte  do das p  ginas  n  o t  m acesso ao com  rcio  eletr  nico  informa    es b  sicas e at   mesmo intera    es sociais  At   mesmo a  privacidade fica afetada  uma vez que dever  o delegar a outras pessoas tarefas de  natureza pessoal  como ler e mails  Em resumo  a falta de acessibilidade exclui do  portador de defici  ncia visual independ  ncia e liberdade  SUN MICROSYSTEMS   2003     Quando algu  m adquire uma defici  ncia
225. s  podem introduzir grandes erros em importantes regi  es do sinal modificado   como por exemplo  pr  ximo   s frequ  ncias formantes  WOUTERS et  al  2000     4 3 6 Modelo Massa Mola   Os primeiros modelos do sistema vocal podem ser encontrados em  BRAND  O    2011  e representam a movimenta    o das pregas vocais a partir de modelos mec  nicos    massa mola amortecedor  conforme mostrado na Figura A 34     155    Ce stati  on oe   Cordas    lt        Vocais       y   yn   gt     ij   PSF ETA  x    Figura A  34  modelo massa mola amortecedor  Fonte   BRAND  O  2011      Segundo esses modelos  as equa    es que fornecem a din  mica das pregas vocais    dada  pela Equa    o 53    Mx t    Bx t    Kx t    F x t    53   em que x t     o deslocamento da massa M  B e K s  o as constantes de rigidez e  elasticidade  respectivamente e F x t     a for  a aplicada ao sistema  considerada como  a m  dia entre as press  es subglotal e supraglotal    Posteriormente  em 1972  foi proposto por Ishizaka e Flangan  um modelo para as  pregas vocais considerando agora que o mesmo seria composto por duas massas  Tal  modelo considerada cada uma das pregas vocais como um sistema de duas massas   ligadas   s paredes da laringe por duas molas n  o lineares S  e S  e ligadas entre si por    uma mola linear K   cujo modelo    esquematizado na Figura A 35  BRAND  O  2011      Traqu  ia e  Pulm  es       Figura A 35  modelo massa mola com duas massas  Fonte   BRAND  O  2011      As massas movem se some
226. s computadores fez com que tal t  cnica voltasse a  receber aten    o  As primeiras tentativas de s  ntese baseadas em  colagens  n  o  apresentaram resultados satisfat  rios  Atualmente  a maioria dos sistemas TTS em  desenvolvimento s  o baseados em metodologias de concatena    o de formas de onda  A  t  cnica PSOLA  por exemplo  aumentou significativamente a qualidade de um sistema  TTS  sendo  atualmente  a qualidade em geral compar  vel aos demais sistemas mais  avan  ados baseados em regras dispon  veis no mercado  SHAUGHNESSY  2003   MAEDA  1995      Zz    A s  ntese concatenativa    mais simples que a s  ntese baseada em regras e  par  metros para simular fonemas e suas transi    es  uma vez que n  o    necess  rio  determinar regras para a s  ntese  baseando se apenas na justaposi    o de segmentos de  voz natural pr   gravados  o que elimina a necessidade de ter conhecimentos detalhados  sobre a fala  AZUIRSON  2009  MAEDA  1995    Teoricamente  a s  ntese concatenativa deveria apresentar qualidade inferior em  decorr  ncia da descontinuidade     resultante da destrui    o da coer  ncia f  sica do sinal  em cada ponto de concatena    o  o que pode ser contornado ao se aumentar o tamanho  das unidades sonoras  Reduzir as descontinuidades na transi    o espectral e o uso de  algoritmos de concatena    o capazes de modificar a envolt  ria espectral do sinal pode  suavizar as descontinuidades  AZUIRSON  2009     Curiosamente  embora haja diverg  ncias sobre qual a abord
227. s da tela  Deve se ent  o fornecer um software  leitor de tela que capte a informa    o do v  deo e a envie para um sintetizador de voz ou  para um terminal Braille  SANTOS  2010     Dentre as tecnologias assistivas voltadas para deficientes visuais  pode se citar as  seguintes solu    es principais  sintetizador de voz   processo de produ    o artificial de  voz humana  leitor de tela  um software que  com aux  lio de um sintetizador de voz   transforma os textos impressos na tela em voz humana e um ampliador de tela  que  funciona como uma lupa   lente de aumento  aumentando o tamanho dos itens exibidos  na tela do computador  SANTOS  2010     Para compreender melhor tais tecnologias     importante conhecer melhor sobre a    fisiologia da voz  em especial o trato vocal     2 5 Fon  tica e especificidades de cada l  ngua  Define se fonema como a menor unidade sonora de uma l  ngua  assim  fonemas s  o  as unidades sonoras b  sicas de uma l  ngua  SCHROETER  2005   MACHADO  1997    Os sons podem ser classificados em classes fon  tica de acordo com a forma de    articula    o  como  por exemplo  vogais  fricativos  pausas  nasais  deslizantes  l  quidos     31    ditongos  etc  Podem ser classificados tamb  m de acordo com o local da articula    o   labial  dental  alveolar  palatal  velar  uvular  far  ngeo e glotal  Outros tipos de  classifica    o podem incluir sussurros  fona    o respirat  ria  chiados  etc   DUTOIT   1997     Os sons produzidos durante a fala s  o dividi
228. s de concatena    o   BRAUNSCHWEILER  2010     Na etapa de sele    o de unidades  segmentos de cada semi fonema s  o selecionados   A unidade   tima    selecionada usando uma fun    o custo que consiste dos custos alvo e  de concatena    o    Neste caso  s  o definidos como a soma ponderada do custo da frequ  ncia  fundamental  custo da dura    o do alvo  custo do contexto fon  tico e custo do contexto  gramatical  O custo de concatena    o    definido como o custo de concatena    o da  frequ  ncia fundamental  o custo de concatena    o do espectro  o custo de concatena    o  de pot  ncia e o custo de adjac  ncia  0 quando as unidades s  o adjacentes e 1 caso  contr  rio   No referido trabalho  os pesos foram ajustado manualmente  O custo de  contexto gramatical s  o calculadas as dist  ncias das s  labas no come  o e fim da  senten  a  grupo respirat  rio e palavras  justamente com a dist  ncia das s  labas  acentuadas em uma palavra  BRAUNSCHWEILER  2010     Na etapa de regenera    o da pros  dia  a dura    o dos fonemas e o contorno da  frequ  ncia fundamental s  o regenerados usando as unidades selecionadas  A m  dia do  contorno da frequ  ncia fundamental    suavizada e concatenada e    realizada por meio  de adi    o de um valor de deslocamento  off set   interpola    o linear e spline  O valor de  deslocamento desloca o contorno da frequ  ncia fundamental para reduzir a diferen  a na  fronteira    Na etapa de gera    o de forma de onda  formas de onda que foram geradas
229. s de voz existentes  como Acapella   DOSVOX   LINVOX  eSpeak  FreeTTS  Furbspeech  IBM Via Voice e JSAPI testes de  naturalidade  inteligibilidade e usabilidade envolvendo usu  rios deficientes visuais para fim de  valida    o do sistema desenvolvido e estudos sobre uso de filtros digitais em lentes de aumento  virtuais  Al  m disso  como objetivo secund  rio  desenvolveu se um front end flex  vel o  suficiente para suportar o sintetizador de voz do Google Speech API e FreeTTS  ou seja  um  sistema que atua como interface entre de texto de entrada e tais sintetizadores  fornecendo um    formato intermedi  rio apropriado para os mesmos     26    Outrossim  o presente trabalho pretende servir de refer  ncia bibliogr  fica sobre o tema     N    apresentando conceitos referentes    acessibilidade  anatomia  fisiologia e din  mica do trato  vocal  fon  tica  modelos e algoritmos de s  ntese de voz bem como as solu    es existentes no    mercado  fazendo uma an  lise completa e bastante aprofundada a respeito destes temas     1 4 Trabalhos aceitos em congressos relacionados   MOREIRA  N  colas de Ara  jo e CORTEZ  Paulo Cesar  Prot  tipo de Sistema de  Acessibilidade e S  ntese de Voz Livre e Multiplataforma  In  INFOBRASIL 2014  2014   Fortaleza  Brasil    MOREIRA  Nicolas de Ara  jo e CORTEZ  Paulo Cesar  A Multiplaftorm and Open  Source Accessibility System for Portuguese Language  In  World Conference on    Information Systems and Technologies   WordCIST 2015  2015  Azores  Por
230. s eram armazenadas para reuso para s  ntese em contextos  diferentes sem algum tipo de modifica    o  o que gerava resultados com pouca qualidade  devido a problemas de contexto  Atualmente  usa se um amplo banco de dados cobrindo  todas as possibilidades poss  veis e selecionando a unidade mais adequada para  concatena    o  Entretanto  o uso de grandes bancos de dados tornam a sele    o de  unidades convencional imposs  vel de serem usados em dispositivos com espa  o para  armazenamento limitado ou em condi    es com dados limitados  PHUNG et  al      HMMSS representa um modelo baseado no dom  nio estat  stico  ao inv  s de forma  de onda ou espectral  O tamanho dos par  metros estat  sticos treinados s  o pequenos  o    que possibilita que sistemas HMMSS sejam distribu  dos para diferentes plataformas     165    Modelagem de contexto relacionado a coarticula    o tamb  m    bem realizada com  HMMSS  resultando em uma sa  da suave  Entretanto  para garantir uma boa precis  o  estat  stica  modelos HMM geralmente exigem uma grande quantidade de dados para    treinamento  PHUNG et  al       B 1 S  ntese articulat  ria   Se baseiam em t  cnicas computacionais de modelar o trato vocal humano e o  processo articulat  rio que nele ocorre  O primeiro sintetizador articulat  rio   denominado ASY  foi desenvolvido na metade dos anos de 1970 por Phillip Rubim   Tom Baer e Paul Mermelstein nos Jaskins Laboratories  Este sintetizador foi baseado  nos modelos de trato vocal desenvolvido
231. s importante no que diz respeito    capacidade de  transmitir informa    o lingu  stica  enquanto que a dura    o prov   o ritmo da fala  Esta  frequ  ncia tamb  m indica a proemin  ncia de palavras importantes  por meio de subidas  e descidas  em conjunto com o aumento e diminui    o da dura    o dos segmentos Al  m  disso  aumenta a inteligibilidade  uma vez que a varia    o da frequ  ncia fundamental  cont  m informa    es sobre a estrutura sint  tica e sobre o estado psicol  gico   SCHROETER  2005  AZUIRSON  2009     2 6 3 Timbre   O timbre  ou cor sonora     uma qualidade auditiva por meio do qual o ser humano  identifica os diversos tipos de voz  bem como instrumentos musicais e outras fontes  sonoras  Tal qualidade sonora est   correlacionada com a forma da onda sonora sendo  que frequ  ncia e a amplitude s  o importantes na defini    o do timbre  LIMA  2010     Hermann Von Helmholtz  no final do s  culo XIX  caracterizou os sons como  constitu  do por uma forma arbitr  ria fechada em um envelope  envolt  ria  de amplitude  composta por tr  s partes  ataque  tamb  m chamado de tempo de crescimento  per  odo  est  vel e queda  chamado de tempo de queda  O ataque    o tempo que a amplitude de  um som leva para sair do zero e subir at   o valor de pico  O per  odo est  vel    aquele que  a amplitude    idealmente constante e o som desaparece no per  odo de queda  em que a  amplitude cai at   zero  LIMA  2010     Um envelope de uma onda sonora est   mostrado na Figura 2 2 
232. s mantendo as m  os livres e ou     dist  ncia  Entretanto  o reconhecimento e a s  ntese de voz podem melhorar a  acessibilidade ao computador para usu  rios portadores de defici  ncia e podem reduzir  os riscos de les  es por esfor  o repetitivo e outros problemas causados por outras  interfaces atuais    Tecnologias de voz podem aumentar as possibilidades com rela    o   s tradicionais  interfaces gr  ficas de usu  rio  permitindo comandos mais complexos do que    Sim  N  o   Ok  Cancelar e Aplicar     Por exemplo  um comando    Usar tamanho 12  it  lico  fonte  Times New Roman    substitui diversos cliques em menus de sele    es  Outras aplica    es  poss  veis est  o em ferramentas CAD que  enquanto se desenha  pode se   simultaneamente mudar a cor e a espessura de uma linha  por exemplo  sem ter a  necessidade de tirar o mouse dentro da   rea de desenho  SUN MICROSYSTEMS   1998     Sistemas de s  ntese de voz permitem  por exemplo  detectar erros gramaticais   ortogr  ficos e estil  sticos com maior facilidade  por ser mais f  cil perceber tais erros  ouvindo do que lendo ou informar ao usu  rio algum alerta sem abrir uma janela que  interrompa vis  o do programa em execu    o  uma mensagem de alerta pode ser  direcionada ao usu  rio sem que o mesmo desvie sua aten    o para o objeto atual  Isto o  deixa livre tamb  m para usar m  os e olhos em outras tarefas paralelas e conferindo  maior agilidade na realiza    o de tarefas  al  m da n  o obrigatoriedade do usu  rio de
233. s ordenando as da raiz  para algum n   folha  onde cada n   da   rvore representa uma classifica    o  sendo uma  modelagem semelhante    regra  if then       Tal modelagem segue a estrat  gia  dividir para conquistar     em que um problema  complexo    decomposto em subproblemas mais simples  A mesma estrat  gia    aplicada    a cada subproblema  conforme mostrado no algoritmo abaixo em pseudoc  digo     N   criaArvore exemplos  alvo  atributos     se todos os exemplos tem mesmo valor de Alvo ent  o  retorna folha com valor   sen  o se o conjunto de atributos    vazio ent  o  retorna folha com o valor Alvo mais comum entre exemplos   sen  o   A  lt   melhor atributo com as varia    es v1 v2 v3    vk   Particiona exemplos segundo valores para A em conjuntos S1  S2      Sk   Cria um n   de decis  o N com atributo A   Cria n   de decis  o N com atributo A   Para i 1 at   K fa  a  Conecta um n   B para o n   N com teste vi   Se si n  o    vazio ent  o  Conecta ramo B a criaArvore si  alvo  atributos    A     Sen  o ent  o  Conecta B para folha do n   com Alvo mais comum     Retorna N    O algoritmo escolhe o melhor atributo para repartir as inst  ncias e criar o n   de  decis  o correspondente      rvores de decis  o est  o fundamentadas no paradigma bottom up e seu uso se  deve  ao fato dos fonemas serem classificados em termos de um conjunto de  propriedades fixas  estudadas no item 2 5 do Cap  tulo 2   o n  mero de classes       definido a priori  h   uma quantidade bem maior
234. s que precisam ser atendidos  Um checklist de acessibilidade foi criado para as  aplica    es desenvolvidas com a tecnologia Java que se fundiu ao checklist de    acessibilidade de produtos da IBM e    mostrado no  Anexo A   SANTOS  2010      196    Especificamente  a API Java Accessibility define um contrato entre os componentes  de interface usados em uma aplica    o e a tecnologia assistiva que permite o acesso a  essa aplica    o Java  Se uma aplica    o suporta totalmente a API Java Accessibility   ent  o a mesma    compat  vel com leitores de tela  ampliadores de tela  e outros tipos de  tecnologias assistivas  SANTOS  2010        importante ressaltar que  para proporcionar a acessibilidade aos aplicativos  escritos na linguagem de programa    o Java  uma tecnologia assistiva exigem mais do  que a API de acessibilidade Java  Tamb  m requer um mecanismo para localizar os  objetos que implementam essa API  bem como suporte para carreg   la na M  quina  Virtual Java  rastreamento de eventos  e assim por diante  Portanto  a API Java  Accessibility trabalha em conjunto com Java Accessibility Utilities para essa assist  ncia   SANTOS  2010     Somente o uso da API Java Accessibility n  o    suficiente para prover a  acessibilidade  sendo necess  rio utilizar o pacote de utilit  rios para fornecer apoio    API     SANTOS  2010      C 4 Java Speech API   A Java Speech API  JSAPI  foi desenvolvida pela ent  o Sun Microsystems   empresa que posteriormente foi adquirida pela Oracl
235. s tamb  m podem ser lidos de forma diferente  enquanto  Elizabeth  II     lido como ordinal   Elizabeth segunda     Cap  tulo II     lido como cardinal    Cap  tulo dois    Abrevia    es tamb  m podem ser amb  guas  Enquanto  por exemplo    in  pode ser abrevia    o para polegadas  pode ser tamb  m a preposi    o em ingl  s   V  rios erros podem ocorrer tamb  m dentro do contexto de normaliza    o do texto   como  por exemplo  os pontos na sigla  E U A    que podem ser interpretados de forma  err  nea como fins de senten  a  1988 pode ser lido como mil novecentos e oitenta e oito  ou um nove oito oito  ou ainda  constru    es especiais como endere  os de e mail  que  s  o particularmente dif  ceis de interpretar  por exemplo  nicolas lesc ufc br  pode ser  lido com  nicolas arroba lesc ponto u f c ponto b r  ou  nicolas arroba le s c ponto u f c  ponto b r   uma vez n  o ser poss  vel para um sintetizador conhecer todas as abrevia    es  e acr  nimos em uma l  ngua  SUN MICROSYSTEMS 1998    3 4 1 1 Erros na etapa de pr   processamento   As principais dificuldades encontradas nesta etapa ocorrem em situa    es que lidam  com os seguintes tipos  n  meros  abreviaturas e siglas    N  meros s  o elementos frequentemente dependentes de contextos  podendo ser  lidos de diversas formas  como cardinais  ordinais  datas  etc  Por exemplo  3 4 pode  significar uma fra    o  sendo lido como    tr  s quartos    ou  tr  s de abril   Al  m de    ambiguidades de g  nero  1 pode ser lido com
236. samento Ac  stico  Motor de S  ntese ou ainda Processador Digital de  Sinais     composto por m  dulos de processamento de voz  o motor de s  ntese  para a  gera    o de voz sintetizada  O back end possui um conjunto de filtros que recebem  par  metros amostrais de voz  juntamente com os r  tulos de contexto pros  dico para  gerar a forma de onda de sinais de voz correspondente ao texto a partir dos fonemas e  seus respectivos par  metros pros  dicos gerados pelo bloco de Processamento  Lingu  stico Pros  dico     poss  vel perceber que o front end    a parte mais pr  xima do  texto de entrada  enquanto que o back end    a parte do sistema mais pr  ximo da sa  da  falada   COSTA e MONTE  2012  AZUIRSON  2009     O front end    respons  vel por detectar e analisar a estrutura do texto de entrada e  possui duas tarefas principais  a primeira    converter textos contendo s  mbolos   n  meros e abrevia    es em sua forma por extenso em um processo chamado de  normaliza    o  pr   processamento ou ainda    tokeniza    o     A outra tarefa    a transcri    o  fon  tica  A transcri    o fon  tica e a informa    o sobre a pros  dia s  o utilizadas pelo  back end  ou sintetizador propriamente dito  Opcionalmente  o texto de entrada pode    conter tags para o controle da pros  dia e outras caracter  sticas     An  lise do Texto     Detec    o da Estrutura do Texto    Normaliza    o do Texto  Entrada de Texto Simples   Analse Lingustca       Texto com Marca    es    An  lise Fon  tica  
237. sas pessoas habitam  em pa  ses em desenvolvimento  Esta organiza    o calcula que 19 milh  es de crian  as  com menos de 15 anos tenham problemas visuais  Desse total  12 milh  es sofrem de  condi    es que poderiam ser facilmente diagnosticadas e corrigidas  Cita ainda que  quase 1 5 milh  o de menores t  m o que    chamado de cegueira irrevers  vel  e nunca  mais voltar  o a enxergar  A OMS diz que dois ter  os dessas crian  as morrem at   dois  anos depois de ter perdido a vis  o  NA    ES UNIDAS DO BRASIL  2014     Conforme consta na Cartilha do Censo 2010  a Secretaria de Direitos Humanos da  Presid  ncia da Rep  blica afirma  sobre pessoas com defici  ncia  que 18 6  da  popula    o brasileira apresenta defici  ncia visual em algum grau  sendo 3 46  severa e  1 6  totalmente deficientes  Em valores absolutos  isso significa que 6 782 860  brasileiros apresentam grande dificuldade para enxergar ou n  o enxergam  absolutamente nada  SECRETARIA DE DIREITOS HUMANOS DA PRESID  NCIA  DA REP  BLICA  2012  INSTITUTO BRASILEIRO DE GEOGRAFIA E  ESTAT  STICA  2014     A Figura 1 1 mostra os resultados obtidos no Censo de 2010 e descreve o percentual  da popula    o de 10 anos ou mais de idade  por sexo e tipo de defici  ncia que possui  alguma ocupa    o  ou seja  que estuda ou trabalha  Embora se perceba que os deficientes  visuais  de ambos os sexos  s  o os que apresentem maior ocupa    o dentro do grupo das  pessoas com alguma defici  ncia     poss  vel ver que a porcentagem 
238. se concentrar em  maximizar inteligibilidade  aceitando o fato de que a naturalidade    dif  cil de ser  atingida     comum sistemas concatenativos enfatizarem em excesso a naturalidade   negligenciando a inteligibilidade  A precis  o pode ser avaliada verificando a correta  s  ntese de abrevia    es e acr  nicos e julgando o texto de sa  da gerado pelo front end   Avaliar inteligibilidade e naturalidade requer testes de audi    o mais elaborados   SCHROETER  2005     Avalia    o de um sistema TTS exige testes subjetivos  A Uni  o Internacional de  Telecomunica    es recomenda metodologias espec  ficas de testes  Tais testes envolvem  geralmente cinco pontos dentro de uma escala geral em crit  rios como  impress  o  geral    esfor  o para compreens  o    compreens  o   etc  Alternativamente  pode se  propor que volunt  rios expressem sua prefer  ncia dentre dois sistemas acerca de qual  dos dois    melhor  testes A B  SHAUGHNESSY  2003  SCHROETER  2005     Manter um dicion  rio de pronuncia de itens espec  ficos    uma solu    o interessante  quando se pretende usar o sistema para determinadas aplica    es    Escolhas de engenharia t  picas como trade off entre velocidade e mem  ria   qualidade e complexidade  tempo de desenvolvimento e press  o do mercado s  o  tamb  m frequentes no desenvolvimento de softwares de s  ntese de voz  SCHROETER     2005      111    6 1 Compara    o com outros sintetizadores de voz      importante lembrar que n  o foi encontrado durante a pesquis
239. se encontra apenas  um pouco acima da metade  o que indica necessidade de continuar investindo em  medidas que facilitem a integra    o tanto social  como tecnol  gica e no mercado de    trabalho dessas pessoas     21       60  50    30 E Homens  20 O Mulheres    10          Defici  ncia Defici  ncia Defici  ncia Defici  ncia  Mental Motora Visual Auditiva    Figura 1 1  n  vel de ocupa    o da popula    o deficiente de 10 anos ou mais de idade  Fonte  Secretaria de    Direitos Humanos da Presid  ncia da Rep  blica     1 1 Impactos da falta de acessibilidade na vida di  ria do deficiente visual   A partir dos dados apresentados  est   evidente a imensa quantidade de pessoas com  alguma defici  ncia  em especial  defici  ncia visual  Tais pessoas est  o inseridas em um  contexto em que se encontram mais e mais dependentes da informa    o nas suas  atividades di  rias  sendo tal fen  meno chamado de sociedade da informa    o  Em outras  palavras  a informa    o     atualmente  o item mais importante para o desenvolvimento  social pol  tico econ  mico de um pa  s  SANTOS  2010     De acordo com o artigo 208 da constitui    o federal     dever do Estado com a  educa    o  a garantia de atendimento educacional especializado aos portadores de  defici  ncia  preferencialmente na rede regular de ensino  Entretanto  estudos apontam  que n  o tem sido fornecida infraestrutura adequada o suficiente que garanta  por  exemplo  o correto aprendizado por parte dos deficientes visuais  a esc
240. sele    es de unidades sonoras padr  o  permitem bons resultados para solu    es gerais   sem necessidade de gravar todos os fonemas e contextos pros  dicos  BLACK  2007     Dentre a s  ntese de par  metros estat  sticos  uma das t  cnicas mais usadas    a  baseada em Modelos de Markov Ocultos  HMM   Hidden Markov Models   O modelo  consiste de duas fases  a fase de treinamento e a fase de s  ntese  Durante a fase de  treinamento deve se decidir quais caracter  sticas os modelos devem treinar  Coeficientes  mel cepstrais  MFCC   Mel Frequency cepstral coefficients  de frequ  ncia e suas  primeiras e segundas derivadas s  o as caracter  sticas mais usadas  O algoritmo de  Baum Welch    usado com os vetores de caracter  sticas para produzir modelos para cada  fone  Um modelo consiste basicamente de tr  s estados  representando o come  o  o meio  e o fim de um fone  A fase de s  ntese consiste de duas etapas  primeiramente  os vetores  de caracter  sticas de uma dada sequ  ncia de fonemas devem ser estimados  Depois  um  filtro    implementado para converter os vetores de caracter  sticas em sinais de   udio     TABET  2011      177    A s  ntese HMM    baseada em modelos de Markov ocultos  Neste sistema  o  espectro em frequ  ncia  trato vocal   a frequ  ncia fundamental  fonte vocal  e dura    o   pros  dia  da fala s  o modelados simultaneamente por HMM  As formas de onda s  o  geradas pelo crit  rio de m  xima verossimilhan  a    A s  ntese baseada em Modelos de Markov Ocult
241. siano  LOPEZ e FANGANIELLO  2007      A Figura A 15 mostra a varia    o espectral do pitch para a vogal A     ap Muito Baixo Normal  Pitch  50 Hz Pitch  100 Hz     a   a         dB  F  60  50  40  30  20  10  0    KHz    3    0 1 2 3    Alto  dB Pitch  200 Hz    60  a     KHz  os 1 2 3    Figura A 15  varia    o espectral do pitch da vogal A  Fonte  Google Images     4 3 1 Linhas de Transmiss  o   A gera    o e propaga    o dentro do trato vocal pode ser simulada por meio de linhas  de transmiss  o ac  sticas  mostradas na Figura A 16  Os valores dos elementos ac  sticos  dessa linha de transmiss  o podem ser descritos por meio da varia    o das se    es  transversais ao longo do trato vocal  A fun    o transfer  ncia  rela    o sa  da entrada   desse sistema  no caso  se d   pelas rela    es entre som irradiado e fonte  Entretanto  o  custo computacional dessa metodologia    muito maior do que os dos sintetizadores  baseados em s  ntese de formantes  MAEDA  1995     No dom  nio ac  stico  vogais orais s  o caracterizadas apenas pelos polos na fun    o  de transfer  ncia  enquanto que consoantes requerem polos e zeros  A interpola    o no  dom  nio ac  stico ent  o se torna complicado caso se deseje interpolar a transi    o entre  uma consoante para vogal adequadamente  MAEDA  1995     Existe uma analogia entre as ondas de press  o e as ondas el  tricas  tal que a press  o  equivale    diferen  a de potencial  ou tens  o el  trica  e o escoamento de ar  causado pela  diferen 
242. sis system using a large speech database  1996     INSTITUTO BENJAMIN CONSTANT  Dispon  vel em   lt http   www ibc gov br gt    Acesso em  Janeiro de 2015     INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTAT  STICA  Dispon  vel em    lt http   www ibge gov br home estatistica populacao censo2010 caracteristicas reli  giao deficiencia caracteristicas religiao deficiencia tab xls shtm gt  Acesso em   Dezembro de 2014     JUNG  Jong Soon  KIM  Jeong jin  BAE  Myung jin  Pitch alteration technique in  speech synthesis system  In  IEEE Transactions on Consumer Electronics  Vol  47  No  1  Fevereiro 2001     KANG  Guangyu  GUO  Shiz  YU  Longjiang  Speech synthesis algorithm of co   articulation based on the continuous transition of energy  In  2009 World Congress  on Computer Science and Information Engineering  2009     KNOPPER  Klaus  Desktop Auditivo  Revista do Linux  51a Edi    o  Fevereiro de  2009     KOBAYASHI  Mei  SAKAMOTO  Masaharu  SAITO  Takasi  HASHIMOTO   Yasuhide  NISHIMURA  Masafumi  SUZUKI  Kazuhiro  Wavelet analysis used in  text to speech synthesis  In  IEEE Transactions on Circuits and Systems   II Analog  and Digital Signal Processing  Vol  45  No  8  August 1998     LATHI  B  P  Sinais e Sistemas Lineares  2a Edi    o  Bookman  2007     LIANE TTS   SITE OFICIAL  Dispon  vel em   lt http   intervox nce ufrj br lianetts  gt    Acesso em  Setembro de 2014     125    LIMA  Gisl  nia Maria de Souza  Modelagem matem  tica da voz humana  um  exemplo de aplica    o de um m
243. sistema n  o recebeu a entrada  facilitando a  identifica    o de erros       importante ressaltar que  se a privacidade    um ponto importante  deve se atentar    para a sa  da n  o estar em volume alto     81    4  TECNOLOGIAS DE S  NTESE DE VOZ E ACESSIBILIDADE EXISTENTES  NO MERCADO E O MBROLA    O presente Cap  tulo tem por objetivo fornecer uma vis  o geral sobre as principais  solu    es de acessibilidade e s  ntese de voz dispon  veis no mercado atualmente  citando  suas caracter  sticas  vantagens e desvantagens  Al  m disso     apresentado o m  todo de  s  ntese de voz baseado em concatena    o de unidades sonoras e o MBROLA  sistema  baseado em concatena    o e parte integrante do sistema desenvolvido  Para maiores  informa    es referentes a outras t  cnicas de s  ntese de voz  consultar os ap  ndices    referentes    modelagem matem  tica do trato vocal e algoritmos de s  ntese de voz     4 1 Sistemas de acessibilidade e s  ntese de voz existentes no mercado   Desde o in  cio da computa    o orientada ao mouse  o desktop gr  fico foi projetado  para usu  rios que trabalham dentro de um contexto visual  Entretanto  atualmente t  m  surgido solu    es que visam mudar essa situa    o na tentativa de garantir aos portadores  de defici  ncia visual o acesso aos recursos de inform  tica    As caracter  sticas gerais de alguns dos sistemas de acessibilidade e s  ntese de voz  mais usados ao redor do mundo  inclusive no Brasil  s  o descritas a seguir  destacando  suas v
244. t   E  mexbat   L   mexpl   E  mexext bat   L  mexsetup pm      mexutils pm      msvc modules installer pm          Command History  2   figure  2   plot   0 N K 1  y    E 4   31 05 2015 14 56      ly  fs  wavread  Teste wav  lefr y   1    fy   fft  left         4  mw mpiexec bat   2  sami m   A  seiska wav    E  worker bat   o dom  nio da frequ  ncia                     figure   specgram fy       31 05 2015 16 06        Details A mL    Ready    Figura 5 2  interface gr  fica do software MATLAB     O MATLAB possui fun    es de c  lculo num  rico  gera    o de gr  ficos  elaborador  de interfaces gr  ficas denominado GUIDE  ambiente de modelagem e simula    o de  sistemas  SIMULINK  e toolboxes para desenvolvimento de simula    es e aplica    es  cient  ficas de naturezas diversas    O MATLAB foi utilizado para an  lise e compara    o da forma de onda no dominio  da frequ  ncia do resultado gerado e uma voz natural gravada com um locutor real    5 2 4 Editor de   udio Audacity   O Audacity  mostrado na Figura 5 3     um software para edi    o digital de   udio  livre e gratuito dispon  vel para as plataformas Microsoft Windows  GNU Linux e Mac   O Audacity permite a manipula    o de arquivos do tipo  WAV    MP3 e OGG  Permite a  grava    o e reprodu    o de sons  al  m de apresentar recursos de edi    o simples como  recortar  copiar  colar  apagar  mixagem em m  ltiplas faixas  aplica    o de efeitos   remo    o de ru  dos  modifica    o de velocidade sem alterar a altura  ni
245. t ar gt  lt ri gt  lt is gt  lt s  gt   em que   denota o sil  ncio existente no contorno  entre as palavras    A curva de transi    o entre dois fonemas    mostrado na Figura 3 4  em que     poss  vel identificar as regi  es de transi    o  os n  cleos dos fonemas e as    descontinuidades existentes            T T T T T T T T                      lt      lt       ALVO UNIDADE 1 DA S  LABA 1 UNIDADE 2 DA S  LABA 1  ALE   alae aa O a fal Pat onl aG 1  CONTORNO ENTRE DUAS UNIDADES  0 X  10 REGI  ES DE    TRANSI    O  X  8 x    gt N  CLEOS DOS  SEGMENTOS  ALVO 4  IDEAL V1    0       a  0 2 4 6 8 10 12 14 16 18  UNIDADE 1 DA SILABA 2 UNIDADE 2 SA SILABA 2          gt  gt  gt        Figura 3 4  transi    o entre unidades sonoras  Fonte   PHUNG et  al    Traduzido      Em termos de desempenho  isto faz com que d  fonos apresentem melhor resultado  na transi    o entre sons  uma vez que seus limites est  o na metade dos fonemas e  apresentam uma curva caracter  stica mais est  vel ao longo do tempo  Logo  os d  fonos  s  o vantajosos por conterem dentro delas mesmas o modelo de coarticula    o   transi    o   Por uma quest  o de flexibilidade e economia  os d  fonos s  o a unidade  sonora mais usada na s  ntese concatenativa  TALAFOV   et  al   2007  TABET  2011     Difonos s  o   teis em s  ntese de voz por apresentarem resultados mais naturais do  que simplesmente combinando fonemas por conta das varia    es de pron  ncia destes    ltimos  Outra vantagem est   no fato dos d  fonos
246. te de ar passa atrav  s da rinofaringe  orofaringe e boca  Durante este processo   ocorre a modula    o ou amplifica    o da voz  que cria caracter  sticas individuais da voz   A articula    o    outro fen  meno  sendo resultante do movimento dos l  bios  l  ngua   dentes  palato duro ou mole  Trata se da produ    o de sons da fala por meio da parada ou  constri    o do fluxo de ar  vocalizado ou n  o  por meio de tais movimentos destes  referidos   rg  os  Por fim  a pros  dia se refere    velocidade  intervalo  melodia e   nfase     MATUCK 2005         131    Os   rg  os respons  veis pela fona    o s  o  laringe  l  bios  l  ngua  dentes  v  u    palatino e boca  mostrados na Figura A 5                   De    A   A Palato Mole     Faringe       Epiglote   ill Laringe    Cordas Vocais    Lingua     Tiredide  Pomo de   Ad  o            SE     Pulm  es    EL  Diafragma  Figura 2 5    rg  os respons  veis pela fona    o  Fonte   MACHADO  1997         poss  vel classificar os   rg  os atuantes na fona    o em cinco grupos  o da  respira    o  o da vocaliza    o  o da resson  ncia  o da articula    o e o de irradia    o  estes  s  o ilustrados na Figura A 6  O grupo da respira    o    respons  vel pela produ    o de um  fluxo de ar  iniciando nos pulm  es e terminando na traqueia  j   o de vocaliza    o     respons  vel produ    o do sinal glotal  ocorrendo na faringe  Este sinal    de baixa  intensidade que necessita ser amplificado para que determinadas componentes  harm  nic
247. te e    Camila Vasconcelos pela paci  ncia e compreens  o nos  momentos de priva    o  Obrigado aos meus pais  Raimundo Moreira Filho e Samara    Duarte de Ara  jo Moreira  pelo apoio durante mais essa longa e dura jornada     vil       Quem vence algu  m    um vencedor   mas quem vence a si mesmo     invenc  vel          Morihei Ueshiba  Criador do Aikido     viii    RESUMO    Estima se que  no Brasil  cerca de 3 46  da popula    o apresenta grande limita    o de  vis  o e 1 6  seja totalmente incapaz de enxergar  A falta de meios de inclus  o  adequados imp  e uma s  rie de restri    es na vida destas pessoas  em outras palavras   ferramentas de hardware e software n  o acess  veis geram impacto negativo na vida  acad  mica  pessoal e profissional  Dentro desse contexto  a presente Disserta    o tem  por objetivo principal desenvolver um sistema para inclus  o digital de deficientes  visuais  O sistema    composto por um front end multiplataforma para o sintetizador de  voz MBROLA e um conjunto programas acess  veis  que inclui editor de texto  cliente  de chat  lente de aumento virtual  entre outros  desenvolvido em Java a fim gerar um  software multiplataforma  Al  m disso  o sistema    gratuito e livre para que possa atingir  o maior n  mero de usu  rios poss  vel e ser modificado e aprimorado pela comunidade   A solu    o desenvolvida foi testada em campo  apresentando   ndice de inteligibilidade  m  dio de 79  e com naturalidade classificada como razo  vel em um grupo 
248. temas concatenativos  apresenta  grande dificuldade para modelar caracter  sticas emocionais e dependentes de contexto   realizando uma fala sempre neutra  AZUIRSON  2009      As etapas de processamento realizados pelo Nambiquara s  o mostrados na Figura    Av  It  lia   Km  a  Processador Processador  de Linguagem de Sinais  Natural a 105 100 120 Digitais  v 50 100 119  Pr   processador e 105 100 118 dh  n 105 100 118  i 105 100 117  Analisador a 50 100 118   A  contextual a 105 100 119  lt   Pee    om gare   EE ROE e 105 100 118  EEU EAR r 50 100 119    o 105 100 120  avenida it  lia   quil  metro oito  sem n  mero  Conversor  letra som  Figura 4 3  diagrama de Blocos do Nambiquara  Fonte   AZUIRSON  2009      NVDA  Non Visual Desktop Access     um leitor de telas dispon  vel para 48    l  nguas  livre e de c  digo fonte aberto  sob Licen  a GNU  voltado para a plataforma    89    Microsoft Windows  Foi criado por Michael Curran em 1996  sendo desenvolvido em  Python e uma parte em C   e baseado nas APIs Microsoft Active Accessibility   TAccessible2 e Java Access Bridge    O NVDA utiliza o eSpeak como sintetizador integrado e prov   suporte a aplica    es  como WordPad  Notepad  Internet Explorer  Google Chrome  Outlook Express  Mozilla  Thunderbird  Microsft Word  Microsoft Excel e Microsoft PowerPoint  Por meio do    Java Access Bridge  prov   suporte tamb  m ao LibreOffice e OpenOffice     4 2 O MBROLA   O objetivo do projeto MBROLA  mostrado na Figura 4 4  iniciado pelo
249. tes situa    es   PHUNG et  al   considera que as mesmas  afirma    es s  o v  lidas tamb  m para intervalos pseudo estacion  rios   Ambos os intervalos estacion  rio e quasi estacion  rio s  o considerados n  o  sens  veis a contexto  ao contr  rio das outas partes  Entretanto  ainda n  o h   m  todos  para se estimar a posi    o e a dura    o de cada parte dentro dos fonemas e s  labas  A  decomposi    o temporal  TD   Temporal Decomposition     um m  todo que pode  decompor a fala em componentes independentes m  tuos  TD    o n  cleo dos m  todos  propostos para modelar a coarticula    o e resolver problemas de contexto em sistemas  CSS  PHUNG et  al      3 3 6 Problemas Modifica    o Espectral   Algumas abordagens modificam valores espectrais dinamicamente a fim de simular  a coarticula    o  fazendo uso de filtros digitais com uma excita    o  Outras abordagens  mais simples  ao inv  s de armazenar padr  es espectrais  armazenam formas de onda de  dura    es variadas  concatenando as quando necess  ria  Tal abordagem elimina a  necessidade de filtragem  Em ambos os casos  s  o necess  rios ajustes nos contornos dos  sinais  SHAUGHNESSY  2003     Alguns trabalhos prop  em uma suaviza    o espectral por meio de modifica    o das  frequ  ncias formantes e da largura de banda para reproduzir a estrutura formante  desejada nos pontos de concatena    o  Outros prop  em m  todos de controlar a din  mica  espectral a fim de suavizar a trajet  ria das frequ  ncias formante  M  to
250. tica  ru  do  filtrada por um filtro passa alta  O sintetizador harm  nico     controlado por par  metros como frequ  ncia fundamental wo  amplitudes aq e fases Po  para a i   sima harm  nica e os par  metros para um filtro variante no tempo opcional  com resposta ao impulso h  n m   sintetizando a forma de onda s  n m   O    sintetizador estoc  stico consiste de um filtro variante no tempo com resposta ao impulso    63    hr n m   um sinal de excita    o er n   criando uma forma de onda sr n   Ambos os  componentes s  o adicionados ao sinal de banda completa s n   O HNM e abordagens  similares permitem uma suaviza    o da excita    o nos pontos de concatena    o  Uma  desvantagem dos sintetizadores h  bridos como o HNM reside na elevada complexidade    computacional  SCHROETER  2005      Mp aa    Sdo     s n        Figura 3 7  sintese HNM     3 3 4 A cria    o do banco de dados de voz   Antes de iniciar a sintese de voz baseada em difonos  deve se criar um banco de  dados de d  fonos  O banco de dados consiste em grava    es reais que s  o quebradas em  partes menores  os d  fonos  Al  m das vozes  que podem ser gravadas em um arquivo   wav  deve se incluir um   ndice listando os d  fonos e seus limites  Caso um determinado  d  fono n  o tenha sido inclu  do no banco de dados  pode se fazer uso dos fonemas com o  qual o mesmo    composto  TALAFOVA et  al   2007     Um banco de dados t  pico  cobrindo todas as unidades de d  fonos poss  veis para um  conjunto de senten  as m 
251. ticas     27    O Capitulo 6  Testes e resultados obtidos   explica a metodologia de teste utilizada   mostrando os resultados obtidos e comparando suas vantagens sobre as ferramentas  existentes atualmente  apresentados no Cap  tulo 4   S  o apresentados resultados tanto  qualitativos como quantitativos  apresentando depoimentos de usu  rios do sistema bem  como comparando com trechos de vozes naturais    O Cap  tulo 7  Conclus  o  encerra o presente trabalho com uma vis  o geral a  respeito do tema abordado bem como apresenta as dificuldades encontradas e sugere  melhorias  implementa    o de novos recursos  citando trabalhos complementares que  possam colaborar com a melhoria do projeto    Al  m disso  o presente trabalho conta com dois importantes ap  ndices sobre  modelagem matem  tica do trato vocal e algoritmos de s  ntese de voz  que apresentam as  principais t  cnicas de s  ntese de voz  descrevendo seus modelos e algoritmos  citando  suas vantagens e desvantagens e comparando os resultados de cada um  desde as  primeiras implementa    es at   os trabalhos mais recentes em cada abordagem  ou seja   das t  cnicas cl  ssicas at   o estado da arte  Embora envolva m  todos n  o relacionados ao  trabalho diretamente  estes ap  ndices objetivam serem refer  ncias para outros trabalhos  na   rea e apresentam um comparativo entre as t  cnicas de s  ntese de voz  realizando  uma revis  o bibliogr  fica que serve de embasamento te  rico para a escolha da t  cnica    de s  ntes
252. tos  AZUIRSON  2009     Para sistemas limitados  a s  ntese param  trica    bastante adequada  a s  ntese  param  trica possui um banco de palavras parametrizadas utilizando t  cnicas de  parametriza    o   coeficientes LPC  sendo poss  vel a recupera    o do sinal original sem  perda consider  vel de qualidade  Uma de suas vantagens    a redu    o do espa  o de  armazenamento requerido  uma vez que o que se armazena    a palavra parametrizada e  n  o a forma de onda propriamente dita  Al  m disso  ao se manipular os par  metros      poss  vel obter transi    es mais suaves  tornando a sa  da mais natural  Assim  sistemas de  s  ntese em dom  nio espec  fico apresentam alta naturalidade devido ao fato das senten  as  serem limitadas  n  o apresentando prop  sito de uso geral  apenas para fun    es pr     programadas  AZUIRSON  2009     A s  ntese de vocabul  rio ilimitado tenta obter todas as informa    es sobre pros  dia    necess  ria para a s  ntese a partir do texto  S  o portanto  mais abrangentes  O espa  o de    164    armazenamento exigido tamb  m    menor  por armazenarem menos informa    es   como  unidades sonoras menores  AZUIRSON  2009     Vozes sintetizadas de alta qualidade podem ser constru  dos a partir de um banco de  dados diversificado de obtido a partir de uma voz natural de um   nico locutor  Os  invent  rios  comumente encontrados em sistemas baseados em d  fonos  ficaram mais  generalizados e portanto  tem consumido mais recursos  Por este motivo  estu
253. tugal     1 5 Estrutura    o do trabalho   O Cap  tulo 2  Conceitos b  sicos e fundamentos  introduz todos os conceitos b  sicos  relacionados    natureza do trabalho  apresentando algumas defini    es referente     acessibilidade  anatomia  fisiologia e din  mica do trato vocal  no    es b  sicas de  fon  tica da l  ngua portuguesa e caracter  sticas da voz humana    O Cap  tulo 3  Vis  o geral e projeto de um sistema de s  ntese de voz via software   aspectos qualitativos e problemas relativos  apresenta a vis  o geral de um sistema de  s  ntese de voz  citando seus componentes e funcionamento global  Ademais  o m  todo  de s  ntese de voz baseada em concatena    o    explicado de forma detalhada  bem como  s  o discutidos os aspectos qualitativos e problemas relativos    s  ntese de voz  apresentados pelos sistemas dispon  veis atualmente    O Cap  tulo 4  Tecnologias de s  ntese de voz e acessibilidade existentes no mercado  e o MBROLA  cita os principais sistemas de s  ntese de voz e acessibilidade existentes  no mercado  desde trabalhos acad  micos at   produtos j   consagrados  passando por  sistemas que n  o se encontram mais dispon  veis  citando suas caracter  sticas  vantagens  e desvantagens  Ademais  apresenta de forma detalhada o MBROLA  sistema em que se  baseia o presente trabalho    O Cap  tulo 5  Metodologia  explana a metodologia desenvolvimento da solu    o    proposta  apresentando as ferramentas utilizadas para o seu desenvolvimento e suas    caracter  s
254. tware resultante pode apresentar recursos que s  o   teis para todos  Entretanto  para  determinadas plataformas computacionais  desenvolver aplica    es acess  veis pode ser    um processo extremamente dif  cil e caro  SUN MICROSYSTEMS  2003      78    Apesar de alguns aplicativos possibilitarem que cegos utilizem programas orientados  ao mouse  uma interface gr  fica com v  rios bot  es ou menus numa   nica janela n  o       tima ou eficiente para uso n  o gr  fico  Trabalhar com interfaces gr  ficas ainda    mais  lento e complicado para usu  rios com defici  ncia visual do que para aqueles com vis  o   O verdadeiro desastre ocorre quando o programa    minimizado ou sua janela perde foco  por causa de outro aplicativo  Com isso  a janela se torna inacess  vel pelo leitor de tela  at   receber novamente o foco  e para o usu  rio  fica ainda mais    invis  vel     A menos  que saiba como restaurar janelas minimizadas  n  o fica claro para o usu  rio sem vis  o  se o programa simplesmente perdeu o foco e desapareceu ou se o pr  prio leitor de tela  travou por erro de software  Portanto  a interface de escolha para deficientes visuais  iniciantes na computa    o ainda    o console de texto  que nunca perde o foco e sempre  fornece um modo    tela cheia    para cada programa    A linha de comando    a interface mais eficaz para trabalhar com computadores  pois  oferece uma forma direta de introduzir comandos que fazem o computador realizar  exatamente o que se deseja  Uma inter
255. ty     Visual disability     Figura 1 1   idade    Figura 1 2   Figura 2 1   Figura 2 2   Figura 3 1     Figura 3 2     pros  dico   Figura 3 3   Figura 3 4   Figura 3 5   Figura 3 6   Figura 3 7   Figura 3 8    dir       LISTA DE ILUSTRA    ES    n  vel de ocupa    o da popula    o deficiente de 10 anos ou mais de    alfabeto Braille para portugu  s    espectro de sons vozeados e sons n  o vozeados   envelope de uma onda sonora    diagrama de blocos de um sintetizador de voz     diagrama de blocos do bloco de processamento lingu  stico     diagrama de blocos da s  ntese concatenativa   transi    o entre unidades sonoras   escalonamento de pitch e dura    o pelo PSOLA   esquerda  dom  nio do tempo  direita  espectro   s  ntese HNM     fen  meno de coarticula    o para s  labas separadas  esg   e juntas    Figura 3 9  solu    o proposta por  KANG et  Al  2009  para resolver    problemas de coarticula    o     Figura 3 10  processo de prepara    o do dicion  rio para o sistema proposto    em  KOBAYASHI et al   1998      Figura 3 11  etapas principais para o processo TTS proposto em     KOBAYASHI et  al   1998      Figura 4 1   Figura 4 2   Figura 4 3   Figura 4 4   Figura 4 5   Figura 4 6   Figura 5 1   Figura 5 2   Figura 5 3   Figura 5 4     interface gr  fica do eSpeak    IBM Via Voice    diagrama de Blocos do Nambiquara    interface Gr  fica do MBROLA    formato de um arquivo  pho para a palavra    noite      diagrama esquem  tico para o MBROLA    interface gr  fica do IDE 
256. uada para a l  ngua japonesa    O sistema proposto    composto por um dicion  rio  cujo processo de prepara    o     mostrado na Figura 3 10  A prepara    o do dicion  rio se inicia com uma cuidadosa  sele    o dos dados de forma a assegurar um n  mero suficientemente grande de sons para    a extra    o dos fonemas     70    Dados de Voz                 An  lise  Espectral    Transformada  de Wavelet  Detec    o de  Pitch    Candidatos a marcadores  de pitch       Padr  o Espectral    Marca    o manual de  pitch e fonema  usando ferramentas  de intera    o visual        Clusteriza    o  dependente de  contexto de fonema    Gera    o das  unidades de sintese  Dicion  rio de  unidades de sintese    Figura 3 10  processo de prepara    o do dicion  rio para o sistema proposto em  KOBAYASHI et  al    1998   Fonte   KOBAYASHI et  al   1998   Traduzido      No referido trabalho  prop  e se que os dados de voz sejam segmentados em  fonemas por meio da observa    o de algumas caracter  sticas da fala  como espectro   din  mica espectral e pot  ncia    Na abordagem proposta pelo trabalho  o momento fechamento glotal    detectado  por meio da busca por picos locais na transformada de wavelet da forma de onda e usa   se essa informa    o para a marca    o do per  odo do pitch  Ap  s isso  an  lise espectral     usada para extra    o e rotula    o de fonemas  O algoritmo baseado em wavelets pode ser  usado tanto para vozes masculinas como femininas sem necessidade de modificar  par  metro
257. ue o trato vocal pode ser considerado um filtro ac  stico linear  Assim o  modelo fonte filtro representado no diagrama da Figura C 16 considera a linearidade do  trato vocal e a inexist  ncia da intera    o ac  stica entre o trato vocal e a fonte sonora  glotal  BRAND  O  2011     No modelo fonte filtro  a sequ  ncia de amostrar s n     modelada como um sinal de  excita    o r n  aplicado por um filtro h n   s n    h n  rfn   O filtro pode ser estimado  a partir de um sinal de fala por meio de  por exemplo  a predi    o linear  A excita    o  ou  o res  duo r n    encontrada por meio da filtragem inversa r n  h  n  s n   Assumindo  que tal modelo    uma descri    o precisa da produ    o de voz e que o filtro estimado  apresenta comportamento muito parecido com o trato vocal verdadeiro h  n   r n   aproxima a excita    o do sinal produzido pelas pregas vocais  Consequentemente r n      independente de h n  e a fala com um formato espectral desejado pode ser gerado  aplicando r n  em um novo filtro Anj  O problema deste procedimento    que qualquer  erro de estima    o do filtro    atribu  da    excita    o  Uma vez que o res  duo passa pelo  mesmo filtro  os erros compensam e o sinal de fala    reconstru  do perfeitamente   Entretanto  se r n  passa por um novo filtro Anj  pequenos erros em r n  podem ser  aplicados de acordo com o formato espectral do novo filtro  Desta forma  erros em  regi  es perceptivelmente menos importantes em regi  es de s n   como em vales  espectrai
258. uma  apresenta    o confort  vel e  tanto quanto poss  vel  isenta de distor    es  Uma t  cnica  bastante usada nesses casos    a chamada opera    o de reamostragem  tamb  m conhecida  por zoom in    Trata se de uma opera    o que consiste  basicamente em adicionar linhas e colunas  vazias na imagem original  aumentando a sua resolu    o espacial  Cores  ent  o  s  o  atribu  das a estas linhas e colunas utilizando se um dos seguintes m  todos  replica    o  do vizinho mais pr  ximo  interpola    o linear  interpola    o bi linear ou interpola    o  bic  bica    Alguns trabalhos apresentam os seguintes resultados de um zoom in a partir da  replica    o do vizinho mais pr  ximo  para um fator de amplia    o de 2x  o resultado do  encontrado    satisfat  rio  Entretanto  para fatores maiores  surgem blocos de cores  homog  neas na imagem  Melhores resultados seriam obtidos por meio de outros  algoritmos  como usar o filtro espacial de Bartlett  interpola    o bilinear  para  implementar o zoom in  Os m  todos de interpola    o em imagens atuam como filtros  passa baixa  atenuando as altas frequ  ncias nas imagens resultantes  causando um efeito  de sombreamento na imagem  BIDARRA 2005     Entretanto  pelo fato dos usu  rios serem pessoas com baixa vis  o     necess  rio  resgatar as altas frequ  ncias na imagem ampliada  caracterizadas pelas regi  es de borda  presentes na imagem  Para tanto  filtros de realce ou detec    o das bordas presentes na  imagem digitalmente ampliada
259. umana original     oo    e  gt  aum   eG a E   15     i    00  em que w n     denominada janela de pondera    o  Para o caso de uma janela triangular   com tamanho igual ao dobro do per  odo do pitch  temos uma redu    o na express  o para  uma igualdade exata com K   1  No caso particular do MBROLA e do TD PSOLA  a  lista de par  metros se reduz a sequ  ncias de marcadores 7  indicando o centro de  quadros OLA  Eles s  o posicionados de forma sincronizada com o pitch nas partes  vozeadas de segmentos por meio de aux  lio atrav  s de um algoritmo de extra    o de  pitch  e igualmente espa  ados nos trechos sem voz  Na pr  tica  o comprimento da janela    de pondera    o w n     implicitamente adaptado do per  odo do pitch local  assim as    94    amostras s  n  diferem de zero apenas em um intervalo que depende do fator de    sobreposi    o Fp  definido como a taxa do tamanho L da janela w n  pelo per  odo do    pitch de an  lise menos um  Fp         1   DUTOIT  1997    0    O comparativo entre algumas das solu    es de s  ntese de voz dispon  veis atualmente       mostrado na Tabela 4 1     Tabela 4 1  compara    o entre as diversas plataformas de acessibilidade e sintetizadores de voz existentes                                                              Tipo Suporte    Licen  a Gratuito  Linguagem Sistema  L  ngua Livre  de Operacional  Portuguesa  Programa    o  DOSVOX Vozes Sim Sim Sim Pascal Windows  Pr     Gravadas  LINVOX Vozes Sim Sim Sim Pascal Linux  Pr     Gravad
260. umentados dificulta a constru    o do banco  de dados  o que significa que    necess  rio um grande conjunto de unidades a fim de se  adequar a qualquer tipo de aplica    o  AZUIRSON  2009  SCHROETER  2005     Em outras palavras  o comprimento da unidade afeta a qualidade da s  ntese  quanto  maior a unidade  maior a qualidade  naturalidade   pois s  o necess  rios menos pontos  de concatena    o  entretanto  o n  mero de unidades armazenadas no banco de dados se  torna muito numeroso     medida que o tamanho das unidades cresce  o espa  o para  armazenamento cresce exponencialmente  Tornando o at   mesmo invi  vel  Usar  pequenas unidades requer menos espa  o para armazenamento  mas geralmente prov    sa  das menos naturais que quando usadas unidades maiores  KANG et  Al  2009   SHAUGHNESSY  2003     No que diz respeito    constru    o do banco de dados com unidades menores  a  coleta de unidades e as t  cnicas de rotula    o se tornam mais complexas  TABET   2011     Do ponto de vista da flexibilidade dos sistemas  se as unidades s  o senten  as  completas  a qualidade soa natural  Entretanto  tais sistemas s  o inflex  veis  Assim  para  sistemas de vocabul  rio ilimitado  os bancos de dados armazenam um grande n  mero  de unidades  geralmente fonemas  d  fonos e outras unidades    O emprego de palavras como unidades b  sicas    invi  vel quando se deseja construir  um sintetizador gen  rico  A utiliza    o de palavras como unidades b  sicas geralmente se  d   em contextos
261. uporte a diversos sistemas operacionais  padroniza    o da sa  da de voz atrav  s de  chamadas de fun    es e de anota    es textuais  al  m de n  o utilizar o Registro do  Windows para localiza    o de componentes  evitando modifica    es acidentais de  instala    es por outras aplica    es  SAPI    a API da Microsoft sendo suportada somente    em sistemas Windows  Esta API fornece compatibilidade com padr  es como ActiveX     194    COM  DCOM  MSAgent  e tamb  m permite padroniza    o da sa  da de voz por meio de  chamadas de fun    es e marca    es de texto SAPI    O IBM ViaVoice TTS SDK    capaz de interpretar abreviaturas  acr  nimos e  n  meros com alta qualidade e entona    o bastante natural  Al  m disso     poss  vel inserir  marca    es no texto a fim de ajustar melhor a entona    o e escolher o modo de interpretar  textos e n  meros  permitindo controlar atributos como   nfase em certas palavras e  velocidade  personalizando a sa  da     poss  vel tamb  m utilizar uma ortografia fon  tica a  fim de especificar a pron  ncia de uma palavra    O IBM ViaVoice TTS SDK fornece pelo menos cinco vozes predefinidas para cada  idioma e cada uma tem uma marca    o de voz correspondente que pode ser inserida no  texto  Vozes individuais derivam sua exclusividade de diversos fatores f  sicos   Ademais  a voz de um indiv  duo pode assumir formas diferentes de acordo com fatores  como estado de esp  rito e circunst  ncias  Estes atributos  tais como  trato vocal  linha de  base d
262. uss  o  sobre Ferramentas para Incorpora    o da Tecnologia de Voz ao VoiceProxy   Universidade Federal do Rio Grande do Norte     SANTOS  Jader Gustavo de Campos  Acessibilidade em aplica    es desktop  utilizando ferramentas Java  Monografia de Especializa    o  Universidade  Tecnol  gica Federal do Paran    Corn  lio Proc  pio  2010     SCHUMACHER  ROBERT M   HARDZINSKI  Mary L   e SCHWARZ  Amy L   Increasing the usability of interactive voice response systems  Research and  guidelines for phone based interfaces  Human Factors  The Journal of the Human  Factors and Ergonomics Society 37 2 251 264  1995     SCHROETER  Juergen  Electrical Engineering Handbook  Cap  tulo 16  Circuits   Signals  Speech and Image Processing  3    Edi    o  AT amp T Laboratories  2005     SECRATARIA DE DIREITOS HUMANOS DA PRESID  NCIA DA REP  BLICA   Cartilha do Censo 2010   Pessoas com Defici  ncia  32p  Bras  lia  2012     SHU  Chang  MEI  Jin Shuo  YIN  Jing Hua  Speech synthesis based on AMR WB  algorithm  In  2011 International Conference on Electronic  amp  Mechanical Engineering  and Information Technology  Agosto 2011     SPANIAS  Andreas S  Speech Coding  A Tutorial Review  In  Proceedings of the  IEEE  Vol  82  No 10  1994     SUN MICROSYSTEMS  GNOME 2 0 Desktop  Developing With the Accessibility  Framework  Sun Microsystems  2003     SUN MICROSYSTEMS  Java    Speech API Programmer s Guide  Vers  o 1 0  Sun  Microsystems  Palo Alto  Outubro de 1998     SUN MICROSYSTEMS  Java    Speech 
263. vel  capaz de produzir sons de diversos locutores   estilos de fala  etc   levando em conta os limites fisiol  gicos da movimenta    o dos  articuladores  bem como a intera    o na movimenta    o dos articuladores entre si   SCHROETER  2005  AZUIRSON  2009     Por  m  h   duas grandes dificuldades nisso  aquisi    o de dados para modelo e o    equil  brio entre precis  o qualidade e facilidade de implementa    o e controle  Os dados    166    para o modelo geralmente s  o obtidos por meio de imagens de Raio X e n  o  caracterizam massa nem graus de liberdade  TABET  2011     Uma forma elegante de gerar voz seria a s  ntese articulat  ria  que em ess  ncia   transforma entradas de texto em comandos musculares a fim de criar uma sequ  ncia  temporal de formatos do trato vocal  que s  o convertidos em filtros digitais e excitados  sejam por ru  dos ou pulsos peri  dicos  SHAUGHNESSY  2003     Teoricamente seria o modelo que mais deveria atingir a qualidade em seus  resultados  Entretanto  na pr  tica     um dos m  todos mais dif  ceis de serem  implementados  devendo controlar par  metros como abertura e formato dos l  bios   posi    o das l  nguas e suas dimens  es  Ademais  tal modelo    de grande complexidade  computacional e nunca produziu resultados com boa qualidade  sendo  em geral   inferiores aos obtidos por meio da s  ntese de formantes ou s  ntese concatenativa     TABET  2011  AZUIRSON  2009  SHAUGHNESSY  2003      B 2 S  ntese de formantes  ou s  ntese baseada em re
264. velamento e    equaliza    o                 Ficheiro Editar Ver Controlo Faixas Gerar Ffeitos Analisar Ajuda                                                          Hofi fal Ee et Ag  DD DD  0  oleo  seio io o ps  de do e o fean oll 6  eee pes   me    4   Alto falantes Dispositivo de H    J9  Microfone  Dispositivo de High    2 Canais  Est  reo v                             0 10 p 0 10 0 20 0 30 0 40 0 50 060 070 0 80 0 90 1 00 110 120 k AO   X Testevoz v           m                                                          Taxa do Projecto  Hz   In  cio da Selec    o   9 Fim    Tamanho Posi    o do   udio     18000   ajustara E  00h00 m00 00057                            Figura 5 3  interface gr  fica do editor de   udio Audacity     O Audacity foi utilizado para an  lise e compara    o da forma de onda no dom  nio do    tempo do resultado gerado e uma voz natural gravada com um locutor real     5 3 O sistema desenvolvido  5 3 1 Caracter  sticas gerais   Por apresentar resultados mais naturais e intelig  veis  al  m de sua simplicidade   baixo esfor  o computacional e ampla documenta    o cient  fica dispon  vel  a s  ntese  concatenativa foi utilizada como m  todo de s  ntese de voz  sendo o sintetizador  escolhido o MBORLA    O sistema desenvolvido trabalha em conjunto com o MBROLA  entretanto  o  MBROLA  conforme dito anteriormente  n  o    um sistema TTS propriamente dito  pois  n  o converte texto puro em fala  apenas aceita como entrada texto contendo d  fonos e  info
265. vidos com softwares de  acessibilidade devem considerar a qualidade e a naturalidade da s  ntese realizada  Um  projeto de software acess  vel tem requisitos diferentes dos softwares convencionais e  deve ser adotada uma abordagem espec  fica desde o in  cio das especifica    es do  projeto  assim  softwares que visem atingir tamb  m o p  blico com restri    es visuais   devem ter esta meta estabelecida desde os requisitos iniciais do sistema  Considerar  esses aspectos    um passo cr  tico para melhorar a qualidade de vida de usu  rios  deficientes visuais    A solu    o mostrada neste trabalho visa preencher uma lacuna existente nos  softwares de acessibilidade com suporte    l  ngua portuguesa  apresentando n  o s   um  sintetizador de voz com qualidade acima da m  dia  como tamb  m apresenta um pacote  de softwares pronto para uso e simples de usar  Os usu  rios atingiram os objetivos  propostos e completaram as tarefas sem maiores dificuldades  As sugest  es dadas pelos  volunt  rios devem ser implementadas em vers  es futuras do software    Embora n  o propriamente original  o projeto vem a atender uma demanda quase  sempre ignorada pela ind  stria de TI  al  m disso n  o foi encontrado na literatura  pesquisada um FRONT END que realizasse mapeamento fonema d  fonos para a l  ngua  portuguesa  O fato de ser gratuito permite que pessoas pertencentes a qualquer classe  social possam se beneficiar dos recursos oferecidos pela inform  tica e o modelo aberto  e colaborativo 
266. xergam com dificuldade   incluindo formas de modificar o tamanho da fonte e alto contraste em sites    Fazer o computador pronunciar uma linha de texto e exibir o texto num dispositivo  Braille s  o as formas mais comuns para cegos aprenderem o que est   escrito na tela do    computador  Um dos dispositivos Braille mais comuns    denominado de linha e consiste    24    de uma tela t  til com seis ou oito pontos por letras que pode ser lido por meio do toque  pelos usu  rios que conhecem o alfabeto Braille   KNOPPER  2009     A Figura 1 2 mostra o alfabeto Braille para portugu  s  Cada idioma usa uma tabela  diferente para tradu    o e  como n  o h   s  mbolos especiais para n  meros  as letras de    a       66197    a    j    s  o usadas para representar os algarismos de um a zero    s vezes com um    simbolo    de n  mero    antes para esclarecer que se tratam de d  gitos     a b c f g h i j  e e ee ee e ee ee e e e  e e e e ee ee e ee  k l m n o p q r s t  e e co ee e ee ee e e e  e e e e ee ee e ee  e    e          e    e  u v w x y z       a        e bd ee ee e eoe ee co oe     ee bd bd co ee ee So  ee ee    ee ee ee ee ee ee ee           i          i        oe s    o ee ee eo ee ee  o oe  ee oo eo oo oe oe co ee ee co  ee oe oe oe oe oe oe oe oe oe  i    6 y       e  e oe oo oo oo oo oo oo oo  oo oe oo co eo  EJ oo    o ee 0     o so oo    o oo    o oe eo ee  jj a ae isi Grifo Ap  strofo Sinal de Mai  scula Caixa alta  oo oo 0000 000000 oo oo oe oe oe  co oe 0000 000000 
267. z diferentes  a continuidade   tanto em amplitude como frequ  ncia espectral   n  o    garantida nos contornos durante a concatena    o  As unidades s  o frequentemente  escolhidas tomando a amplitude espectral como crit  rio  reduzindo os problemas de  continuidade espectral neste dom  nio  Entretanto  a fase espectral    mais complicada   Unidades consistem frequentemente de per  odos completos de pitch  SHAUGHNESSY   2003     Para concatena    o  podem se usar fonemas  dois fonemas  s  labas  frases  palavras   frases  etc  Alguns trabalhos tem procurado usar unidades de tamanho vari  vel  O  tamanho das unidades a serem guardadas no banco    importante para a qualidade do    resultado  quanto maior o tamanho de uma unidade  menor o n  mero de jun    es no    55    resultado  logo  melhor a qualidade  resultante da menor gera    o de pontos de  concatena    o  O problema dos pontos de concatena    o reside no fato de que    poss  vel  que as unidades provenham de contextos fon  ticos diferentes e quando as unidades  prov  m de diversas fontes ou sess  es de grava    o  as unidades apresentam alto grau de  descontinuidade nos contornos  TABET  2011  AZUIRSON  2009  SHAUGHNESSY   2003     Se por um lado  aumentar o tamanho dos seguimentos a serem concatenados pode  melhorar a qualidade da voz sintetizada  por outro  o n  mero de segmentos necess  rios  aumenta dramaticamente  fazendo o espa  o exigido para armazenamento tamb  m  crescer  Al  m disso  o n  mero de contextos a
    
Download Pdf Manuals
 
 
    
Related Search
    
Related Contents
Sockonnect® SKT-100 / Sockonnect® SKT  PNY GeForce 9 9500GT PCI-E 1GB GeForce 9500 GT 1GB  Panasonic KX-TG6711  Dell Lifecycle Controller Integration Pack para Microsoft System  Mode d`emploi  dpi 610 portable low pressure calibrator/indicator user  CLS1201-2401 User Manual  User`s Manual - Misuta Online Shop    Copyright © All rights reserved. 
   Failed to retrieve file